ember / trainer_state.json

Update base model to checkpoint-9650 (~5B tokens, step 9650)

87b3310 verified 20 days ago

176 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.1,
	"eval_steps": 500,
	"global_step": 9650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00016666666666666666,
	"grad_norm": 14.297810554504395,
	"learning_rate": 1.3499999999999998e-06,
	"loss": 11.175775146484375,
	"step": 10
	},
	{
	"epoch": 0.0003333333333333333,
	"grad_norm": 8.92794418334961,
	"learning_rate": 2.85e-06,
	"loss": 10.527365112304688,
	"step": 20
	},
	{
	"epoch": 0.0005,
	"grad_norm": 3.7201273441314697,
	"learning_rate": 4.35e-06,
	"loss": 9.680557250976562,
	"step": 30
	},
	{
	"epoch": 0.0006666666666666666,
	"grad_norm": 3.4802424907684326,
	"learning_rate": 5.85e-06,
	"loss": 9.302367401123046,
	"step": 40
	},
	{
	"epoch": 0.0008333333333333334,
	"grad_norm": 3.940255880355835,
	"learning_rate": 7.35e-06,
	"loss": 8.909403991699218,
	"step": 50
	},
	{
	"epoch": 0.001,
	"grad_norm": 2.993356704711914,
	"learning_rate": 8.849999999999998e-06,
	"loss": 8.356079864501954,
	"step": 60
	},
	{
	"epoch": 0.0011666666666666668,
	"grad_norm": 2.9796433448791504,
	"learning_rate": 1.035e-05,
	"loss": 7.9435173034667965,
	"step": 70
	},
	{
	"epoch": 0.0013333333333333333,
	"grad_norm": 3.0474584102630615,
	"learning_rate": 1.1849999999999998e-05,
	"loss": 7.6440284729003904,
	"step": 80
	},
	{
	"epoch": 0.0015,
	"grad_norm": 2.147731304168701,
	"learning_rate": 1.3349999999999998e-05,
	"loss": 7.392823791503906,
	"step": 90
	},
	{
	"epoch": 0.0016666666666666668,
	"grad_norm": 2.9777767658233643,
	"learning_rate": 1.485e-05,
	"loss": 7.160243225097656,
	"step": 100
	},
	{
	"epoch": 0.0018333333333333333,
	"grad_norm": 3.442213535308838,
	"learning_rate": 1.6349999999999998e-05,
	"loss": 6.910230255126953,
	"step": 110
	},
	{
	"epoch": 0.002,
	"grad_norm": 1.9802011251449585,
	"learning_rate": 1.7849999999999997e-05,
	"loss": 6.733470916748047,
	"step": 120
	},
	{
	"epoch": 0.0021666666666666666,
	"grad_norm": 3.293522357940674,
	"learning_rate": 1.935e-05,
	"loss": 6.564137268066406,
	"step": 130
	},
	{
	"epoch": 0.0023333333333333335,
	"grad_norm": 2.318138599395752,
	"learning_rate": 2.085e-05,
	"loss": 6.410511779785156,
	"step": 140
	},
	{
	"epoch": 0.0025,
	"grad_norm": 1.8537381887435913,
	"learning_rate": 2.2349999999999998e-05,
	"loss": 6.195587539672852,
	"step": 150
	},
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 2.452784538269043,
	"learning_rate": 2.3849999999999997e-05,
	"loss": 6.022871398925782,
	"step": 160
	},
	{
	"epoch": 0.0028333333333333335,
	"grad_norm": 2.760226011276245,
	"learning_rate": 2.535e-05,
	"loss": 5.868363952636718,
	"step": 170
	},
	{
	"epoch": 0.003,
	"grad_norm": 2.2246060371398926,
	"learning_rate": 2.6849999999999995e-05,
	"loss": 5.678731918334961,
	"step": 180
	},
	{
	"epoch": 0.0031666666666666666,
	"grad_norm": 2.437960386276245,
	"learning_rate": 2.8349999999999998e-05,
	"loss": 5.5810894012451175,
	"step": 190
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 2.2690577507019043,
	"learning_rate": 2.985e-05,
	"loss": 5.393305969238281,
	"step": 200
	},
	{
	"epoch": 0.0035,
	"grad_norm": 2.249206066131592,
	"learning_rate": 3.1349999999999996e-05,
	"loss": 5.256457901000976,
	"step": 210
	},
	{
	"epoch": 0.0036666666666666666,
	"grad_norm": 2.175391435623169,
	"learning_rate": 3.285e-05,
	"loss": 5.130535507202149,
	"step": 220
	},
	{
	"epoch": 0.003833333333333333,
	"grad_norm": 3.0227811336517334,
	"learning_rate": 3.435e-05,
	"loss": 5.026712036132812,
	"step": 230
	},
	{
	"epoch": 0.004,
	"grad_norm": 3.269705057144165,
	"learning_rate": 3.585e-05,
	"loss": 4.898946762084961,
	"step": 240
	},
	{
	"epoch": 0.004166666666666667,
	"grad_norm": 3.4760587215423584,
	"learning_rate": 3.735e-05,
	"loss": 4.815313720703125,
	"step": 250
	},
	{
	"epoch": 0.004333333333333333,
	"grad_norm": 3.678823471069336,
	"learning_rate": 3.8849999999999996e-05,
	"loss": 4.687419128417969,
	"step": 260
	},
	{
	"epoch": 0.0045,
	"grad_norm": 2.79219913482666,
	"learning_rate": 4.035e-05,
	"loss": 4.555228042602539,
	"step": 270
	},
	{
	"epoch": 0.004666666666666667,
	"grad_norm": 3.8011438846588135,
	"learning_rate": 4.185e-05,
	"loss": 4.465290832519531,
	"step": 280
	},
	{
	"epoch": 0.004833333333333334,
	"grad_norm": 3.286940813064575,
	"learning_rate": 4.334999999999999e-05,
	"loss": 4.359551239013672,
	"step": 290
	},
	{
	"epoch": 0.005,
	"grad_norm": 4.136998176574707,
	"learning_rate": 4.484999999999999e-05,
	"loss": 4.275360107421875,
	"step": 300
	},
	{
	"epoch": 0.005166666666666667,
	"grad_norm": 3.4878525733947754,
	"learning_rate": 4.6349999999999995e-05,
	"loss": 4.186351013183594,
	"step": 310
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 3.2811970710754395,
	"learning_rate": 4.785e-05,
	"loss": 4.137750625610352,
	"step": 320
	},
	{
	"epoch": 0.0055,
	"grad_norm": 3.300088882446289,
	"learning_rate": 4.935e-05,
	"loss": 4.083171463012695,
	"step": 330
	},
	{
	"epoch": 0.005666666666666667,
	"grad_norm": 2.9177348613739014,
	"learning_rate": 5.0849999999999996e-05,
	"loss": 3.978733444213867,
	"step": 340
	},
	{
	"epoch": 0.005833333333333334,
	"grad_norm": 2.957092523574829,
	"learning_rate": 5.234999999999999e-05,
	"loss": 3.9336376190185547,
	"step": 350
	},
	{
	"epoch": 0.006,
	"grad_norm": 2.75334095954895,
	"learning_rate": 5.3849999999999994e-05,
	"loss": 3.8648487091064454,
	"step": 360
	},
	{
	"epoch": 0.006166666666666667,
	"grad_norm": 3.36582612991333,
	"learning_rate": 5.535e-05,
	"loss": 3.8383750915527344,
	"step": 370
	},
	{
	"epoch": 0.006333333333333333,
	"grad_norm": 3.27022123336792,
	"learning_rate": 5.684999999999999e-05,
	"loss": 3.8231891632080077,
	"step": 380
	},
	{
	"epoch": 0.0065,
	"grad_norm": 2.8231465816497803,
	"learning_rate": 5.8349999999999995e-05,
	"loss": 3.7710498809814452,
	"step": 390
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 2.8562817573547363,
	"learning_rate": 5.985e-05,
	"loss": 3.703901672363281,
	"step": 400
	},
	{
	"epoch": 0.006833333333333334,
	"grad_norm": 2.708444118499756,
	"learning_rate": 6.134999999999999e-05,
	"loss": 3.690731430053711,
	"step": 410
	},
	{
	"epoch": 0.007,
	"grad_norm": 2.327440023422241,
	"learning_rate": 6.285e-05,
	"loss": 3.64001350402832,
	"step": 420
	},
	{
	"epoch": 0.007166666666666667,
	"grad_norm": 2.3135883808135986,
	"learning_rate": 6.434999999999999e-05,
	"loss": 3.63990478515625,
	"step": 430
	},
	{
	"epoch": 0.007333333333333333,
	"grad_norm": 2.6845688819885254,
	"learning_rate": 6.584999999999999e-05,
	"loss": 3.602303314208984,
	"step": 440
	},
	{
	"epoch": 0.0075,
	"grad_norm": 2.0262644290924072,
	"learning_rate": 6.735e-05,
	"loss": 3.5283145904541016,
	"step": 450
	},
	{
	"epoch": 0.007666666666666666,
	"grad_norm": 2.0807831287384033,
	"learning_rate": 6.884999999999999e-05,
	"loss": 3.5422496795654297,
	"step": 460
	},
	{
	"epoch": 0.007833333333333333,
	"grad_norm": 2.4081315994262695,
	"learning_rate": 7.034999999999999e-05,
	"loss": 3.4911945343017576,
	"step": 470
	},
	{
	"epoch": 0.008,
	"grad_norm": 1.836987853050232,
	"learning_rate": 7.184999999999998e-05,
	"loss": 3.4667892456054688,
	"step": 480
	},
	{
	"epoch": 0.008166666666666666,
	"grad_norm": 2.355318546295166,
	"learning_rate": 7.335e-05,
	"loss": 3.4672470092773438,
	"step": 490
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 2.058490037918091,
	"learning_rate": 7.484999999999999e-05,
	"loss": 3.393095779418945,
	"step": 500
	},
	{
	"epoch": 0.0085,
	"grad_norm": 2.053673505783081,
	"learning_rate": 7.635e-05,
	"loss": 3.391928863525391,
	"step": 510
	},
	{
	"epoch": 0.008666666666666666,
	"grad_norm": 1.780815601348877,
	"learning_rate": 7.785e-05,
	"loss": 3.407213592529297,
	"step": 520
	},
	{
	"epoch": 0.008833333333333334,
	"grad_norm": 1.8663444519042969,
	"learning_rate": 7.934999999999999e-05,
	"loss": 3.3710628509521485,
	"step": 530
	},
	{
	"epoch": 0.009,
	"grad_norm": 1.9582051038742065,
	"learning_rate": 8.085e-05,
	"loss": 3.3235591888427733,
	"step": 540
	},
	{
	"epoch": 0.009166666666666667,
	"grad_norm": 1.972941279411316,
	"learning_rate": 8.235e-05,
	"loss": 3.288467788696289,
	"step": 550
	},
	{
	"epoch": 0.009333333333333334,
	"grad_norm": 1.9734792709350586,
	"learning_rate": 8.385e-05,
	"loss": 3.278826904296875,
	"step": 560
	},
	{
	"epoch": 0.0095,
	"grad_norm": 1.7474493980407715,
	"learning_rate": 8.534999999999999e-05,
	"loss": 3.269306182861328,
	"step": 570
	},
	{
	"epoch": 0.009666666666666667,
	"grad_norm": 1.6593666076660156,
	"learning_rate": 8.684999999999998e-05,
	"loss": 3.2291339874267577,
	"step": 580
	},
	{
	"epoch": 0.009833333333333333,
	"grad_norm": 1.6678528785705566,
	"learning_rate": 8.834999999999999e-05,
	"loss": 3.19910888671875,
	"step": 590
	},
	{
	"epoch": 0.01,
	"grad_norm": 1.7990621328353882,
	"learning_rate": 8.984999999999999e-05,
	"loss": 3.2183486938476564,
	"step": 600
	},
	{
	"epoch": 0.010166666666666666,
	"grad_norm": 1.7901487350463867,
	"learning_rate": 9.134999999999998e-05,
	"loss": 3.1689579010009767,
	"step": 610
	},
	{
	"epoch": 0.010333333333333333,
	"grad_norm": 1.7504736185073853,
	"learning_rate": 9.285e-05,
	"loss": 3.166044235229492,
	"step": 620
	},
	{
	"epoch": 0.0105,
	"grad_norm": 1.5876473188400269,
	"learning_rate": 9.434999999999999e-05,
	"loss": 3.132395362854004,
	"step": 630
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 1.4617185592651367,
	"learning_rate": 9.585e-05,
	"loss": 3.137837791442871,
	"step": 640
	},
	{
	"epoch": 0.010833333333333334,
	"grad_norm": 1.510992407798767,
	"learning_rate": 9.735e-05,
	"loss": 3.134562110900879,
	"step": 650
	},
	{
	"epoch": 0.011,
	"grad_norm": 1.5073765516281128,
	"learning_rate": 9.884999999999999e-05,
	"loss": 3.1096372604370117,
	"step": 660
	},
	{
	"epoch": 0.011166666666666667,
	"grad_norm": 1.5816830396652222,
	"learning_rate": 0.00010035,
	"loss": 3.0559246063232424,
	"step": 670
	},
	{
	"epoch": 0.011333333333333334,
	"grad_norm": 1.6063289642333984,
	"learning_rate": 0.00010185,
	"loss": 3.0526498794555663,
	"step": 680
	},
	{
	"epoch": 0.0115,
	"grad_norm": 1.3957390785217285,
	"learning_rate": 0.00010334999999999998,
	"loss": 3.047122764587402,
	"step": 690
	},
	{
	"epoch": 0.011666666666666667,
	"grad_norm": 1.5005953311920166,
	"learning_rate": 0.00010484999999999999,
	"loss": 3.0388126373291016,
	"step": 700
	},
	{
	"epoch": 0.011833333333333333,
	"grad_norm": 1.596427083015442,
	"learning_rate": 0.00010634999999999998,
	"loss": 3.022883415222168,
	"step": 710
	},
	{
	"epoch": 0.012,
	"grad_norm": 1.3984756469726562,
	"learning_rate": 0.00010784999999999999,
	"loss": 2.978668212890625,
	"step": 720
	},
	{
	"epoch": 0.012166666666666666,
	"grad_norm": 1.2459074258804321,
	"learning_rate": 0.00010934999999999999,
	"loss": 2.9714258193969725,
	"step": 730
	},
	{
	"epoch": 0.012333333333333333,
	"grad_norm": 1.3867474794387817,
	"learning_rate": 0.00011084999999999998,
	"loss": 2.9811878204345703,
	"step": 740
	},
	{
	"epoch": 0.0125,
	"grad_norm": 1.3084795475006104,
	"learning_rate": 0.00011235,
	"loss": 2.9637191772460936,
	"step": 750
	},
	{
	"epoch": 0.012666666666666666,
	"grad_norm": 1.2939265966415405,
	"learning_rate": 0.00011384999999999999,
	"loss": 2.940631103515625,
	"step": 760
	},
	{
	"epoch": 0.012833333333333334,
	"grad_norm": 1.3884607553482056,
	"learning_rate": 0.00011535,
	"loss": 2.898904800415039,
	"step": 770
	},
	{
	"epoch": 0.013,
	"grad_norm": 1.10460364818573,
	"learning_rate": 0.00011685,
	"loss": 2.914503288269043,
	"step": 780
	},
	{
	"epoch": 0.013166666666666667,
	"grad_norm": 1.2655820846557617,
	"learning_rate": 0.00011834999999999999,
	"loss": 2.895877456665039,
	"step": 790
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 1.1122198104858398,
	"learning_rate": 0.00011985,
	"loss": 2.904026985168457,
	"step": 800
	},
	{
	"epoch": 0.0135,
	"grad_norm": 1.2572715282440186,
	"learning_rate": 0.00012135,
	"loss": 2.8351789474487306,
	"step": 810
	},
	{
	"epoch": 0.013666666666666667,
	"grad_norm": 1.3550209999084473,
	"learning_rate": 0.00012284999999999998,
	"loss": 2.8636459350585937,
	"step": 820
	},
	{
	"epoch": 0.013833333333333333,
	"grad_norm": 0.92742520570755,
	"learning_rate": 0.00012435,
	"loss": 2.8171138763427734,
	"step": 830
	},
	{
	"epoch": 0.014,
	"grad_norm": 1.07759428024292,
	"learning_rate": 0.00012585,
	"loss": 2.8060197830200195,
	"step": 840
	},
	{
	"epoch": 0.014166666666666666,
	"grad_norm": 1.1448051929473877,
	"learning_rate": 0.00012734999999999998,
	"loss": 2.795998382568359,
	"step": 850
	},
	{
	"epoch": 0.014333333333333333,
	"grad_norm": 0.9354196190834045,
	"learning_rate": 0.00012885,
	"loss": 2.768997001647949,
	"step": 860
	},
	{
	"epoch": 0.0145,
	"grad_norm": 1.0693879127502441,
	"learning_rate": 0.00013035,
	"loss": 2.7732864379882813,
	"step": 870
	},
	{
	"epoch": 0.014666666666666666,
	"grad_norm": 0.9721701145172119,
	"learning_rate": 0.00013184999999999998,
	"loss": 2.759377288818359,
	"step": 880
	},
	{
	"epoch": 0.014833333333333334,
	"grad_norm": 1.0717929601669312,
	"learning_rate": 0.00013335,
	"loss": 2.7331707000732424,
	"step": 890
	},
	{
	"epoch": 0.015,
	"grad_norm": 1.0174472332000732,
	"learning_rate": 0.00013485,
	"loss": 2.7001853942871095,
	"step": 900
	},
	{
	"epoch": 0.015166666666666667,
	"grad_norm": 1.0769199132919312,
	"learning_rate": 0.00013634999999999998,
	"loss": 2.7025869369506834,
	"step": 910
	},
	{
	"epoch": 0.015333333333333332,
	"grad_norm": 1.1206380128860474,
	"learning_rate": 0.00013785,
	"loss": 2.694252586364746,
	"step": 920
	},
	{
	"epoch": 0.0155,
	"grad_norm": 0.9890035390853882,
	"learning_rate": 0.00013935,
	"loss": 2.681113433837891,
	"step": 930
	},
	{
	"epoch": 0.015666666666666666,
	"grad_norm": 1.035932183265686,
	"learning_rate": 0.00014084999999999998,
	"loss": 2.682352828979492,
	"step": 940
	},
	{
	"epoch": 0.015833333333333335,
	"grad_norm": 0.9429165124893188,
	"learning_rate": 0.00014235,
	"loss": 2.6295612335205076,
	"step": 950
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.8270607590675354,
	"learning_rate": 0.00014384999999999997,
	"loss": 2.6640741348266603,
	"step": 960
	},
	{
	"epoch": 0.016166666666666666,
	"grad_norm": 1.1936181783676147,
	"learning_rate": 0.00014534999999999998,
	"loss": 2.6394475936889648,
	"step": 970
	},
	{
	"epoch": 0.01633333333333333,
	"grad_norm": 1.0914827585220337,
	"learning_rate": 0.00014685,
	"loss": 2.6144994735717773,
	"step": 980
	},
	{
	"epoch": 0.0165,
	"grad_norm": 0.8323391675949097,
	"learning_rate": 0.00014834999999999997,
	"loss": 2.5976608276367186,
	"step": 990
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.817717969417572,
	"learning_rate": 0.00014984999999999998,
	"loss": 2.5982643127441407,
	"step": 1000
	},
	{
	"epoch": 0.016833333333333332,
	"grad_norm": 1.0404084920883179,
	"learning_rate": 0.00015134999999999997,
	"loss": 2.5767370223999024,
	"step": 1010
	},
	{
	"epoch": 0.017,
	"grad_norm": 0.9311416745185852,
	"learning_rate": 0.00015284999999999997,
	"loss": 2.565751838684082,
	"step": 1020
	},
	{
	"epoch": 0.017166666666666667,
	"grad_norm": 0.9678856134414673,
	"learning_rate": 0.00015434999999999998,
	"loss": 2.5317737579345705,
	"step": 1030
	},
	{
	"epoch": 0.017333333333333333,
	"grad_norm": 0.9805819392204285,
	"learning_rate": 0.00015584999999999997,
	"loss": 2.5258121490478516,
	"step": 1040
	},
	{
	"epoch": 0.0175,
	"grad_norm": 0.7922776341438293,
	"learning_rate": 0.00015734999999999998,
	"loss": 2.5400224685668946,
	"step": 1050
	},
	{
	"epoch": 0.017666666666666667,
	"grad_norm": 0.8440002202987671,
	"learning_rate": 0.00015884999999999999,
	"loss": 2.5049901962280274,
	"step": 1060
	},
	{
	"epoch": 0.017833333333333333,
	"grad_norm": 0.8814069032669067,
	"learning_rate": 0.00016034999999999997,
	"loss": 2.500185012817383,
	"step": 1070
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.7535040378570557,
	"learning_rate": 0.00016184999999999998,
	"loss": 2.487553596496582,
	"step": 1080
	},
	{
	"epoch": 0.018166666666666668,
	"grad_norm": 1.007371187210083,
	"learning_rate": 0.00016334999999999999,
	"loss": 2.50408821105957,
	"step": 1090
	},
	{
	"epoch": 0.018333333333333333,
	"grad_norm": 0.7742697596549988,
	"learning_rate": 0.00016485,
	"loss": 2.5046213150024412,
	"step": 1100
	},
	{
	"epoch": 0.0185,
	"grad_norm": 0.8482025265693665,
	"learning_rate": 0.00016634999999999998,
	"loss": 2.493575096130371,
	"step": 1110
	},
	{
	"epoch": 1.0000666666666667,
	"grad_norm": 0.7820495963096619,
	"learning_rate": 0.00016785,
	"loss": 2.706912040710449,
	"step": 1120
	},
	{
	"epoch": 1.0002333333333333,
	"grad_norm": 0.7099973559379578,
	"learning_rate": 0.00016935,
	"loss": 2.4309906005859374,
	"step": 1130
	},
	{
	"epoch": 1.0004,
	"grad_norm": 0.6877136826515198,
	"learning_rate": 0.00017084999999999998,
	"loss": 2.449149322509766,
	"step": 1140
	},
	{
	"epoch": 1.0005666666666666,
	"grad_norm": 0.8360202312469482,
	"learning_rate": 0.00017235,
	"loss": 2.4464847564697267,
	"step": 1150
	},
	{
	"epoch": 1.0007333333333333,
	"grad_norm": 0.7134903073310852,
	"learning_rate": 0.00017385,
	"loss": 2.430519866943359,
	"step": 1160
	},
	{
	"epoch": 1.0009,
	"grad_norm": 0.9075033664703369,
	"learning_rate": 0.00017534999999999998,
	"loss": 2.40509033203125,
	"step": 1170
	},
	{
	"epoch": 1.0010666666666668,
	"grad_norm": 0.8332974314689636,
	"learning_rate": 0.00017685,
	"loss": 2.4284109115600585,
	"step": 1180
	},
	{
	"epoch": 1.0012333333333334,
	"grad_norm": 0.6970870494842529,
	"learning_rate": 0.00017835,
	"loss": 2.4098472595214844,
	"step": 1190
	},
	{
	"epoch": 1.0014,
	"grad_norm": 0.6665694713592529,
	"learning_rate": 0.00017984999999999998,
	"loss": 2.395026206970215,
	"step": 1200
	},
	{
	"epoch": 1.0015666666666667,
	"grad_norm": 0.6687540411949158,
	"learning_rate": 0.00018135,
	"loss": 2.3692419052124025,
	"step": 1210
	},
	{
	"epoch": 1.0017333333333334,
	"grad_norm": 0.8831247687339783,
	"learning_rate": 0.00018285,
	"loss": 2.3781986236572266,
	"step": 1220
	},
	{
	"epoch": 1.0019,
	"grad_norm": 0.6402927041053772,
	"learning_rate": 0.00018435,
	"loss": 2.361619567871094,
	"step": 1230
	},
	{
	"epoch": 1.0020666666666667,
	"grad_norm": 0.7041394710540771,
	"learning_rate": 0.00018585,
	"loss": 2.353261184692383,
	"step": 1240
	},
	{
	"epoch": 1.0022333333333333,
	"grad_norm": 0.7513797283172607,
	"learning_rate": 0.00018735,
	"loss": 2.3699949264526365,
	"step": 1250
	},
	{
	"epoch": 1.0024,
	"grad_norm": 0.6802843809127808,
	"learning_rate": 0.00018884999999999996,
	"loss": 2.355624198913574,
	"step": 1260
	},
	{
	"epoch": 1.0025666666666666,
	"grad_norm": 0.6382043361663818,
	"learning_rate": 0.00019034999999999996,
	"loss": 2.3294889450073244,
	"step": 1270
	},
	{
	"epoch": 1.0027333333333333,
	"grad_norm": 0.7075265645980835,
	"learning_rate": 0.00019184999999999997,
	"loss": 2.3211458206176756,
	"step": 1280
	},
	{
	"epoch": 1.0029,
	"grad_norm": 0.6168259382247925,
	"learning_rate": 0.00019334999999999998,
	"loss": 2.303839683532715,
	"step": 1290
	},
	{
	"epoch": 1.0030666666666668,
	"grad_norm": 0.6752699017524719,
	"learning_rate": 0.00019484999999999997,
	"loss": 2.331635856628418,
	"step": 1300
	},
	{
	"epoch": 1.0032333333333334,
	"grad_norm": 0.7414150238037109,
	"learning_rate": 0.00019634999999999998,
	"loss": 2.333931541442871,
	"step": 1310
	},
	{
	"epoch": 1.0034,
	"grad_norm": 0.5768128633499146,
	"learning_rate": 0.00019784999999999998,
	"loss": 2.309197998046875,
	"step": 1320
	},
	{
	"epoch": 1.0035666666666667,
	"grad_norm": 0.7151084542274475,
	"learning_rate": 0.00019934999999999997,
	"loss": 2.288164520263672,
	"step": 1330
	},
	{
	"epoch": 1.0037333333333334,
	"grad_norm": 0.6732338666915894,
	"learning_rate": 0.00020084999999999998,
	"loss": 2.295826530456543,
	"step": 1340
	},
	{
	"epoch": 1.0039,
	"grad_norm": 0.6337047219276428,
	"learning_rate": 0.00020234999999999999,
	"loss": 2.281715965270996,
	"step": 1350
	},
	{
	"epoch": 1.0040666666666667,
	"grad_norm": 0.6295289993286133,
	"learning_rate": 0.00020384999999999997,
	"loss": 2.2805261611938477,
	"step": 1360
	},
	{
	"epoch": 1.0042333333333333,
	"grad_norm": 0.5674924254417419,
	"learning_rate": 0.00020534999999999998,
	"loss": 2.276862907409668,
	"step": 1370
	},
	{
	"epoch": 1.0044,
	"grad_norm": 0.8244264721870422,
	"learning_rate": 0.00020684999999999999,
	"loss": 2.2846065521240235,
	"step": 1380
	},
	{
	"epoch": 1.0045666666666666,
	"grad_norm": 0.5457371473312378,
	"learning_rate": 0.00020835,
	"loss": 2.2605510711669923,
	"step": 1390
	},
	{
	"epoch": 1.0047333333333333,
	"grad_norm": 0.8645628690719604,
	"learning_rate": 0.00020984999999999998,
	"loss": 2.2508319854736327,
	"step": 1400
	},
	{
	"epoch": 1.0049,
	"grad_norm": 0.5244976878166199,
	"learning_rate": 0.00021135,
	"loss": 2.2424762725830076,
	"step": 1410
	},
	{
	"epoch": 1.0050666666666668,
	"grad_norm": 0.6354586482048035,
	"learning_rate": 0.00021285,
	"loss": 2.2320966720581055,
	"step": 1420
	},
	{
	"epoch": 1.0052333333333334,
	"grad_norm": 0.6979833841323853,
	"learning_rate": 0.00021434999999999998,
	"loss": 2.2552522659301757,
	"step": 1430
	},
	{
	"epoch": 1.0054,
	"grad_norm": 0.5455880165100098,
	"learning_rate": 0.00021585,
	"loss": 2.2437259674072267,
	"step": 1440
	},
	{
	"epoch": 1.0055666666666667,
	"grad_norm": 0.8435111045837402,
	"learning_rate": 0.00021735,
	"loss": 2.249082565307617,
	"step": 1450
	},
	{
	"epoch": 1.0057333333333334,
	"grad_norm": 0.6287665367126465,
	"learning_rate": 0.00021884999999999998,
	"loss": 2.229854393005371,
	"step": 1460
	},
	{
	"epoch": 1.0059,
	"grad_norm": 0.4953818917274475,
	"learning_rate": 0.00022035,
	"loss": 2.229512023925781,
	"step": 1470
	},
	{
	"epoch": 1.0060666666666667,
	"grad_norm": 0.5459710955619812,
	"learning_rate": 0.00022185,
	"loss": 2.207718086242676,
	"step": 1480
	},
	{
	"epoch": 1.0062333333333333,
	"grad_norm": 0.5606301426887512,
	"learning_rate": 0.00022335,
	"loss": 2.213382911682129,
	"step": 1490
	},
	{
	"epoch": 1.0064,
	"grad_norm": 0.535137951374054,
	"learning_rate": 0.00022485,
	"loss": 2.2047290802001953,
	"step": 1500
	},
	{
	"epoch": 1.0065666666666666,
	"grad_norm": 0.7108746767044067,
	"learning_rate": 0.00022634999999999997,
	"loss": 2.2026611328125,
	"step": 1510
	},
	{
	"epoch": 1.0067333333333333,
	"grad_norm": 0.5354933738708496,
	"learning_rate": 0.00022784999999999995,
	"loss": 2.1966262817382813,
	"step": 1520
	},
	{
	"epoch": 1.0069,
	"grad_norm": 0.5238562822341919,
	"learning_rate": 0.00022934999999999996,
	"loss": 2.192904472351074,
	"step": 1530
	},
	{
	"epoch": 1.0070666666666668,
	"grad_norm": 0.5200198888778687,
	"learning_rate": 0.00023084999999999997,
	"loss": 2.1925033569335937,
	"step": 1540
	},
	{
	"epoch": 1.0072333333333334,
	"grad_norm": 0.5277844071388245,
	"learning_rate": 0.00023234999999999998,
	"loss": 2.1947145462036133,
	"step": 1550
	},
	{
	"epoch": 1.0074,
	"grad_norm": 0.4872555434703827,
	"learning_rate": 0.00023384999999999997,
	"loss": 2.1701236724853517,
	"step": 1560
	},
	{
	"epoch": 1.0075666666666667,
	"grad_norm": 0.4913088083267212,
	"learning_rate": 0.00023534999999999997,
	"loss": 2.184732437133789,
	"step": 1570
	},
	{
	"epoch": 1.0077333333333334,
	"grad_norm": 0.5435949563980103,
	"learning_rate": 0.00023684999999999998,
	"loss": 2.1729846954345704,
	"step": 1580
	},
	{
	"epoch": 1.0079,
	"grad_norm": 0.6295453906059265,
	"learning_rate": 0.00023834999999999997,
	"loss": 2.192562294006348,
	"step": 1590
	},
	{
	"epoch": 1.0080666666666667,
	"grad_norm": 0.4600837230682373,
	"learning_rate": 0.00023984999999999998,
	"loss": 2.1549304962158202,
	"step": 1600
	},
	{
	"epoch": 1.0082333333333333,
	"grad_norm": 0.4506412446498871,
	"learning_rate": 0.00024134999999999998,
	"loss": 2.158854293823242,
	"step": 1610
	},
	{
	"epoch": 1.0084,
	"grad_norm": 0.5208119750022888,
	"learning_rate": 0.00024284999999999997,
	"loss": 2.1459197998046875,
	"step": 1620
	},
	{
	"epoch": 1.0085666666666666,
	"grad_norm": 0.4893856942653656,
	"learning_rate": 0.00024435,
	"loss": 2.148777198791504,
	"step": 1630
	},
	{
	"epoch": 1.0087333333333333,
	"grad_norm": 0.4930168688297272,
	"learning_rate": 0.00024585,
	"loss": 2.125368118286133,
	"step": 1640
	},
	{
	"epoch": 1.0089,
	"grad_norm": 0.4652084410190582,
	"learning_rate": 0.00024734999999999997,
	"loss": 2.1323593139648436,
	"step": 1650
	},
	{
	"epoch": 1.0090666666666666,
	"grad_norm": 0.5389001965522766,
	"learning_rate": 0.00024885,
	"loss": 2.135792350769043,
	"step": 1660
	},
	{
	"epoch": 1.0092333333333334,
	"grad_norm": 0.457022100687027,
	"learning_rate": 0.00025035,
	"loss": 2.1415658950805665,
	"step": 1670
	},
	{
	"epoch": 1.0094,
	"grad_norm": 0.4299754500389099,
	"learning_rate": 0.00025184999999999997,
	"loss": 2.122327995300293,
	"step": 1680
	},
	{
	"epoch": 1.0095666666666667,
	"grad_norm": 0.4978894889354706,
	"learning_rate": 0.00025335,
	"loss": 2.1148754119873048,
	"step": 1690
	},
	{
	"epoch": 1.0097333333333334,
	"grad_norm": 0.429126501083374,
	"learning_rate": 0.00025485,
	"loss": 2.0946537017822267,
	"step": 1700
	},
	{
	"epoch": 1.0099,
	"grad_norm": 0.4430970549583435,
	"learning_rate": 0.00025634999999999997,
	"loss": 2.113183784484863,
	"step": 1710
	},
	{
	"epoch": 1.0100666666666667,
	"grad_norm": 0.5041225552558899,
	"learning_rate": 0.00025785,
	"loss": 2.1197893142700197,
	"step": 1720
	},
	{
	"epoch": 1.0102333333333333,
	"grad_norm": 0.44492107629776,
	"learning_rate": 0.00025935,
	"loss": 2.083152961730957,
	"step": 1730
	},
	{
	"epoch": 1.0104,
	"grad_norm": 0.5288322567939758,
	"learning_rate": 0.00026084999999999997,
	"loss": 2.099713897705078,
	"step": 1740
	},
	{
	"epoch": 1.0105666666666666,
	"grad_norm": 0.41168212890625,
	"learning_rate": 0.00026235,
	"loss": 2.0932744979858398,
	"step": 1750
	},
	{
	"epoch": 1.0107333333333333,
	"grad_norm": 0.5603193044662476,
	"learning_rate": 0.00026384999999999994,
	"loss": 2.094789505004883,
	"step": 1760
	},
	{
	"epoch": 1.0109,
	"grad_norm": 0.5161806344985962,
	"learning_rate": 0.00026534999999999997,
	"loss": 2.1284894943237305,
	"step": 1770
	},
	{
	"epoch": 1.0110666666666666,
	"grad_norm": 0.41853898763656616,
	"learning_rate": 0.00026684999999999995,
	"loss": 2.0773319244384765,
	"step": 1780
	},
	{
	"epoch": 1.0112333333333334,
	"grad_norm": 0.5440929532051086,
	"learning_rate": 0.00026835,
	"loss": 2.084604835510254,
	"step": 1790
	},
	{
	"epoch": 1.0114,
	"grad_norm": 0.40722721815109253,
	"learning_rate": 0.00026984999999999997,
	"loss": 2.0671564102172852,
	"step": 1800
	},
	{
	"epoch": 1.0115666666666667,
	"grad_norm": 0.41399574279785156,
	"learning_rate": 0.00027134999999999995,
	"loss": 2.0832889556884764,
	"step": 1810
	},
	{
	"epoch": 1.0117333333333334,
	"grad_norm": 0.49388933181762695,
	"learning_rate": 0.00027285,
	"loss": 2.075506591796875,
	"step": 1820
	},
	{
	"epoch": 1.0119,
	"grad_norm": 0.4293297827243805,
	"learning_rate": 0.00027435,
	"loss": 2.0805021286010743,
	"step": 1830
	},
	{
	"epoch": 1.0120666666666667,
	"grad_norm": 0.40732425451278687,
	"learning_rate": 0.00027584999999999996,
	"loss": 2.049145317077637,
	"step": 1840
	},
	{
	"epoch": 1.0122333333333333,
	"grad_norm": 0.3965112268924713,
	"learning_rate": 0.00027735,
	"loss": 2.0812307357788087,
	"step": 1850
	},
	{
	"epoch": 1.0124,
	"grad_norm": 0.4156767725944519,
	"learning_rate": 0.00027885,
	"loss": 2.062709999084473,
	"step": 1860
	},
	{
	"epoch": 1.0125666666666666,
	"grad_norm": 0.471309632062912,
	"learning_rate": 0.00028034999999999996,
	"loss": 2.068245506286621,
	"step": 1870
	},
	{
	"epoch": 1.0127333333333333,
	"grad_norm": 0.4497111439704895,
	"learning_rate": 0.00028185,
	"loss": 2.0558444976806642,
	"step": 1880
	},
	{
	"epoch": 1.0129,
	"grad_norm": 0.4482715129852295,
	"learning_rate": 0.00028335,
	"loss": 2.0624961853027344,
	"step": 1890
	},
	{
	"epoch": 1.0130666666666666,
	"grad_norm": 0.41347697377204895,
	"learning_rate": 0.00028484999999999996,
	"loss": 2.0406215667724608,
	"step": 1900
	},
	{
	"epoch": 1.0132333333333334,
	"grad_norm": 0.6128464341163635,
	"learning_rate": 0.00028635,
	"loss": 2.0728612899780274,
	"step": 1910
	},
	{
	"epoch": 1.0134,
	"grad_norm": 0.38494449853897095,
	"learning_rate": 0.00028785,
	"loss": 2.0554380416870117,
	"step": 1920
	},
	{
	"epoch": 1.0135666666666667,
	"grad_norm": 0.427548885345459,
	"learning_rate": 0.00028934999999999996,
	"loss": 2.034651756286621,
	"step": 1930
	},
	{
	"epoch": 1.0137333333333334,
	"grad_norm": 0.43239572644233704,
	"learning_rate": 0.00029085,
	"loss": 2.026533317565918,
	"step": 1940
	},
	{
	"epoch": 1.0139,
	"grad_norm": 0.3870188891887665,
	"learning_rate": 0.00029235,
	"loss": 2.03892822265625,
	"step": 1950
	},
	{
	"epoch": 1.0140666666666667,
	"grad_norm": 0.406421422958374,
	"learning_rate": 0.00029384999999999996,
	"loss": 2.0305675506591796,
	"step": 1960
	},
	{
	"epoch": 1.0142333333333333,
	"grad_norm": 0.3901691138744354,
	"learning_rate": 0.00029535,
	"loss": 2.0243934631347655,
	"step": 1970
	},
	{
	"epoch": 1.0144,
	"grad_norm": 0.3800658881664276,
	"learning_rate": 0.00029685,
	"loss": 2.023728942871094,
	"step": 1980
	},
	{
	"epoch": 1.0145666666666666,
	"grad_norm": 0.5150614380836487,
	"learning_rate": 0.00029835,
	"loss": 2.0288442611694335,
	"step": 1990
	},
	{
	"epoch": 1.0147333333333333,
	"grad_norm": 0.3727407455444336,
	"learning_rate": 0.00029985,
	"loss": 2.025221824645996,
	"step": 2000
	},
	{
	"epoch": 1.0149,
	"grad_norm": 0.4141431152820587,
	"learning_rate": 0.0002999999821766214,
	"loss": 2.0167604446411134,
	"step": 2010
	},
	{
	"epoch": 1.0150666666666666,
	"grad_norm": 0.37171122431755066,
	"learning_rate": 0.0002999999205649478,
	"loss": 1.9933094024658202,
	"step": 2020
	},
	{
	"epoch": 1.0152333333333334,
	"grad_norm": 0.3756411671638489,
	"learning_rate": 0.0002999998149449555,
	"loss": 2.0210105895996096,
	"step": 2030
	},
	{
	"epoch": 1.0154,
	"grad_norm": 0.3639385402202606,
	"learning_rate": 0.00029999966531667557,
	"loss": 2.0091827392578123,
	"step": 2040
	},
	{
	"epoch": 1.0155666666666667,
	"grad_norm": 0.8484693765640259,
	"learning_rate": 0.0002999994716801518,
	"loss": 2.0151844024658203,
	"step": 2050
	},
	{
	"epoch": 1.0157333333333334,
	"grad_norm": 0.4140762388706207,
	"learning_rate": 0.0002999992340354411,
	"loss": 2.024458885192871,
	"step": 2060
	},
	{
	"epoch": 1.0159,
	"grad_norm": 0.3462969660758972,
	"learning_rate": 0.00029999895238261314,
	"loss": 2.0107778549194335,
	"step": 2070
	},
	{
	"epoch": 1.0160666666666667,
	"grad_norm": 0.3533947765827179,
	"learning_rate": 0.0002999986267217506,
	"loss": 2.009040641784668,
	"step": 2080
	},
	{
	"epoch": 1.0162333333333333,
	"grad_norm": 0.3650343120098114,
	"learning_rate": 0.00029999825705294896,
	"loss": 1.992868995666504,
	"step": 2090
	},
	{
	"epoch": 1.0164,
	"grad_norm": 0.3732404410839081,
	"learning_rate": 0.0002999978433763167,
	"loss": 1.9918212890625,
	"step": 2100
	},
	{
	"epoch": 1.0165666666666666,
	"grad_norm": 0.3752574920654297,
	"learning_rate": 0.0002999973856919752,
	"loss": 1.99306640625,
	"step": 2110
	},
	{
	"epoch": 1.0167333333333333,
	"grad_norm": 0.3408653438091278,
	"learning_rate": 0.0002999968840000588,
	"loss": 1.982255744934082,
	"step": 2120
	},
	{
	"epoch": 1.0169,
	"grad_norm": 0.40709778666496277,
	"learning_rate": 0.0002999963383007145,
	"loss": 1.9962303161621093,
	"step": 2130
	},
	{
	"epoch": 1.0170666666666666,
	"grad_norm": 0.45272234082221985,
	"learning_rate": 0.0002999957485941026,
	"loss": 1.9663330078125,
	"step": 2140
	},
	{
	"epoch": 1.0172333333333334,
	"grad_norm": 0.3251003921031952,
	"learning_rate": 0.00029999511488039605,
	"loss": 1.9691213607788085,
	"step": 2150
	},
	{
	"epoch": 1.0174,
	"grad_norm": 0.4428218603134155,
	"learning_rate": 0.0002999944371597808,
	"loss": 1.958636474609375,
	"step": 2160
	},
	{
	"epoch": 1.0175666666666667,
	"grad_norm": 0.46182894706726074,
	"learning_rate": 0.0002999937154324556,
	"loss": 1.9858266830444335,
	"step": 2170
	},
	{
	"epoch": 1.0177333333333334,
	"grad_norm": 0.8355538845062256,
	"learning_rate": 0.00029999294969863225,
	"loss": 1.9517662048339843,
	"step": 2180
	},
	{
	"epoch": 1.0179,
	"grad_norm": 0.3260430097579956,
	"learning_rate": 0.00029999213995853544,
	"loss": 1.978273582458496,
	"step": 2190
	},
	{
	"epoch": 1.0180666666666667,
	"grad_norm": 0.32824161648750305,
	"learning_rate": 0.0002999912862124027,
	"loss": 1.9533300399780273,
	"step": 2200
	},
	{
	"epoch": 1.0182333333333333,
	"grad_norm": 0.43425774574279785,
	"learning_rate": 0.00029999038846048446,
	"loss": 1.9833160400390626,
	"step": 2210
	},
	{
	"epoch": 1.0184,
	"grad_norm": 0.4289158284664154,
	"learning_rate": 0.0002999894467030442,
	"loss": 1.9894195556640626,
	"step": 2220
	},
	{
	"epoch": 1.0185666666666666,
	"grad_norm": 0.33242323994636536,
	"learning_rate": 0.0002999884609403582,
	"loss": 1.9739130020141602,
	"step": 2230
	},
	{
	"epoch": 2.0001333333333333,
	"grad_norm": 0.3483293354511261,
	"learning_rate": 0.0002999874311727157,
	"loss": 2.1391387939453126,
	"step": 2240
	},
	{
	"epoch": 2.0003,
	"grad_norm": 0.4419577717781067,
	"learning_rate": 0.0002999863574004187,
	"loss": 1.9526805877685547,
	"step": 2250
	},
	{
	"epoch": 2.0004666666666666,
	"grad_norm": 0.32892906665802,
	"learning_rate": 0.00029998523962378236,
	"loss": 1.9603885650634765,
	"step": 2260
	},
	{
	"epoch": 2.0006333333333335,
	"grad_norm": 0.3562873303890228,
	"learning_rate": 0.0002999840778431346,
	"loss": 1.9467247009277344,
	"step": 2270
	},
	{
	"epoch": 2.0008,
	"grad_norm": 0.3505720794200897,
	"learning_rate": 0.00029998287205881623,
	"loss": 1.9456769943237304,
	"step": 2280
	},
	{
	"epoch": 2.000966666666667,
	"grad_norm": 0.4977933466434479,
	"learning_rate": 0.000299981622271181,
	"loss": 1.9312908172607421,
	"step": 2290
	},
	{
	"epoch": 2.001133333333333,
	"grad_norm": 0.35553523898124695,
	"learning_rate": 0.0002999803284805956,
	"loss": 1.9541061401367188,
	"step": 2300
	},
	{
	"epoch": 2.0013,
	"grad_norm": 0.3140776753425598,
	"learning_rate": 0.0002999789906874397,
	"loss": 1.9477697372436524,
	"step": 2310
	},
	{
	"epoch": 2.0014666666666665,
	"grad_norm": 0.3130316138267517,
	"learning_rate": 0.0002999776088921058,
	"loss": 1.9310338973999024,
	"step": 2320
	},
	{
	"epoch": 2.0016333333333334,
	"grad_norm": 0.31942018866539,
	"learning_rate": 0.0002999761830949991,
	"loss": 1.918303871154785,
	"step": 2330
	},
	{
	"epoch": 2.0018,
	"grad_norm": 0.33003127574920654,
	"learning_rate": 0.0002999747132965381,
	"loss": 1.9304985046386718,
	"step": 2340
	},
	{
	"epoch": 2.0019666666666667,
	"grad_norm": 0.3321942389011383,
	"learning_rate": 0.0002999731994971539,
	"loss": 1.911811065673828,
	"step": 2350
	},
	{
	"epoch": 2.0021333333333335,
	"grad_norm": 0.3409428000450134,
	"learning_rate": 0.00029997164169729074,
	"loss": 1.9200147628784179,
	"step": 2360
	},
	{
	"epoch": 2.0023,
	"grad_norm": 0.3252435624599457,
	"learning_rate": 0.0002999700398974057,
	"loss": 1.935724639892578,
	"step": 2370
	},
	{
	"epoch": 2.002466666666667,
	"grad_norm": 0.31721359491348267,
	"learning_rate": 0.00029996839409796857,
	"loss": 1.9181198120117187,
	"step": 2380
	},
	{
	"epoch": 2.0026333333333333,
	"grad_norm": 0.3215249180793762,
	"learning_rate": 0.00029996670429946226,
	"loss": 1.8987350463867188,
	"step": 2390
	},
	{
	"epoch": 2.0028,
	"grad_norm": 0.40686535835266113,
	"learning_rate": 0.0002999649705023826,
	"loss": 1.9019346237182617,
	"step": 2400
	},
	{
	"epoch": 2.0029666666666666,
	"grad_norm": 0.39925655722618103,
	"learning_rate": 0.0002999631927072383,
	"loss": 1.902694320678711,
	"step": 2410
	},
	{
	"epoch": 2.0031333333333334,
	"grad_norm": 0.31708091497421265,
	"learning_rate": 0.00029996137091455077,
	"loss": 1.919948196411133,
	"step": 2420
	},
	{
	"epoch": 2.0033,
	"grad_norm": 0.30797794461250305,
	"learning_rate": 0.0002999595051248547,
	"loss": 1.9114618301391602,
	"step": 2430
	},
	{
	"epoch": 2.0034666666666667,
	"grad_norm": 0.34483590722084045,
	"learning_rate": 0.00029995759533869734,
	"loss": 1.9047100067138671,
	"step": 2440
	},
	{
	"epoch": 2.003633333333333,
	"grad_norm": 0.3035229742527008,
	"learning_rate": 0.0002999556415566391,
	"loss": 1.9036048889160155,
	"step": 2450
	},
	{
	"epoch": 2.0038,
	"grad_norm": 0.31910640001296997,
	"learning_rate": 0.00029995364377925315,
	"loss": 1.8925201416015625,
	"step": 2460
	},
	{
	"epoch": 2.0039666666666665,
	"grad_norm": 0.31238090991973877,
	"learning_rate": 0.00029995160200712564,
	"loss": 1.8917516708374023,
	"step": 2470
	},
	{
	"epoch": 2.0041333333333333,
	"grad_norm": 0.33110883831977844,
	"learning_rate": 0.00029994951624085566,
	"loss": 1.9027652740478516,
	"step": 2480
	},
	{
	"epoch": 2.0043,
	"grad_norm": 0.3299698233604431,
	"learning_rate": 0.000299947386481055,
	"loss": 1.901352882385254,
	"step": 2490
	},
	{
	"epoch": 2.0044666666666666,
	"grad_norm": 0.31205272674560547,
	"learning_rate": 0.0002999452127283486,
	"loss": 1.8980585098266602,
	"step": 2500
	},
	{
	"epoch": 2.0046333333333335,
	"grad_norm": 0.29499128460884094,
	"learning_rate": 0.0002999429949833742,
	"loss": 1.8852500915527344,
	"step": 2510
	},
	{
	"epoch": 2.0048,
	"grad_norm": 0.3277484178543091,
	"learning_rate": 0.00029994073324678247,
	"loss": 1.88719482421875,
	"step": 2520
	},
	{
	"epoch": 2.004966666666667,
	"grad_norm": 0.3019053637981415,
	"learning_rate": 0.000299938427519237,
	"loss": 1.8691232681274415,
	"step": 2530
	},
	{
	"epoch": 2.005133333333333,
	"grad_norm": 0.2999207079410553,
	"learning_rate": 0.0002999360778014143,
	"loss": 1.8811899185180665,
	"step": 2540
	},
	{
	"epoch": 2.0053,
	"grad_norm": 0.309031218290329,
	"learning_rate": 0.00029993368409400356,
	"loss": 1.8907697677612305,
	"step": 2550
	},
	{
	"epoch": 2.0054666666666665,
	"grad_norm": 0.30694296956062317,
	"learning_rate": 0.0002999312463977073,
	"loss": 1.8924570083618164,
	"step": 2560
	},
	{
	"epoch": 2.0056333333333334,
	"grad_norm": 0.2894775867462158,
	"learning_rate": 0.00029992876471324057,
	"loss": 1.8695192337036133,
	"step": 2570
	},
	{
	"epoch": 2.0058,
	"grad_norm": 0.2997623085975647,
	"learning_rate": 0.00029992623904133154,
	"loss": 1.8780364990234375,
	"step": 2580
	},
	{
	"epoch": 2.0059666666666667,
	"grad_norm": 0.33627018332481384,
	"learning_rate": 0.00029992366938272114,
	"loss": 1.8802318572998047,
	"step": 2590
	},
	{
	"epoch": 2.0061333333333335,
	"grad_norm": 0.305471271276474,
	"learning_rate": 0.00029992105573816336,
	"loss": 1.8689495086669923,
	"step": 2600
	},
	{
	"epoch": 2.0063,
	"grad_norm": 0.3067426085472107,
	"learning_rate": 0.000299918398108425,
	"loss": 1.8797239303588866,
	"step": 2610
	},
	{
	"epoch": 2.006466666666667,
	"grad_norm": 0.30758461356163025,
	"learning_rate": 0.00029991569649428574,
	"loss": 1.8528533935546876,
	"step": 2620
	},
	{
	"epoch": 2.0066333333333333,
	"grad_norm": 0.39458268880844116,
	"learning_rate": 0.00029991295089653827,
	"loss": 1.8724189758300782,
	"step": 2630
	},
	{
	"epoch": 2.0068,
	"grad_norm": 0.33424311876296997,
	"learning_rate": 0.000299910161315988,
	"loss": 1.8637022018432616,
	"step": 2640
	},
	{
	"epoch": 2.0069666666666666,
	"grad_norm": 0.3854370415210724,
	"learning_rate": 0.0002999073277534534,
	"loss": 1.8546772003173828,
	"step": 2650
	},
	{
	"epoch": 2.0071333333333334,
	"grad_norm": 0.3321525752544403,
	"learning_rate": 0.00029990445020976593,
	"loss": 1.8813508987426757,
	"step": 2660
	},
	{
	"epoch": 2.0073,
	"grad_norm": 0.5437219142913818,
	"learning_rate": 0.00029990152868576974,
	"loss": 1.8557924270629882,
	"step": 2670
	},
	{
	"epoch": 2.0074666666666667,
	"grad_norm": 0.29385554790496826,
	"learning_rate": 0.00029989856318232195,
	"loss": 1.8538352966308593,
	"step": 2680
	},
	{
	"epoch": 2.007633333333333,
	"grad_norm": 0.28902414441108704,
	"learning_rate": 0.0002998955537002926,
	"loss": 1.867183303833008,
	"step": 2690
	},
	{
	"epoch": 2.0078,
	"grad_norm": 0.3079817593097687,
	"learning_rate": 0.0002998925002405647,
	"loss": 1.8617700576782226,
	"step": 2700
	},
	{
	"epoch": 2.0079666666666665,
	"grad_norm": 0.31161582469940186,
	"learning_rate": 0.00029988940280403407,
	"loss": 1.850856399536133,
	"step": 2710
	},
	{
	"epoch": 2.0081333333333333,
	"grad_norm": 0.2734602689743042,
	"learning_rate": 0.00029988626139160944,
	"loss": 1.8329235076904298,
	"step": 2720
	},
	{
	"epoch": 2.0083,
	"grad_norm": 0.29510024189949036,
	"learning_rate": 0.00029988307600421245,
	"loss": 1.8493413925170898,
	"step": 2730
	},
	{
	"epoch": 2.0084666666666666,
	"grad_norm": 0.3101499676704407,
	"learning_rate": 0.00029987984664277777,
	"loss": 1.837864875793457,
	"step": 2740
	},
	{
	"epoch": 2.0086333333333335,
	"grad_norm": 0.29377278685569763,
	"learning_rate": 0.0002998765733082528,
	"loss": 1.8344387054443358,
	"step": 2750
	},
	{
	"epoch": 2.0088,
	"grad_norm": 0.367495596408844,
	"learning_rate": 0.0002998732560015978,
	"loss": 1.8256048202514648,
	"step": 2760
	},
	{
	"epoch": 2.008966666666667,
	"grad_norm": 0.8747866749763489,
	"learning_rate": 0.00029986989472378613,
	"loss": 1.8315084457397461,
	"step": 2770
	},
	{
	"epoch": 2.009133333333333,
	"grad_norm": 0.3131991922855377,
	"learning_rate": 0.000299866489475804,
	"loss": 1.8437740325927734,
	"step": 2780
	},
	{
	"epoch": 2.0093,
	"grad_norm": 0.30495911836624146,
	"learning_rate": 0.00029986304025865035,
	"loss": 1.8268943786621095,
	"step": 2790
	},
	{
	"epoch": 2.0094666666666665,
	"grad_norm": 0.2781303822994232,
	"learning_rate": 0.00029985954707333724,
	"loss": 1.8243549346923829,
	"step": 2800
	},
	{
	"epoch": 2.0096333333333334,
	"grad_norm": 0.31482452154159546,
	"learning_rate": 0.00029985600992088945,
	"loss": 1.8155588150024413,
	"step": 2810
	},
	{
	"epoch": 2.0098,
	"grad_norm": 0.3138728141784668,
	"learning_rate": 0.00029985242880234484,
	"loss": 1.811925506591797,
	"step": 2820
	},
	{
	"epoch": 2.0099666666666667,
	"grad_norm": 0.2919290065765381,
	"learning_rate": 0.00029984880371875395,
	"loss": 1.8293731689453125,
	"step": 2830
	},
	{
	"epoch": 2.0101333333333335,
	"grad_norm": 0.2963739335536957,
	"learning_rate": 0.00029984513467118043,
	"loss": 1.8097396850585938,
	"step": 2840
	},
	{
	"epoch": 2.0103,
	"grad_norm": 0.2968748211860657,
	"learning_rate": 0.00029984142166070073,
	"loss": 1.8181087493896484,
	"step": 2850
	},
	{
	"epoch": 2.010466666666667,
	"grad_norm": 0.32753726840019226,
	"learning_rate": 0.0002998376646884042,
	"loss": 1.8085901260375976,
	"step": 2860
	},
	{
	"epoch": 2.0106333333333333,
	"grad_norm": 0.332154244184494,
	"learning_rate": 0.00029983386375539306,
	"loss": 1.8173376083374024,
	"step": 2870
	},
	{
	"epoch": 2.0108,
	"grad_norm": 0.30764803290367126,
	"learning_rate": 0.0002998300188627825,
	"loss": 1.8258855819702149,
	"step": 2880
	},
	{
	"epoch": 2.0109666666666666,
	"grad_norm": 0.2808578312397003,
	"learning_rate": 0.0002998261300117005,
	"loss": 1.824087905883789,
	"step": 2890
	},
	{
	"epoch": 2.0111333333333334,
	"grad_norm": 0.2978729009628296,
	"learning_rate": 0.00029982219720328814,
	"loss": 1.7921815872192384,
	"step": 2900
	},
	{
	"epoch": 2.0113,
	"grad_norm": 0.2905280292034149,
	"learning_rate": 0.0002998182204386991,
	"loss": 1.8095476150512695,
	"step": 2910
	},
	{
	"epoch": 2.0114666666666667,
	"grad_norm": 0.2959212064743042,
	"learning_rate": 0.0002998141997191003,
	"loss": 1.8007658004760743,
	"step": 2920
	},
	{
	"epoch": 2.011633333333333,
	"grad_norm": 0.29560765624046326,
	"learning_rate": 0.0002998101350456712,
	"loss": 1.8038867950439452,
	"step": 2930
	},
	{
	"epoch": 2.0118,
	"grad_norm": 0.35846570134162903,
	"learning_rate": 0.0002998060264196044,
	"loss": 1.8145381927490234,
	"step": 2940
	},
	{
	"epoch": 2.0119666666666665,
	"grad_norm": 0.2926178276538849,
	"learning_rate": 0.00029980187384210543,
	"loss": 1.7917072296142578,
	"step": 2950
	},
	{
	"epoch": 2.0121333333333333,
	"grad_norm": 0.3068349063396454,
	"learning_rate": 0.00029979767731439243,
	"loss": 1.7924629211425782,
	"step": 2960
	},
	{
	"epoch": 2.0123,
	"grad_norm": 0.2997657358646393,
	"learning_rate": 0.0002997934368376967,
	"loss": 1.8075037002563477,
	"step": 2970
	},
	{
	"epoch": 2.0124666666666666,
	"grad_norm": 0.30741429328918457,
	"learning_rate": 0.0002997891524132623,
	"loss": 1.7943035125732423,
	"step": 2980
	},
	{
	"epoch": 2.0126333333333335,
	"grad_norm": 0.2987091541290283,
	"learning_rate": 0.0002997848240423464,
	"loss": 1.8019412994384765,
	"step": 2990
	},
	{
	"epoch": 2.0128,
	"grad_norm": 0.30597877502441406,
	"learning_rate": 0.0002997804517262187,
	"loss": 1.7804391860961915,
	"step": 3000
	},
	{
	"epoch": 2.012966666666667,
	"grad_norm": 0.30425113439559937,
	"learning_rate": 0.00029977603546616204,
	"loss": 1.7919233322143555,
	"step": 3010
	},
	{
	"epoch": 2.013133333333333,
	"grad_norm": 0.29537034034729004,
	"learning_rate": 0.0002997715752634722,
	"loss": 1.7906463623046875,
	"step": 3020
	},
	{
	"epoch": 2.0133,
	"grad_norm": 0.31160587072372437,
	"learning_rate": 0.00029976707111945765,
	"loss": 1.8006792068481445,
	"step": 3030
	},
	{
	"epoch": 2.0134666666666665,
	"grad_norm": 0.2768838107585907,
	"learning_rate": 0.00029976252303543985,
	"loss": 1.7734039306640625,
	"step": 3040
	},
	{
	"epoch": 2.0136333333333334,
	"grad_norm": 0.34434473514556885,
	"learning_rate": 0.0002997579310127532,
	"loss": 1.790645217895508,
	"step": 3050
	},
	{
	"epoch": 2.0138,
	"grad_norm": 0.3175096809864044,
	"learning_rate": 0.000299753295052745,
	"loss": 1.776620101928711,
	"step": 3060
	},
	{
	"epoch": 2.0139666666666667,
	"grad_norm": 0.27720019221305847,
	"learning_rate": 0.00029974861515677525,
	"loss": 1.7714349746704101,
	"step": 3070
	},
	{
	"epoch": 2.0141333333333336,
	"grad_norm": 0.3595098853111267,
	"learning_rate": 0.00029974389132621715,
	"loss": 1.7710906982421875,
	"step": 3080
	},
	{
	"epoch": 2.0143,
	"grad_norm": 0.33949705958366394,
	"learning_rate": 0.0002997391235624565,
	"loss": 1.7787233352661134,
	"step": 3090
	},
	{
	"epoch": 2.014466666666667,
	"grad_norm": 0.29317399859428406,
	"learning_rate": 0.0002997343118668921,
	"loss": 1.7712892532348632,
	"step": 3100
	},
	{
	"epoch": 2.0146333333333333,
	"grad_norm": 0.29205620288848877,
	"learning_rate": 0.0002997294562409357,
	"loss": 1.7849128723144532,
	"step": 3110
	},
	{
	"epoch": 2.0148,
	"grad_norm": 0.3042508065700531,
	"learning_rate": 0.00029972455668601187,
	"loss": 1.7632179260253906,
	"step": 3120
	},
	{
	"epoch": 2.0149666666666666,
	"grad_norm": 0.2817091941833496,
	"learning_rate": 0.0002997196132035581,
	"loss": 1.7586166381835937,
	"step": 3130
	},
	{
	"epoch": 2.0151333333333334,
	"grad_norm": 0.2994356155395508,
	"learning_rate": 0.00029971462579502477,
	"loss": 1.765203094482422,
	"step": 3140
	},
	{
	"epoch": 2.0153,
	"grad_norm": 0.34546980261802673,
	"learning_rate": 0.00029970959446187507,
	"loss": 1.7686321258544921,
	"step": 3150
	},
	{
	"epoch": 2.0154666666666667,
	"grad_norm": 0.29304182529449463,
	"learning_rate": 0.0002997045192055852,
	"loss": 1.7579254150390624,
	"step": 3160
	},
	{
	"epoch": 2.015633333333333,
	"grad_norm": 0.2991744577884674,
	"learning_rate": 0.00029969940002764415,
	"loss": 1.7774200439453125,
	"step": 3170
	},
	{
	"epoch": 2.0158,
	"grad_norm": 0.2959384024143219,
	"learning_rate": 0.0002996942369295538,
	"loss": 1.7614059448242188,
	"step": 3180
	},
	{
	"epoch": 2.0159666666666665,
	"grad_norm": 0.27773720026016235,
	"learning_rate": 0.000299689029912829,
	"loss": 1.7697029113769531,
	"step": 3190
	},
	{
	"epoch": 2.0161333333333333,
	"grad_norm": 0.32048192620277405,
	"learning_rate": 0.0002996837789789975,
	"loss": 1.7673730850219727,
	"step": 3200
	},
	{
	"epoch": 2.0163,
	"grad_norm": 0.29490071535110474,
	"learning_rate": 0.0002996784841295997,
	"loss": 1.754742431640625,
	"step": 3210
	},
	{
	"epoch": 2.0164666666666666,
	"grad_norm": 0.30989086627960205,
	"learning_rate": 0.0002996731453661891,
	"loss": 1.7523395538330078,
	"step": 3220
	},
	{
	"epoch": 2.0166333333333335,
	"grad_norm": 0.28182804584503174,
	"learning_rate": 0.0002996677626903321,
	"loss": 1.761356735229492,
	"step": 3230
	},
	{
	"epoch": 2.0168,
	"grad_norm": 0.3071010112762451,
	"learning_rate": 0.0002996623361036079,
	"loss": 1.7489625930786132,
	"step": 3240
	},
	{
	"epoch": 2.016966666666667,
	"grad_norm": 0.3243575096130371,
	"learning_rate": 0.0002996568656076085,
	"loss": 1.7530878067016602,
	"step": 3250
	},
	{
	"epoch": 2.0171333333333332,
	"grad_norm": 0.30851274728775024,
	"learning_rate": 0.0002996513512039391,
	"loss": 1.7365777969360352,
	"step": 3260
	},
	{
	"epoch": 2.0173,
	"grad_norm": 0.31781646609306335,
	"learning_rate": 0.0002996457928942173,
	"loss": 1.7379327774047852,
	"step": 3270
	},
	{
	"epoch": 2.0174666666666665,
	"grad_norm": 0.30550727248191833,
	"learning_rate": 0.0002996401906800741,
	"loss": 1.748966598510742,
	"step": 3280
	},
	{
	"epoch": 2.0176333333333334,
	"grad_norm": 0.30173051357269287,
	"learning_rate": 0.0002996345445631529,
	"loss": 1.7401952743530273,
	"step": 3290
	},
	{
	"epoch": 2.0178,
	"grad_norm": 0.29951369762420654,
	"learning_rate": 0.0002996288545451103,
	"loss": 1.7343709945678711,
	"step": 3300
	},
	{
	"epoch": 2.0179666666666667,
	"grad_norm": 0.27360084652900696,
	"learning_rate": 0.0002996231206276158,
	"loss": 1.7397294998168946,
	"step": 3310
	},
	{
	"epoch": 2.018133333333333,
	"grad_norm": 0.30762919783592224,
	"learning_rate": 0.00029961734281235155,
	"loss": 1.7346086502075195,
	"step": 3320
	},
	{
	"epoch": 2.0183,
	"grad_norm": 0.30437207221984863,
	"learning_rate": 0.0002996115211010127,
	"loss": 1.7656745910644531,
	"step": 3330
	},
	{
	"epoch": 2.018466666666667,
	"grad_norm": 0.2910079061985016,
	"learning_rate": 0.0002996056554953073,
	"loss": 1.7637361526489257,
	"step": 3340
	},
	{
	"epoch": 3.0000333333333336,
	"grad_norm": 0.5841907858848572,
	"learning_rate": 0.00029959974599695616,
	"loss": 1.8916559219360352,
	"step": 3350
	},
	{
	"epoch": 3.0002,
	"grad_norm": 0.30715465545654297,
	"learning_rate": 0.00029959379260769325,
	"loss": 1.734269905090332,
	"step": 3360
	},
	{
	"epoch": 3.000366666666667,
	"grad_norm": 0.2890932559967041,
	"learning_rate": 0.00029958779532926504,
	"loss": 1.737888717651367,
	"step": 3370
	},
	{
	"epoch": 3.0005333333333333,
	"grad_norm": 0.2667240500450134,
	"learning_rate": 0.00029958175416343124,
	"loss": 1.7341463088989257,
	"step": 3380
	},
	{
	"epoch": 3.0007,
	"grad_norm": 0.28347086906433105,
	"learning_rate": 0.00029957566911196414,
	"loss": 1.7401607513427735,
	"step": 3390
	},
	{
	"epoch": 3.0008666666666666,
	"grad_norm": 0.29408538341522217,
	"learning_rate": 0.00029956954017664903,
	"loss": 1.7225614547729493,
	"step": 3400
	},
	{
	"epoch": 3.0010333333333334,
	"grad_norm": 0.30668047070503235,
	"learning_rate": 0.0002995633673592841,
	"loss": 1.7230432510375977,
	"step": 3410
	},
	{
	"epoch": 3.0012,
	"grad_norm": 0.2996319830417633,
	"learning_rate": 0.00029955715066168044,
	"loss": 1.7335132598876952,
	"step": 3420
	},
	{
	"epoch": 3.0013666666666667,
	"grad_norm": 0.2857902944087982,
	"learning_rate": 0.00029955089008566185,
	"loss": 1.7325157165527343,
	"step": 3430
	},
	{
	"epoch": 3.001533333333333,
	"grad_norm": 0.3037016987800598,
	"learning_rate": 0.0002995445856330652,
	"loss": 1.7197406768798829,
	"step": 3440
	},
	{
	"epoch": 3.0017,
	"grad_norm": 0.2963092029094696,
	"learning_rate": 0.0002995382373057401,
	"loss": 1.722641372680664,
	"step": 3450
	},
	{
	"epoch": 3.0018666666666665,
	"grad_norm": 0.3075854182243347,
	"learning_rate": 0.0002995318451055492,
	"loss": 1.7070884704589844,
	"step": 3460
	},
	{
	"epoch": 3.0020333333333333,
	"grad_norm": 0.334443062543869,
	"learning_rate": 0.0002995254090343677,
	"loss": 1.7077157974243165,
	"step": 3470
	},
	{
	"epoch": 3.0022,
	"grad_norm": 0.3198912441730499,
	"learning_rate": 0.0002995189290940839,
	"loss": 1.730832290649414,
	"step": 3480
	},
	{
	"epoch": 3.0023666666666666,
	"grad_norm": 0.29788824915885925,
	"learning_rate": 0.00029951240528659914,
	"loss": 1.717129898071289,
	"step": 3490
	},
	{
	"epoch": 3.0025333333333335,
	"grad_norm": 0.31315430998802185,
	"learning_rate": 0.0002995058376138273,
	"loss": 1.7042694091796875,
	"step": 3500
	},
	{
	"epoch": 3.0027,
	"grad_norm": 0.2997714579105377,
	"learning_rate": 0.00029949922607769525,
	"loss": 1.6981151580810547,
	"step": 3510
	},
	{
	"epoch": 3.002866666666667,
	"grad_norm": 0.49318060278892517,
	"learning_rate": 0.00029949257068014273,
	"loss": 1.6965030670166015,
	"step": 3520
	},
	{
	"epoch": 3.003033333333333,
	"grad_norm": 0.302224338054657,
	"learning_rate": 0.0002994858714231224,
	"loss": 1.716214942932129,
	"step": 3530
	},
	{
	"epoch": 3.0032,
	"grad_norm": 0.33403024077415466,
	"learning_rate": 0.00029947912830859976,
	"loss": 1.7219301223754884,
	"step": 3540
	},
	{
	"epoch": 3.0033666666666665,
	"grad_norm": 0.3228297233581543,
	"learning_rate": 0.0002994723413385531,
	"loss": 1.7075923919677733,
	"step": 3550
	},
	{
	"epoch": 3.0035333333333334,
	"grad_norm": 0.2840413749217987,
	"learning_rate": 0.0002994655105149737,
	"loss": 1.7017856597900392,
	"step": 3560
	},
	{
	"epoch": 3.0037,
	"grad_norm": 0.2929494380950928,
	"learning_rate": 0.00029945863583986563,
	"loss": 1.7047229766845704,
	"step": 3570
	},
	{
	"epoch": 3.0038666666666667,
	"grad_norm": 0.2888146638870239,
	"learning_rate": 0.0002994517173152459,
	"loss": 1.696831512451172,
	"step": 3580
	},
	{
	"epoch": 3.004033333333333,
	"grad_norm": 0.3097553849220276,
	"learning_rate": 0.00029944475494314424,
	"loss": 1.6922567367553711,
	"step": 3590
	},
	{
	"epoch": 3.0042,
	"grad_norm": 0.2964254915714264,
	"learning_rate": 0.0002994377487256034,
	"loss": 1.7038848876953125,
	"step": 3600
	},
	{
	"epoch": 3.004366666666667,
	"grad_norm": 0.33456939458847046,
	"learning_rate": 0.00029943069866467884,
	"loss": 1.716048240661621,
	"step": 3610
	},
	{
	"epoch": 3.0045333333333333,
	"grad_norm": 0.315708190202713,
	"learning_rate": 0.00029942360476243907,
	"loss": 1.699909782409668,
	"step": 3620
	},
	{
	"epoch": 3.0047,
	"grad_norm": 0.31560301780700684,
	"learning_rate": 0.0002994164670209653,
	"loss": 1.6968250274658203,
	"step": 3630
	},
	{
	"epoch": 3.0048666666666666,
	"grad_norm": 0.30578115582466125,
	"learning_rate": 0.0002994092854423517,
	"loss": 1.6915258407592773,
	"step": 3640
	},
	{
	"epoch": 3.0050333333333334,
	"grad_norm": 0.295392781496048,
	"learning_rate": 0.0002994020600287052,
	"loss": 1.6869081497192382,
	"step": 3650
	},
	{
	"epoch": 0.00016666666666666666,
	"grad_norm": 1.5778170824050903,
	"learning_rate": 0.00029849904372022663,
	"loss": 3.774449920654297,
	"step": 3660
	},
	{
	"epoch": 0.0003333333333333333,
	"grad_norm": 0.7220685482025146,
	"learning_rate": 0.000298487751905002,
	"loss": 3.307727813720703,
	"step": 3670
	},
	{
	"epoch": 0.0005,
	"grad_norm": 0.6823899149894714,
	"learning_rate": 0.00029847641798936566,
	"loss": 3.308191680908203,
	"step": 3680
	},
	{
	"epoch": 0.0006666666666666666,
	"grad_norm": 0.7152085304260254,
	"learning_rate": 0.00029846504197653096,
	"loss": 3.309762191772461,
	"step": 3690
	},
	{
	"epoch": 0.0008333333333333334,
	"grad_norm": 0.6293660998344421,
	"learning_rate": 0.0002984536238697233,
	"loss": 3.3758075714111326,
	"step": 3700
	},
	{
	"epoch": 0.001,
	"grad_norm": 0.7295067310333252,
	"learning_rate": 0.0002984421636721801,
	"loss": 3.3281707763671875,
	"step": 3710
	},
	{
	"epoch": 0.0011666666666666668,
	"grad_norm": 0.6338008642196655,
	"learning_rate": 0.00029843066138715064,
	"loss": 3.3392311096191407,
	"step": 3720
	},
	{
	"epoch": 0.0013333333333333333,
	"grad_norm": 0.6514250636100769,
	"learning_rate": 0.0002984191170178961,
	"loss": 3.232216644287109,
	"step": 3730
	},
	{
	"epoch": 0.0015,
	"grad_norm": 0.6614907383918762,
	"learning_rate": 0.00029840753056768965,
	"loss": 3.2421695709228517,
	"step": 3740
	},
	{
	"epoch": 0.0016666666666666668,
	"grad_norm": 0.639617919921875,
	"learning_rate": 0.00029839590203981645,
	"loss": 3.2931827545166015,
	"step": 3750
	},
	{
	"epoch": 0.0018333333333333333,
	"grad_norm": 0.5634158253669739,
	"learning_rate": 0.0002983842314375733,
	"loss": 3.185129737854004,
	"step": 3760
	},
	{
	"epoch": 0.002,
	"grad_norm": 0.6283559799194336,
	"learning_rate": 0.00029837251876426937,
	"loss": 3.244803237915039,
	"step": 3770
	},
	{
	"epoch": 0.0021666666666666666,
	"grad_norm": 0.5802392959594727,
	"learning_rate": 0.00029836076402322545,
	"loss": 3.0983781814575195,
	"step": 3780
	},
	{
	"epoch": 0.0023333333333333335,
	"grad_norm": 0.5623877644538879,
	"learning_rate": 0.0002983489672177743,
	"loss": 2.968458557128906,
	"step": 3790
	},
	{
	"epoch": 0.0025,
	"grad_norm": 0.547167181968689,
	"learning_rate": 0.00029833712835126064,
	"loss": 2.9178205490112306,
	"step": 3800
	},
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 0.5496246218681335,
	"learning_rate": 0.0002983252474270411,
	"loss": 3.0116304397583007,
	"step": 3810
	},
	{
	"epoch": 0.0028333333333333335,
	"grad_norm": 0.6299962997436523,
	"learning_rate": 0.0002983133244484844,
	"loss": 3.1483575820922853,
	"step": 3820
	},
	{
	"epoch": 0.003,
	"grad_norm": 0.6428859233856201,
	"learning_rate": 0.0002983013594189709,
	"loss": 3.208842086791992,
	"step": 3830
	},
	{
	"epoch": 0.0031666666666666666,
	"grad_norm": 0.5592418909072876,
	"learning_rate": 0.00029828935234189294,
	"loss": 3.186692810058594,
	"step": 3840
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 0.6330075860023499,
	"learning_rate": 0.0002982773032206551,
	"loss": 3.142811393737793,
	"step": 3850
	},
	{
	"epoch": 0.0035,
	"grad_norm": 0.5640964508056641,
	"learning_rate": 0.00029826521205867344,
	"loss": 3.191600036621094,
	"step": 3860
	},
	{
	"epoch": 0.0036666666666666666,
	"grad_norm": 0.5621790885925293,
	"learning_rate": 0.00029825307885937623,
	"loss": 3.1665826797485352,
	"step": 3870
	},
	{
	"epoch": 0.003833333333333333,
	"grad_norm": 0.555362343788147,
	"learning_rate": 0.00029824090362620356,
	"loss": 3.2408042907714845,
	"step": 3880
	},
	{
	"epoch": 0.004,
	"grad_norm": 0.5904632210731506,
	"learning_rate": 0.0002982286863626075,
	"loss": 3.3447166442871095,
	"step": 3890
	},
	{
	"epoch": 0.004166666666666667,
	"grad_norm": 0.5641190409660339,
	"learning_rate": 0.00029821642707205184,
	"loss": 3.256772994995117,
	"step": 3900
	},
	{
	"epoch": 0.004333333333333333,
	"grad_norm": 0.57473224401474,
	"learning_rate": 0.00029820412575801256,
	"loss": 3.270028305053711,
	"step": 3910
	},
	{
	"epoch": 0.0045,
	"grad_norm": 0.5857067108154297,
	"learning_rate": 0.00029819178242397734,
	"loss": 3.238531494140625,
	"step": 3920
	},
	{
	"epoch": 0.004666666666666667,
	"grad_norm": 0.5126656293869019,
	"learning_rate": 0.00029817939707344593,
	"loss": 3.300303268432617,
	"step": 3930
	},
	{
	"epoch": 0.004833333333333334,
	"grad_norm": 0.5652568340301514,
	"learning_rate": 0.00029816696970992986,
	"loss": 3.2070068359375,
	"step": 3940
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.4956953227519989,
	"learning_rate": 0.0002981545003369527,
	"loss": 3.2531665802001952,
	"step": 3950
	},
	{
	"epoch": 0.005166666666666667,
	"grad_norm": 0.5084554553031921,
	"learning_rate": 0.0002981419889580498,
	"loss": 3.066339874267578,
	"step": 3960
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 0.5247703790664673,
	"learning_rate": 0.00029812943557676856,
	"loss": 3.1590555191040037,
	"step": 3970
	},
	{
	"epoch": 0.0055,
	"grad_norm": 0.5014616250991821,
	"learning_rate": 0.0002981168401966681,
	"loss": 3.192496490478516,
	"step": 3980
	},
	{
	"epoch": 0.005666666666666667,
	"grad_norm": 0.5336611866950989,
	"learning_rate": 0.0002981042028213197,
	"loss": 3.323842239379883,
	"step": 3990
	},
	{
	"epoch": 0.005833333333333334,
	"grad_norm": 0.5619737505912781,
	"learning_rate": 0.00029809152345430627,
	"loss": 3.190663719177246,
	"step": 4000
	},
	{
	"epoch": 0.006,
	"grad_norm": 0.5566272139549255,
	"learning_rate": 0.00029807880209922283,
	"loss": 3.083289909362793,
	"step": 4010
	},
	{
	"epoch": 0.006166666666666667,
	"grad_norm": 0.5660613179206848,
	"learning_rate": 0.0002980660387596763,
	"loss": 3.2430679321289064,
	"step": 4020
	},
	{
	"epoch": 0.006333333333333333,
	"grad_norm": 0.5177736282348633,
	"learning_rate": 0.0002980532334392853,
	"loss": 3.178599548339844,
	"step": 4030
	},
	{
	"epoch": 0.0065,
	"grad_norm": 0.5329192280769348,
	"learning_rate": 0.0002980403861416806,
	"loss": 3.1674598693847655,
	"step": 4040
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 0.6663591265678406,
	"learning_rate": 0.0002980274968705048,
	"loss": 3.0155174255371096,
	"step": 4050
	},
	{
	"epoch": 0.006833333333333334,
	"grad_norm": 0.4993612766265869,
	"learning_rate": 0.00029801456562941227,
	"loss": 3.066207695007324,
	"step": 4060
	},
	{
	"epoch": 0.007,
	"grad_norm": 0.5428812503814697,
	"learning_rate": 0.00029800159242206935,
	"loss": 3.10704345703125,
	"step": 4070
	},
	{
	"epoch": 0.007166666666666667,
	"grad_norm": 0.513583242893219,
	"learning_rate": 0.00029798857725215445,
	"loss": 3.184256172180176,
	"step": 4080
	},
	{
	"epoch": 0.007333333333333333,
	"grad_norm": 0.5102922320365906,
	"learning_rate": 0.0002979755201233576,
	"loss": 3.0215587615966797,
	"step": 4090
	},
	{
	"epoch": 0.0075,
	"grad_norm": 0.521461009979248,
	"learning_rate": 0.00029796242103938096,
	"loss": 3.1003379821777344,
	"step": 4100
	},
	{
	"epoch": 0.007666666666666666,
	"grad_norm": 0.4812868535518646,
	"learning_rate": 0.00029794928000393843,
	"loss": 3.1397796630859376,
	"step": 4110
	},
	{
	"epoch": 0.007833333333333333,
	"grad_norm": 0.5282142758369446,
	"learning_rate": 0.0002979360970207558,
	"loss": 3.193585968017578,
	"step": 4120
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.5009388327598572,
	"learning_rate": 0.00029792287209357097,
	"loss": 3.1340686798095705,
	"step": 4130
	},
	{
	"epoch": 0.008166666666666666,
	"grad_norm": 0.6340370774269104,
	"learning_rate": 0.00029790960522613343,
	"loss": 3.0806493759155273,
	"step": 4140
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 0.5030133128166199,
	"learning_rate": 0.0002978962964222048,
	"loss": 3.170300102233887,
	"step": 4150
	},
	{
	"epoch": 0.0085,
	"grad_norm": 0.5144831538200378,
	"learning_rate": 0.0002978829456855584,
	"loss": 3.3535289764404297,
	"step": 4160
	},
	{
	"epoch": 0.008666666666666666,
	"grad_norm": 0.5370882153511047,
	"learning_rate": 0.0002978695530199796,
	"loss": 3.2686225891113283,
	"step": 4170
	},
	{
	"epoch": 0.008833333333333334,
	"grad_norm": 0.5093417167663574,
	"learning_rate": 0.0002978561184292656,
	"loss": 3.142299270629883,
	"step": 4180
	},
	{
	"epoch": 0.009,
	"grad_norm": 0.5327890515327454,
	"learning_rate": 0.0002978426419172255,
	"loss": 3.1478483200073244,
	"step": 4190
	},
	{
	"epoch": 0.009166666666666667,
	"grad_norm": 0.5170514583587646,
	"learning_rate": 0.0002978291234876802,
	"loss": 3.2556007385253904,
	"step": 4200
	},
	{
	"epoch": 0.009333333333333334,
	"grad_norm": 0.5124508142471313,
	"learning_rate": 0.00029781556314446264,
	"loss": 3.3029640197753904,
	"step": 4210
	},
	{
	"epoch": 0.0095,
	"grad_norm": 0.577273428440094,
	"learning_rate": 0.0002978019608914175,
	"loss": 3.2595043182373047,
	"step": 4220
	},
	{
	"epoch": 0.009666666666666667,
	"grad_norm": 0.5103987455368042,
	"learning_rate": 0.00029778831673240127,
	"loss": 3.243117904663086,
	"step": 4230
	},
	{
	"epoch": 0.009833333333333333,
	"grad_norm": 0.5025808215141296,
	"learning_rate": 0.00029777463067128267,
	"loss": 3.060438537597656,
	"step": 4240
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.44690072536468506,
	"learning_rate": 0.000297760902711942,
	"loss": 3.0471775054931642,
	"step": 4250
	},
	{
	"epoch": 0.010166666666666666,
	"grad_norm": 0.467395544052124,
	"learning_rate": 0.00029774713285827143,
	"loss": 2.98464298248291,
	"step": 4260
	},
	{
	"epoch": 0.010333333333333333,
	"grad_norm": 0.5547831058502197,
	"learning_rate": 0.00029773332111417524,
	"loss": 3.1703718185424803,
	"step": 4270
	},
	{
	"epoch": 0.0105,
	"grad_norm": 0.5768072009086609,
	"learning_rate": 0.0002977194674835693,
	"loss": 3.301234817504883,
	"step": 4280
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 0.45032358169555664,
	"learning_rate": 0.00029770557197038164,
	"loss": 3.2695812225341796,
	"step": 4290
	},
	{
	"epoch": 0.010833333333333334,
	"grad_norm": 0.46786898374557495,
	"learning_rate": 0.0002976916345785519,
	"loss": 3.2581401824951173,
	"step": 4300
	},
	{
	"epoch": 0.011,
	"grad_norm": 0.4445962905883789,
	"learning_rate": 0.0002976776553120319,
	"loss": 3.285322570800781,
	"step": 4310
	},
	{
	"epoch": 0.011166666666666667,
	"grad_norm": 0.47308477759361267,
	"learning_rate": 0.00029766363417478494,
	"loss": 3.2954906463623046,
	"step": 4320
	},
	{
	"epoch": 0.011333333333333334,
	"grad_norm": 0.48444363474845886,
	"learning_rate": 0.0002976495711707865,
	"loss": 3.3107620239257813,
	"step": 4330
	},
	{
	"epoch": 0.0115,
	"grad_norm": 0.5089991092681885,
	"learning_rate": 0.00029763546630402386,
	"loss": 3.2996601104736327,
	"step": 4340
	},
	{
	"epoch": 0.011666666666666667,
	"grad_norm": 0.46392160654067993,
	"learning_rate": 0.000297621319578496,
	"loss": 3.358951950073242,
	"step": 4350
	},
	{
	"epoch": 0.011833333333333333,
	"grad_norm": 0.47319114208221436,
	"learning_rate": 0.00029760713099821415,
	"loss": 3.215884780883789,
	"step": 4360
	},
	{
	"epoch": 0.012,
	"grad_norm": 0.4464090168476105,
	"learning_rate": 0.00029759290056720095,
	"loss": 2.9921100616455076,
	"step": 4370
	},
	{
	"epoch": 0.012166666666666666,
	"grad_norm": 0.4325127601623535,
	"learning_rate": 0.00029757862828949124,
	"loss": 2.7973331451416015,
	"step": 4380
	},
	{
	"epoch": 0.012333333333333333,
	"grad_norm": 0.46863001585006714,
	"learning_rate": 0.00029756431416913157,
	"loss": 2.923106384277344,
	"step": 4390
	},
	{
	"epoch": 0.0125,
	"grad_norm": 0.4626036286354065,
	"learning_rate": 0.00029754995821018045,
	"loss": 3.0310813903808596,
	"step": 4400
	},
	{
	"epoch": 0.012666666666666666,
	"grad_norm": 0.4916419982910156,
	"learning_rate": 0.0002975355604167081,
	"loss": 3.093164825439453,
	"step": 4410
	},
	{
	"epoch": 0.012833333333333334,
	"grad_norm": 0.4526589810848236,
	"learning_rate": 0.0002975211207927967,
	"loss": 3.295928955078125,
	"step": 4420
	},
	{
	"epoch": 0.013,
	"grad_norm": 0.4669049084186554,
	"learning_rate": 0.00029750663934254034,
	"loss": 3.2381587982177735,
	"step": 4430
	},
	{
	"epoch": 0.013166666666666667,
	"grad_norm": 0.46921107172966003,
	"learning_rate": 0.0002974921160700449,
	"loss": 3.1719486236572267,
	"step": 4440
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 0.5220564007759094,
	"learning_rate": 0.0002974775509794282,
	"loss": 3.2720565795898438,
	"step": 4450
	},
	{
	"epoch": 0.0135,
	"grad_norm": 0.4780034124851227,
	"learning_rate": 0.0002974629440748197,
	"loss": 3.291085433959961,
	"step": 4460
	},
	{
	"epoch": 0.013666666666666667,
	"grad_norm": 0.4605162739753723,
	"learning_rate": 0.00029744829536036097,
	"loss": 3.2416168212890626,
	"step": 4470
	},
	{
	"epoch": 0.013833333333333333,
	"grad_norm": 0.4649753272533417,
	"learning_rate": 0.0002974336048402053,
	"loss": 3.183604049682617,
	"step": 4480
	},
	{
	"epoch": 0.014,
	"grad_norm": 0.444002240896225,
	"learning_rate": 0.00029741887251851786,
	"loss": 3.1085399627685546,
	"step": 4490
	},
	{
	"epoch": 0.014166666666666666,
	"grad_norm": 0.4448355436325073,
	"learning_rate": 0.00029740409839947566,
	"loss": 3.116347885131836,
	"step": 4500
	},
	{
	"epoch": 0.014333333333333333,
	"grad_norm": 0.4390920102596283,
	"learning_rate": 0.00029738928248726764,
	"loss": 3.1324329376220703,
	"step": 4510
	},
	{
	"epoch": 0.0145,
	"grad_norm": 0.4476589858531952,
	"learning_rate": 0.0002973744247860944,
	"loss": 3.1119213104248047,
	"step": 4520
	},
	{
	"epoch": 0.014666666666666666,
	"grad_norm": 0.4517284035682678,
	"learning_rate": 0.0002973595253001687,
	"loss": 3.0000232696533202,
	"step": 4530
	},
	{
	"epoch": 0.014833333333333334,
	"grad_norm": 0.4266926646232605,
	"learning_rate": 0.00029734458403371473,
	"loss": 3.0543354034423826,
	"step": 4540
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.465181440114975,
	"learning_rate": 0.00029732960099096894,
	"loss": 3.1297534942626952,
	"step": 4550
	},
	{
	"epoch": 0.015166666666666667,
	"grad_norm": 0.44289475679397583,
	"learning_rate": 0.0002973145761761793,
	"loss": 3.1308570861816407,
	"step": 4560
	},
	{
	"epoch": 0.015333333333333332,
	"grad_norm": 0.45259231328964233,
	"learning_rate": 0.00029729950959360587,
	"loss": 3.113242340087891,
	"step": 4570
	},
	{
	"epoch": 0.0155,
	"grad_norm": 0.49212995171546936,
	"learning_rate": 0.00029728440124752043,
	"loss": 3.1158754348754885,
	"step": 4580
	},
	{
	"epoch": 0.015666666666666666,
	"grad_norm": 0.44125884771347046,
	"learning_rate": 0.00029726925114220655,
	"loss": 3.074172782897949,
	"step": 4590
	},
	{
	"epoch": 0.015833333333333335,
	"grad_norm": 0.445905864238739,
	"learning_rate": 0.0002972540592819598,
	"loss": 3.08502140045166,
	"step": 4600
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.4353269934654236,
	"learning_rate": 0.00029723882567108745,
	"loss": 2.9679975509643555,
	"step": 4610
	},
	{
	"epoch": 0.016166666666666666,
	"grad_norm": 0.4166252315044403,
	"learning_rate": 0.0002972235503139086,
	"loss": 2.9368864059448243,
	"step": 4620
	},
	{
	"epoch": 0.01633333333333333,
	"grad_norm": 0.4455665946006775,
	"learning_rate": 0.0002972082332147543,
	"loss": 3.0976829528808594,
	"step": 4630
	},
	{
	"epoch": 0.0165,
	"grad_norm": 0.4223819673061371,
	"learning_rate": 0.0002971928743779674,
	"loss": 3.026397132873535,
	"step": 4640
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.441989541053772,
	"learning_rate": 0.0002971774738079025,
	"loss": 3.0403167724609377,
	"step": 4650
	},
	{
	"epoch": 0.016833333333333332,
	"grad_norm": 0.435830295085907,
	"learning_rate": 0.0002971620315089261,
	"loss": 3.1183338165283203,
	"step": 4660
	},
	{
	"epoch": 0.017,
	"grad_norm": 0.4655296802520752,
	"learning_rate": 0.00029714654748541657,
	"loss": 3.1077341079711913,
	"step": 4670
	},
	{
	"epoch": 0.017166666666666667,
	"grad_norm": 0.4390181601047516,
	"learning_rate": 0.000297131021741764,
	"loss": 3.0585168838500976,
	"step": 4680
	},
	{
	"epoch": 0.017333333333333333,
	"grad_norm": 0.46241506934165955,
	"learning_rate": 0.0002971154542823704,
	"loss": 3.0429901123046874,
	"step": 4690
	},
	{
	"epoch": 0.0175,
	"grad_norm": 0.42871007323265076,
	"learning_rate": 0.00029709984511164955,
	"loss": 3.0659711837768553,
	"step": 4700
	},
	{
	"epoch": 0.017666666666666667,
	"grad_norm": 0.4105594754219055,
	"learning_rate": 0.00029708419423402717,
	"loss": 3.0605178833007813,
	"step": 4710
	},
	{
	"epoch": 0.017833333333333333,
	"grad_norm": 0.45519882440567017,
	"learning_rate": 0.0002970685016539406,
	"loss": 3.048724365234375,
	"step": 4720
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.42550894618034363,
	"learning_rate": 0.0002970527673758392,
	"loss": 2.9582677841186524,
	"step": 4730
	},
	{
	"epoch": 0.018166666666666668,
	"grad_norm": 0.4230113923549652,
	"learning_rate": 0.00029703699140418404,
	"loss": 3.0614328384399414,
	"step": 4740
	},
	{
	"epoch": 0.018333333333333333,
	"grad_norm": 0.474998414516449,
	"learning_rate": 0.0002970211737434481,
	"loss": 3.1223560333251954,
	"step": 4750
	},
	{
	"epoch": 0.0185,
	"grad_norm": 0.41748204827308655,
	"learning_rate": 0.00029700531439811603,
	"loss": 3.1135513305664064,
	"step": 4760
	},
	{
	"epoch": 0.018666666666666668,
	"grad_norm": 0.48395001888275146,
	"learning_rate": 0.0002969894133726845,
	"loss": 2.9970415115356444,
	"step": 4770
	},
	{
	"epoch": 0.018833333333333334,
	"grad_norm": 0.45481327176094055,
	"learning_rate": 0.0002969734706716618,
	"loss": 3.071116828918457,
	"step": 4780
	},
	{
	"epoch": 0.019,
	"grad_norm": 0.4932529926300049,
	"learning_rate": 0.0002969574862995683,
	"loss": 2.951759147644043,
	"step": 4790
	},
	{
	"epoch": 0.019166666666666665,
	"grad_norm": 0.45772960782051086,
	"learning_rate": 0.0002969414602609358,
	"loss": 2.9374309539794923,
	"step": 4800
	},
	{
	"epoch": 0.019333333333333334,
	"grad_norm": 0.40841713547706604,
	"learning_rate": 0.0002969253925603083,
	"loss": 2.9139503479003905,
	"step": 4810
	},
	{
	"epoch": 0.0195,
	"grad_norm": 0.422498494386673,
	"learning_rate": 0.00029690928320224127,
	"loss": 3.0036170959472654,
	"step": 4820
	},
	{
	"epoch": 0.019666666666666666,
	"grad_norm": 0.41859570145606995,
	"learning_rate": 0.0002968931321913023,
	"loss": 3.030325698852539,
	"step": 4830
	},
	{
	"epoch": 0.019833333333333335,
	"grad_norm": 0.4252321720123291,
	"learning_rate": 0.0002968769395320706,
	"loss": 2.9996585845947266,
	"step": 4840
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.39273467659950256,
	"learning_rate": 0.00029686070522913727,
	"loss": 3.0428844451904298,
	"step": 4850
	},
	{
	"epoch": 0.020166666666666666,
	"grad_norm": 0.4008473753929138,
	"learning_rate": 0.0002968444292871051,
	"loss": 3.038602828979492,
	"step": 4860
	},
	{
	"epoch": 0.02033333333333333,
	"grad_norm": 0.39325961470603943,
	"learning_rate": 0.00029682811171058887,
	"loss": 3.0508377075195314,
	"step": 4870
	},
	{
	"epoch": 0.0205,
	"grad_norm": 0.42926836013793945,
	"learning_rate": 0.0002968117525042151,
	"loss": 2.9267642974853514,
	"step": 4880
	},
	{
	"epoch": 0.020666666666666667,
	"grad_norm": 0.3997902572154999,
	"learning_rate": 0.00029679535167262194,
	"loss": 2.908608627319336,
	"step": 4890
	},
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 0.39283305406570435,
	"learning_rate": 0.00029677890922045954,
	"loss": 2.8062005996704102,
	"step": 4900
	},
	{
	"epoch": 0.021,
	"grad_norm": 0.5050291419029236,
	"learning_rate": 0.00029676242515238986,
	"loss": 2.977495574951172,
	"step": 4910
	},
	{
	"epoch": 0.021166666666666667,
	"grad_norm": 0.4664459228515625,
	"learning_rate": 0.0002967458994730865,
	"loss": 3.0423885345458985,
	"step": 4920
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 0.4809158742427826,
	"learning_rate": 0.000296729332187235,
	"loss": 2.9984725952148437,
	"step": 4930
	},
	{
	"epoch": 0.0215,
	"grad_norm": 0.4519208073616028,
	"learning_rate": 0.00029671272329953266,
	"loss": 2.9846240997314455,
	"step": 4940
	},
	{
	"epoch": 0.021666666666666667,
	"grad_norm": 0.4372696578502655,
	"learning_rate": 0.0002966960728146885,
	"loss": 3.0425092697143556,
	"step": 4950
	},
	{
	"epoch": 0.021833333333333333,
	"grad_norm": 0.42301109433174133,
	"learning_rate": 0.00029667938073742346,
	"loss": 2.9889686584472654,
	"step": 4960
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.3952590525150299,
	"learning_rate": 0.0002966626470724702,
	"loss": 2.9601165771484377,
	"step": 4970
	},
	{
	"epoch": 0.022166666666666668,
	"grad_norm": 0.4400894343852997,
	"learning_rate": 0.0002966458718245732,
	"loss": 2.9297361373901367,
	"step": 4980
	},
	{
	"epoch": 0.022333333333333334,
	"grad_norm": 0.3968198001384735,
	"learning_rate": 0.0002966290549984886,
	"loss": 2.923467445373535,
	"step": 4990
	},
	{
	"epoch": 0.0225,
	"grad_norm": 0.4230905771255493,
	"learning_rate": 0.0002966121965989845,
	"loss": 2.8356529235839845,
	"step": 5000
	},
	{
	"epoch": 0.02266666666666667,
	"grad_norm": 0.4638538658618927,
	"learning_rate": 0.0002965952966308408,
	"loss": 2.751129913330078,
	"step": 5010
	},
	{
	"epoch": 0.022833333333333334,
	"grad_norm": 0.4058930277824402,
	"learning_rate": 0.000296578355098849,
	"loss": 2.8753490447998047,
	"step": 5020
	},
	{
	"epoch": 0.023,
	"grad_norm": 0.4356415271759033,
	"learning_rate": 0.0002965613720078126,
	"loss": 2.9448657989501954,
	"step": 5030
	},
	{
	"epoch": 0.023166666666666665,
	"grad_norm": 0.4432661533355713,
	"learning_rate": 0.0002965443473625467,
	"loss": 3.0600040435791014,
	"step": 5040
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 0.40705952048301697,
	"learning_rate": 0.0002965272811678783,
	"loss": 3.039891815185547,
	"step": 5050
	},
	{
	"epoch": 0.0235,
	"grad_norm": 0.4108118712902069,
	"learning_rate": 0.0002965101734286461,
	"loss": 3.0408308029174806,
	"step": 5060
	},
	{
	"epoch": 0.023666666666666666,
	"grad_norm": 0.41265869140625,
	"learning_rate": 0.0002964930241497007,
	"loss": 3.060531806945801,
	"step": 5070
	},
	{
	"epoch": 0.023833333333333335,
	"grad_norm": 0.3892955780029297,
	"learning_rate": 0.0002964758333359043,
	"loss": 2.961796188354492,
	"step": 5080
	},
	{
	"epoch": 0.024,
	"grad_norm": 0.38490405678749084,
	"learning_rate": 0.000296458600992131,
	"loss": 3.079538917541504,
	"step": 5090
	},
	{
	"epoch": 0.024166666666666666,
	"grad_norm": 0.39841511845588684,
	"learning_rate": 0.0002964413271232667,
	"loss": 2.9802776336669923,
	"step": 5100
	},
	{
	"epoch": 0.024333333333333332,
	"grad_norm": 0.4207797944545746,
	"learning_rate": 0.000296424011734209,
	"loss": 2.8793426513671876,
	"step": 5110
	},
	{
	"epoch": 0.0245,
	"grad_norm": 0.4052133858203888,
	"learning_rate": 0.0002964066548298673,
	"loss": 2.856357765197754,
	"step": 5120
	},
	{
	"epoch": 0.024666666666666667,
	"grad_norm": 0.3816324472427368,
	"learning_rate": 0.0002963892564151627,
	"loss": 2.9858179092407227,
	"step": 5130
	},
	{
	"epoch": 0.024833333333333332,
	"grad_norm": 0.47515869140625,
	"learning_rate": 0.0002963718164950282,
	"loss": 3.1763587951660157,
	"step": 5140
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.40806320309638977,
	"learning_rate": 0.0002963543350744085,
	"loss": 3.151714324951172,
	"step": 5150
	},
	{
	"epoch": 0.025166666666666667,
	"grad_norm": 0.5163785219192505,
	"learning_rate": 0.00029633681215826004,
	"loss": 2.945247459411621,
	"step": 5160
	},
	{
	"epoch": 0.025333333333333333,
	"grad_norm": 0.4207831919193268,
	"learning_rate": 0.0002963192477515511,
	"loss": 3.0415407180786134,
	"step": 5170
	},
	{
	"epoch": 0.0255,
	"grad_norm": 0.40855222940444946,
	"learning_rate": 0.00029630164185926166,
	"loss": 3.1059539794921873,
	"step": 5180
	},
	{
	"epoch": 0.025666666666666667,
	"grad_norm": 0.3957916498184204,
	"learning_rate": 0.0002962839944863835,
	"loss": 3.0001821517944336,
	"step": 5190
	},
	{
	"epoch": 0.025833333333333333,
	"grad_norm": 0.39638176560401917,
	"learning_rate": 0.0002962663056379201,
	"loss": 3.1186132431030273,
	"step": 5200
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.3970320224761963,
	"learning_rate": 0.0002962485753188867,
	"loss": 3.1292917251586916,
	"step": 5210
	},
	{
	"epoch": 0.026166666666666668,
	"grad_norm": 0.46836334466934204,
	"learning_rate": 0.00029623080353431046,
	"loss": 3.1594337463378905,
	"step": 5220
	},
	{
	"epoch": 0.026333333333333334,
	"grad_norm": 0.41316238045692444,
	"learning_rate": 0.0002962129902892301,
	"loss": 3.108985710144043,
	"step": 5230
	},
	{
	"epoch": 0.0265,
	"grad_norm": 0.38777822256088257,
	"learning_rate": 0.0002961951355886961,
	"loss": 3.050784873962402,
	"step": 5240
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.39757364988327026,
	"learning_rate": 0.00029617723943777094,
	"loss": 3.0273033142089845,
	"step": 5250
	},
	{
	"epoch": 0.026833333333333334,
	"grad_norm": 0.3906317949295044,
	"learning_rate": 0.00029615930184152855,
	"loss": 3.077456474304199,
	"step": 5260
	},
	{
	"epoch": 0.027,
	"grad_norm": 0.4051954746246338,
	"learning_rate": 0.00029614132280505475,
	"loss": 3.0868051528930662,
	"step": 5270
	},
	{
	"epoch": 0.027166666666666665,
	"grad_norm": 0.3984355032444,
	"learning_rate": 0.00029612330233344715,
	"loss": 3.0292882919311523,
	"step": 5280
	},
	{
	"epoch": 0.027333333333333334,
	"grad_norm": 0.46807315945625305,
	"learning_rate": 0.00029610524043181504,
	"loss": 3.0543338775634767,
	"step": 5290
	},
	{
	"epoch": 0.0275,
	"grad_norm": 0.4327753782272339,
	"learning_rate": 0.00029608713710527944,
	"loss": 3.0852005004882814,
	"step": 5300
	},
	{
	"epoch": 0.027666666666666666,
	"grad_norm": 0.4260406792163849,
	"learning_rate": 0.0002960689923589732,
	"loss": 3.109157180786133,
	"step": 5310
	},
	{
	"epoch": 0.027833333333333335,
	"grad_norm": 0.41041651368141174,
	"learning_rate": 0.00029605080619804074,
	"loss": 3.025878143310547,
	"step": 5320
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.41694915294647217,
	"learning_rate": 0.0002960325786276385,
	"loss": 3.0681831359863283,
	"step": 5330
	},
	{
	"epoch": 0.028166666666666666,
	"grad_norm": 0.3778274655342102,
	"learning_rate": 0.0002960143096529344,
	"loss": 3.064166259765625,
	"step": 5340
	},
	{
	"epoch": 0.028333333333333332,
	"grad_norm": 0.3917562961578369,
	"learning_rate": 0.00029599599927910826,
	"loss": 3.0182376861572267,
	"step": 5350
	},
	{
	"epoch": 0.0285,
	"grad_norm": 0.42189955711364746,
	"learning_rate": 0.0002959776475113515,
	"loss": 3.016231155395508,
	"step": 5360
	},
	{
	"epoch": 0.028666666666666667,
	"grad_norm": 0.4121429920196533,
	"learning_rate": 0.00029595925435486745,
	"loss": 3.0514553070068358,
	"step": 5370
	},
	{
	"epoch": 0.028833333333333332,
	"grad_norm": 0.42146554589271545,
	"learning_rate": 0.000295940819814871,
	"loss": 3.052465629577637,
	"step": 5380
	},
	{
	"epoch": 0.029,
	"grad_norm": 0.377998948097229,
	"learning_rate": 0.000295922343896589,
	"loss": 2.8454496383666994,
	"step": 5390
	},
	{
	"epoch": 0.029166666666666667,
	"grad_norm": 0.39422616362571716,
	"learning_rate": 0.0002959038266052597,
	"loss": 2.6665836334228517,
	"step": 5400
	},
	{
	"epoch": 0.029333333333333333,
	"grad_norm": 0.3714645802974701,
	"learning_rate": 0.00029588526794613334,
	"loss": 2.6556703567504885,
	"step": 5410
	},
	{
	"epoch": 0.0295,
	"grad_norm": 0.39717552065849304,
	"learning_rate": 0.00029586666792447185,
	"loss": 2.736180305480957,
	"step": 5420
	},
	{
	"epoch": 0.029666666666666668,
	"grad_norm": 0.4036571979522705,
	"learning_rate": 0.0002958480265455489,
	"loss": 2.7086135864257814,
	"step": 5430
	},
	{
	"epoch": 0.029833333333333333,
	"grad_norm": 0.3743681013584137,
	"learning_rate": 0.0002958293438146497,
	"loss": 2.941759490966797,
	"step": 5440
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.40706613659858704,
	"learning_rate": 0.0002958106197370714,
	"loss": 2.948502540588379,
	"step": 5450
	},
	{
	"epoch": 0.030166666666666668,
	"grad_norm": 0.4117063879966736,
	"learning_rate": 0.00029579185431812286,
	"loss": 2.9798656463623048,
	"step": 5460
	},
	{
	"epoch": 0.030333333333333334,
	"grad_norm": 0.4454329311847687,
	"learning_rate": 0.0002957730475631245,
	"loss": 2.9249732971191404,
	"step": 5470
	},
	{
	"epoch": 0.0305,
	"grad_norm": 0.39523670077323914,
	"learning_rate": 0.0002957541994774086,
	"loss": 2.8878499984741213,
	"step": 5480
	},
	{
	"epoch": 0.030666666666666665,
	"grad_norm": 0.36399638652801514,
	"learning_rate": 0.00029573531006631907,
	"loss": 2.9448997497558596,
	"step": 5490
	},
	{
	"epoch": 0.030833333333333334,
	"grad_norm": 0.4440824091434479,
	"learning_rate": 0.00029571637933521164,
	"loss": 2.878627395629883,
	"step": 5500
	},
	{
	"epoch": 0.031,
	"grad_norm": 0.4278319180011749,
	"learning_rate": 0.0002956974072894537,
	"loss": 2.9515048980712892,
	"step": 5510
	},
	{
	"epoch": 0.031166666666666665,
	"grad_norm": 0.40986528992652893,
	"learning_rate": 0.00029567839393442437,
	"loss": 2.9613771438598633,
	"step": 5520
	},
	{
	"epoch": 0.03133333333333333,
	"grad_norm": 0.3902529776096344,
	"learning_rate": 0.00029565933927551435,
	"loss": 2.923776054382324,
	"step": 5530
	},
	{
	"epoch": 0.0315,
	"grad_norm": 0.41012078523635864,
	"learning_rate": 0.0002956402433181263,
	"loss": 2.975874328613281,
	"step": 5540
	},
	{
	"epoch": 0.03166666666666667,
	"grad_norm": 0.40504106879234314,
	"learning_rate": 0.0002956211060676744,
	"loss": 2.909282112121582,
	"step": 5550
	},
	{
	"epoch": 0.03183333333333333,
	"grad_norm": 0.4037550091743469,
	"learning_rate": 0.0002956019275295846,
	"loss": 2.9982988357543947,
	"step": 5560
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.3706510663032532,
	"learning_rate": 0.00029558270770929456,
	"loss": 2.942987060546875,
	"step": 5570
	},
	{
	"epoch": 0.03216666666666667,
	"grad_norm": 0.3897784650325775,
	"learning_rate": 0.00029556344661225357,
	"loss": 2.9039384841918947,
	"step": 5580
	},
	{
	"epoch": 0.03233333333333333,
	"grad_norm": 0.4270058870315552,
	"learning_rate": 0.0002955441442439228,
	"loss": 2.9499792098999023,
	"step": 5590
	},
	{
	"epoch": 0.0325,
	"grad_norm": 0.39148110151290894,
	"learning_rate": 0.0002955248006097749,
	"loss": 3.0189350128173826,
	"step": 5600
	},
	{
	"epoch": 0.03266666666666666,
	"grad_norm": 0.3739214241504669,
	"learning_rate": 0.00029550541571529443,
	"loss": 2.86805419921875,
	"step": 5610
	},
	{
	"epoch": 0.03283333333333333,
	"grad_norm": 0.37678641080856323,
	"learning_rate": 0.00029548598956597745,
	"loss": 2.8048625946044923,
	"step": 5620
	},
	{
	"epoch": 0.033,
	"grad_norm": 0.38853731751441956,
	"learning_rate": 0.00029546652216733187,
	"loss": 2.921887969970703,
	"step": 5630
	},
	{
	"epoch": 0.033166666666666664,
	"grad_norm": 0.40962421894073486,
	"learning_rate": 0.0002954470135248772,
	"loss": 2.859710121154785,
	"step": 5640
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.4202129542827606,
	"learning_rate": 0.0002954274636441448,
	"loss": 2.8912075042724608,
	"step": 5650
	},
	{
	"epoch": 0.0335,
	"grad_norm": 0.3784216642379761,
	"learning_rate": 0.00029540787253067746,
	"loss": 2.8085119247436525,
	"step": 5660
	},
	{
	"epoch": 0.033666666666666664,
	"grad_norm": 0.3924359977245331,
	"learning_rate": 0.0002953882401900298,
	"loss": 2.913351821899414,
	"step": 5670
	},
	{
	"epoch": 0.03383333333333333,
	"grad_norm": 0.40623074769973755,
	"learning_rate": 0.00029536856662776826,
	"loss": 2.944149398803711,
	"step": 5680
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.4099932014942169,
	"learning_rate": 0.00029534885184947076,
	"loss": 2.875970649719238,
	"step": 5690
	},
	{
	"epoch": 0.034166666666666665,
	"grad_norm": 0.36651095747947693,
	"learning_rate": 0.00029532909586072706,
	"loss": 2.841335105895996,
	"step": 5700
	},
	{
	"epoch": 0.034333333333333334,
	"grad_norm": 0.3954033851623535,
	"learning_rate": 0.00029530929866713844,
	"loss": 2.87349910736084,
	"step": 5710
	},
	{
	"epoch": 0.0345,
	"grad_norm": 0.3759227395057678,
	"learning_rate": 0.00029528946027431797,
	"loss": 2.8565431594848634,
	"step": 5720
	},
	{
	"epoch": 0.034666666666666665,
	"grad_norm": 0.35877352952957153,
	"learning_rate": 0.0002952695806878905,
	"loss": 2.806620407104492,
	"step": 5730
	},
	{
	"epoch": 0.034833333333333334,
	"grad_norm": 0.3754509389400482,
	"learning_rate": 0.00029524965991349226,
	"loss": 2.7679475784301757,
	"step": 5740
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.34031248092651367,
	"learning_rate": 0.00029522969795677147,
	"loss": 2.670439910888672,
	"step": 5750
	},
	{
	"epoch": 0.035166666666666666,
	"grad_norm": 0.36299699544906616,
	"learning_rate": 0.0002952096948233879,
	"loss": 2.76367073059082,
	"step": 5760
	},
	{
	"epoch": 0.035333333333333335,
	"grad_norm": 0.3920454680919647,
	"learning_rate": 0.00029518965051901296,
	"loss": 2.814274215698242,
	"step": 5770
	},
	{
	"epoch": 0.0355,
	"grad_norm": 0.36294087767601013,
	"learning_rate": 0.0002951695650493298,
	"loss": 2.7482378005981447,
	"step": 5780
	},
	{
	"epoch": 0.035666666666666666,
	"grad_norm": 0.36339011788368225,
	"learning_rate": 0.00029514943842003316,
	"loss": 2.7880197525024415,
	"step": 5790
	},
	{
	"epoch": 0.035833333333333335,
	"grad_norm": 0.3664824962615967,
	"learning_rate": 0.0002951292706368295,
	"loss": 2.74920539855957,
	"step": 5800
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.37298399209976196,
	"learning_rate": 0.0002951090617054371,
	"loss": 2.7620262145996093,
	"step": 5810
	},
	{
	"epoch": 0.036166666666666666,
	"grad_norm": 0.5309566259384155,
	"learning_rate": 0.0002950888116315855,
	"loss": 2.880209732055664,
	"step": 5820
	},
	{
	"epoch": 0.036333333333333336,
	"grad_norm": 0.3781473636627197,
	"learning_rate": 0.00029506852042101634,
	"loss": 2.832257080078125,
	"step": 5830
	},
	{
	"epoch": 0.0365,
	"grad_norm": 0.3755476474761963,
	"learning_rate": 0.0002950481880794827,
	"loss": 2.72965145111084,
	"step": 5840
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 0.3585830628871918,
	"learning_rate": 0.0002950278146127493,
	"loss": 2.7756679534912108,
	"step": 5850
	},
	{
	"epoch": 0.036833333333333336,
	"grad_norm": 0.378136545419693,
	"learning_rate": 0.0002950074000265927,
	"loss": 2.8998336791992188,
	"step": 5860
	},
	{
	"epoch": 0.037,
	"grad_norm": 0.3947715759277344,
	"learning_rate": 0.0002949869443268009,
	"loss": 2.9380889892578126,
	"step": 5870
	},
	{
	"epoch": 0.03716666666666667,
	"grad_norm": 0.40435487031936646,
	"learning_rate": 0.00029496644751917376,
	"loss": 2.7399545669555665,
	"step": 5880
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 0.37711283564567566,
	"learning_rate": 0.00029494590960952265,
	"loss": 2.588311195373535,
	"step": 5890
	},
	{
	"epoch": 0.0375,
	"grad_norm": 0.4344159960746765,
	"learning_rate": 0.0002949253306036706,
	"loss": 2.574771499633789,
	"step": 5900
	},
	{
	"epoch": 0.03766666666666667,
	"grad_norm": 0.4346453547477722,
	"learning_rate": 0.0002949047105074524,
	"loss": 2.50732364654541,
	"step": 5910
	},
	{
	"epoch": 0.03783333333333333,
	"grad_norm": 0.37476930022239685,
	"learning_rate": 0.00029488404932671435,
	"loss": 2.601269340515137,
	"step": 5920
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.41381752490997314,
	"learning_rate": 0.0002948633470673145,
	"loss": 2.5921453475952148,
	"step": 5930
	},
	{
	"epoch": 0.03816666666666667,
	"grad_norm": 0.39000943303108215,
	"learning_rate": 0.0002948426037351225,
	"loss": 2.6637712478637696,
	"step": 5940
	},
	{
	"epoch": 0.03833333333333333,
	"grad_norm": 0.37929767370224,
	"learning_rate": 0.00029482181933601973,
	"loss": 2.811085319519043,
	"step": 5950
	},
	{
	"epoch": 0.0385,
	"grad_norm": 0.3917810618877411,
	"learning_rate": 0.00029480099387589907,
	"loss": 2.6634618759155275,
	"step": 5960
	},
	{
	"epoch": 0.03866666666666667,
	"grad_norm": 0.3915526866912842,
	"learning_rate": 0.00029478012736066517,
	"loss": 2.778007698059082,
	"step": 5970
	},
	{
	"epoch": 0.03883333333333333,
	"grad_norm": 0.369268000125885,
	"learning_rate": 0.00029475921979623423,
	"loss": 2.696705627441406,
	"step": 5980
	},
	{
	"epoch": 0.039,
	"grad_norm": 0.40467938780784607,
	"learning_rate": 0.00029473827118853415,
	"loss": 2.8099590301513673,
	"step": 5990
	},
	{
	"epoch": 0.03916666666666667,
	"grad_norm": 0.3687494099140167,
	"learning_rate": 0.00029471728154350444,
	"loss": 2.881623649597168,
	"step": 6000
	},
	{
	"epoch": 0.03933333333333333,
	"grad_norm": 0.3854578137397766,
	"learning_rate": 0.00029469625086709625,
	"loss": 2.7410490036010744,
	"step": 6010
	},
	{
	"epoch": 0.0395,
	"grad_norm": 0.383655309677124,
	"learning_rate": 0.00029467517916527235,
	"loss": 2.7792194366455076,
	"step": 6020
	},
	{
	"epoch": 0.03966666666666667,
	"grad_norm": 0.3862553834915161,
	"learning_rate": 0.00029465406644400713,
	"loss": 2.7575822830200196,
	"step": 6030
	},
	{
	"epoch": 0.03983333333333333,
	"grad_norm": 0.39918553829193115,
	"learning_rate": 0.00029463291270928675,
	"loss": 2.9260843276977537,
	"step": 6040
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.38666027784347534,
	"learning_rate": 0.0002946117179671087,
	"loss": 2.838565635681152,
	"step": 6050
	},
	{
	"epoch": 0.04016666666666667,
	"grad_norm": 0.3723886013031006,
	"learning_rate": 0.0002945904822234824,
	"loss": 2.836383819580078,
	"step": 6060
	},
	{
	"epoch": 0.04033333333333333,
	"grad_norm": 0.4081844985485077,
	"learning_rate": 0.0002945692054844288,
	"loss": 2.949822425842285,
	"step": 6070
	},
	{
	"epoch": 0.0405,
	"grad_norm": 0.3790690302848816,
	"learning_rate": 0.00029454788775598037,
	"loss": 3.035497856140137,
	"step": 6080
	},
	{
	"epoch": 0.04066666666666666,
	"grad_norm": 0.37471655011177063,
	"learning_rate": 0.00029452652904418127,
	"loss": 3.0849964141845705,
	"step": 6090
	},
	{
	"epoch": 0.04083333333333333,
	"grad_norm": 0.39325064420700073,
	"learning_rate": 0.0002945051293550874,
	"loss": 3.193227767944336,
	"step": 6100
	},
	{
	"epoch": 0.041,
	"grad_norm": 0.42698314785957336,
	"learning_rate": 0.00029448368869476604,
	"loss": 3.1598060607910154,
	"step": 6110
	},
	{
	"epoch": 0.041166666666666664,
	"grad_norm": 0.40960320830345154,
	"learning_rate": 0.0002944622070692963,
	"loss": 3.2183509826660157,
	"step": 6120
	},
	{
	"epoch": 0.04133333333333333,
	"grad_norm": 0.3762412965297699,
	"learning_rate": 0.0002944406844847688,
	"loss": 3.1716684341430663,
	"step": 6130
	},
	{
	"epoch": 0.0415,
	"grad_norm": 0.4189164340496063,
	"learning_rate": 0.00029441912094728574,
	"loss": 3.1513088226318358,
	"step": 6140
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.4057857394218445,
	"learning_rate": 0.00029439751646296106,
	"loss": 3.0799839019775392,
	"step": 6150
	},
	{
	"epoch": 0.041833333333333333,
	"grad_norm": 0.4074974060058594,
	"learning_rate": 0.00029437587103792016,
	"loss": 2.9888477325439453,
	"step": 6160
	},
	{
	"epoch": 0.042,
	"grad_norm": 0.371817409992218,
	"learning_rate": 0.0002943541846783002,
	"loss": 2.948713684082031,
	"step": 6170
	},
	{
	"epoch": 0.042166666666666665,
	"grad_norm": 0.37995588779449463,
	"learning_rate": 0.0002943324573902498,
	"loss": 2.8891929626464843,
	"step": 6180
	},
	{
	"epoch": 0.042333333333333334,
	"grad_norm": 0.3674244284629822,
	"learning_rate": 0.0002943106891799293,
	"loss": 2.796030807495117,
	"step": 6190
	},
	{
	"epoch": 0.0425,
	"grad_norm": 0.36154231429100037,
	"learning_rate": 0.0002942888800535105,
	"loss": 2.850292778015137,
	"step": 6200
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 0.38896098732948303,
	"learning_rate": 0.0002942670300171771,
	"loss": 2.7989007949829103,
	"step": 6210
	},
	{
	"epoch": 0.042833333333333334,
	"grad_norm": 0.3838213384151459,
	"learning_rate": 0.00029424513907712395,
	"loss": 2.896153450012207,
	"step": 6220
	},
	{
	"epoch": 0.043,
	"grad_norm": 0.40118804574012756,
	"learning_rate": 0.0002942232072395579,
	"loss": 3.0006587982177733,
	"step": 6230
	},
	{
	"epoch": 0.043166666666666666,
	"grad_norm": 0.38531655073165894,
	"learning_rate": 0.0002942012345106971,
	"loss": 2.9570644378662108,
	"step": 6240
	},
	{
	"epoch": 0.043333333333333335,
	"grad_norm": 0.38946714997291565,
	"learning_rate": 0.0002941792208967716,
	"loss": 2.946304702758789,
	"step": 6250
	},
	{
	"epoch": 0.0435,
	"grad_norm": 0.39669328927993774,
	"learning_rate": 0.00029415716640402275,
	"loss": 2.962474822998047,
	"step": 6260
	},
	{
	"epoch": 0.043666666666666666,
	"grad_norm": 0.3736763298511505,
	"learning_rate": 0.0002941350710387037,
	"loss": 3.041091728210449,
	"step": 6270
	},
	{
	"epoch": 0.043833333333333335,
	"grad_norm": 0.37087109684944153,
	"learning_rate": 0.000294112934807079,
	"loss": 2.9812034606933593,
	"step": 6280
	},
	{
	"epoch": 0.044,
	"grad_norm": 0.3676629066467285,
	"learning_rate": 0.00029409075771542496,
	"loss": 2.827647590637207,
	"step": 6290
	},
	{
	"epoch": 0.04416666666666667,
	"grad_norm": 0.3785516619682312,
	"learning_rate": 0.0002940685397700294,
	"loss": 2.8037031173706053,
	"step": 6300
	},
	{
	"epoch": 0.044333333333333336,
	"grad_norm": 0.3679490089416504,
	"learning_rate": 0.00029404628097719166,
	"loss": 2.806118965148926,
	"step": 6310
	},
	{
	"epoch": 0.0445,
	"grad_norm": 0.37308770418167114,
	"learning_rate": 0.0002940239813432228,
	"loss": 2.797303581237793,
	"step": 6320
	},
	{
	"epoch": 0.04466666666666667,
	"grad_norm": 0.3598901033401489,
	"learning_rate": 0.00029400164087444537,
	"loss": 2.756656455993652,
	"step": 6330
	},
	{
	"epoch": 0.044833333333333336,
	"grad_norm": 0.3724973797798157,
	"learning_rate": 0.0002939792595771935,
	"loss": 2.9482675552368165,
	"step": 6340
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.4032357931137085,
	"learning_rate": 0.0002939568374578129,
	"loss": 2.929281997680664,
	"step": 6350
	},
	{
	"epoch": 0.04516666666666667,
	"grad_norm": 0.3482721447944641,
	"learning_rate": 0.00029393437452266097,
	"loss": 2.8269603729248045,
	"step": 6360
	},
	{
	"epoch": 0.04533333333333334,
	"grad_norm": 0.36250752210617065,
	"learning_rate": 0.0002939118707781064,
	"loss": 2.826327323913574,
	"step": 6370
	},
	{
	"epoch": 0.0455,
	"grad_norm": 0.38788485527038574,
	"learning_rate": 0.00029388932623052976,
	"loss": 2.940120315551758,
	"step": 6380
	},
	{
	"epoch": 0.04566666666666667,
	"grad_norm": 0.34600749611854553,
	"learning_rate": 0.000293866740886323,
	"loss": 2.942264747619629,
	"step": 6390
	},
	{
	"epoch": 0.04583333333333333,
	"grad_norm": 0.4335802495479584,
	"learning_rate": 0.0002938441147518897,
	"loss": 2.9643169403076173,
	"step": 6400
	},
	{
	"epoch": 0.046,
	"grad_norm": 0.38085460662841797,
	"learning_rate": 0.00029382144783364505,
	"loss": 2.8335092544555662,
	"step": 6410
	},
	{
	"epoch": 0.04616666666666667,
	"grad_norm": 0.3866496682167053,
	"learning_rate": 0.0002937987401380157,
	"loss": 2.8184886932373048,
	"step": 6420
	},
	{
	"epoch": 0.04633333333333333,
	"grad_norm": 0.3690461814403534,
	"learning_rate": 0.0002937759916714399,
	"loss": 2.7712963104248045,
	"step": 6430
	},
	{
	"epoch": 0.0465,
	"grad_norm": 0.3848920464515686,
	"learning_rate": 0.00029375320244036753,
	"loss": 2.613561248779297,
	"step": 6440
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 0.3725181221961975,
	"learning_rate": 0.00029373037245125996,
	"loss": 2.7794801712036135,
	"step": 6450
	},
	{
	"epoch": 0.04683333333333333,
	"grad_norm": 0.38816165924072266,
	"learning_rate": 0.00029370750171059005,
	"loss": 2.70468692779541,
	"step": 6460
	},
	{
	"epoch": 0.047,
	"grad_norm": 0.36018455028533936,
	"learning_rate": 0.0002936845902248424,
	"loss": 2.8430145263671873,
	"step": 6470
	},
	{
	"epoch": 0.04716666666666667,
	"grad_norm": 0.3817792236804962,
	"learning_rate": 0.00029366163800051295,
	"loss": 2.9502981185913084,
	"step": 6480
	},
	{
	"epoch": 0.04733333333333333,
	"grad_norm": 0.3806685209274292,
	"learning_rate": 0.0002936386450441094,
	"loss": 3.0032901763916016,
	"step": 6490
	},
	{
	"epoch": 0.0475,
	"grad_norm": 0.3631237745285034,
	"learning_rate": 0.00029361561136215085,
	"loss": 3.043329429626465,
	"step": 6500
	},
	{
	"epoch": 0.04766666666666667,
	"grad_norm": 0.34963342547416687,
	"learning_rate": 0.00029359253696116793,
	"loss": 2.730146026611328,
	"step": 6510
	},
	{
	"epoch": 0.04783333333333333,
	"grad_norm": 0.3734063506126404,
	"learning_rate": 0.00029356942184770296,
	"loss": 2.919230079650879,
	"step": 6520
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.3652487099170685,
	"learning_rate": 0.00029354626602830973,
	"loss": 2.7738105773925783,
	"step": 6530
	},
	{
	"epoch": 0.04816666666666667,
	"grad_norm": 0.3984633684158325,
	"learning_rate": 0.00029352306950955346,
	"loss": 2.832376480102539,
	"step": 6540
	},
	{
	"epoch": 0.04833333333333333,
	"grad_norm": 0.40588605403900146,
	"learning_rate": 0.00029349983229801107,
	"loss": 3.0197357177734374,
	"step": 6550
	},
	{
	"epoch": 0.0485,
	"grad_norm": 0.37554314732551575,
	"learning_rate": 0.00029347655440027095,
	"loss": 2.992153549194336,
	"step": 6560
	},
	{
	"epoch": 0.048666666666666664,
	"grad_norm": 0.36801284551620483,
	"learning_rate": 0.00029345323582293306,
	"loss": 2.919198989868164,
	"step": 6570
	},
	{
	"epoch": 0.04883333333333333,
	"grad_norm": 0.3883112072944641,
	"learning_rate": 0.0002934298765726088,
	"loss": 2.9609262466430666,
	"step": 6580
	},
	{
	"epoch": 0.049,
	"grad_norm": 0.42965978384017944,
	"learning_rate": 0.00029340647665592124,
	"loss": 3.070623779296875,
	"step": 6590
	},
	{
	"epoch": 0.049166666666666664,
	"grad_norm": 0.3925585448741913,
	"learning_rate": 0.00029338303607950487,
	"loss": 3.0677051544189453,
	"step": 6600
	},
	{
	"epoch": 0.04933333333333333,
	"grad_norm": 0.4007953107357025,
	"learning_rate": 0.00029335955485000577,
	"loss": 3.0510555267333985,
	"step": 6610
	},
	{
	"epoch": 0.0495,
	"grad_norm": 0.38611555099487305,
	"learning_rate": 0.00029333603297408147,
	"loss": 2.9069192886352537,
	"step": 6620
	},
	{
	"epoch": 0.049666666666666665,
	"grad_norm": 0.5704911351203918,
	"learning_rate": 0.0002933124704584011,
	"loss": 3.010939598083496,
	"step": 6630
	},
	{
	"epoch": 0.049833333333333334,
	"grad_norm": 0.5911468863487244,
	"learning_rate": 0.00029328886730964533,
	"loss": 2.9140695571899413,
	"step": 6640
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.387665331363678,
	"learning_rate": 0.00029326522353450625,
	"loss": 2.7545188903808593,
	"step": 6650
	},
	{
	"epoch": 0.050166666666666665,
	"grad_norm": 0.398221492767334,
	"learning_rate": 0.00029324153913968756,
	"loss": 2.9847917556762695,
	"step": 6660
	},
	{
	"epoch": 0.050333333333333334,
	"grad_norm": 0.38730916380882263,
	"learning_rate": 0.00029321781413190444,
	"loss": 3.0818609237670898,
	"step": 6670
	},
	{
	"epoch": 0.0505,
	"grad_norm": 0.39305347204208374,
	"learning_rate": 0.00029319404851788365,
	"loss": 3.169163703918457,
	"step": 6680
	},
	{
	"epoch": 0.050666666666666665,
	"grad_norm": 0.40305784344673157,
	"learning_rate": 0.0002931702423043633,
	"loss": 3.0836387634277345,
	"step": 6690
	},
	{
	"epoch": 0.050833333333333335,
	"grad_norm": 0.4043393135070801,
	"learning_rate": 0.00029314639549809314,
	"loss": 3.086305046081543,
	"step": 6700
	},
	{
	"epoch": 0.051,
	"grad_norm": 0.40028905868530273,
	"learning_rate": 0.00029312250810583447,
	"loss": 3.1011959075927735,
	"step": 6710
	},
	{
	"epoch": 0.051166666666666666,
	"grad_norm": 0.3988712728023529,
	"learning_rate": 0.0002930985801343599,
	"loss": 3.0316585540771483,
	"step": 6720
	},
	{
	"epoch": 0.051333333333333335,
	"grad_norm": 0.3803875744342804,
	"learning_rate": 0.0002930746115904539,
	"loss": 2.7931013107299805,
	"step": 6730
	},
	{
	"epoch": 0.0515,
	"grad_norm": 0.3882600963115692,
	"learning_rate": 0.00029305060248091194,
	"loss": 2.8900781631469727,
	"step": 6740
	},
	{
	"epoch": 0.051666666666666666,
	"grad_norm": 0.3673243820667267,
	"learning_rate": 0.0002930265528125415,
	"loss": 2.9202960968017577,
	"step": 6750
	},
	{
	"epoch": 0.051833333333333335,
	"grad_norm": 0.3509467542171478,
	"learning_rate": 0.00029300246259216124,
	"loss": 2.9142375946044923,
	"step": 6760
	},
	{
	"epoch": 0.052,
	"grad_norm": 0.37516164779663086,
	"learning_rate": 0.0002929783318266014,
	"loss": 2.9687660217285154,
	"step": 6770
	},
	{
	"epoch": 0.05216666666666667,
	"grad_norm": 0.3723934590816498,
	"learning_rate": 0.0002929541605227037,
	"loss": 2.9943012237548827,
	"step": 6780
	},
	{
	"epoch": 0.052333333333333336,
	"grad_norm": 0.4237174093723297,
	"learning_rate": 0.00029292994868732145,
	"loss": 3.1001874923706056,
	"step": 6790
	},
	{
	"epoch": 0.0525,
	"grad_norm": 0.4308694303035736,
	"learning_rate": 0.0002929056963273193,
	"loss": 3.090090751647949,
	"step": 6800
	},
	{
	"epoch": 0.05266666666666667,
	"grad_norm": 0.3867776095867157,
	"learning_rate": 0.0002928814034495736,
	"loss": 3.0016979217529296,
	"step": 6810
	},
	{
	"epoch": 0.052833333333333336,
	"grad_norm": 0.39471495151519775,
	"learning_rate": 0.0002928570700609719,
	"loss": 3.146613883972168,
	"step": 6820
	},
	{
	"epoch": 0.053,
	"grad_norm": 0.3749244213104248,
	"learning_rate": 0.0002928326961684134,
	"loss": 3.1620513916015627,
	"step": 6830
	},
	{
	"epoch": 0.05316666666666667,
	"grad_norm": 0.39891645312309265,
	"learning_rate": 0.000292808281778809,
	"loss": 3.103597640991211,
	"step": 6840
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.3882020115852356,
	"learning_rate": 0.00029278382689908053,
	"loss": 3.1575523376464845,
	"step": 6850
	},
	{
	"epoch": 0.0535,
	"grad_norm": 0.405156672000885,
	"learning_rate": 0.0002927593315361619,
	"loss": 3.105808067321777,
	"step": 6860
	},
	{
	"epoch": 0.05366666666666667,
	"grad_norm": 0.3829409182071686,
	"learning_rate": 0.0002927347956969981,
	"loss": 3.0567110061645506,
	"step": 6870
	},
	{
	"epoch": 0.05383333333333333,
	"grad_norm": 0.38465431332588196,
	"learning_rate": 0.0002927102193885457,
	"loss": 3.0914487838745117,
	"step": 6880
	},
	{
	"epoch": 0.054,
	"grad_norm": 0.401638925075531,
	"learning_rate": 0.0002926856026177729,
	"loss": 3.0777496337890624,
	"step": 6890
	},
	{
	"epoch": 0.05416666666666667,
	"grad_norm": 0.3893527388572693,
	"learning_rate": 0.0002926609453916591,
	"loss": 3.020836067199707,
	"step": 6900
	},
	{
	"epoch": 0.05433333333333333,
	"grad_norm": 0.3911438286304474,
	"learning_rate": 0.00029263624771719537,
	"loss": 2.996641731262207,
	"step": 6910
	},
	{
	"epoch": 0.0545,
	"grad_norm": 0.40074771642684937,
	"learning_rate": 0.00029261150960138417,
	"loss": 3.094496726989746,
	"step": 6920
	},
	{
	"epoch": 0.05466666666666667,
	"grad_norm": 0.3768022954463959,
	"learning_rate": 0.0002925867310512395,
	"loss": 3.0974607467651367,
	"step": 6930
	},
	{
	"epoch": 0.05483333333333333,
	"grad_norm": 1.0672612190246582,
	"learning_rate": 0.0002925619120737867,
	"loss": 2.986092758178711,
	"step": 6940
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.39106905460357666,
	"learning_rate": 0.00029253705267606267,
	"loss": 3.122268867492676,
	"step": 6950
	},
	{
	"epoch": 0.05516666666666667,
	"grad_norm": 0.3796605169773102,
	"learning_rate": 0.00029251215286511573,
	"loss": 3.091052436828613,
	"step": 6960
	},
	{
	"epoch": 0.05533333333333333,
	"grad_norm": 0.3792901337146759,
	"learning_rate": 0.00029248721264800567,
	"loss": 3.083469200134277,
	"step": 6970
	},
	{
	"epoch": 0.0555,
	"grad_norm": 0.40256309509277344,
	"learning_rate": 0.00029246223203180377,
	"loss": 3.1180984497070314,
	"step": 6980
	},
	{
	"epoch": 0.05566666666666667,
	"grad_norm": 0.4001685082912445,
	"learning_rate": 0.00029243721102359274,
	"loss": 3.1026607513427735,
	"step": 6990
	},
	{
	"epoch": 0.05583333333333333,
	"grad_norm": 0.40601831674575806,
	"learning_rate": 0.00029241214963046663,
	"loss": 3.1589757919311525,
	"step": 7000
	},
	{
	"epoch": 0.056,
	"grad_norm": 0.3928051292896271,
	"learning_rate": 0.00029238704785953113,
	"loss": 3.149326705932617,
	"step": 7010
	},
	{
	"epoch": 0.05616666666666666,
	"grad_norm": 0.4036010205745697,
	"learning_rate": 0.0002923619057179033,
	"loss": 3.137180137634277,
	"step": 7020
	},
	{
	"epoch": 0.05633333333333333,
	"grad_norm": 0.41541367769241333,
	"learning_rate": 0.0002923367232127116,
	"loss": 3.155481147766113,
	"step": 7030
	},
	{
	"epoch": 0.0565,
	"grad_norm": 0.3809373378753662,
	"learning_rate": 0.00029231150035109596,
	"loss": 3.114410400390625,
	"step": 7040
	},
	{
	"epoch": 0.056666666666666664,
	"grad_norm": 0.3731016218662262,
	"learning_rate": 0.0002922862371402078,
	"loss": 3.105120849609375,
	"step": 7050
	},
	{
	"epoch": 0.05683333333333333,
	"grad_norm": 0.38785654306411743,
	"learning_rate": 0.0002922609335872099,
	"loss": 3.043816566467285,
	"step": 7060
	},
	{
	"epoch": 0.057,
	"grad_norm": 0.4262470602989197,
	"learning_rate": 0.00029223558969927656,
	"loss": 3.1006845474243163,
	"step": 7070
	},
	{
	"epoch": 0.057166666666666664,
	"grad_norm": 0.38110196590423584,
	"learning_rate": 0.00029221020548359346,
	"loss": 3.0751932144165037,
	"step": 7080
	},
	{
	"epoch": 0.05733333333333333,
	"grad_norm": 0.3852882385253906,
	"learning_rate": 0.0002921847809473578,
	"loss": 3.1745590209960937,
	"step": 7090
	},
	{
	"epoch": 0.0575,
	"grad_norm": 0.3707679212093353,
	"learning_rate": 0.000292159316097778,
	"loss": 3.1158437728881836,
	"step": 7100
	},
	{
	"epoch": 0.057666666666666665,
	"grad_norm": 0.3930973410606384,
	"learning_rate": 0.00029213381094207416,
	"loss": 3.1524255752563475,
	"step": 7110
	},
	{
	"epoch": 0.057833333333333334,
	"grad_norm": 0.3957115113735199,
	"learning_rate": 0.0002921082654874777,
	"loss": 3.17779541015625,
	"step": 7120
	},
	{
	"epoch": 0.058,
	"grad_norm": 0.3818974792957306,
	"learning_rate": 0.00029208267974123144,
	"loss": 3.180965614318848,
	"step": 7130
	},
	{
	"epoch": 0.058166666666666665,
	"grad_norm": 0.4084106981754303,
	"learning_rate": 0.00029205705371058966,
	"loss": 3.189291763305664,
	"step": 7140
	},
	{
	"epoch": 0.058333333333333334,
	"grad_norm": 0.37610405683517456,
	"learning_rate": 0.000292031387402818,
	"loss": 2.9906883239746094,
	"step": 7150
	},
	{
	"epoch": 0.0585,
	"grad_norm": 0.36395132541656494,
	"learning_rate": 0.00029200568082519366,
	"loss": 2.816435432434082,
	"step": 7160
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 0.3990066349506378,
	"learning_rate": 0.00029197993398500516,
	"loss": 2.733071136474609,
	"step": 7170
	},
	{
	"epoch": 0.058833333333333335,
	"grad_norm": 0.37727782130241394,
	"learning_rate": 0.0002919541468895524,
	"loss": 2.7273191452026366,
	"step": 7180
	},
	{
	"epoch": 0.059,
	"grad_norm": 0.40415671467781067,
	"learning_rate": 0.0002919283195461467,
	"loss": 2.8836151123046876,
	"step": 7190
	},
	{
	"epoch": 0.059166666666666666,
	"grad_norm": 0.37808772921562195,
	"learning_rate": 0.000291902451962111,
	"loss": 2.766579246520996,
	"step": 7200
	},
	{
	"epoch": 0.059333333333333335,
	"grad_norm": 0.3718058168888092,
	"learning_rate": 0.0002918765441447793,
	"loss": 2.7563850402832033,
	"step": 7210
	},
	{
	"epoch": 0.0595,
	"grad_norm": 0.365247517824173,
	"learning_rate": 0.0002918505961014973,
	"loss": 2.736806869506836,
	"step": 7220
	},
	{
	"epoch": 0.059666666666666666,
	"grad_norm": 0.34523555636405945,
	"learning_rate": 0.0002918246078396219,
	"loss": 2.7504671096801756,
	"step": 7230
	},
	{
	"epoch": 0.059833333333333336,
	"grad_norm": 0.37109723687171936,
	"learning_rate": 0.00029179857936652157,
	"loss": 2.695194625854492,
	"step": 7240
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.3737955391407013,
	"learning_rate": 0.00029177251068957606,
	"loss": 2.621052932739258,
	"step": 7250
	},
	{
	"epoch": 0.06016666666666667,
	"grad_norm": 0.3929753303527832,
	"learning_rate": 0.00029174640181617664,
	"loss": 2.6446352005004883,
	"step": 7260
	},
	{
	"epoch": 0.060333333333333336,
	"grad_norm": 0.3471451699733734,
	"learning_rate": 0.0002917202527537258,
	"loss": 2.620621109008789,
	"step": 7270
	},
	{
	"epoch": 0.0605,
	"grad_norm": 0.42746540904045105,
	"learning_rate": 0.0002916940635096376,
	"loss": 2.6797019958496096,
	"step": 7280
	},
	{
	"epoch": 0.06066666666666667,
	"grad_norm": 0.35947850346565247,
	"learning_rate": 0.0002916678340913374,
	"loss": 2.633715057373047,
	"step": 7290
	},
	{
	"epoch": 0.060833333333333336,
	"grad_norm": 0.36535149812698364,
	"learning_rate": 0.000291641564506262,
	"loss": 2.5058975219726562,
	"step": 7300
	},
	{
	"epoch": 0.061,
	"grad_norm": 0.38358670473098755,
	"learning_rate": 0.00029161525476185945,
	"loss": 2.5962581634521484,
	"step": 7310
	},
	{
	"epoch": 0.06116666666666667,
	"grad_norm": 0.3580729365348816,
	"learning_rate": 0.0002915889048655894,
	"loss": 2.473897171020508,
	"step": 7320
	},
	{
	"epoch": 0.06133333333333333,
	"grad_norm": 0.363400936126709,
	"learning_rate": 0.0002915625148249228,
	"loss": 2.6062271118164064,
	"step": 7330
	},
	{
	"epoch": 0.0615,
	"grad_norm": 0.3609282672405243,
	"learning_rate": 0.0002915360846473419,
	"loss": 2.629804229736328,
	"step": 7340
	},
	{
	"epoch": 0.06166666666666667,
	"grad_norm": 0.3657326102256775,
	"learning_rate": 0.0002915096143403404,
	"loss": 2.5113271713256835,
	"step": 7350
	},
	{
	"epoch": 0.06183333333333333,
	"grad_norm": 0.358372300863266,
	"learning_rate": 0.00029148310391142334,
	"loss": 2.599112892150879,
	"step": 7360
	},
	{
	"epoch": 0.062,
	"grad_norm": 0.35465332865715027,
	"learning_rate": 0.0002914565533681072,
	"loss": 2.658061408996582,
	"step": 7370
	},
	{
	"epoch": 0.06216666666666667,
	"grad_norm": 0.3702649474143982,
	"learning_rate": 0.0002914299627179198,
	"loss": 2.5538434982299805,
	"step": 7380
	},
	{
	"epoch": 0.06233333333333333,
	"grad_norm": 0.3724445700645447,
	"learning_rate": 0.00029140333196840033,
	"loss": 2.6205028533935546,
	"step": 7390
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.3595244586467743,
	"learning_rate": 0.00029137666112709934,
	"loss": 2.5793956756591796,
	"step": 7400
	},
	{
	"epoch": 0.06266666666666666,
	"grad_norm": 0.34365132451057434,
	"learning_rate": 0.0002913499502015788,
	"loss": 2.4857330322265625,
	"step": 7410
	},
	{
	"epoch": 0.06283333333333334,
	"grad_norm": 0.3451862335205078,
	"learning_rate": 0.0002913231991994119,
	"loss": 2.47800235748291,
	"step": 7420
	},
	{
	"epoch": 0.063,
	"grad_norm": 0.3589513301849365,
	"learning_rate": 0.0002912964081281834,
	"loss": 2.502494239807129,
	"step": 7430
	},
	{
	"epoch": 0.06316666666666666,
	"grad_norm": 0.36998748779296875,
	"learning_rate": 0.0002912695769954893,
	"loss": 2.4787002563476563,
	"step": 7440
	},
	{
	"epoch": 0.06333333333333334,
	"grad_norm": 0.32939860224723816,
	"learning_rate": 0.0002912427058089369,
	"loss": 2.658931922912598,
	"step": 7450
	},
	{
	"epoch": 0.0635,
	"grad_norm": 0.38151815533638,
	"learning_rate": 0.00029121579457614495,
	"loss": 2.903098297119141,
	"step": 7460
	},
	{
	"epoch": 0.06366666666666666,
	"grad_norm": 0.4199788570404053,
	"learning_rate": 0.0002911888433047436,
	"loss": 2.873810958862305,
	"step": 7470
	},
	{
	"epoch": 0.06383333333333334,
	"grad_norm": 0.3544920086860657,
	"learning_rate": 0.0002911618520023742,
	"loss": 2.917632293701172,
	"step": 7480
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.39268478751182556,
	"learning_rate": 0.0002911348206766896,
	"loss": 2.9814647674560546,
	"step": 7490
	},
	{
	"epoch": 0.06416666666666666,
	"grad_norm": 0.3877812325954437,
	"learning_rate": 0.00029110774933535394,
	"loss": 2.9182886123657226,
	"step": 7500
	},
	{
	"epoch": 0.06433333333333334,
	"grad_norm": 0.39261719584465027,
	"learning_rate": 0.0002910806379860426,
	"loss": 2.9275138854980467,
	"step": 7510
	},
	{
	"epoch": 0.0645,
	"grad_norm": 0.3577132821083069,
	"learning_rate": 0.00029105348663644256,
	"loss": 2.992527198791504,
	"step": 7520
	},
	{
	"epoch": 0.06466666666666666,
	"grad_norm": 0.3782998025417328,
	"learning_rate": 0.00029102629529425183,
	"loss": 2.9435182571411134,
	"step": 7530
	},
	{
	"epoch": 0.06483333333333334,
	"grad_norm": 0.36852407455444336,
	"learning_rate": 0.00029099906396718003,
	"loss": 2.949845886230469,
	"step": 7540
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.3805658519268036,
	"learning_rate": 0.0002909717926629479,
	"loss": 2.9669191360473635,
	"step": 7550
	},
	{
	"epoch": 0.06516666666666666,
	"grad_norm": 0.3757810592651367,
	"learning_rate": 0.0002909444813892877,
	"loss": 2.9397300720214843,
	"step": 7560
	},
	{
	"epoch": 0.06533333333333333,
	"grad_norm": 0.3829989433288574,
	"learning_rate": 0.00029091713015394293,
	"loss": 2.986714553833008,
	"step": 7570
	},
	{
	"epoch": 0.0655,
	"grad_norm": 0.36800798773765564,
	"learning_rate": 0.0002908897389646683,
	"loss": 2.959121513366699,
	"step": 7580
	},
	{
	"epoch": 0.06566666666666666,
	"grad_norm": 0.38914063572883606,
	"learning_rate": 0.0002908623078292301,
	"loss": 2.9379350662231447,
	"step": 7590
	},
	{
	"epoch": 0.06583333333333333,
	"grad_norm": 0.3821718990802765,
	"learning_rate": 0.00029083483675540586,
	"loss": 2.9452192306518556,
	"step": 7600
	},
	{
	"epoch": 0.066,
	"grad_norm": 0.3927645981311798,
	"learning_rate": 0.00029080732575098426,
	"loss": 2.966671371459961,
	"step": 7610
	},
	{
	"epoch": 0.06616666666666667,
	"grad_norm": 0.38456544280052185,
	"learning_rate": 0.00029077977482376555,
	"loss": 2.9977581024169924,
	"step": 7620
	},
	{
	"epoch": 0.06633333333333333,
	"grad_norm": 0.40700915455818176,
	"learning_rate": 0.0002907521839815611,
	"loss": 3.005060005187988,
	"step": 7630
	},
	{
	"epoch": 0.0665,
	"grad_norm": 0.4053742289543152,
	"learning_rate": 0.0002907245532321937,
	"loss": 2.953268623352051,
	"step": 7640
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.3769732713699341,
	"learning_rate": 0.00029069688258349745,
	"loss": 2.970975875854492,
	"step": 7650
	},
	{
	"epoch": 0.06683333333333333,
	"grad_norm": 0.37044721841812134,
	"learning_rate": 0.00029066917204331776,
	"loss": 2.976058006286621,
	"step": 7660
	},
	{
	"epoch": 0.067,
	"grad_norm": 0.42825615406036377,
	"learning_rate": 0.0002906414216195114,
	"loss": 2.9494274139404295,
	"step": 7670
	},
	{
	"epoch": 0.06716666666666667,
	"grad_norm": 1.7334225177764893,
	"learning_rate": 0.0002906136313199463,
	"loss": 3.01751766204834,
	"step": 7680
	},
	{
	"epoch": 0.06733333333333333,
	"grad_norm": 0.3732779622077942,
	"learning_rate": 0.00029058580115250176,
	"loss": 2.976676368713379,
	"step": 7690
	},
	{
	"epoch": 0.0675,
	"grad_norm": 0.40125882625579834,
	"learning_rate": 0.0002905579311250685,
	"loss": 3.057603454589844,
	"step": 7700
	},
	{
	"epoch": 0.06766666666666667,
	"grad_norm": 0.38171663880348206,
	"learning_rate": 0.00029053002124554834,
	"loss": 2.762685012817383,
	"step": 7710
	},
	{
	"epoch": 0.06783333333333333,
	"grad_norm": 0.391777366399765,
	"learning_rate": 0.0002905020715218546,
	"loss": 2.91061954498291,
	"step": 7720
	},
	{
	"epoch": 0.068,
	"grad_norm": 0.3986228108406067,
	"learning_rate": 0.0002904740819619118,
	"loss": 2.997187042236328,
	"step": 7730
	},
	{
	"epoch": 0.06816666666666667,
	"grad_norm": 0.36958804726600647,
	"learning_rate": 0.0002904460525736557,
	"loss": 2.9954734802246095,
	"step": 7740
	},
	{
	"epoch": 0.06833333333333333,
	"grad_norm": 0.3979329466819763,
	"learning_rate": 0.00029041798336503345,
	"loss": 2.985688018798828,
	"step": 7750
	},
	{
	"epoch": 0.0685,
	"grad_norm": 0.39086639881134033,
	"learning_rate": 0.00029038987434400345,
	"loss": 3.0486474990844727,
	"step": 7760
	},
	{
	"epoch": 0.06866666666666667,
	"grad_norm": 0.37941011786460876,
	"learning_rate": 0.0002903617255185354,
	"loss": 3.009590721130371,
	"step": 7770
	},
	{
	"epoch": 0.06883333333333333,
	"grad_norm": 0.3874540627002716,
	"learning_rate": 0.0002903335368966102,
	"loss": 3.0302640914916994,
	"step": 7780
	},
	{
	"epoch": 0.069,
	"grad_norm": 0.3942844867706299,
	"learning_rate": 0.00029030530848622027,
	"loss": 3.0470159530639647,
	"step": 7790
	},
	{
	"epoch": 0.06916666666666667,
	"grad_norm": 0.372801274061203,
	"learning_rate": 0.000290277040295369,
	"loss": 3.06998348236084,
	"step": 7800
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 0.3805873990058899,
	"learning_rate": 0.0002902487323320713,
	"loss": 3.0450016021728517,
	"step": 7810
	},
	{
	"epoch": 0.0695,
	"grad_norm": 0.373600035905838,
	"learning_rate": 0.0002902203846043532,
	"loss": 3.0399938583374024,
	"step": 7820
	},
	{
	"epoch": 0.06966666666666667,
	"grad_norm": 0.3881121873855591,
	"learning_rate": 0.0002901919971202521,
	"loss": 2.9438343048095703,
	"step": 7830
	},
	{
	"epoch": 0.06983333333333333,
	"grad_norm": 0.384845495223999,
	"learning_rate": 0.0002901635698878166,
	"loss": 3.0112476348876953,
	"step": 7840
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.374401718378067,
	"learning_rate": 0.0002901351029151067,
	"loss": 3.082077407836914,
	"step": 7850
	},
	{
	"epoch": 0.07016666666666667,
	"grad_norm": 0.3732111155986786,
	"learning_rate": 0.0002901065962101935,
	"loss": 2.8397762298583986,
	"step": 7860
	},
	{
	"epoch": 0.07033333333333333,
	"grad_norm": 0.4078359603881836,
	"learning_rate": 0.00029007804978115954,
	"loss": 2.6799802780151367,
	"step": 7870
	},
	{
	"epoch": 0.0705,
	"grad_norm": 0.36895552277565,
	"learning_rate": 0.0002900494636360984,
	"loss": 2.631447601318359,
	"step": 7880
	},
	{
	"epoch": 0.07066666666666667,
	"grad_norm": 0.3986772298812866,
	"learning_rate": 0.0002900208377831151,
	"loss": 2.9338111877441406,
	"step": 7890
	},
	{
	"epoch": 0.07083333333333333,
	"grad_norm": 0.39151084423065186,
	"learning_rate": 0.0002899921722303259,
	"loss": 3.042695236206055,
	"step": 7900
	},
	{
	"epoch": 0.071,
	"grad_norm": 0.43503689765930176,
	"learning_rate": 0.0002899634669858583,
	"loss": 3.0772659301757814,
	"step": 7910
	},
	{
	"epoch": 0.07116666666666667,
	"grad_norm": 0.3629150092601776,
	"learning_rate": 0.00028993472205785095,
	"loss": 3.0347219467163087,
	"step": 7920
	},
	{
	"epoch": 0.07133333333333333,
	"grad_norm": 0.3640083372592926,
	"learning_rate": 0.0002899059374544539,
	"loss": 2.899766540527344,
	"step": 7930
	},
	{
	"epoch": 0.0715,
	"grad_norm": 0.3656698763370514,
	"learning_rate": 0.0002898771131838283,
	"loss": 2.696305847167969,
	"step": 7940
	},
	{
	"epoch": 0.07166666666666667,
	"grad_norm": 0.37310102581977844,
	"learning_rate": 0.0002898482492541468,
	"loss": 2.769809341430664,
	"step": 7950
	},
	{
	"epoch": 0.07183333333333333,
	"grad_norm": 0.39096155762672424,
	"learning_rate": 0.000289819345673593,
	"loss": 2.7517889022827147,
	"step": 7960
	},
	{
	"epoch": 0.072,
	"grad_norm": 0.34597668051719666,
	"learning_rate": 0.0002897904024503619,
	"loss": 2.7326591491699217,
	"step": 7970
	},
	{
	"epoch": 0.07216666666666667,
	"grad_norm": 0.38390180468559265,
	"learning_rate": 0.0002897614195926597,
	"loss": 2.694135284423828,
	"step": 7980
	},
	{
	"epoch": 0.07233333333333333,
	"grad_norm": 0.37960708141326904,
	"learning_rate": 0.00028973239710870384,
	"loss": 2.812735176086426,
	"step": 7990
	},
	{
	"epoch": 0.0725,
	"grad_norm": 0.36439424753189087,
	"learning_rate": 0.00028970333500672303,
	"loss": 2.8109577178955076,
	"step": 8000
	},
	{
	"epoch": 0.07266666666666667,
	"grad_norm": 0.3453996777534485,
	"learning_rate": 0.0002896742332949572,
	"loss": 2.7494396209716796,
	"step": 8010
	},
	{
	"epoch": 0.07283333333333333,
	"grad_norm": 0.3709613084793091,
	"learning_rate": 0.0002896450919816574,
	"loss": 2.832318115234375,
	"step": 8020
	},
	{
	"epoch": 0.073,
	"grad_norm": 0.38604649901390076,
	"learning_rate": 0.0002896159110750862,
	"loss": 2.8173288345336913,
	"step": 8030
	},
	{
	"epoch": 0.07316666666666667,
	"grad_norm": 0.37968260049819946,
	"learning_rate": 0.000289586690583517,
	"loss": 2.829819107055664,
	"step": 8040
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 0.35359862446784973,
	"learning_rate": 0.00028955743051523465,
	"loss": 2.7823715209960938,
	"step": 8050
	},
	{
	"epoch": 0.0735,
	"grad_norm": 0.3639524579048157,
	"learning_rate": 0.00028952813087853533,
	"loss": 2.760794258117676,
	"step": 8060
	},
	{
	"epoch": 0.07366666666666667,
	"grad_norm": 0.3654758930206299,
	"learning_rate": 0.00028949879168172616,
	"loss": 2.736991310119629,
	"step": 8070
	},
	{
	"epoch": 0.07383333333333333,
	"grad_norm": 0.36181625723838806,
	"learning_rate": 0.00028946941293312567,
	"loss": 2.816946792602539,
	"step": 8080
	},
	{
	"epoch": 0.074,
	"grad_norm": 0.3788537085056305,
	"learning_rate": 0.0002894399946410636,
	"loss": 2.811870002746582,
	"step": 8090
	},
	{
	"epoch": 0.07416666666666667,
	"grad_norm": 0.3393183946609497,
	"learning_rate": 0.0002894105368138807,
	"loss": 2.723903274536133,
	"step": 8100
	},
	{
	"epoch": 0.07433333333333333,
	"grad_norm": 0.3352717161178589,
	"learning_rate": 0.00028938103945992926,
	"loss": 2.6978361129760744,
	"step": 8110
	},
	{
	"epoch": 0.0745,
	"grad_norm": 0.38219866156578064,
	"learning_rate": 0.0002893515025875726,
	"loss": 2.7439762115478517,
	"step": 8120
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 0.35783448815345764,
	"learning_rate": 0.00028932192620518513,
	"loss": 2.7886289596557616,
	"step": 8130
	},
	{
	"epoch": 0.07483333333333334,
	"grad_norm": 0.3538830578327179,
	"learning_rate": 0.0002892923103211526,
	"loss": 2.8963045120239257,
	"step": 8140
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.37107858061790466,
	"learning_rate": 0.00028926265494387196,
	"loss": 2.8870670318603517,
	"step": 8150
	},
	{
	"epoch": 0.07516666666666667,
	"grad_norm": 0.36251598596572876,
	"learning_rate": 0.00028923296008175135,
	"loss": 2.8525896072387695,
	"step": 8160
	},
	{
	"epoch": 0.07533333333333334,
	"grad_norm": 0.3944455087184906,
	"learning_rate": 0.0002892032257432101,
	"loss": 2.865979766845703,
	"step": 8170
	},
	{
	"epoch": 0.0755,
	"grad_norm": 0.3710351288318634,
	"learning_rate": 0.0002891734519366787,
	"loss": 2.8153043746948243,
	"step": 8180
	},
	{
	"epoch": 0.07566666666666666,
	"grad_norm": 0.36971551179885864,
	"learning_rate": 0.0002891436386705989,
	"loss": 2.8204229354858397,
	"step": 8190
	},
	{
	"epoch": 0.07583333333333334,
	"grad_norm": 0.3832435607910156,
	"learning_rate": 0.00028911378595342346,
	"loss": 2.8466213226318358,
	"step": 8200
	},
	{
	"epoch": 0.076,
	"grad_norm": 0.35473373532295227,
	"learning_rate": 0.0002890838937936166,
	"loss": 2.8302003860473635,
	"step": 8210
	},
	{
	"epoch": 0.07616666666666666,
	"grad_norm": 0.36936044692993164,
	"learning_rate": 0.0002890539621996535,
	"loss": 2.7736061096191404,
	"step": 8220
	},
	{
	"epoch": 0.07633333333333334,
	"grad_norm": 0.3513256013393402,
	"learning_rate": 0.00028902399118002067,
	"loss": 2.5801765441894533,
	"step": 8230
	},
	{
	"epoch": 0.0765,
	"grad_norm": 0.35978972911834717,
	"learning_rate": 0.0002889939807432157,
	"loss": 2.6658184051513674,
	"step": 8240
	},
	{
	"epoch": 0.07666666666666666,
	"grad_norm": 0.38274580240249634,
	"learning_rate": 0.0002889639308977473,
	"loss": 2.744871711730957,
	"step": 8250
	},
	{
	"epoch": 0.07683333333333334,
	"grad_norm": 0.38770100474357605,
	"learning_rate": 0.00028893384165213547,
	"loss": 2.7592889785766603,
	"step": 8260
	},
	{
	"epoch": 0.077,
	"grad_norm": 0.3790663182735443,
	"learning_rate": 0.00028890371301491146,
	"loss": 2.889255905151367,
	"step": 8270
	},
	{
	"epoch": 0.07716666666666666,
	"grad_norm": 0.36016857624053955,
	"learning_rate": 0.00028887354499461745,
	"loss": 2.8479888916015623,
	"step": 8280
	},
	{
	"epoch": 0.07733333333333334,
	"grad_norm": 0.380307137966156,
	"learning_rate": 0.000288843337599807,
	"loss": 2.846491813659668,
	"step": 8290
	},
	{
	"epoch": 0.0775,
	"grad_norm": 0.36424508690834045,
	"learning_rate": 0.0002888130908390447,
	"loss": 2.878053665161133,
	"step": 8300
	},
	{
	"epoch": 0.07766666666666666,
	"grad_norm": 0.38090968132019043,
	"learning_rate": 0.0002887828047209064,
	"loss": 2.855295944213867,
	"step": 8310
	},
	{
	"epoch": 0.07783333333333334,
	"grad_norm": 0.35746878385543823,
	"learning_rate": 0.000288752479253979,
	"loss": 2.8940433502197265,
	"step": 8320
	},
	{
	"epoch": 0.078,
	"grad_norm": 0.35671961307525635,
	"learning_rate": 0.0002887221144468606,
	"loss": 2.9748987197875976,
	"step": 8330
	},
	{
	"epoch": 0.07816666666666666,
	"grad_norm": 0.37154173851013184,
	"learning_rate": 0.00028869171030816053,
	"loss": 2.998274040222168,
	"step": 8340
	},
	{
	"epoch": 0.07833333333333334,
	"grad_norm": 0.3724062740802765,
	"learning_rate": 0.00028866126684649917,
	"loss": 2.8773033142089846,
	"step": 8350
	},
	{
	"epoch": 0.0785,
	"grad_norm": 0.35358142852783203,
	"learning_rate": 0.00028863078407050807,
	"loss": 2.927072525024414,
	"step": 8360
	},
	{
	"epoch": 0.07866666666666666,
	"grad_norm": 0.36544308066368103,
	"learning_rate": 0.00028860026198883007,
	"loss": 2.9056814193725584,
	"step": 8370
	},
	{
	"epoch": 0.07883333333333334,
	"grad_norm": 0.37079834938049316,
	"learning_rate": 0.0002885697006101188,
	"loss": 2.8973163604736327,
	"step": 8380
	},
	{
	"epoch": 0.079,
	"grad_norm": 0.35769256949424744,
	"learning_rate": 0.0002885390999430395,
	"loss": 2.81085147857666,
	"step": 8390
	},
	{
	"epoch": 0.07916666666666666,
	"grad_norm": 0.3707377314567566,
	"learning_rate": 0.0002885084599962682,
	"loss": 2.793642044067383,
	"step": 8400
	},
	{
	"epoch": 0.07933333333333334,
	"grad_norm": 0.40529802441596985,
	"learning_rate": 0.00028847778077849214,
	"loss": 2.9512815475463867,
	"step": 8410
	},
	{
	"epoch": 0.0795,
	"grad_norm": 0.3493574857711792,
	"learning_rate": 0.00028844706229840986,
	"loss": 2.918813133239746,
	"step": 8420
	},
	{
	"epoch": 0.07966666666666666,
	"grad_norm": 0.3552611768245697,
	"learning_rate": 0.00028841630456473075,
	"loss": 2.780997085571289,
	"step": 8430
	},
	{
	"epoch": 0.07983333333333334,
	"grad_norm": 0.3614233434200287,
	"learning_rate": 0.00028838550758617556,
	"loss": 2.8519285202026365,
	"step": 8440
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.39881542325019836,
	"learning_rate": 0.00028835467137147615,
	"loss": 2.8958999633789064,
	"step": 8450
	},
	{
	"epoch": 0.08016666666666666,
	"grad_norm": 0.3612383008003235,
	"learning_rate": 0.0002883237959293753,
	"loss": 2.8186050415039063,
	"step": 8460
	},
	{
	"epoch": 0.08033333333333334,
	"grad_norm": 0.3497442901134491,
	"learning_rate": 0.00028829288126862724,
	"loss": 2.739505386352539,
	"step": 8470
	},
	{
	"epoch": 0.0805,
	"grad_norm": 0.3586975336074829,
	"learning_rate": 0.00028826192739799694,
	"loss": 2.7719682693481444,
	"step": 8480
	},
	{
	"epoch": 0.08066666666666666,
	"grad_norm": 0.3747289478778839,
	"learning_rate": 0.00028823093432626083,
	"loss": 2.873129463195801,
	"step": 8490
	},
	{
	"epoch": 0.08083333333333333,
	"grad_norm": 0.34539350867271423,
	"learning_rate": 0.0002881999020622063,
	"loss": 2.7382030487060547,
	"step": 8500
	},
	{
	"epoch": 0.081,
	"grad_norm": 0.4155365824699402,
	"learning_rate": 0.00028816883061463176,
	"loss": 2.7552820205688477,
	"step": 8510
	},
	{
	"epoch": 0.08116666666666666,
	"grad_norm": 0.40032505989074707,
	"learning_rate": 0.0002881377199923469,
	"loss": 2.8610322952270506,
	"step": 8520
	},
	{
	"epoch": 0.08133333333333333,
	"grad_norm": 0.3721928894519806,
	"learning_rate": 0.0002881065702041724,
	"loss": 2.8690778732299806,
	"step": 8530
	},
	{
	"epoch": 0.0815,
	"grad_norm": 0.3590529263019562,
	"learning_rate": 0.0002880753812589402,
	"loss": 2.8733280181884764,
	"step": 8540
	},
	{
	"epoch": 0.08166666666666667,
	"grad_norm": 0.3880694508552551,
	"learning_rate": 0.00028804415316549314,
	"loss": 2.819232940673828,
	"step": 8550
	},
	{
	"epoch": 0.08183333333333333,
	"grad_norm": 0.361520379781723,
	"learning_rate": 0.00028801288593268527,
	"loss": 2.919606590270996,
	"step": 8560
	},
	{
	"epoch": 0.082,
	"grad_norm": 0.3785449266433716,
	"learning_rate": 0.0002879815795693818,
	"loss": 3.00650691986084,
	"step": 8570
	},
	{
	"epoch": 0.08216666666666667,
	"grad_norm": 0.3418520390987396,
	"learning_rate": 0.00028795023408445877,
	"loss": 2.9630847930908204,
	"step": 8580
	},
	{
	"epoch": 0.08233333333333333,
	"grad_norm": 0.35394683480262756,
	"learning_rate": 0.0002879188494868037,
	"loss": 2.8360586166381836,
	"step": 8590
	},
	{
	"epoch": 0.0825,
	"grad_norm": 0.38963237404823303,
	"learning_rate": 0.0002878874257853149,
	"loss": 2.954873275756836,
	"step": 8600
	},
	{
	"epoch": 0.08266666666666667,
	"grad_norm": 0.37688371539115906,
	"learning_rate": 0.0002878559629889019,
	"loss": 3.0085628509521483,
	"step": 8610
	},
	{
	"epoch": 0.08283333333333333,
	"grad_norm": 0.37673714756965637,
	"learning_rate": 0.0002878244611064852,
	"loss": 3.001415824890137,
	"step": 8620
	},
	{
	"epoch": 0.083,
	"grad_norm": 0.3783765733242035,
	"learning_rate": 0.0002877929201469965,
	"loss": 2.924319839477539,
	"step": 8630
	},
	{
	"epoch": 0.08316666666666667,
	"grad_norm": 0.3794272541999817,
	"learning_rate": 0.0002877613401193786,
	"loss": 2.8281463623046874,
	"step": 8640
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.3879368007183075,
	"learning_rate": 0.0002877297210325853,
	"loss": 2.8229066848754885,
	"step": 8650
	},
	{
	"epoch": 0.0835,
	"grad_norm": 0.3800705373287201,
	"learning_rate": 0.00028769806289558145,
	"loss": 2.8100061416625977,
	"step": 8660
	},
	{
	"epoch": 0.08366666666666667,
	"grad_norm": 0.3919481039047241,
	"learning_rate": 0.00028766636571734297,
	"loss": 2.933970069885254,
	"step": 8670
	},
	{
	"epoch": 0.08383333333333333,
	"grad_norm": 0.3753172755241394,
	"learning_rate": 0.000287634629506857,
	"loss": 2.963550567626953,
	"step": 8680
	},
	{
	"epoch": 0.084,
	"grad_norm": 0.374881386756897,
	"learning_rate": 0.0002876028542731216,
	"loss": 3.0050731658935548,
	"step": 8690
	},
	{
	"epoch": 0.08416666666666667,
	"grad_norm": 0.3827640414237976,
	"learning_rate": 0.0002875710400251459,
	"loss": 2.993809127807617,
	"step": 8700
	},
	{
	"epoch": 0.08433333333333333,
	"grad_norm": 0.38827770948410034,
	"learning_rate": 0.00028753918677195013,
	"loss": 2.966595458984375,
	"step": 8710
	},
	{
	"epoch": 0.0845,
	"grad_norm": 0.3805679380893707,
	"learning_rate": 0.0002875072945225656,
	"loss": 2.9449575424194334,
	"step": 8720
	},
	{
	"epoch": 0.08466666666666667,
	"grad_norm": 0.401265949010849,
	"learning_rate": 0.0002874753632860347,
	"loss": 3.0216648101806642,
	"step": 8730
	},
	{
	"epoch": 0.08483333333333333,
	"grad_norm": 0.4089195728302002,
	"learning_rate": 0.00028744339307141067,
	"loss": 2.949349021911621,
	"step": 8740
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.3903751075267792,
	"learning_rate": 0.0002874113838877581,
	"loss": 2.9601430892944336,
	"step": 8750
	},
	{
	"epoch": 0.08516666666666667,
	"grad_norm": 0.3800072968006134,
	"learning_rate": 0.00028737933574415246,
	"loss": 2.9771102905273437,
	"step": 8760
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 0.35385075211524963,
	"learning_rate": 0.00028734724864968024,
	"loss": 2.8619287490844725,
	"step": 8770
	},
	{
	"epoch": 0.0855,
	"grad_norm": 0.3094714879989624,
	"learning_rate": 0.00028731512261343905,
	"loss": 2.551932716369629,
	"step": 8780
	},
	{
	"epoch": 0.08566666666666667,
	"grad_norm": 0.3456581234931946,
	"learning_rate": 0.0002872829576445376,
	"loss": 2.550779914855957,
	"step": 8790
	},
	{
	"epoch": 0.08583333333333333,
	"grad_norm": 0.33465033769607544,
	"learning_rate": 0.00028725075375209537,
	"loss": 2.7116863250732424,
	"step": 8800
	},
	{
	"epoch": 0.086,
	"grad_norm": 0.3668154180049896,
	"learning_rate": 0.0002872185109452432,
	"loss": 2.7546573638916017,
	"step": 8810
	},
	{
	"epoch": 0.08616666666666667,
	"grad_norm": 0.40015819668769836,
	"learning_rate": 0.00028718622923312276,
	"loss": 2.815192985534668,
	"step": 8820
	},
	{
	"epoch": 0.08633333333333333,
	"grad_norm": 0.4568469226360321,
	"learning_rate": 0.0002871539086248869,
	"loss": 2.9397647857666014,
	"step": 8830
	},
	{
	"epoch": 0.0865,
	"grad_norm": 0.3752466142177582,
	"learning_rate": 0.00028712154912969933,
	"loss": 2.997811126708984,
	"step": 8840
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 0.3966951072216034,
	"learning_rate": 0.00028708915075673487,
	"loss": 2.9600738525390624,
	"step": 8850
	},
	{
	"epoch": 0.08683333333333333,
	"grad_norm": 0.385616660118103,
	"learning_rate": 0.0002870567135151794,
	"loss": 2.995475959777832,
	"step": 8860
	},
	{
	"epoch": 0.087,
	"grad_norm": 0.41171568632125854,
	"learning_rate": 0.00028702423741422975,
	"loss": 2.9510320663452148,
	"step": 8870
	},
	{
	"epoch": 0.08716666666666667,
	"grad_norm": 0.37604814767837524,
	"learning_rate": 0.00028699172246309386,
	"loss": 2.942887878417969,
	"step": 8880
	},
	{
	"epoch": 0.08733333333333333,
	"grad_norm": 0.359893262386322,
	"learning_rate": 0.0002869591686709905,
	"loss": 2.897919845581055,
	"step": 8890
	},
	{
	"epoch": 0.0875,
	"grad_norm": 0.3566887676715851,
	"learning_rate": 0.0002869265760471497,
	"loss": 2.8465831756591795,
	"step": 8900
	},
	{
	"epoch": 0.08766666666666667,
	"grad_norm": 0.365549236536026,
	"learning_rate": 0.0002868939446008123,
	"loss": 2.8258132934570312,
	"step": 8910
	},
	{
	"epoch": 0.08783333333333333,
	"grad_norm": 0.38654187321662903,
	"learning_rate": 0.0002868612743412303,
	"loss": 2.869220161437988,
	"step": 8920
	},
	{
	"epoch": 0.088,
	"grad_norm": 0.34111154079437256,
	"learning_rate": 0.00028682856527766657,
	"loss": 2.8037746429443358,
	"step": 8930
	},
	{
	"epoch": 0.08816666666666667,
	"grad_norm": 0.35901686549186707,
	"learning_rate": 0.000286795817419395,
	"loss": 2.9024696350097656,
	"step": 8940
	},
	{
	"epoch": 0.08833333333333333,
	"grad_norm": 0.3486897945404053,
	"learning_rate": 0.0002867630307757006,
	"loss": 2.8580015182495115,
	"step": 8950
	},
	{
	"epoch": 0.0885,
	"grad_norm": 0.3644869923591614,
	"learning_rate": 0.0002867302053558793,
	"loss": 2.7919416427612305,
	"step": 8960
	},
	{
	"epoch": 0.08866666666666667,
	"grad_norm": 0.36419951915740967,
	"learning_rate": 0.0002866973411692379,
	"loss": 2.818129539489746,
	"step": 8970
	},
	{
	"epoch": 0.08883333333333333,
	"grad_norm": 0.37151747941970825,
	"learning_rate": 0.0002866644382250945,
	"loss": 2.8000688552856445,
	"step": 8980
	},
	{
	"epoch": 0.089,
	"grad_norm": 0.41001400351524353,
	"learning_rate": 0.0002866314965327778,
	"loss": 2.8964866638183593,
	"step": 8990
	},
	{
	"epoch": 0.08916666666666667,
	"grad_norm": 0.3449036777019501,
	"learning_rate": 0.00028659851610162785,
	"loss": 2.769412803649902,
	"step": 9000
	},
	{
	"epoch": 0.08933333333333333,
	"grad_norm": 0.3284320533275604,
	"learning_rate": 0.0002865654969409954,
	"loss": 2.8089309692382813,
	"step": 9010
	},
	{
	"epoch": 0.0895,
	"grad_norm": 0.3335931599140167,
	"learning_rate": 0.00028653243906024247,
	"loss": 2.808209228515625,
	"step": 9020
	},
	{
	"epoch": 0.08966666666666667,
	"grad_norm": 0.3487749993801117,
	"learning_rate": 0.0002864993424687417,
	"loss": 2.732996940612793,
	"step": 9030
	},
	{
	"epoch": 0.08983333333333333,
	"grad_norm": 0.3709432780742645,
	"learning_rate": 0.000286466207175877,
	"loss": 2.707015609741211,
	"step": 9040
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.3400644063949585,
	"learning_rate": 0.0002864330331910431,
	"loss": 2.7739015579223634,
	"step": 9050
	},
	{
	"epoch": 0.09016666666666667,
	"grad_norm": 0.3754271864891052,
	"learning_rate": 0.0002863998205236458,
	"loss": 2.756894111633301,
	"step": 9060
	},
	{
	"epoch": 0.09033333333333333,
	"grad_norm": 0.36973458528518677,
	"learning_rate": 0.0002863665691831017,
	"loss": 2.7984287261962892,
	"step": 9070
	},
	{
	"epoch": 0.0905,
	"grad_norm": 0.34491243958473206,
	"learning_rate": 0.0002863332791788387,
	"loss": 2.8282186508178713,
	"step": 9080
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 0.36020711064338684,
	"learning_rate": 0.00028629995052029524,
	"loss": 2.831917953491211,
	"step": 9090
	},
	{
	"epoch": 0.09083333333333334,
	"grad_norm": 0.37985268235206604,
	"learning_rate": 0.00028626658321692096,
	"loss": 2.8649354934692384,
	"step": 9100
	},
	{
	"epoch": 0.091,
	"grad_norm": 0.39229467511177063,
	"learning_rate": 0.00028623317727817645,
	"loss": 2.8219844818115236,
	"step": 9110
	},
	{
	"epoch": 0.09116666666666666,
	"grad_norm": 0.3532887399196625,
	"learning_rate": 0.0002861997327135333,
	"loss": 2.7614973068237303,
	"step": 9120
	},
	{
	"epoch": 0.09133333333333334,
	"grad_norm": 0.3597084581851959,
	"learning_rate": 0.0002861662495324738,
	"loss": 2.870098686218262,
	"step": 9130
	},
	{
	"epoch": 0.0915,
	"grad_norm": 0.3700224459171295,
	"learning_rate": 0.00028613272774449154,
	"loss": 2.8357120513916017,
	"step": 9140
	},
	{
	"epoch": 0.09166666666666666,
	"grad_norm": 0.3505774438381195,
	"learning_rate": 0.0002860991673590908,
	"loss": 2.754099464416504,
	"step": 9150
	},
	{
	"epoch": 0.09183333333333334,
	"grad_norm": 0.34579479694366455,
	"learning_rate": 0.00028606556838578685,
	"loss": 2.7998725891113283,
	"step": 9160
	},
	{
	"epoch": 0.092,
	"grad_norm": 0.36511072516441345,
	"learning_rate": 0.000286031930834106,
	"loss": 2.835207939147949,
	"step": 9170
	},
	{
	"epoch": 0.09216666666666666,
	"grad_norm": 0.3592240810394287,
	"learning_rate": 0.0002859982547135854,
	"loss": 2.8685771942138674,
	"step": 9180
	},
	{
	"epoch": 0.09233333333333334,
	"grad_norm": 0.3856920897960663,
	"learning_rate": 0.00028596454003377317,
	"loss": 2.8370105743408205,
	"step": 9190
	},
	{
	"epoch": 0.0925,
	"grad_norm": 0.35312730073928833,
	"learning_rate": 0.00028593078680422837,
	"loss": 2.8010177612304688,
	"step": 9200
	},
	{
	"epoch": 0.09266666666666666,
	"grad_norm": 0.3775421679019928,
	"learning_rate": 0.0002858969950345209,
	"loss": 2.7878562927246096,
	"step": 9210
	},
	{
	"epoch": 0.09283333333333334,
	"grad_norm": 0.38095957040786743,
	"learning_rate": 0.00028586316473423187,
	"loss": 2.8107866287231444,
	"step": 9220
	},
	{
	"epoch": 0.093,
	"grad_norm": 0.3698684573173523,
	"learning_rate": 0.0002858292959129529,
	"loss": 2.7675500869750977,
	"step": 9230
	},
	{
	"epoch": 0.09316666666666666,
	"grad_norm": 0.36145222187042236,
	"learning_rate": 0.00028579538858028685,
	"loss": 2.8425624847412108,
	"step": 9240
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 0.3630043864250183,
	"learning_rate": 0.00028576144274584735,
	"loss": 2.744532585144043,
	"step": 9250
	},
	{
	"epoch": 0.0935,
	"grad_norm": 0.35888129472732544,
	"learning_rate": 0.00028572745841925904,
	"loss": 2.755132865905762,
	"step": 9260
	},
	{
	"epoch": 0.09366666666666666,
	"grad_norm": 0.3507837653160095,
	"learning_rate": 0.0002856934356101574,
	"loss": 2.8252931594848634,
	"step": 9270
	},
	{
	"epoch": 0.09383333333333334,
	"grad_norm": 0.3669086694717407,
	"learning_rate": 0.0002856593743281888,
	"loss": 2.8739065170288085,
	"step": 9280
	},
	{
	"epoch": 0.094,
	"grad_norm": 0.3655420243740082,
	"learning_rate": 0.0002856252745830106,
	"loss": 2.866586112976074,
	"step": 9290
	},
	{
	"epoch": 0.09416666666666666,
	"grad_norm": 0.35320961475372314,
	"learning_rate": 0.00028559113638429104,
	"loss": 2.806113433837891,
	"step": 9300
	},
	{
	"epoch": 0.09433333333333334,
	"grad_norm": 0.3701521158218384,
	"learning_rate": 0.00028555695974170924,
	"loss": 2.7944141387939454,
	"step": 9310
	},
	{
	"epoch": 0.0945,
	"grad_norm": 0.3411415219306946,
	"learning_rate": 0.0002855227446649552,
	"loss": 2.693042755126953,
	"step": 9320
	},
	{
	"epoch": 0.09466666666666666,
	"grad_norm": 0.34341827034950256,
	"learning_rate": 0.0002854884911637299,
	"loss": 2.6667823791503906,
	"step": 9330
	},
	{
	"epoch": 0.09483333333333334,
	"grad_norm": 0.3616132140159607,
	"learning_rate": 0.00028545419924774513,
	"loss": 2.6700407028198243,
	"step": 9340
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.3750063180923462,
	"learning_rate": 0.00028541986892672357,
	"loss": 2.753375244140625,
	"step": 9350
	},
	{
	"epoch": 0.09516666666666666,
	"grad_norm": 0.36249396204948425,
	"learning_rate": 0.00028538550021039885,
	"loss": 2.8885286331176756,
	"step": 9360
	},
	{
	"epoch": 0.09533333333333334,
	"grad_norm": 0.3946261405944824,
	"learning_rate": 0.0002853510931085155,
	"loss": 2.873586082458496,
	"step": 9370
	},
	{
	"epoch": 0.0955,
	"grad_norm": 0.3485543131828308,
	"learning_rate": 0.0002853166476308288,
	"loss": 2.8844079971313477,
	"step": 9380
	},
	{
	"epoch": 0.09566666666666666,
	"grad_norm": 0.36728721857070923,
	"learning_rate": 0.00028528216378710517,
	"loss": 2.9377586364746096,
	"step": 9390
	},
	{
	"epoch": 0.09583333333333334,
	"grad_norm": 0.3543992340564728,
	"learning_rate": 0.00028524764158712157,
	"loss": 2.8414134979248047,
	"step": 9400
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.35999006032943726,
	"learning_rate": 0.000285213081040666,
	"loss": 2.8607666015625,
	"step": 9410
	},
	{
	"epoch": 0.09616666666666666,
	"grad_norm": 0.354253351688385,
	"learning_rate": 0.0002851784821575375,
	"loss": 2.9069902420043947,
	"step": 9420
	},
	{
	"epoch": 0.09633333333333334,
	"grad_norm": 0.35411810874938965,
	"learning_rate": 0.00028514384494754565,
	"loss": 2.7570217132568358,
	"step": 9430
	},
	{
	"epoch": 0.0965,
	"grad_norm": 0.3394506871700287,
	"learning_rate": 0.0002851091694205111,
	"loss": 2.7525148391723633,
	"step": 9440
	},
	{
	"epoch": 0.09666666666666666,
	"grad_norm": 0.3472767770290375,
	"learning_rate": 0.00028507445558626545,
	"loss": 2.5929914474487306,
	"step": 9450
	},
	{
	"epoch": 0.09683333333333333,
	"grad_norm": 0.3445834517478943,
	"learning_rate": 0.0002850397034546509,
	"loss": 2.6706295013427734,
	"step": 9460
	},
	{
	"epoch": 0.097,
	"grad_norm": 0.3816157281398773,
	"learning_rate": 0.00028500491303552067,
	"loss": 2.8304374694824217,
	"step": 9470
	},
	{
	"epoch": 0.09716666666666667,
	"grad_norm": 0.3813958168029785,
	"learning_rate": 0.00028497008433873885,
	"loss": 2.9113664627075195,
	"step": 9480
	},
	{
	"epoch": 0.09733333333333333,
	"grad_norm": 0.3773977756500244,
	"learning_rate": 0.00028493521737418034,
	"loss": 2.907037544250488,
	"step": 9490
	},
	{
	"epoch": 0.0975,
	"grad_norm": 0.3632221519947052,
	"learning_rate": 0.0002849003121517309,
	"loss": 2.8818357467651365,
	"step": 9500
	},
	{
	"epoch": 0.09766666666666667,
	"grad_norm": 0.3970240652561188,
	"learning_rate": 0.0002848653686812871,
	"loss": 2.9164527893066405,
	"step": 9510
	},
	{
	"epoch": 0.09783333333333333,
	"grad_norm": 0.3500790297985077,
	"learning_rate": 0.0002848303869727564,
	"loss": 2.8345727920532227,
	"step": 9520
	},
	{
	"epoch": 0.098,
	"grad_norm": 0.3632773160934448,
	"learning_rate": 0.0002847953670360571,
	"loss": 2.873233604431152,
	"step": 9530
	},
	{
	"epoch": 0.09816666666666667,
	"grad_norm": 0.376605749130249,
	"learning_rate": 0.0002847603088811183,
	"loss": 2.85976619720459,
	"step": 9540
	},
	{
	"epoch": 0.09833333333333333,
	"grad_norm": 0.3669801950454712,
	"learning_rate": 0.00028472521251787997,
	"loss": 2.720789337158203,
	"step": 9550
	},
	{
	"epoch": 0.0985,
	"grad_norm": 0.36518895626068115,
	"learning_rate": 0.00028469007795629294,
	"loss": 2.7442270278930665,
	"step": 9560
	},
	{
	"epoch": 0.09866666666666667,
	"grad_norm": 0.3775388300418854,
	"learning_rate": 0.0002846549052063189,
	"loss": 2.7367034912109376,
	"step": 9570
	},
	{
	"epoch": 0.09883333333333333,
	"grad_norm": 0.406002402305603,
	"learning_rate": 0.0002846196942779301,
	"loss": 2.8679609298706055,
	"step": 9580
	},
	{
	"epoch": 0.099,
	"grad_norm": 0.39087504148483276,
	"learning_rate": 0.00028458444518110996,
	"loss": 2.963069725036621,
	"step": 9590
	},
	{
	"epoch": 0.09916666666666667,
	"grad_norm": 0.3501756191253662,
	"learning_rate": 0.0002845491579258526,
	"loss": 2.8137041091918946,
	"step": 9600
	},
	{
	"epoch": 0.09933333333333333,
	"grad_norm": 0.34010085463523865,
	"learning_rate": 0.0002845138325221628,
	"loss": 2.802777862548828,
	"step": 9610
	},
	{
	"epoch": 0.0995,
	"grad_norm": 0.35873836278915405,
	"learning_rate": 0.0002844784689800565,
	"loss": 2.8310117721557617,
	"step": 9620
	},
	{
	"epoch": 0.09966666666666667,
	"grad_norm": 0.3960883319377899,
	"learning_rate": 0.00028444306730956016,
	"loss": 2.8962934494018553,
	"step": 9630
	},
	{
	"epoch": 0.09983333333333333,
	"grad_norm": 0.3697907626628876,
	"learning_rate": 0.00028440762752071104,
	"loss": 2.8383338928222654,
	"step": 9640
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.38671207427978516,
	"learning_rate": 0.0002843721496235574,
	"loss": 2.874836540222168,
	"step": 9650
	}
	],
	"logging_steps": 10,
	"max_steps": 60000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.363846410289021e+18,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}