bobo_groot_n1 / trainer_state.json

Upload folder using huggingface_hub

ac37205 verified 10 months ago

171 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.833333333333332,
	"eval_steps": 500,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.020833333333333332,
	"grad_norm": 0.5712802410125732,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.2353,
	"step": 10
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.4432624280452728,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.3046,
	"step": 20
	},
	{
	"epoch": 0.0625,
	"grad_norm": 0.40406811237335205,
	"learning_rate": 6e-06,
	"loss": 1.3525,
	"step": 30
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.5075733661651611,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.2482,
	"step": 40
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 0.543536365032196,
	"learning_rate": 1e-05,
	"loss": 1.1572,
	"step": 50
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.49635010957717896,
	"learning_rate": 1.2e-05,
	"loss": 1.2206,
	"step": 60
	},
	{
	"epoch": 0.14583333333333334,
	"grad_norm": 0.5479629039764404,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 0.9868,
	"step": 70
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.4761858284473419,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.9651,
	"step": 80
	},
	{
	"epoch": 0.1875,
	"grad_norm": 0.5013508796691895,
	"learning_rate": 1.8e-05,
	"loss": 0.7967,
	"step": 90
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.5219478011131287,
	"learning_rate": 2e-05,
	"loss": 0.6818,
	"step": 100
	},
	{
	"epoch": 0.22916666666666666,
	"grad_norm": 0.38396820425987244,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 0.5786,
	"step": 110
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.4274996519088745,
	"learning_rate": 2.4e-05,
	"loss": 0.4518,
	"step": 120
	},
	{
	"epoch": 0.2708333333333333,
	"grad_norm": 0.3955512046813965,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 0.4033,
	"step": 130
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.3096176087856293,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 0.3677,
	"step": 140
	},
	{
	"epoch": 0.3125,
	"grad_norm": 0.30808889865875244,
	"learning_rate": 3e-05,
	"loss": 0.3219,
	"step": 150
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.2835131287574768,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 0.3306,
	"step": 160
	},
	{
	"epoch": 0.3541666666666667,
	"grad_norm": 0.39547616243362427,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 0.3294,
	"step": 170
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.3801705539226532,
	"learning_rate": 3.6e-05,
	"loss": 0.3112,
	"step": 180
	},
	{
	"epoch": 0.3958333333333333,
	"grad_norm": 0.3237359821796417,
	"learning_rate": 3.8e-05,
	"loss": 0.2771,
	"step": 190
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.32737982273101807,
	"learning_rate": 4e-05,
	"loss": 0.2887,
	"step": 200
	},
	{
	"epoch": 0.4375,
	"grad_norm": 0.2855188846588135,
	"learning_rate": 4.2e-05,
	"loss": 0.2602,
	"step": 210
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.3789673447608948,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 0.2551,
	"step": 220
	},
	{
	"epoch": 0.4791666666666667,
	"grad_norm": 0.3325900137424469,
	"learning_rate": 4.600000000000001e-05,
	"loss": 0.2406,
	"step": 230
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.3865416944026947,
	"learning_rate": 4.8e-05,
	"loss": 0.2361,
	"step": 240
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 0.33023643493652344,
	"learning_rate": 5e-05,
	"loss": 0.2349,
	"step": 250
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.35536086559295654,
	"learning_rate": 5.2000000000000004e-05,
	"loss": 0.2205,
	"step": 260
	},
	{
	"epoch": 0.5625,
	"grad_norm": 0.4194355905056,
	"learning_rate": 5.4000000000000005e-05,
	"loss": 0.2352,
	"step": 270
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.4418402314186096,
	"learning_rate": 5.6000000000000006e-05,
	"loss": 0.1984,
	"step": 280
	},
	{
	"epoch": 0.6041666666666666,
	"grad_norm": 0.6294600367546082,
	"learning_rate": 5.8e-05,
	"loss": 0.2294,
	"step": 290
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.38821548223495483,
	"learning_rate": 6e-05,
	"loss": 0.2027,
	"step": 300
	},
	{
	"epoch": 0.6458333333333334,
	"grad_norm": 0.34604135155677795,
	"learning_rate": 6.2e-05,
	"loss": 0.2091,
	"step": 310
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.34750574827194214,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.1956,
	"step": 320
	},
	{
	"epoch": 0.6875,
	"grad_norm": 0.36665627360343933,
	"learning_rate": 6.6e-05,
	"loss": 0.1946,
	"step": 330
	},
	{
	"epoch": 0.7083333333333334,
	"grad_norm": 0.2869899570941925,
	"learning_rate": 6.800000000000001e-05,
	"loss": 0.1686,
	"step": 340
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 0.2892889976501465,
	"learning_rate": 7e-05,
	"loss": 0.1807,
	"step": 350
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.43622446060180664,
	"learning_rate": 7.2e-05,
	"loss": 0.1788,
	"step": 360
	},
	{
	"epoch": 0.7708333333333334,
	"grad_norm": 0.3504660427570343,
	"learning_rate": 7.4e-05,
	"loss": 0.1614,
	"step": 370
	},
	{
	"epoch": 0.7916666666666666,
	"grad_norm": 0.49165523052215576,
	"learning_rate": 7.6e-05,
	"loss": 0.1664,
	"step": 380
	},
	{
	"epoch": 0.8125,
	"grad_norm": 0.524911105632782,
	"learning_rate": 7.800000000000001e-05,
	"loss": 0.1643,
	"step": 390
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.3354795277118683,
	"learning_rate": 8e-05,
	"loss": 0.1559,
	"step": 400
	},
	{
	"epoch": 0.8541666666666666,
	"grad_norm": 0.36271512508392334,
	"learning_rate": 8.2e-05,
	"loss": 0.1603,
	"step": 410
	},
	{
	"epoch": 0.875,
	"grad_norm": 0.3612838387489319,
	"learning_rate": 8.4e-05,
	"loss": 0.1604,
	"step": 420
	},
	{
	"epoch": 0.8958333333333334,
	"grad_norm": 0.3812621831893921,
	"learning_rate": 8.6e-05,
	"loss": 0.1513,
	"step": 430
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.4501417577266693,
	"learning_rate": 8.800000000000001e-05,
	"loss": 0.1506,
	"step": 440
	},
	{
	"epoch": 0.9375,
	"grad_norm": 0.3173256516456604,
	"learning_rate": 9e-05,
	"loss": 0.1503,
	"step": 450
	},
	{
	"epoch": 0.9583333333333334,
	"grad_norm": 0.36029666662216187,
	"learning_rate": 9.200000000000001e-05,
	"loss": 0.156,
	"step": 460
	},
	{
	"epoch": 0.9791666666666666,
	"grad_norm": 0.39666202664375305,
	"learning_rate": 9.4e-05,
	"loss": 0.1519,
	"step": 470
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5281791687011719,
	"learning_rate": 9.6e-05,
	"loss": 0.1446,
	"step": 480
	},
	{
	"epoch": 1.0208333333333333,
	"grad_norm": 0.3308173418045044,
	"learning_rate": 9.8e-05,
	"loss": 0.1366,
	"step": 490
	},
	{
	"epoch": 1.0416666666666667,
	"grad_norm": 0.30894652009010315,
	"learning_rate": 0.0001,
	"loss": 0.1328,
	"step": 500
	},
	{
	"epoch": 1.0625,
	"grad_norm": 0.4123728275299072,
	"learning_rate": 9.999972660400536e-05,
	"loss": 0.1373,
	"step": 510
	},
	{
	"epoch": 1.0833333333333333,
	"grad_norm": 0.26810720562934875,
	"learning_rate": 9.999890641901125e-05,
	"loss": 0.1228,
	"step": 520
	},
	{
	"epoch": 1.1041666666666667,
	"grad_norm": 0.42416492104530334,
	"learning_rate": 9.999753945398704e-05,
	"loss": 0.1402,
	"step": 530
	},
	{
	"epoch": 1.125,
	"grad_norm": 0.3639088273048401,
	"learning_rate": 9.99956257238817e-05,
	"loss": 0.1249,
	"step": 540
	},
	{
	"epoch": 1.1458333333333333,
	"grad_norm": 0.2935086190700531,
	"learning_rate": 9.999316524962345e-05,
	"loss": 0.1342,
	"step": 550
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.29809266328811646,
	"learning_rate": 9.999015805811965e-05,
	"loss": 0.1193,
	"step": 560
	},
	{
	"epoch": 1.1875,
	"grad_norm": 0.3292215168476105,
	"learning_rate": 9.998660418225645e-05,
	"loss": 0.1066,
	"step": 570
	},
	{
	"epoch": 1.2083333333333333,
	"grad_norm": 0.3413059413433075,
	"learning_rate": 9.998250366089848e-05,
	"loss": 0.1219,
	"step": 580
	},
	{
	"epoch": 1.2291666666666667,
	"grad_norm": 0.3150234818458557,
	"learning_rate": 9.997785653888835e-05,
	"loss": 0.1226,
	"step": 590
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.3413054645061493,
	"learning_rate": 9.997266286704631e-05,
	"loss": 0.1202,
	"step": 600
	},
	{
	"epoch": 1.2708333333333333,
	"grad_norm": 0.412722647190094,
	"learning_rate": 9.996692270216947e-05,
	"loss": 0.1222,
	"step": 610
	},
	{
	"epoch": 1.2916666666666667,
	"grad_norm": 0.2636623978614807,
	"learning_rate": 9.996063610703137e-05,
	"loss": 0.1123,
	"step": 620
	},
	{
	"epoch": 1.3125,
	"grad_norm": 0.3020671606063843,
	"learning_rate": 9.995380315038119e-05,
	"loss": 0.1128,
	"step": 630
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.3055395483970642,
	"learning_rate": 9.994642390694308e-05,
	"loss": 0.1091,
	"step": 640
	},
	{
	"epoch": 1.3541666666666667,
	"grad_norm": 0.3779659569263458,
	"learning_rate": 9.993849845741524e-05,
	"loss": 0.1208,
	"step": 650
	},
	{
	"epoch": 1.375,
	"grad_norm": 0.4711195230484009,
	"learning_rate": 9.993002688846913e-05,
	"loss": 0.1165,
	"step": 660
	},
	{
	"epoch": 1.3958333333333333,
	"grad_norm": 0.256693571805954,
	"learning_rate": 9.992100929274846e-05,
	"loss": 0.1185,
	"step": 670
	},
	{
	"epoch": 1.4166666666666667,
	"grad_norm": 0.38072532415390015,
	"learning_rate": 9.991144576886823e-05,
	"loss": 0.1142,
	"step": 680
	},
	{
	"epoch": 1.4375,
	"grad_norm": 0.31933581829071045,
	"learning_rate": 9.990133642141359e-05,
	"loss": 0.1083,
	"step": 690
	},
	{
	"epoch": 1.4583333333333333,
	"grad_norm": 0.3114969730377197,
	"learning_rate": 9.989068136093873e-05,
	"loss": 0.1075,
	"step": 700
	},
	{
	"epoch": 1.4791666666666667,
	"grad_norm": 0.3455674648284912,
	"learning_rate": 9.987948070396571e-05,
	"loss": 0.1189,
	"step": 710
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.33146438002586365,
	"learning_rate": 9.986773457298311e-05,
	"loss": 0.1054,
	"step": 720
	},
	{
	"epoch": 1.5208333333333335,
	"grad_norm": 0.3065161108970642,
	"learning_rate": 9.985544309644475e-05,
	"loss": 0.1032,
	"step": 730
	},
	{
	"epoch": 1.5416666666666665,
	"grad_norm": 0.38725510239601135,
	"learning_rate": 9.984260640876821e-05,
	"loss": 0.097,
	"step": 740
	},
	{
	"epoch": 1.5625,
	"grad_norm": 0.32791706919670105,
	"learning_rate": 9.98292246503335e-05,
	"loss": 0.1008,
	"step": 750
	},
	{
	"epoch": 1.5833333333333335,
	"grad_norm": 0.34981703758239746,
	"learning_rate": 9.981529796748134e-05,
	"loss": 0.0956,
	"step": 760
	},
	{
	"epoch": 1.6041666666666665,
	"grad_norm": 0.3093942701816559,
	"learning_rate": 9.980082651251175e-05,
	"loss": 0.1054,
	"step": 770
	},
	{
	"epoch": 1.625,
	"grad_norm": 0.30290845036506653,
	"learning_rate": 9.97858104436822e-05,
	"loss": 0.1079,
	"step": 780
	},
	{
	"epoch": 1.6458333333333335,
	"grad_norm": 0.3575012981891632,
	"learning_rate": 9.977024992520602e-05,
	"loss": 0.1037,
	"step": 790
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.2697035074234009,
	"learning_rate": 9.975414512725057e-05,
	"loss": 0.0998,
	"step": 800
	},
	{
	"epoch": 1.6875,
	"grad_norm": 0.3098699152469635,
	"learning_rate": 9.973749622593534e-05,
	"loss": 0.102,
	"step": 810
	},
	{
	"epoch": 1.7083333333333335,
	"grad_norm": 0.43280744552612305,
	"learning_rate": 9.972030340333001e-05,
	"loss": 0.1022,
	"step": 820
	},
	{
	"epoch": 1.7291666666666665,
	"grad_norm": 0.4108767807483673,
	"learning_rate": 9.970256684745258e-05,
	"loss": 0.101,
	"step": 830
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.34355419874191284,
	"learning_rate": 9.968428675226714e-05,
	"loss": 0.0943,
	"step": 840
	},
	{
	"epoch": 1.7708333333333335,
	"grad_norm": 0.33007073402404785,
	"learning_rate": 9.966546331768191e-05,
	"loss": 0.1124,
	"step": 850
	},
	{
	"epoch": 1.7916666666666665,
	"grad_norm": 0.2797167897224426,
	"learning_rate": 9.964609674954696e-05,
	"loss": 0.0945,
	"step": 860
	},
	{
	"epoch": 1.8125,
	"grad_norm": 0.3793611526489258,
	"learning_rate": 9.962618725965196e-05,
	"loss": 0.093,
	"step": 870
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.35163822770118713,
	"learning_rate": 9.96057350657239e-05,
	"loss": 0.0967,
	"step": 880
	},
	{
	"epoch": 1.8541666666666665,
	"grad_norm": 0.28550562262535095,
	"learning_rate": 9.95847403914247e-05,
	"loss": 0.0961,
	"step": 890
	},
	{
	"epoch": 1.875,
	"grad_norm": 0.2862968146800995,
	"learning_rate": 9.956320346634876e-05,
	"loss": 0.1006,
	"step": 900
	},
	{
	"epoch": 1.8958333333333335,
	"grad_norm": 0.29589930176734924,
	"learning_rate": 9.954112452602045e-05,
	"loss": 0.0844,
	"step": 910
	},
	{
	"epoch": 1.9166666666666665,
	"grad_norm": 0.35761862993240356,
	"learning_rate": 9.95185038118915e-05,
	"loss": 0.089,
	"step": 920
	},
	{
	"epoch": 1.9375,
	"grad_norm": 0.21639415621757507,
	"learning_rate": 9.949534157133844e-05,
	"loss": 0.0873,
	"step": 930
	},
	{
	"epoch": 1.9583333333333335,
	"grad_norm": 0.22971071302890778,
	"learning_rate": 9.94716380576598e-05,
	"loss": 0.0859,
	"step": 940
	},
	{
	"epoch": 1.9791666666666665,
	"grad_norm": 0.42926573753356934,
	"learning_rate": 9.944739353007344e-05,
	"loss": 0.0901,
	"step": 950
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.38621583580970764,
	"learning_rate": 9.942260825371358e-05,
	"loss": 0.0852,
	"step": 960
	},
	{
	"epoch": 2.0208333333333335,
	"grad_norm": 0.18208271265029907,
	"learning_rate": 9.939728249962807e-05,
	"loss": 0.0866,
	"step": 970
	},
	{
	"epoch": 2.0416666666666665,
	"grad_norm": 0.4486900568008423,
	"learning_rate": 9.937141654477528e-05,
	"loss": 0.0962,
	"step": 980
	},
	{
	"epoch": 2.0625,
	"grad_norm": 0.37927910685539246,
	"learning_rate": 9.934501067202117e-05,
	"loss": 0.0907,
	"step": 990
	},
	{
	"epoch": 2.0833333333333335,
	"grad_norm": 0.3539460301399231,
	"learning_rate": 9.931806517013612e-05,
	"loss": 0.0881,
	"step": 1000
	},
	{
	"epoch": 2.1041666666666665,
	"grad_norm": 0.2473289519548416,
	"learning_rate": 9.929058033379181e-05,
	"loss": 0.0819,
	"step": 1010
	},
	{
	"epoch": 2.125,
	"grad_norm": 0.322482168674469,
	"learning_rate": 9.926255646355804e-05,
	"loss": 0.0806,
	"step": 1020
	},
	{
	"epoch": 2.1458333333333335,
	"grad_norm": 0.28534042835235596,
	"learning_rate": 9.923399386589933e-05,
	"loss": 0.0865,
	"step": 1030
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.3318226635456085,
	"learning_rate": 9.92048928531717e-05,
	"loss": 0.0913,
	"step": 1040
	},
	{
	"epoch": 2.1875,
	"grad_norm": 0.29245731234550476,
	"learning_rate": 9.917525374361912e-05,
	"loss": 0.0807,
	"step": 1050
	},
	{
	"epoch": 2.2083333333333335,
	"grad_norm": 0.3240273892879486,
	"learning_rate": 9.914507686137019e-05,
	"loss": 0.0901,
	"step": 1060
	},
	{
	"epoch": 2.2291666666666665,
	"grad_norm": 0.2937006950378418,
	"learning_rate": 9.911436253643445e-05,
	"loss": 0.0929,
	"step": 1070
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.19473260641098022,
	"learning_rate": 9.90831111046988e-05,
	"loss": 0.0877,
	"step": 1080
	},
	{
	"epoch": 2.2708333333333335,
	"grad_norm": 0.23158523440361023,
	"learning_rate": 9.905132290792394e-05,
	"loss": 0.0785,
	"step": 1090
	},
	{
	"epoch": 2.2916666666666665,
	"grad_norm": 0.39173424243927,
	"learning_rate": 9.901899829374047e-05,
	"loss": 0.0799,
	"step": 1100
	},
	{
	"epoch": 2.3125,
	"grad_norm": 0.2652515172958374,
	"learning_rate": 9.89861376156452e-05,
	"loss": 0.0873,
	"step": 1110
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.2860721945762634,
	"learning_rate": 9.895274123299723e-05,
	"loss": 0.085,
	"step": 1120
	},
	{
	"epoch": 2.3541666666666665,
	"grad_norm": 0.2780362367630005,
	"learning_rate": 9.891880951101407e-05,
	"loss": 0.0888,
	"step": 1130
	},
	{
	"epoch": 2.375,
	"grad_norm": 0.16782543063163757,
	"learning_rate": 9.888434282076758e-05,
	"loss": 0.0838,
	"step": 1140
	},
	{
	"epoch": 2.3958333333333335,
	"grad_norm": 0.2574249505996704,
	"learning_rate": 9.884934153917997e-05,
	"loss": 0.0911,
	"step": 1150
	},
	{
	"epoch": 2.4166666666666665,
	"grad_norm": 0.43154850602149963,
	"learning_rate": 9.881380604901964e-05,
	"loss": 0.0853,
	"step": 1160
	},
	{
	"epoch": 2.4375,
	"grad_norm": 0.36470529437065125,
	"learning_rate": 9.877773673889701e-05,
	"loss": 0.0795,
	"step": 1170
	},
	{
	"epoch": 2.4583333333333335,
	"grad_norm": 0.37350448966026306,
	"learning_rate": 9.87411340032603e-05,
	"loss": 0.0826,
	"step": 1180
	},
	{
	"epoch": 2.4791666666666665,
	"grad_norm": 0.21771150827407837,
	"learning_rate": 9.870399824239117e-05,
	"loss": 0.0769,
	"step": 1190
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.30865246057510376,
	"learning_rate": 9.86663298624003e-05,
	"loss": 0.0835,
	"step": 1200
	},
	{
	"epoch": 2.5208333333333335,
	"grad_norm": 0.252465158700943,
	"learning_rate": 9.862812927522309e-05,
	"loss": 0.0857,
	"step": 1210
	},
	{
	"epoch": 2.5416666666666665,
	"grad_norm": 0.2315169870853424,
	"learning_rate": 9.858939689861506e-05,
	"loss": 0.0777,
	"step": 1220
	},
	{
	"epoch": 2.5625,
	"grad_norm": 0.31083425879478455,
	"learning_rate": 9.855013315614725e-05,
	"loss": 0.0957,
	"step": 1230
	},
	{
	"epoch": 2.5833333333333335,
	"grad_norm": 0.2780759036540985,
	"learning_rate": 9.851033847720166e-05,
	"loss": 0.077,
	"step": 1240
	},
	{
	"epoch": 2.6041666666666665,
	"grad_norm": 0.20363084971904755,
	"learning_rate": 9.847001329696653e-05,
	"loss": 0.0836,
	"step": 1250
	},
	{
	"epoch": 2.625,
	"grad_norm": 0.2512096166610718,
	"learning_rate": 9.842915805643155e-05,
	"loss": 0.0735,
	"step": 1260
	},
	{
	"epoch": 2.6458333333333335,
	"grad_norm": 0.23748940229415894,
	"learning_rate": 9.838777320238312e-05,
	"loss": 0.0825,
	"step": 1270
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.253743439912796,
	"learning_rate": 9.834585918739936e-05,
	"loss": 0.0807,
	"step": 1280
	},
	{
	"epoch": 2.6875,
	"grad_norm": 0.28816473484039307,
	"learning_rate": 9.830341646984521e-05,
	"loss": 0.0879,
	"step": 1290
	},
	{
	"epoch": 2.7083333333333335,
	"grad_norm": 0.19456538558006287,
	"learning_rate": 9.826044551386744e-05,
	"loss": 0.0757,
	"step": 1300
	},
	{
	"epoch": 2.7291666666666665,
	"grad_norm": 0.3038620054721832,
	"learning_rate": 9.821694678938953e-05,
	"loss": 0.079,
	"step": 1310
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.2352106273174286,
	"learning_rate": 9.817292077210659e-05,
	"loss": 0.0823,
	"step": 1320
	},
	{
	"epoch": 2.7708333333333335,
	"grad_norm": 0.26719608902931213,
	"learning_rate": 9.812836794348004e-05,
	"loss": 0.0714,
	"step": 1330
	},
	{
	"epoch": 2.7916666666666665,
	"grad_norm": 0.34651756286621094,
	"learning_rate": 9.808328879073251e-05,
	"loss": 0.0777,
	"step": 1340
	},
	{
	"epoch": 2.8125,
	"grad_norm": 0.4574543237686157,
	"learning_rate": 9.803768380684242e-05,
	"loss": 0.0782,
	"step": 1350
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.3922979533672333,
	"learning_rate": 9.799155349053851e-05,
	"loss": 0.0743,
	"step": 1360
	},
	{
	"epoch": 2.8541666666666665,
	"grad_norm": 0.5270682573318481,
	"learning_rate": 9.794489834629455e-05,
	"loss": 0.0792,
	"step": 1370
	},
	{
	"epoch": 2.875,
	"grad_norm": 0.32153066992759705,
	"learning_rate": 9.789771888432375e-05,
	"loss": 0.0807,
	"step": 1380
	},
	{
	"epoch": 2.8958333333333335,
	"grad_norm": 0.22497066855430603,
	"learning_rate": 9.785001562057309e-05,
	"loss": 0.0725,
	"step": 1390
	},
	{
	"epoch": 2.9166666666666665,
	"grad_norm": 0.34180617332458496,
	"learning_rate": 9.780178907671789e-05,
	"loss": 0.0743,
	"step": 1400
	},
	{
	"epoch": 2.9375,
	"grad_norm": 0.31628838181495667,
	"learning_rate": 9.775303978015585e-05,
	"loss": 0.072,
	"step": 1410
	},
	{
	"epoch": 2.9583333333333335,
	"grad_norm": 0.2934205234050751,
	"learning_rate": 9.77037682640015e-05,
	"loss": 0.0808,
	"step": 1420
	},
	{
	"epoch": 2.9791666666666665,
	"grad_norm": 0.41258537769317627,
	"learning_rate": 9.765397506708023e-05,
	"loss": 0.0713,
	"step": 1430
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.40045008063316345,
	"learning_rate": 9.760366073392246e-05,
	"loss": 0.0684,
	"step": 1440
	},
	{
	"epoch": 3.0208333333333335,
	"grad_norm": 0.26449063420295715,
	"learning_rate": 9.755282581475769e-05,
	"loss": 0.0801,
	"step": 1450
	},
	{
	"epoch": 3.0416666666666665,
	"grad_norm": 0.37949052453041077,
	"learning_rate": 9.750147086550844e-05,
	"loss": 0.0738,
	"step": 1460
	},
	{
	"epoch": 3.0625,
	"grad_norm": 0.3161103129386902,
	"learning_rate": 9.744959644778422e-05,
	"loss": 0.072,
	"step": 1470
	},
	{
	"epoch": 3.0833333333333335,
	"grad_norm": 0.20324279367923737,
	"learning_rate": 9.739720312887535e-05,
	"loss": 0.08,
	"step": 1480
	},
	{
	"epoch": 3.1041666666666665,
	"grad_norm": 0.29232558608055115,
	"learning_rate": 9.734429148174675e-05,
	"loss": 0.0644,
	"step": 1490
	},
	{
	"epoch": 3.125,
	"grad_norm": 0.28713753819465637,
	"learning_rate": 9.729086208503174e-05,
	"loss": 0.0859,
	"step": 1500
	},
	{
	"epoch": 3.1458333333333335,
	"grad_norm": 0.25465258955955505,
	"learning_rate": 9.723691552302562e-05,
	"loss": 0.078,
	"step": 1510
	},
	{
	"epoch": 3.1666666666666665,
	"grad_norm": 0.20603123307228088,
	"learning_rate": 9.718245238567939e-05,
	"loss": 0.0731,
	"step": 1520
	},
	{
	"epoch": 3.1875,
	"grad_norm": 0.3969944417476654,
	"learning_rate": 9.712747326859315e-05,
	"loss": 0.0797,
	"step": 1530
	},
	{
	"epoch": 3.2083333333333335,
	"grad_norm": 0.29579344391822815,
	"learning_rate": 9.707197877300974e-05,
	"loss": 0.082,
	"step": 1540
	},
	{
	"epoch": 3.2291666666666665,
	"grad_norm": 0.3256957232952118,
	"learning_rate": 9.701596950580806e-05,
	"loss": 0.0781,
	"step": 1550
	},
	{
	"epoch": 3.25,
	"grad_norm": 0.2633601725101471,
	"learning_rate": 9.695944607949649e-05,
	"loss": 0.065,
	"step": 1560
	},
	{
	"epoch": 3.2708333333333335,
	"grad_norm": 0.17696920037269592,
	"learning_rate": 9.690240911220618e-05,
	"loss": 0.075,
	"step": 1570
	},
	{
	"epoch": 3.2916666666666665,
	"grad_norm": 0.3057501018047333,
	"learning_rate": 9.684485922768422e-05,
	"loss": 0.0704,
	"step": 1580
	},
	{
	"epoch": 3.3125,
	"grad_norm": 0.25194841623306274,
	"learning_rate": 9.6786797055287e-05,
	"loss": 0.0736,
	"step": 1590
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 0.3173382878303528,
	"learning_rate": 9.672822322997305e-05,
	"loss": 0.0689,
	"step": 1600
	},
	{
	"epoch": 3.3541666666666665,
	"grad_norm": 0.22837477922439575,
	"learning_rate": 9.66691383922964e-05,
	"loss": 0.0753,
	"step": 1610
	},
	{
	"epoch": 3.375,
	"grad_norm": 0.26070430874824524,
	"learning_rate": 9.660954318839933e-05,
	"loss": 0.069,
	"step": 1620
	},
	{
	"epoch": 3.3958333333333335,
	"grad_norm": 0.29458069801330566,
	"learning_rate": 9.654943827000548e-05,
	"loss": 0.0716,
	"step": 1630
	},
	{
	"epoch": 3.4166666666666665,
	"grad_norm": 0.19707809388637543,
	"learning_rate": 9.648882429441257e-05,
	"loss": 0.0644,
	"step": 1640
	},
	{
	"epoch": 3.4375,
	"grad_norm": 0.33838847279548645,
	"learning_rate": 9.642770192448536e-05,
	"loss": 0.0759,
	"step": 1650
	},
	{
	"epoch": 3.4583333333333335,
	"grad_norm": 0.2788403034210205,
	"learning_rate": 9.636607182864827e-05,
	"loss": 0.0682,
	"step": 1660
	},
	{
	"epoch": 3.4791666666666665,
	"grad_norm": 0.22954313457012177,
	"learning_rate": 9.630393468087818e-05,
	"loss": 0.0645,
	"step": 1670
	},
	{
	"epoch": 3.5,
	"grad_norm": 0.24135327339172363,
	"learning_rate": 9.624129116069694e-05,
	"loss": 0.0744,
	"step": 1680
	},
	{
	"epoch": 3.5208333333333335,
	"grad_norm": 0.22705936431884766,
	"learning_rate": 9.617814195316411e-05,
	"loss": 0.0728,
	"step": 1690
	},
	{
	"epoch": 3.5416666666666665,
	"grad_norm": 0.2939307987689972,
	"learning_rate": 9.611448774886924e-05,
	"loss": 0.0646,
	"step": 1700
	},
	{
	"epoch": 3.5625,
	"grad_norm": 0.31456202268600464,
	"learning_rate": 9.605032924392457e-05,
	"loss": 0.0684,
	"step": 1710
	},
	{
	"epoch": 3.5833333333333335,
	"grad_norm": 0.23306606709957123,
	"learning_rate": 9.598566713995718e-05,
	"loss": 0.0704,
	"step": 1720
	},
	{
	"epoch": 3.6041666666666665,
	"grad_norm": 0.29421374201774597,
	"learning_rate": 9.59205021441015e-05,
	"loss": 0.0731,
	"step": 1730
	},
	{
	"epoch": 3.625,
	"grad_norm": 0.27085545659065247,
	"learning_rate": 9.58548349689915e-05,
	"loss": 0.0738,
	"step": 1740
	},
	{
	"epoch": 3.6458333333333335,
	"grad_norm": 0.3011757433414459,
	"learning_rate": 9.578866633275288e-05,
	"loss": 0.0699,
	"step": 1750
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 0.1997743397951126,
	"learning_rate": 9.572199695899522e-05,
	"loss": 0.075,
	"step": 1760
	},
	{
	"epoch": 3.6875,
	"grad_norm": 0.246592178940773,
	"learning_rate": 9.565482757680415e-05,
	"loss": 0.0705,
	"step": 1770
	},
	{
	"epoch": 3.7083333333333335,
	"grad_norm": 0.20437225699424744,
	"learning_rate": 9.558715892073323e-05,
	"loss": 0.0748,
	"step": 1780
	},
	{
	"epoch": 3.7291666666666665,
	"grad_norm": 0.3391262888908386,
	"learning_rate": 9.551899173079607e-05,
	"loss": 0.077,
	"step": 1790
	},
	{
	"epoch": 3.75,
	"grad_norm": 0.281211256980896,
	"learning_rate": 9.545032675245813e-05,
	"loss": 0.0705,
	"step": 1800
	},
	{
	"epoch": 3.7708333333333335,
	"grad_norm": 0.3593650758266449,
	"learning_rate": 9.538116473662861e-05,
	"loss": 0.0668,
	"step": 1810
	},
	{
	"epoch": 3.7916666666666665,
	"grad_norm": 0.1879791021347046,
	"learning_rate": 9.531150643965223e-05,
	"loss": 0.0676,
	"step": 1820
	},
	{
	"epoch": 3.8125,
	"grad_norm": 0.21219395101070404,
	"learning_rate": 9.524135262330098e-05,
	"loss": 0.0647,
	"step": 1830
	},
	{
	"epoch": 3.8333333333333335,
	"grad_norm": 0.3183116316795349,
	"learning_rate": 9.517070405476575e-05,
	"loss": 0.0634,
	"step": 1840
	},
	{
	"epoch": 3.8541666666666665,
	"grad_norm": 0.28682222962379456,
	"learning_rate": 9.509956150664796e-05,
	"loss": 0.0646,
	"step": 1850
	},
	{
	"epoch": 3.875,
	"grad_norm": 0.24012918770313263,
	"learning_rate": 9.502792575695112e-05,
	"loss": 0.0707,
	"step": 1860
	},
	{
	"epoch": 3.8958333333333335,
	"grad_norm": 0.30853742361068726,
	"learning_rate": 9.49557975890723e-05,
	"loss": 0.065,
	"step": 1870
	},
	{
	"epoch": 3.9166666666666665,
	"grad_norm": 0.195424884557724,
	"learning_rate": 9.488317779179361e-05,
	"loss": 0.0608,
	"step": 1880
	},
	{
	"epoch": 3.9375,
	"grad_norm": 0.21382686495780945,
	"learning_rate": 9.481006715927351e-05,
	"loss": 0.0624,
	"step": 1890
	},
	{
	"epoch": 3.9583333333333335,
	"grad_norm": 0.3102688789367676,
	"learning_rate": 9.473646649103818e-05,
	"loss": 0.0709,
	"step": 1900
	},
	{
	"epoch": 3.9791666666666665,
	"grad_norm": 0.2577802538871765,
	"learning_rate": 9.46623765919727e-05,
	"loss": 0.0727,
	"step": 1910
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.3073917031288147,
	"learning_rate": 9.458779827231237e-05,
	"loss": 0.0702,
	"step": 1920
	},
	{
	"epoch": 4.020833333333333,
	"grad_norm": 0.26779404282569885,
	"learning_rate": 9.451273234763371e-05,
	"loss": 0.0659,
	"step": 1930
	},
	{
	"epoch": 4.041666666666667,
	"grad_norm": 0.24666723608970642,
	"learning_rate": 9.443717963884569e-05,
	"loss": 0.0741,
	"step": 1940
	},
	{
	"epoch": 4.0625,
	"grad_norm": 0.2598995864391327,
	"learning_rate": 9.43611409721806e-05,
	"loss": 0.0639,
	"step": 1950
	},
	{
	"epoch": 4.083333333333333,
	"grad_norm": 0.2048502266407013,
	"learning_rate": 9.428461717918511e-05,
	"loss": 0.058,
	"step": 1960
	},
	{
	"epoch": 4.104166666666667,
	"grad_norm": 0.30026310682296753,
	"learning_rate": 9.420760909671118e-05,
	"loss": 0.0644,
	"step": 1970
	},
	{
	"epoch": 4.125,
	"grad_norm": 0.2254793345928192,
	"learning_rate": 9.413011756690685e-05,
	"loss": 0.0695,
	"step": 1980
	},
	{
	"epoch": 4.145833333333333,
	"grad_norm": 0.2455112487077713,
	"learning_rate": 9.405214343720707e-05,
	"loss": 0.0712,
	"step": 1990
	},
	{
	"epoch": 4.166666666666667,
	"grad_norm": 0.24452751874923706,
	"learning_rate": 9.397368756032445e-05,
	"loss": 0.0575,
	"step": 2000
	},
	{
	"epoch": 4.1875,
	"grad_norm": 0.271490216255188,
	"learning_rate": 9.389475079423988e-05,
	"loss": 0.0576,
	"step": 2010
	},
	{
	"epoch": 4.208333333333333,
	"grad_norm": 0.20718179643154144,
	"learning_rate": 9.381533400219318e-05,
	"loss": 0.0598,
	"step": 2020
	},
	{
	"epoch": 4.229166666666667,
	"grad_norm": 0.26649123430252075,
	"learning_rate": 9.373543805267368e-05,
	"loss": 0.0675,
	"step": 2030
	},
	{
	"epoch": 4.25,
	"grad_norm": 0.2887789309024811,
	"learning_rate": 9.365506381941066e-05,
	"loss": 0.0697,
	"step": 2040
	},
	{
	"epoch": 4.270833333333333,
	"grad_norm": 0.379747599363327,
	"learning_rate": 9.357421218136386e-05,
	"loss": 0.0671,
	"step": 2050
	},
	{
	"epoch": 4.291666666666667,
	"grad_norm": 0.24359039962291718,
	"learning_rate": 9.349288402271388e-05,
	"loss": 0.0634,
	"step": 2060
	},
	{
	"epoch": 4.3125,
	"grad_norm": 0.26673591136932373,
	"learning_rate": 9.341108023285238e-05,
	"loss": 0.0631,
	"step": 2070
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 0.2317454218864441,
	"learning_rate": 9.332880170637252e-05,
	"loss": 0.0631,
	"step": 2080
	},
	{
	"epoch": 4.354166666666667,
	"grad_norm": 0.3269646465778351,
	"learning_rate": 9.32460493430591e-05,
	"loss": 0.0558,
	"step": 2090
	},
	{
	"epoch": 4.375,
	"grad_norm": 0.22670741379261017,
	"learning_rate": 9.316282404787871e-05,
	"loss": 0.059,
	"step": 2100
	},
	{
	"epoch": 4.395833333333333,
	"grad_norm": 0.27039453387260437,
	"learning_rate": 9.30791267309698e-05,
	"loss": 0.0542,
	"step": 2110
	},
	{
	"epoch": 4.416666666666667,
	"grad_norm": 0.3565439283847809,
	"learning_rate": 9.299495830763286e-05,
	"loss": 0.0618,
	"step": 2120
	},
	{
	"epoch": 4.4375,
	"grad_norm": 0.22678254544734955,
	"learning_rate": 9.291031969832026e-05,
	"loss": 0.0633,
	"step": 2130
	},
	{
	"epoch": 4.458333333333333,
	"grad_norm": 0.2625988721847534,
	"learning_rate": 9.282521182862629e-05,
	"loss": 0.0615,
	"step": 2140
	},
	{
	"epoch": 4.479166666666667,
	"grad_norm": 0.30497926473617554,
	"learning_rate": 9.273963562927695e-05,
	"loss": 0.0778,
	"step": 2150
	},
	{
	"epoch": 4.5,
	"grad_norm": 0.22760331630706787,
	"learning_rate": 9.265359203611987e-05,
	"loss": 0.0575,
	"step": 2160
	},
	{
	"epoch": 4.520833333333333,
	"grad_norm": 0.2656308710575104,
	"learning_rate": 9.256708199011401e-05,
	"loss": 0.0638,
	"step": 2170
	},
	{
	"epoch": 4.541666666666667,
	"grad_norm": 0.2067960649728775,
	"learning_rate": 9.248010643731935e-05,
	"loss": 0.0562,
	"step": 2180
	},
	{
	"epoch": 4.5625,
	"grad_norm": 0.21887032687664032,
	"learning_rate": 9.239266632888659e-05,
	"loss": 0.0657,
	"step": 2190
	},
	{
	"epoch": 4.583333333333333,
	"grad_norm": 0.305982768535614,
	"learning_rate": 9.230476262104677e-05,
	"loss": 0.0634,
	"step": 2200
	},
	{
	"epoch": 4.604166666666667,
	"grad_norm": 0.25816601514816284,
	"learning_rate": 9.221639627510076e-05,
	"loss": 0.0559,
	"step": 2210
	},
	{
	"epoch": 4.625,
	"grad_norm": 0.3034866452217102,
	"learning_rate": 9.212756825740873e-05,
	"loss": 0.0629,
	"step": 2220
	},
	{
	"epoch": 4.645833333333333,
	"grad_norm": 0.225479394197464,
	"learning_rate": 9.20382795393797e-05,
	"loss": 0.0601,
	"step": 2230
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.3092559576034546,
	"learning_rate": 9.194853109746074e-05,
	"loss": 0.0588,
	"step": 2240
	},
	{
	"epoch": 4.6875,
	"grad_norm": 0.25218334794044495,
	"learning_rate": 9.185832391312644e-05,
	"loss": 0.0624,
	"step": 2250
	},
	{
	"epoch": 4.708333333333333,
	"grad_norm": 0.2973797917366028,
	"learning_rate": 9.176765897286813e-05,
	"loss": 0.0601,
	"step": 2260
	},
	{
	"epoch": 4.729166666666667,
	"grad_norm": 0.2519341707229614,
	"learning_rate": 9.167653726818305e-05,
	"loss": 0.0564,
	"step": 2270
	},
	{
	"epoch": 4.75,
	"grad_norm": 0.2949662208557129,
	"learning_rate": 9.158495979556358e-05,
	"loss": 0.0687,
	"step": 2280
	},
	{
	"epoch": 4.770833333333333,
	"grad_norm": 0.17965540289878845,
	"learning_rate": 9.14929275564863e-05,
	"loss": 0.0641,
	"step": 2290
	},
	{
	"epoch": 4.791666666666667,
	"grad_norm": 0.23875364661216736,
	"learning_rate": 9.140044155740101e-05,
	"loss": 0.0524,
	"step": 2300
	},
	{
	"epoch": 4.8125,
	"grad_norm": 0.28078049421310425,
	"learning_rate": 9.130750280971978e-05,
	"loss": 0.0662,
	"step": 2310
	},
	{
	"epoch": 4.833333333333333,
	"grad_norm": 0.25002536177635193,
	"learning_rate": 9.121411232980588e-05,
	"loss": 0.0521,
	"step": 2320
	},
	{
	"epoch": 4.854166666666667,
	"grad_norm": 0.19856375455856323,
	"learning_rate": 9.112027113896262e-05,
	"loss": 0.0662,
	"step": 2330
	},
	{
	"epoch": 4.875,
	"grad_norm": 0.20989863574504852,
	"learning_rate": 9.102598026342222e-05,
	"loss": 0.0642,
	"step": 2340
	},
	{
	"epoch": 4.895833333333333,
	"grad_norm": 0.2387610673904419,
	"learning_rate": 9.093124073433463e-05,
	"loss": 0.063,
	"step": 2350
	},
	{
	"epoch": 4.916666666666667,
	"grad_norm": 0.32933273911476135,
	"learning_rate": 9.083605358775612e-05,
	"loss": 0.0627,
	"step": 2360
	},
	{
	"epoch": 4.9375,
	"grad_norm": 0.38782161474227905,
	"learning_rate": 9.074041986463808e-05,
	"loss": 0.0613,
	"step": 2370
	},
	{
	"epoch": 4.958333333333333,
	"grad_norm": 0.20130065083503723,
	"learning_rate": 9.064434061081562e-05,
	"loss": 0.054,
	"step": 2380
	},
	{
	"epoch": 4.979166666666667,
	"grad_norm": 0.17160147428512573,
	"learning_rate": 9.0547816876996e-05,
	"loss": 0.0654,
	"step": 2390
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.35171496868133545,
	"learning_rate": 9.045084971874738e-05,
	"loss": 0.0658,
	"step": 2400
	},
	{
	"epoch": 5.020833333333333,
	"grad_norm": 0.16831085085868835,
	"learning_rate": 9.035344019648702e-05,
	"loss": 0.0508,
	"step": 2410
	},
	{
	"epoch": 5.041666666666667,
	"grad_norm": 0.17995953559875488,
	"learning_rate": 9.025558937546988e-05,
	"loss": 0.0571,
	"step": 2420
	},
	{
	"epoch": 5.0625,
	"grad_norm": 0.19575315713882446,
	"learning_rate": 9.015729832577681e-05,
	"loss": 0.0596,
	"step": 2430
	},
	{
	"epoch": 5.083333333333333,
	"grad_norm": 0.1493072807788849,
	"learning_rate": 9.005856812230304e-05,
	"loss": 0.0541,
	"step": 2440
	},
	{
	"epoch": 5.104166666666667,
	"grad_norm": 0.22525647282600403,
	"learning_rate": 8.995939984474624e-05,
	"loss": 0.0572,
	"step": 2450
	},
	{
	"epoch": 5.125,
	"grad_norm": 0.3696461319923401,
	"learning_rate": 8.98597945775948e-05,
	"loss": 0.0571,
	"step": 2460
	},
	{
	"epoch": 5.145833333333333,
	"grad_norm": 0.2887597978115082,
	"learning_rate": 8.975975341011596e-05,
	"loss": 0.0518,
	"step": 2470
	},
	{
	"epoch": 5.166666666666667,
	"grad_norm": 0.20684699714183807,
	"learning_rate": 8.965927743634391e-05,
	"loss": 0.059,
	"step": 2480
	},
	{
	"epoch": 5.1875,
	"grad_norm": 0.31182733178138733,
	"learning_rate": 8.955836775506776e-05,
	"loss": 0.0516,
	"step": 2490
	},
	{
	"epoch": 5.208333333333333,
	"grad_norm": 0.2731056809425354,
	"learning_rate": 8.945702546981969e-05,
	"loss": 0.057,
	"step": 2500
	},
	{
	"epoch": 5.229166666666667,
	"grad_norm": 0.36009490489959717,
	"learning_rate": 8.935525168886262e-05,
	"loss": 0.056,
	"step": 2510
	},
	{
	"epoch": 5.25,
	"grad_norm": 0.3038497865200043,
	"learning_rate": 8.92530475251784e-05,
	"loss": 0.0543,
	"step": 2520
	},
	{
	"epoch": 5.270833333333333,
	"grad_norm": 0.1461966633796692,
	"learning_rate": 8.91504140964553e-05,
	"loss": 0.0566,
	"step": 2530
	},
	{
	"epoch": 5.291666666666667,
	"grad_norm": 0.22562798857688904,
	"learning_rate": 8.90473525250761e-05,
	"loss": 0.0608,
	"step": 2540
	},
	{
	"epoch": 5.3125,
	"grad_norm": 0.30006659030914307,
	"learning_rate": 8.894386393810563e-05,
	"loss": 0.0675,
	"step": 2550
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 0.16184063255786896,
	"learning_rate": 8.883994946727849e-05,
	"loss": 0.0553,
	"step": 2560
	},
	{
	"epoch": 5.354166666666667,
	"grad_norm": 0.2308872491121292,
	"learning_rate": 8.873561024898668e-05,
	"loss": 0.0566,
	"step": 2570
	},
	{
	"epoch": 5.375,
	"grad_norm": 0.33821049332618713,
	"learning_rate": 8.863084742426719e-05,
	"loss": 0.0562,
	"step": 2580
	},
	{
	"epoch": 5.395833333333333,
	"grad_norm": 0.29942095279693604,
	"learning_rate": 8.852566213878947e-05,
	"loss": 0.0658,
	"step": 2590
	},
	{
	"epoch": 5.416666666666667,
	"grad_norm": 0.1915530562400818,
	"learning_rate": 8.842005554284296e-05,
	"loss": 0.0549,
	"step": 2600
	},
	{
	"epoch": 5.4375,
	"grad_norm": 0.257016122341156,
	"learning_rate": 8.831402879132446e-05,
	"loss": 0.0571,
	"step": 2610
	},
	{
	"epoch": 5.458333333333333,
	"grad_norm": 0.2739509642124176,
	"learning_rate": 8.820758304372557e-05,
	"loss": 0.0559,
	"step": 2620
	},
	{
	"epoch": 5.479166666666667,
	"grad_norm": 0.3152376711368561,
	"learning_rate": 8.810071946411989e-05,
	"loss": 0.0486,
	"step": 2630
	},
	{
	"epoch": 5.5,
	"grad_norm": 0.23179279267787933,
	"learning_rate": 8.799343922115044e-05,
	"loss": 0.0502,
	"step": 2640
	},
	{
	"epoch": 5.520833333333333,
	"grad_norm": 0.25594186782836914,
	"learning_rate": 8.788574348801675e-05,
	"loss": 0.057,
	"step": 2650
	},
	{
	"epoch": 5.541666666666667,
	"grad_norm": 0.2627776861190796,
	"learning_rate": 8.77776334424621e-05,
	"loss": 0.0669,
	"step": 2660
	},
	{
	"epoch": 5.5625,
	"grad_norm": 0.1960115134716034,
	"learning_rate": 8.766911026676064e-05,
	"loss": 0.0613,
	"step": 2670
	},
	{
	"epoch": 5.583333333333333,
	"grad_norm": 0.17280827462673187,
	"learning_rate": 8.756017514770443e-05,
	"loss": 0.0598,
	"step": 2680
	},
	{
	"epoch": 5.604166666666667,
	"grad_norm": 0.27976927161216736,
	"learning_rate": 8.745082927659047e-05,
	"loss": 0.0477,
	"step": 2690
	},
	{
	"epoch": 5.625,
	"grad_norm": 0.20411022007465363,
	"learning_rate": 8.73410738492077e-05,
	"loss": 0.0644,
	"step": 2700
	},
	{
	"epoch": 5.645833333333333,
	"grad_norm": 0.2056054323911667,
	"learning_rate": 8.723091006582389e-05,
	"loss": 0.0558,
	"step": 2710
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 0.1785743236541748,
	"learning_rate": 8.71203391311725e-05,
	"loss": 0.0596,
	"step": 2720
	},
	{
	"epoch": 5.6875,
	"grad_norm": 0.162923201918602,
	"learning_rate": 8.700936225443959e-05,
	"loss": 0.0537,
	"step": 2730
	},
	{
	"epoch": 5.708333333333333,
	"grad_norm": 0.31077900528907776,
	"learning_rate": 8.689798064925049e-05,
	"loss": 0.061,
	"step": 2740
	},
	{
	"epoch": 5.729166666666667,
	"grad_norm": 0.19991479814052582,
	"learning_rate": 8.678619553365659e-05,
	"loss": 0.0497,
	"step": 2750
	},
	{
	"epoch": 5.75,
	"grad_norm": 0.2934041917324066,
	"learning_rate": 8.6674008130122e-05,
	"loss": 0.0578,
	"step": 2760
	},
	{
	"epoch": 5.770833333333333,
	"grad_norm": 0.19904303550720215,
	"learning_rate": 8.656141966551019e-05,
	"loss": 0.0568,
	"step": 2770
	},
	{
	"epoch": 5.791666666666667,
	"grad_norm": 0.2990000247955322,
	"learning_rate": 8.644843137107059e-05,
	"loss": 0.0526,
	"step": 2780
	},
	{
	"epoch": 5.8125,
	"grad_norm": 0.15075786411762238,
	"learning_rate": 8.633504448242505e-05,
	"loss": 0.0515,
	"step": 2790
	},
	{
	"epoch": 5.833333333333333,
	"grad_norm": 0.21086309850215912,
	"learning_rate": 8.622126023955446e-05,
	"loss": 0.0533,
	"step": 2800
	},
	{
	"epoch": 5.854166666666667,
	"grad_norm": 0.2507677972316742,
	"learning_rate": 8.610707988678503e-05,
	"loss": 0.0542,
	"step": 2810
	},
	{
	"epoch": 5.875,
	"grad_norm": 0.16625888645648956,
	"learning_rate": 8.599250467277483e-05,
	"loss": 0.0533,
	"step": 2820
	},
	{
	"epoch": 5.895833333333333,
	"grad_norm": 0.24702179431915283,
	"learning_rate": 8.587753585050004e-05,
	"loss": 0.0534,
	"step": 2830
	},
	{
	"epoch": 5.916666666666667,
	"grad_norm": 0.20405326783657074,
	"learning_rate": 8.576217467724128e-05,
	"loss": 0.0564,
	"step": 2840
	},
	{
	"epoch": 5.9375,
	"grad_norm": 0.22098389267921448,
	"learning_rate": 8.564642241456986e-05,
	"loss": 0.0589,
	"step": 2850
	},
	{
	"epoch": 5.958333333333333,
	"grad_norm": 0.2992077171802521,
	"learning_rate": 8.553028032833397e-05,
	"loss": 0.051,
	"step": 2860
	},
	{
	"epoch": 5.979166666666667,
	"grad_norm": 0.22971950471401215,
	"learning_rate": 8.541374968864487e-05,
	"loss": 0.05,
	"step": 2870
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.19986356794834137,
	"learning_rate": 8.529683176986295e-05,
	"loss": 0.0488,
	"step": 2880
	},
	{
	"epoch": 6.020833333333333,
	"grad_norm": 0.18404853343963623,
	"learning_rate": 8.517952785058385e-05,
	"loss": 0.0496,
	"step": 2890
	},
	{
	"epoch": 6.041666666666667,
	"grad_norm": 0.22865642607212067,
	"learning_rate": 8.506183921362443e-05,
	"loss": 0.0551,
	"step": 2900
	},
	{
	"epoch": 6.0625,
	"grad_norm": 0.33640816807746887,
	"learning_rate": 8.494376714600878e-05,
	"loss": 0.0631,
	"step": 2910
	},
	{
	"epoch": 6.083333333333333,
	"grad_norm": 0.27387309074401855,
	"learning_rate": 8.482531293895412e-05,
	"loss": 0.0478,
	"step": 2920
	},
	{
	"epoch": 6.104166666666667,
	"grad_norm": 0.27359068393707275,
	"learning_rate": 8.470647788785665e-05,
	"loss": 0.0502,
	"step": 2930
	},
	{
	"epoch": 6.125,
	"grad_norm": 0.2842683494091034,
	"learning_rate": 8.458726329227747e-05,
	"loss": 0.057,
	"step": 2940
	},
	{
	"epoch": 6.145833333333333,
	"grad_norm": 0.26530441641807556,
	"learning_rate": 8.44676704559283e-05,
	"loss": 0.0507,
	"step": 2950
	},
	{
	"epoch": 6.166666666666667,
	"grad_norm": 0.2461036890745163,
	"learning_rate": 8.434770068665723e-05,
	"loss": 0.06,
	"step": 2960
	},
	{
	"epoch": 6.1875,
	"grad_norm": 0.15848632156848907,
	"learning_rate": 8.422735529643444e-05,
	"loss": 0.0528,
	"step": 2970
	},
	{
	"epoch": 6.208333333333333,
	"grad_norm": 0.31197741627693176,
	"learning_rate": 8.410663560133784e-05,
	"loss": 0.0585,
	"step": 2980
	},
	{
	"epoch": 6.229166666666667,
	"grad_norm": 0.24464961886405945,
	"learning_rate": 8.398554292153866e-05,
	"loss": 0.0519,
	"step": 2990
	},
	{
	"epoch": 6.25,
	"grad_norm": 0.2479836791753769,
	"learning_rate": 8.386407858128706e-05,
	"loss": 0.054,
	"step": 3000
	},
	{
	"epoch": 6.270833333333333,
	"grad_norm": 0.2722799777984619,
	"learning_rate": 8.37422439088976e-05,
	"loss": 0.0556,
	"step": 3010
	},
	{
	"epoch": 6.291666666666667,
	"grad_norm": 0.21395736932754517,
	"learning_rate": 8.362004023673474e-05,
	"loss": 0.0623,
	"step": 3020
	},
	{
	"epoch": 6.3125,
	"grad_norm": 0.18791121244430542,
	"learning_rate": 8.349746890119826e-05,
	"loss": 0.0498,
	"step": 3030
	},
	{
	"epoch": 6.333333333333333,
	"grad_norm": 0.19878436625003815,
	"learning_rate": 8.337453124270863e-05,
	"loss": 0.051,
	"step": 3040
	},
	{
	"epoch": 6.354166666666667,
	"grad_norm": 0.20424553751945496,
	"learning_rate": 8.32512286056924e-05,
	"loss": 0.0458,
	"step": 3050
	},
	{
	"epoch": 6.375,
	"grad_norm": 0.2852227985858917,
	"learning_rate": 8.31275623385675e-05,
	"loss": 0.0592,
	"step": 3060
	},
	{
	"epoch": 6.395833333333333,
	"grad_norm": 0.19160036742687225,
	"learning_rate": 8.300353379372834e-05,
	"loss": 0.0588,
	"step": 3070
	},
	{
	"epoch": 6.416666666666667,
	"grad_norm": 0.22774095833301544,
	"learning_rate": 8.287914432753123e-05,
	"loss": 0.0545,
	"step": 3080
	},
	{
	"epoch": 6.4375,
	"grad_norm": 0.38672950863838196,
	"learning_rate": 8.275439530027948e-05,
	"loss": 0.0556,
	"step": 3090
	},
	{
	"epoch": 6.458333333333333,
	"grad_norm": 0.28046780824661255,
	"learning_rate": 8.262928807620843e-05,
	"loss": 0.0587,
	"step": 3100
	},
	{
	"epoch": 6.479166666666667,
	"grad_norm": 0.2667509913444519,
	"learning_rate": 8.250382402347065e-05,
	"loss": 0.0588,
	"step": 3110
	},
	{
	"epoch": 6.5,
	"grad_norm": 0.33412522077560425,
	"learning_rate": 8.237800451412095e-05,
	"loss": 0.0599,
	"step": 3120
	},
	{
	"epoch": 6.520833333333333,
	"grad_norm": 0.1729501336812973,
	"learning_rate": 8.225183092410128e-05,
	"loss": 0.052,
	"step": 3130
	},
	{
	"epoch": 6.541666666666667,
	"grad_norm": 0.13118429481983185,
	"learning_rate": 8.212530463322583e-05,
	"loss": 0.0564,
	"step": 3140
	},
	{
	"epoch": 6.5625,
	"grad_norm": 0.19928762316703796,
	"learning_rate": 8.199842702516583e-05,
	"loss": 0.0551,
	"step": 3150
	},
	{
	"epoch": 6.583333333333333,
	"grad_norm": 0.1139163076877594,
	"learning_rate": 8.18711994874345e-05,
	"loss": 0.05,
	"step": 3160
	},
	{
	"epoch": 6.604166666666667,
	"grad_norm": 0.18016424775123596,
	"learning_rate": 8.174362341137177e-05,
	"loss": 0.0512,
	"step": 3170
	},
	{
	"epoch": 6.625,
	"grad_norm": 0.2455376386642456,
	"learning_rate": 8.161570019212921e-05,
	"loss": 0.0535,
	"step": 3180
	},
	{
	"epoch": 6.645833333333333,
	"grad_norm": 0.2456337809562683,
	"learning_rate": 8.148743122865463e-05,
	"loss": 0.0494,
	"step": 3190
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 0.19081375002861023,
	"learning_rate": 8.135881792367686e-05,
	"loss": 0.0642,
	"step": 3200
	},
	{
	"epoch": 6.6875,
	"grad_norm": 0.18129488825798035,
	"learning_rate": 8.12298616836904e-05,
	"loss": 0.0581,
	"step": 3210
	},
	{
	"epoch": 6.708333333333333,
	"grad_norm": 0.21184127032756805,
	"learning_rate": 8.110056391894005e-05,
	"loss": 0.0504,
	"step": 3220
	},
	{
	"epoch": 6.729166666666667,
	"grad_norm": 0.42624956369400024,
	"learning_rate": 8.097092604340542e-05,
	"loss": 0.0566,
	"step": 3230
	},
	{
	"epoch": 6.75,
	"grad_norm": 0.13590912520885468,
	"learning_rate": 8.084094947478556e-05,
	"loss": 0.0448,
	"step": 3240
	},
	{
	"epoch": 6.770833333333333,
	"grad_norm": 0.26878491044044495,
	"learning_rate": 8.07106356344834e-05,
	"loss": 0.0486,
	"step": 3250
	},
	{
	"epoch": 6.791666666666667,
	"grad_norm": 0.2239430993795395,
	"learning_rate": 8.057998594759022e-05,
	"loss": 0.057,
	"step": 3260
	},
	{
	"epoch": 6.8125,
	"grad_norm": 0.26898056268692017,
	"learning_rate": 8.044900184287007e-05,
	"loss": 0.0515,
	"step": 3270
	},
	{
	"epoch": 6.833333333333333,
	"grad_norm": 0.2961832582950592,
	"learning_rate": 8.031768475274413e-05,
	"loss": 0.0499,
	"step": 3280
	},
	{
	"epoch": 6.854166666666667,
	"grad_norm": 0.32980307936668396,
	"learning_rate": 8.018603611327504e-05,
	"loss": 0.052,
	"step": 3290
	},
	{
	"epoch": 6.875,
	"grad_norm": 0.1965520977973938,
	"learning_rate": 8.005405736415126e-05,
	"loss": 0.0434,
	"step": 3300
	},
	{
	"epoch": 6.895833333333333,
	"grad_norm": 0.23696592450141907,
	"learning_rate": 7.992174994867123e-05,
	"loss": 0.0416,
	"step": 3310
	},
	{
	"epoch": 6.916666666666667,
	"grad_norm": 0.19276441633701324,
	"learning_rate": 7.978911531372765e-05,
	"loss": 0.0512,
	"step": 3320
	},
	{
	"epoch": 6.9375,
	"grad_norm": 0.347258985042572,
	"learning_rate": 7.965615490979163e-05,
	"loss": 0.0481,
	"step": 3330
	},
	{
	"epoch": 6.958333333333333,
	"grad_norm": 0.27975815534591675,
	"learning_rate": 7.952287019089685e-05,
	"loss": 0.0486,
	"step": 3340
	},
	{
	"epoch": 6.979166666666667,
	"grad_norm": 0.2909054458141327,
	"learning_rate": 7.938926261462366e-05,
	"loss": 0.0516,
	"step": 3350
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.35416579246520996,
	"learning_rate": 7.925533364208309e-05,
	"loss": 0.052,
	"step": 3360
	},
	{
	"epoch": 7.020833333333333,
	"grad_norm": 0.23169547319412231,
	"learning_rate": 7.912108473790092e-05,
	"loss": 0.0572,
	"step": 3370
	},
	{
	"epoch": 7.041666666666667,
	"grad_norm": 0.15997090935707092,
	"learning_rate": 7.898651737020166e-05,
	"loss": 0.0484,
	"step": 3380
	},
	{
	"epoch": 7.0625,
	"grad_norm": 0.1840064525604248,
	"learning_rate": 7.88516330105925e-05,
	"loss": 0.0557,
	"step": 3390
	},
	{
	"epoch": 7.083333333333333,
	"grad_norm": 0.20743203163146973,
	"learning_rate": 7.871643313414718e-05,
	"loss": 0.0464,
	"step": 3400
	},
	{
	"epoch": 7.104166666666667,
	"grad_norm": 0.1931951940059662,
	"learning_rate": 7.858091921938988e-05,
	"loss": 0.0584,
	"step": 3410
	},
	{
	"epoch": 7.125,
	"grad_norm": 0.1620691567659378,
	"learning_rate": 7.844509274827907e-05,
	"loss": 0.0526,
	"step": 3420
	},
	{
	"epoch": 7.145833333333333,
	"grad_norm": 0.19966144859790802,
	"learning_rate": 7.830895520619128e-05,
	"loss": 0.0497,
	"step": 3430
	},
	{
	"epoch": 7.166666666666667,
	"grad_norm": 0.33056026697158813,
	"learning_rate": 7.817250808190483e-05,
	"loss": 0.0454,
	"step": 3440
	},
	{
	"epoch": 7.1875,
	"grad_norm": 0.17656965553760529,
	"learning_rate": 7.803575286758364e-05,
	"loss": 0.0479,
	"step": 3450
	},
	{
	"epoch": 7.208333333333333,
	"grad_norm": 0.2836000621318817,
	"learning_rate": 7.789869105876083e-05,
	"loss": 0.0528,
	"step": 3460
	},
	{
	"epoch": 7.229166666666667,
	"grad_norm": 0.26270195841789246,
	"learning_rate": 7.776132415432234e-05,
	"loss": 0.0486,
	"step": 3470
	},
	{
	"epoch": 7.25,
	"grad_norm": 0.22928914427757263,
	"learning_rate": 7.762365365649067e-05,
	"loss": 0.0441,
	"step": 3480
	},
	{
	"epoch": 7.270833333333333,
	"grad_norm": 0.2707754075527191,
	"learning_rate": 7.748568107080832e-05,
	"loss": 0.0509,
	"step": 3490
	},
	{
	"epoch": 7.291666666666667,
	"grad_norm": 0.24163918197155,
	"learning_rate": 7.734740790612136e-05,
	"loss": 0.058,
	"step": 3500
	},
	{
	"epoch": 7.3125,
	"grad_norm": 0.2887519598007202,
	"learning_rate": 7.720883567456298e-05,
	"loss": 0.0532,
	"step": 3510
	},
	{
	"epoch": 7.333333333333333,
	"grad_norm": 0.17884305119514465,
	"learning_rate": 7.70699658915369e-05,
	"loss": 0.0457,
	"step": 3520
	},
	{
	"epoch": 7.354166666666667,
	"grad_norm": 0.21325179934501648,
	"learning_rate": 7.693080007570084e-05,
	"loss": 0.0434,
	"step": 3530
	},
	{
	"epoch": 7.375,
	"grad_norm": 0.18805336952209473,
	"learning_rate": 7.679133974894983e-05,
	"loss": 0.0492,
	"step": 3540
	},
	{
	"epoch": 7.395833333333333,
	"grad_norm": 0.2082250714302063,
	"learning_rate": 7.66515864363997e-05,
	"loss": 0.054,
	"step": 3550
	},
	{
	"epoch": 7.416666666666667,
	"grad_norm": 0.23594920337200165,
	"learning_rate": 7.651154166637025e-05,
	"loss": 0.0519,
	"step": 3560
	},
	{
	"epoch": 7.4375,
	"grad_norm": 0.30293792486190796,
	"learning_rate": 7.637120697036866e-05,
	"loss": 0.0515,
	"step": 3570
	},
	{
	"epoch": 7.458333333333333,
	"grad_norm": 0.22353586554527283,
	"learning_rate": 7.623058388307269e-05,
	"loss": 0.0492,
	"step": 3580
	},
	{
	"epoch": 7.479166666666667,
	"grad_norm": 0.17080843448638916,
	"learning_rate": 7.608967394231387e-05,
	"loss": 0.0532,
	"step": 3590
	},
	{
	"epoch": 7.5,
	"grad_norm": 0.20430722832679749,
	"learning_rate": 7.594847868906076e-05,
	"loss": 0.046,
	"step": 3600
	},
	{
	"epoch": 7.520833333333333,
	"grad_norm": 0.2533716857433319,
	"learning_rate": 7.580699966740201e-05,
	"loss": 0.0506,
	"step": 3610
	},
	{
	"epoch": 7.541666666666667,
	"grad_norm": 0.27399206161499023,
	"learning_rate": 7.566523842452958e-05,
	"loss": 0.0506,
	"step": 3620
	},
	{
	"epoch": 7.5625,
	"grad_norm": 0.22438126802444458,
	"learning_rate": 7.552319651072164e-05,
	"loss": 0.051,
	"step": 3630
	},
	{
	"epoch": 7.583333333333333,
	"grad_norm": 0.12401247769594193,
	"learning_rate": 7.538087547932585e-05,
	"loss": 0.0482,
	"step": 3640
	},
	{
	"epoch": 7.604166666666667,
	"grad_norm": 0.17836348712444305,
	"learning_rate": 7.52382768867422e-05,
	"loss": 0.0479,
	"step": 3650
	},
	{
	"epoch": 7.625,
	"grad_norm": 0.1784362494945526,
	"learning_rate": 7.509540229240601e-05,
	"loss": 0.0472,
	"step": 3660
	},
	{
	"epoch": 7.645833333333333,
	"grad_norm": 0.2113669365644455,
	"learning_rate": 7.495225325877103e-05,
	"loss": 0.0494,
	"step": 3670
	},
	{
	"epoch": 7.666666666666667,
	"grad_norm": 0.21031108498573303,
	"learning_rate": 7.480883135129211e-05,
	"loss": 0.0462,
	"step": 3680
	},
	{
	"epoch": 7.6875,
	"grad_norm": 0.20441193878650665,
	"learning_rate": 7.466513813840825e-05,
	"loss": 0.0508,
	"step": 3690
	},
	{
	"epoch": 7.708333333333333,
	"grad_norm": 0.22074037790298462,
	"learning_rate": 7.452117519152542e-05,
	"loss": 0.05,
	"step": 3700
	},
	{
	"epoch": 7.729166666666667,
	"grad_norm": 0.2839852273464203,
	"learning_rate": 7.437694408499933e-05,
	"loss": 0.0501,
	"step": 3710
	},
	{
	"epoch": 7.75,
	"grad_norm": 0.2460620403289795,
	"learning_rate": 7.423244639611826e-05,
	"loss": 0.0527,
	"step": 3720
	},
	{
	"epoch": 7.770833333333333,
	"grad_norm": 0.2610677182674408,
	"learning_rate": 7.408768370508576e-05,
	"loss": 0.0451,
	"step": 3730
	},
	{
	"epoch": 7.791666666666667,
	"grad_norm": 0.21664959192276,
	"learning_rate": 7.394265759500348e-05,
	"loss": 0.051,
	"step": 3740
	},
	{
	"epoch": 7.8125,
	"grad_norm": 0.17678774893283844,
	"learning_rate": 7.379736965185368e-05,
	"loss": 0.0509,
	"step": 3750
	},
	{
	"epoch": 7.833333333333333,
	"grad_norm": 0.2611595690250397,
	"learning_rate": 7.365182146448205e-05,
	"loss": 0.0418,
	"step": 3760
	},
	{
	"epoch": 7.854166666666667,
	"grad_norm": 0.2205267995595932,
	"learning_rate": 7.350601462458024e-05,
	"loss": 0.0532,
	"step": 3770
	},
	{
	"epoch": 7.875,
	"grad_norm": 0.21233738958835602,
	"learning_rate": 7.335995072666848e-05,
	"loss": 0.0489,
	"step": 3780
	},
	{
	"epoch": 7.895833333333333,
	"grad_norm": 0.22973224520683289,
	"learning_rate": 7.32136313680782e-05,
	"loss": 0.045,
	"step": 3790
	},
	{
	"epoch": 7.916666666666667,
	"grad_norm": 0.2883082330226898,
	"learning_rate": 7.30670581489344e-05,
	"loss": 0.0447,
	"step": 3800
	},
	{
	"epoch": 7.9375,
	"grad_norm": 0.26208218932151794,
	"learning_rate": 7.292023267213835e-05,
	"loss": 0.047,
	"step": 3810
	},
	{
	"epoch": 7.958333333333333,
	"grad_norm": 0.21999841928482056,
	"learning_rate": 7.277315654334997e-05,
	"loss": 0.0507,
	"step": 3820
	},
	{
	"epoch": 7.979166666666667,
	"grad_norm": 0.3113929033279419,
	"learning_rate": 7.262583137097018e-05,
	"loss": 0.0505,
	"step": 3830
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.30518674850463867,
	"learning_rate": 7.247825876612353e-05,
	"loss": 0.0479,
	"step": 3840
	},
	{
	"epoch": 8.020833333333334,
	"grad_norm": 0.18710266053676605,
	"learning_rate": 7.233044034264034e-05,
	"loss": 0.0483,
	"step": 3850
	},
	{
	"epoch": 8.041666666666666,
	"grad_norm": 0.26212358474731445,
	"learning_rate": 7.218237771703921e-05,
	"loss": 0.0517,
	"step": 3860
	},
	{
	"epoch": 8.0625,
	"grad_norm": 0.23527061939239502,
	"learning_rate": 7.203407250850928e-05,
	"loss": 0.0531,
	"step": 3870
	},
	{
	"epoch": 8.083333333333334,
	"grad_norm": 0.19504660367965698,
	"learning_rate": 7.188552633889259e-05,
	"loss": 0.0493,
	"step": 3880
	},
	{
	"epoch": 8.104166666666666,
	"grad_norm": 0.1593329906463623,
	"learning_rate": 7.173674083266624e-05,
	"loss": 0.0442,
	"step": 3890
	},
	{
	"epoch": 8.125,
	"grad_norm": 0.270129531621933,
	"learning_rate": 7.158771761692464e-05,
	"loss": 0.0538,
	"step": 3900
	},
	{
	"epoch": 8.145833333333334,
	"grad_norm": 0.22113825380802155,
	"learning_rate": 7.143845832136188e-05,
	"loss": 0.0518,
	"step": 3910
	},
	{
	"epoch": 8.166666666666666,
	"grad_norm": 0.25669917464256287,
	"learning_rate": 7.128896457825364e-05,
	"loss": 0.0468,
	"step": 3920
	},
	{
	"epoch": 8.1875,
	"grad_norm": 0.24919012188911438,
	"learning_rate": 7.113923802243957e-05,
	"loss": 0.0449,
	"step": 3930
	},
	{
	"epoch": 8.208333333333334,
	"grad_norm": 0.22066769003868103,
	"learning_rate": 7.09892802913053e-05,
	"loss": 0.0488,
	"step": 3940
	},
	{
	"epoch": 8.229166666666666,
	"grad_norm": 0.14869259297847748,
	"learning_rate": 7.083909302476453e-05,
	"loss": 0.0501,
	"step": 3950
	},
	{
	"epoch": 8.25,
	"grad_norm": 0.24340423941612244,
	"learning_rate": 7.068867786524116e-05,
	"loss": 0.0495,
	"step": 3960
	},
	{
	"epoch": 8.270833333333334,
	"grad_norm": 0.26488855481147766,
	"learning_rate": 7.053803645765128e-05,
	"loss": 0.0436,
	"step": 3970
	},
	{
	"epoch": 8.291666666666666,
	"grad_norm": 0.1781073361635208,
	"learning_rate": 7.038717044938519e-05,
	"loss": 0.0482,
	"step": 3980
	},
	{
	"epoch": 8.3125,
	"grad_norm": 0.21294355392456055,
	"learning_rate": 7.023608149028937e-05,
	"loss": 0.0436,
	"step": 3990
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 0.26423192024230957,
	"learning_rate": 7.008477123264848e-05,
	"loss": 0.0489,
	"step": 4000
	},
	{
	"epoch": 8.354166666666666,
	"grad_norm": 0.31145504117012024,
	"learning_rate": 6.993324133116726e-05,
	"loss": 0.0474,
	"step": 4010
	},
	{
	"epoch": 8.375,
	"grad_norm": 0.18576444685459137,
	"learning_rate": 6.978149344295242e-05,
	"loss": 0.0456,
	"step": 4020
	},
	{
	"epoch": 8.395833333333334,
	"grad_norm": 0.1888401359319687,
	"learning_rate": 6.962952922749457e-05,
	"loss": 0.0479,
	"step": 4030
	},
	{
	"epoch": 8.416666666666666,
	"grad_norm": 0.20155051350593567,
	"learning_rate": 6.947735034665002e-05,
	"loss": 0.0492,
	"step": 4040
	},
	{
	"epoch": 8.4375,
	"grad_norm": 0.19216452538967133,
	"learning_rate": 6.932495846462261e-05,
	"loss": 0.0467,
	"step": 4050
	},
	{
	"epoch": 8.458333333333334,
	"grad_norm": 0.18663518130779266,
	"learning_rate": 6.917235524794558e-05,
	"loss": 0.0471,
	"step": 4060
	},
	{
	"epoch": 8.479166666666666,
	"grad_norm": 0.285762757062912,
	"learning_rate": 6.901954236546323e-05,
	"loss": 0.0526,
	"step": 4070
	},
	{
	"epoch": 8.5,
	"grad_norm": 0.12023583799600601,
	"learning_rate": 6.886652148831279e-05,
	"loss": 0.0418,
	"step": 4080
	},
	{
	"epoch": 8.520833333333334,
	"grad_norm": 0.2189977616071701,
	"learning_rate": 6.871329428990602e-05,
	"loss": 0.0482,
	"step": 4090
	},
	{
	"epoch": 8.541666666666666,
	"grad_norm": 0.259148508310318,
	"learning_rate": 6.855986244591104e-05,
	"loss": 0.0487,
	"step": 4100
	},
	{
	"epoch": 8.5625,
	"grad_norm": 0.3006899058818817,
	"learning_rate": 6.840622763423391e-05,
	"loss": 0.0462,
	"step": 4110
	},
	{
	"epoch": 8.583333333333334,
	"grad_norm": 0.17823457717895508,
	"learning_rate": 6.825239153500029e-05,
	"loss": 0.0446,
	"step": 4120
	},
	{
	"epoch": 8.604166666666666,
	"grad_norm": 0.2890760600566864,
	"learning_rate": 6.809835583053715e-05,
	"loss": 0.0483,
	"step": 4130
	},
	{
	"epoch": 8.625,
	"grad_norm": 0.2661435306072235,
	"learning_rate": 6.794412220535426e-05,
	"loss": 0.0451,
	"step": 4140
	},
	{
	"epoch": 8.645833333333334,
	"grad_norm": 0.20998653769493103,
	"learning_rate": 6.778969234612584e-05,
	"loss": 0.0508,
	"step": 4150
	},
	{
	"epoch": 8.666666666666666,
	"grad_norm": 0.23018722236156464,
	"learning_rate": 6.763506794167208e-05,
	"loss": 0.0383,
	"step": 4160
	},
	{
	"epoch": 8.6875,
	"grad_norm": 0.2272096574306488,
	"learning_rate": 6.748025068294067e-05,
	"loss": 0.0454,
	"step": 4170
	},
	{
	"epoch": 8.708333333333334,
	"grad_norm": 0.16684843599796295,
	"learning_rate": 6.732524226298841e-05,
	"loss": 0.0533,
	"step": 4180
	},
	{
	"epoch": 8.729166666666666,
	"grad_norm": 0.19425426423549652,
	"learning_rate": 6.71700443769625e-05,
	"loss": 0.0492,
	"step": 4190
	},
	{
	"epoch": 8.75,
	"grad_norm": 0.23464734852313995,
	"learning_rate": 6.701465872208216e-05,
	"loss": 0.0514,
	"step": 4200
	},
	{
	"epoch": 8.770833333333334,
	"grad_norm": 0.24427248537540436,
	"learning_rate": 6.685908699762002e-05,
	"loss": 0.0455,
	"step": 4210
	},
	{
	"epoch": 8.791666666666666,
	"grad_norm": 0.19908004999160767,
	"learning_rate": 6.670333090488356e-05,
	"loss": 0.0451,
	"step": 4220
	},
	{
	"epoch": 8.8125,
	"grad_norm": 0.1977444887161255,
	"learning_rate": 6.654739214719641e-05,
	"loss": 0.0444,
	"step": 4230
	},
	{
	"epoch": 8.833333333333334,
	"grad_norm": 0.1939217746257782,
	"learning_rate": 6.639127242987988e-05,
	"loss": 0.0472,
	"step": 4240
	},
	{
	"epoch": 8.854166666666666,
	"grad_norm": 0.23702214658260345,
	"learning_rate": 6.623497346023418e-05,
	"loss": 0.0479,
	"step": 4250
	},
	{
	"epoch": 8.875,
	"grad_norm": 0.24079830944538116,
	"learning_rate": 6.607849694751977e-05,
	"loss": 0.0516,
	"step": 4260
	},
	{
	"epoch": 8.895833333333334,
	"grad_norm": 0.14849868416786194,
	"learning_rate": 6.592184460293877e-05,
	"loss": 0.0429,
	"step": 4270
	},
	{
	"epoch": 8.916666666666666,
	"grad_norm": 0.14669269323349,
	"learning_rate": 6.576501813961609e-05,
	"loss": 0.0464,
	"step": 4280
	},
	{
	"epoch": 8.9375,
	"grad_norm": 0.1892845332622528,
	"learning_rate": 6.56080192725808e-05,
	"loss": 0.0448,
	"step": 4290
	},
	{
	"epoch": 8.958333333333334,
	"grad_norm": 0.2720951735973358,
	"learning_rate": 6.545084971874738e-05,
	"loss": 0.0469,
	"step": 4300
	},
	{
	"epoch": 8.979166666666666,
	"grad_norm": 0.42531394958496094,
	"learning_rate": 6.529351119689688e-05,
	"loss": 0.0421,
	"step": 4310
	},
	{
	"epoch": 9.0,
	"grad_norm": 0.263864666223526,
	"learning_rate": 6.513600542765817e-05,
	"loss": 0.0466,
	"step": 4320
	},
	{
	"epoch": 9.020833333333334,
	"grad_norm": 0.26266640424728394,
	"learning_rate": 6.497833413348909e-05,
	"loss": 0.0422,
	"step": 4330
	},
	{
	"epoch": 9.041666666666666,
	"grad_norm": 0.20382165908813477,
	"learning_rate": 6.48204990386577e-05,
	"loss": 0.0357,
	"step": 4340
	},
	{
	"epoch": 9.0625,
	"grad_norm": 0.23681896924972534,
	"learning_rate": 6.466250186922325e-05,
	"loss": 0.0485,
	"step": 4350
	},
	{
	"epoch": 9.083333333333334,
	"grad_norm": 0.24817602336406708,
	"learning_rate": 6.450434435301751e-05,
	"loss": 0.0406,
	"step": 4360
	},
	{
	"epoch": 9.104166666666666,
	"grad_norm": 0.2470203936100006,
	"learning_rate": 6.43460282196257e-05,
	"loss": 0.0455,
	"step": 4370
	},
	{
	"epoch": 9.125,
	"grad_norm": 0.16725751757621765,
	"learning_rate": 6.418755520036775e-05,
	"loss": 0.0418,
	"step": 4380
	},
	{
	"epoch": 9.145833333333334,
	"grad_norm": 0.17291924357414246,
	"learning_rate": 6.402892702827916e-05,
	"loss": 0.044,
	"step": 4390
	},
	{
	"epoch": 9.166666666666666,
	"grad_norm": 0.2706625163555145,
	"learning_rate": 6.387014543809223e-05,
	"loss": 0.0543,
	"step": 4400
	},
	{
	"epoch": 9.1875,
	"grad_norm": 0.2189723700284958,
	"learning_rate": 6.371121216621698e-05,
	"loss": 0.0487,
	"step": 4410
	},
	{
	"epoch": 9.208333333333334,
	"grad_norm": 0.23476912081241608,
	"learning_rate": 6.355212895072223e-05,
	"loss": 0.0484,
	"step": 4420
	},
	{
	"epoch": 9.229166666666666,
	"grad_norm": 0.18557274341583252,
	"learning_rate": 6.339289753131649e-05,
	"loss": 0.0459,
	"step": 4430
	},
	{
	"epoch": 9.25,
	"grad_norm": 0.20507971942424774,
	"learning_rate": 6.323351964932908e-05,
	"loss": 0.043,
	"step": 4440
	},
	{
	"epoch": 9.270833333333334,
	"grad_norm": 0.20149551331996918,
	"learning_rate": 6.307399704769099e-05,
	"loss": 0.0505,
	"step": 4450
	},
	{
	"epoch": 9.291666666666666,
	"grad_norm": 0.16381600499153137,
	"learning_rate": 6.291433147091583e-05,
	"loss": 0.0436,
	"step": 4460
	},
	{
	"epoch": 9.3125,
	"grad_norm": 0.24549932777881622,
	"learning_rate": 6.275452466508077e-05,
	"loss": 0.0438,
	"step": 4470
	},
	{
	"epoch": 9.333333333333334,
	"grad_norm": 0.15507693588733673,
	"learning_rate": 6.259457837780742e-05,
	"loss": 0.0433,
	"step": 4480
	},
	{
	"epoch": 9.354166666666666,
	"grad_norm": 0.199483722448349,
	"learning_rate": 6.243449435824276e-05,
	"loss": 0.041,
	"step": 4490
	},
	{
	"epoch": 9.375,
	"grad_norm": 0.17188148200511932,
	"learning_rate": 6.227427435703997e-05,
	"loss": 0.0504,
	"step": 4500
	},
	{
	"epoch": 9.395833333333334,
	"grad_norm": 0.23068276047706604,
	"learning_rate": 6.211392012633932e-05,
	"loss": 0.0464,
	"step": 4510
	},
	{
	"epoch": 9.416666666666666,
	"grad_norm": 0.21441690623760223,
	"learning_rate": 6.195343341974899e-05,
	"loss": 0.0484,
	"step": 4520
	},
	{
	"epoch": 9.4375,
	"grad_norm": 0.13120320439338684,
	"learning_rate": 6.179281599232591e-05,
	"loss": 0.0395,
	"step": 4530
	},
	{
	"epoch": 9.458333333333334,
	"grad_norm": 0.19601130485534668,
	"learning_rate": 6.163206960055651e-05,
	"loss": 0.0405,
	"step": 4540
	},
	{
	"epoch": 9.479166666666666,
	"grad_norm": 0.26348334550857544,
	"learning_rate": 6.147119600233758e-05,
	"loss": 0.0409,
	"step": 4550
	},
	{
	"epoch": 9.5,
	"grad_norm": 0.1722290962934494,
	"learning_rate": 6.131019695695702e-05,
	"loss": 0.0392,
	"step": 4560
	},
	{
	"epoch": 9.520833333333334,
	"grad_norm": 0.19188344478607178,
	"learning_rate": 6.11490742250746e-05,
	"loss": 0.0423,
	"step": 4570
	},
	{
	"epoch": 9.541666666666666,
	"grad_norm": 0.15979404747486115,
	"learning_rate": 6.0987829568702656e-05,
	"loss": 0.0416,
	"step": 4580
	},
	{
	"epoch": 9.5625,
	"grad_norm": 0.1957653909921646,
	"learning_rate": 6.0826464751186994e-05,
	"loss": 0.0457,
	"step": 4590
	},
	{
	"epoch": 9.583333333333334,
	"grad_norm": 0.1783294528722763,
	"learning_rate": 6.066498153718735e-05,
	"loss": 0.0449,
	"step": 4600
	},
	{
	"epoch": 9.604166666666666,
	"grad_norm": 0.28254982829093933,
	"learning_rate": 6.05033816926583e-05,
	"loss": 0.0446,
	"step": 4610
	},
	{
	"epoch": 9.625,
	"grad_norm": 0.29281267523765564,
	"learning_rate": 6.034166698482984e-05,
	"loss": 0.0395,
	"step": 4620
	},
	{
	"epoch": 9.645833333333334,
	"grad_norm": 0.18072371184825897,
	"learning_rate": 6.017983918218812e-05,
	"loss": 0.0481,
	"step": 4630
	},
	{
	"epoch": 9.666666666666666,
	"grad_norm": 0.18428587913513184,
	"learning_rate": 6.001790005445607e-05,
	"loss": 0.0402,
	"step": 4640
	},
	{
	"epoch": 9.6875,
	"grad_norm": 0.17016282677650452,
	"learning_rate": 5.985585137257401e-05,
	"loss": 0.0477,
	"step": 4650
	},
	{
	"epoch": 9.708333333333334,
	"grad_norm": 0.17313967645168304,
	"learning_rate": 5.969369490868042e-05,
	"loss": 0.0492,
	"step": 4660
	},
	{
	"epoch": 9.729166666666666,
	"grad_norm": 0.3263380229473114,
	"learning_rate": 5.953143243609235e-05,
	"loss": 0.0511,
	"step": 4670
	},
	{
	"epoch": 9.75,
	"grad_norm": 0.23494060337543488,
	"learning_rate": 5.9369065729286245e-05,
	"loss": 0.0441,
	"step": 4680
	},
	{
	"epoch": 9.770833333333334,
	"grad_norm": 0.17909765243530273,
	"learning_rate": 5.9206596563878357e-05,
	"loss": 0.0443,
	"step": 4690
	},
	{
	"epoch": 9.791666666666666,
	"grad_norm": 0.25222522020339966,
	"learning_rate": 5.90440267166055e-05,
	"loss": 0.0478,
	"step": 4700
	},
	{
	"epoch": 9.8125,
	"grad_norm": 0.23123560845851898,
	"learning_rate": 5.888135796530544e-05,
	"loss": 0.0417,
	"step": 4710
	},
	{
	"epoch": 9.833333333333334,
	"grad_norm": 0.2341155707836151,
	"learning_rate": 5.871859208889759e-05,
	"loss": 0.046,
	"step": 4720
	},
	{
	"epoch": 9.854166666666666,
	"grad_norm": 0.2579653859138489,
	"learning_rate": 5.85557308673635e-05,
	"loss": 0.0469,
	"step": 4730
	},
	{
	"epoch": 9.875,
	"grad_norm": 0.17647035419940948,
	"learning_rate": 5.8392776081727385e-05,
	"loss": 0.0403,
	"step": 4740
	},
	{
	"epoch": 9.895833333333334,
	"grad_norm": 0.1749514639377594,
	"learning_rate": 5.8229729514036705e-05,
	"loss": 0.0439,
	"step": 4750
	},
	{
	"epoch": 9.916666666666666,
	"grad_norm": 0.23397527635097504,
	"learning_rate": 5.8066592947342555e-05,
	"loss": 0.0437,
	"step": 4760
	},
	{
	"epoch": 9.9375,
	"grad_norm": 0.18928822875022888,
	"learning_rate": 5.7903368165680327e-05,
	"loss": 0.0443,
	"step": 4770
	},
	{
	"epoch": 9.958333333333334,
	"grad_norm": 0.1895478218793869,
	"learning_rate": 5.7740056954050084e-05,
	"loss": 0.0468,
	"step": 4780
	},
	{
	"epoch": 9.979166666666666,
	"grad_norm": 0.17620734870433807,
	"learning_rate": 5.757666109839702e-05,
	"loss": 0.0491,
	"step": 4790
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.19584999978542328,
	"learning_rate": 5.74131823855921e-05,
	"loss": 0.0376,
	"step": 4800
	},
	{
	"epoch": 10.020833333333334,
	"grad_norm": 0.17567752301692963,
	"learning_rate": 5.72496226034123e-05,
	"loss": 0.046,
	"step": 4810
	},
	{
	"epoch": 10.041666666666666,
	"grad_norm": 0.2471524477005005,
	"learning_rate": 5.7085983540521216e-05,
	"loss": 0.0456,
	"step": 4820
	},
	{
	"epoch": 10.0625,
	"grad_norm": 0.22308869659900665,
	"learning_rate": 5.692226698644938e-05,
	"loss": 0.0456,
	"step": 4830
	},
	{
	"epoch": 10.083333333333334,
	"grad_norm": 0.28350821137428284,
	"learning_rate": 5.675847473157485e-05,
	"loss": 0.0515,
	"step": 4840
	},
	{
	"epoch": 10.104166666666666,
	"grad_norm": 0.19321610033512115,
	"learning_rate": 5.6594608567103456e-05,
	"loss": 0.0458,
	"step": 4850
	},
	{
	"epoch": 10.125,
	"grad_norm": 0.2354840636253357,
	"learning_rate": 5.6430670285049314e-05,
	"loss": 0.0395,
	"step": 4860
	},
	{
	"epoch": 10.145833333333334,
	"grad_norm": 0.2242346554994583,
	"learning_rate": 5.6266661678215216e-05,
	"loss": 0.0452,
	"step": 4870
	},
	{
	"epoch": 10.166666666666666,
	"grad_norm": 0.19859901070594788,
	"learning_rate": 5.6102584540173006e-05,
	"loss": 0.0427,
	"step": 4880
	},
	{
	"epoch": 10.1875,
	"grad_norm": 0.2990339696407318,
	"learning_rate": 5.5938440665244006e-05,
	"loss": 0.0443,
	"step": 4890
	},
	{
	"epoch": 10.208333333333334,
	"grad_norm": 0.17451122403144836,
	"learning_rate": 5.577423184847932e-05,
	"loss": 0.0464,
	"step": 4900
	},
	{
	"epoch": 10.229166666666666,
	"grad_norm": 0.27011385560035706,
	"learning_rate": 5.560995988564023e-05,
	"loss": 0.0432,
	"step": 4910
	},
	{
	"epoch": 10.25,
	"grad_norm": 0.20278741419315338,
	"learning_rate": 5.544562657317863e-05,
	"loss": 0.041,
	"step": 4920
	},
	{
	"epoch": 10.270833333333334,
	"grad_norm": 0.19786055386066437,
	"learning_rate": 5.52812337082173e-05,
	"loss": 0.0448,
	"step": 4930
	},
	{
	"epoch": 10.291666666666666,
	"grad_norm": 0.19475369155406952,
	"learning_rate": 5.511678308853026e-05,
	"loss": 0.0407,
	"step": 4940
	},
	{
	"epoch": 10.3125,
	"grad_norm": 0.18051603436470032,
	"learning_rate": 5.495227651252315e-05,
	"loss": 0.0402,
	"step": 4950
	},
	{
	"epoch": 10.333333333333334,
	"grad_norm": 0.2484702616930008,
	"learning_rate": 5.478771577921351e-05,
	"loss": 0.0438,
	"step": 4960
	},
	{
	"epoch": 10.354166666666666,
	"grad_norm": 0.22432544827461243,
	"learning_rate": 5.462310268821118e-05,
	"loss": 0.0461,
	"step": 4970
	},
	{
	"epoch": 10.375,
	"grad_norm": 0.18664902448654175,
	"learning_rate": 5.445843903969854e-05,
	"loss": 0.0488,
	"step": 4980
	},
	{
	"epoch": 10.395833333333334,
	"grad_norm": 0.15875597298145294,
	"learning_rate": 5.4293726634410855e-05,
	"loss": 0.0453,
	"step": 4990
	},
	{
	"epoch": 10.416666666666666,
	"grad_norm": 0.241317018866539,
	"learning_rate": 5.4128967273616625e-05,
	"loss": 0.0426,
	"step": 5000
	},
	{
	"epoch": 10.4375,
	"grad_norm": 0.25186699628829956,
	"learning_rate": 5.396416275909779e-05,
	"loss": 0.0422,
	"step": 5010
	},
	{
	"epoch": 10.458333333333334,
	"grad_norm": 0.210428386926651,
	"learning_rate": 5.379931489313016e-05,
	"loss": 0.0447,
	"step": 5020
	},
	{
	"epoch": 10.479166666666666,
	"grad_norm": 0.18129436671733856,
	"learning_rate": 5.363442547846356e-05,
	"loss": 0.0486,
	"step": 5030
	},
	{
	"epoch": 10.5,
	"grad_norm": 0.1484909951686859,
	"learning_rate": 5.3469496318302204e-05,
	"loss": 0.0379,
	"step": 5040
	},
	{
	"epoch": 10.520833333333334,
	"grad_norm": 0.20055051147937775,
	"learning_rate": 5.330452921628497e-05,
	"loss": 0.0458,
	"step": 5050
	},
	{
	"epoch": 10.541666666666666,
	"grad_norm": 0.1339893490076065,
	"learning_rate": 5.313952597646568e-05,
	"loss": 0.0393,
	"step": 5060
	},
	{
	"epoch": 10.5625,
	"grad_norm": 0.20396846532821655,
	"learning_rate": 5.297448840329329e-05,
	"loss": 0.0397,
	"step": 5070
	},
	{
	"epoch": 10.583333333333334,
	"grad_norm": 0.13719069957733154,
	"learning_rate": 5.280941830159227e-05,
	"loss": 0.0399,
	"step": 5080
	},
	{
	"epoch": 10.604166666666666,
	"grad_norm": 0.19255420565605164,
	"learning_rate": 5.264431747654284e-05,
	"loss": 0.0405,
	"step": 5090
	},
	{
	"epoch": 10.625,
	"grad_norm": 0.22163689136505127,
	"learning_rate": 5.247918773366112e-05,
	"loss": 0.0473,
	"step": 5100
	},
	{
	"epoch": 10.645833333333334,
	"grad_norm": 0.23657256364822388,
	"learning_rate": 5.231403087877955e-05,
	"loss": 0.0426,
	"step": 5110
	},
	{
	"epoch": 10.666666666666666,
	"grad_norm": 0.2585020363330841,
	"learning_rate": 5.214884871802703e-05,
	"loss": 0.0487,
	"step": 5120
	},
	{
	"epoch": 10.6875,
	"grad_norm": 0.17085853219032288,
	"learning_rate": 5.198364305780922e-05,
	"loss": 0.0407,
	"step": 5130
	},
	{
	"epoch": 10.708333333333334,
	"grad_norm": 0.1590132862329483,
	"learning_rate": 5.1818415704788725e-05,
	"loss": 0.0368,
	"step": 5140
	},
	{
	"epoch": 10.729166666666666,
	"grad_norm": 0.15811192989349365,
	"learning_rate": 5.165316846586541e-05,
	"loss": 0.0412,
	"step": 5150
	},
	{
	"epoch": 10.75,
	"grad_norm": 0.20628100633621216,
	"learning_rate": 5.148790314815663e-05,
	"loss": 0.0429,
	"step": 5160
	},
	{
	"epoch": 10.770833333333334,
	"grad_norm": 0.18603432178497314,
	"learning_rate": 5.132262155897739e-05,
	"loss": 0.0379,
	"step": 5170
	},
	{
	"epoch": 10.791666666666666,
	"grad_norm": 0.27321115136146545,
	"learning_rate": 5.1157325505820694e-05,
	"loss": 0.0395,
	"step": 5180
	},
	{
	"epoch": 10.8125,
	"grad_norm": 0.22894440591335297,
	"learning_rate": 5.0992016796337686e-05,
	"loss": 0.0424,
	"step": 5190
	},
	{
	"epoch": 10.833333333333334,
	"grad_norm": 0.12385181337594986,
	"learning_rate": 5.0826697238317935e-05,
	"loss": 0.0461,
	"step": 5200
	},
	{
	"epoch": 10.854166666666666,
	"grad_norm": 0.2319619506597519,
	"learning_rate": 5.066136863966963e-05,
	"loss": 0.043,
	"step": 5210
	},
	{
	"epoch": 10.875,
	"grad_norm": 0.28764697909355164,
	"learning_rate": 5.0496032808399815e-05,
	"loss": 0.0408,
	"step": 5220
	},
	{
	"epoch": 10.895833333333334,
	"grad_norm": 0.21275018155574799,
	"learning_rate": 5.033069155259471e-05,
	"loss": 0.044,
	"step": 5230
	},
	{
	"epoch": 10.916666666666666,
	"grad_norm": 0.22453029453754425,
	"learning_rate": 5.016534668039976e-05,
	"loss": 0.0399,
	"step": 5240
	},
	{
	"epoch": 10.9375,
	"grad_norm": 0.1953059583902359,
	"learning_rate": 5e-05,
	"loss": 0.0409,
	"step": 5250
	},
	{
	"epoch": 10.958333333333334,
	"grad_norm": 0.14878690242767334,
	"learning_rate": 4.9834653319600246e-05,
	"loss": 0.0398,
	"step": 5260
	},
	{
	"epoch": 10.979166666666666,
	"grad_norm": 0.2492102086544037,
	"learning_rate": 4.96693084474053e-05,
	"loss": 0.0499,
	"step": 5270
	},
	{
	"epoch": 11.0,
	"grad_norm": 0.3848576247692108,
	"learning_rate": 4.950396719160018e-05,
	"loss": 0.0419,
	"step": 5280
	},
	{
	"epoch": 11.020833333333334,
	"grad_norm": 0.18382327258586884,
	"learning_rate": 4.93386313603304e-05,
	"loss": 0.0432,
	"step": 5290
	},
	{
	"epoch": 11.041666666666666,
	"grad_norm": 0.25166767835617065,
	"learning_rate": 4.917330276168208e-05,
	"loss": 0.0411,
	"step": 5300
	},
	{
	"epoch": 11.0625,
	"grad_norm": 0.14504221081733704,
	"learning_rate": 4.9007983203662326e-05,
	"loss": 0.0386,
	"step": 5310
	},
	{
	"epoch": 11.083333333333334,
	"grad_norm": 0.15644173324108124,
	"learning_rate": 4.884267449417931e-05,
	"loss": 0.046,
	"step": 5320
	},
	{
	"epoch": 11.104166666666666,
	"grad_norm": 0.17497499287128448,
	"learning_rate": 4.867737844102261e-05,
	"loss": 0.0367,
	"step": 5330
	},
	{
	"epoch": 11.125,
	"grad_norm": 0.12207230180501938,
	"learning_rate": 4.851209685184338e-05,
	"loss": 0.041,
	"step": 5340
	},
	{
	"epoch": 11.145833333333334,
	"grad_norm": 0.19345144927501678,
	"learning_rate": 4.834683153413459e-05,
	"loss": 0.0407,
	"step": 5350
	},
	{
	"epoch": 11.166666666666666,
	"grad_norm": 0.1600380539894104,
	"learning_rate": 4.818158429521129e-05,
	"loss": 0.043,
	"step": 5360
	},
	{
	"epoch": 11.1875,
	"grad_norm": 0.20394577085971832,
	"learning_rate": 4.801635694219079e-05,
	"loss": 0.0428,
	"step": 5370
	},
	{
	"epoch": 11.208333333333334,
	"grad_norm": 0.21752101182937622,
	"learning_rate": 4.785115128197298e-05,
	"loss": 0.0413,
	"step": 5380
	},
	{
	"epoch": 11.229166666666666,
	"grad_norm": 0.1963369995355606,
	"learning_rate": 4.7685969121220456e-05,
	"loss": 0.04,
	"step": 5390
	},
	{
	"epoch": 11.25,
	"grad_norm": 0.2457231879234314,
	"learning_rate": 4.7520812266338885e-05,
	"loss": 0.0394,
	"step": 5400
	},
	{
	"epoch": 11.270833333333334,
	"grad_norm": 0.26521575450897217,
	"learning_rate": 4.735568252345718e-05,
	"loss": 0.046,
	"step": 5410
	},
	{
	"epoch": 11.291666666666666,
	"grad_norm": 0.24490521848201752,
	"learning_rate": 4.7190581698407725e-05,
	"loss": 0.0389,
	"step": 5420
	},
	{
	"epoch": 11.3125,
	"grad_norm": 0.19071172177791595,
	"learning_rate": 4.702551159670672e-05,
	"loss": 0.0379,
	"step": 5430
	},
	{
	"epoch": 11.333333333333334,
	"grad_norm": 0.1720157265663147,
	"learning_rate": 4.6860474023534335e-05,
	"loss": 0.0358,
	"step": 5440
	},
	{
	"epoch": 11.354166666666666,
	"grad_norm": 0.1971021145582199,
	"learning_rate": 4.669547078371504e-05,
	"loss": 0.0425,
	"step": 5450
	},
	{
	"epoch": 11.375,
	"grad_norm": 0.16216221451759338,
	"learning_rate": 4.65305036816978e-05,
	"loss": 0.0398,
	"step": 5460
	},
	{
	"epoch": 11.395833333333334,
	"grad_norm": 0.3896409869194031,
	"learning_rate": 4.6365574521536445e-05,
	"loss": 0.0443,
	"step": 5470
	},
	{
	"epoch": 11.416666666666666,
	"grad_norm": 0.2199966162443161,
	"learning_rate": 4.620068510686985e-05,
	"loss": 0.0381,
	"step": 5480
	},
	{
	"epoch": 11.4375,
	"grad_norm": 0.1703164428472519,
	"learning_rate": 4.60358372409022e-05,
	"loss": 0.0388,
	"step": 5490
	},
	{
	"epoch": 11.458333333333334,
	"grad_norm": 0.1450280249118805,
	"learning_rate": 4.5871032726383386e-05,
	"loss": 0.035,
	"step": 5500
	},
	{
	"epoch": 11.479166666666666,
	"grad_norm": 0.2720458209514618,
	"learning_rate": 4.570627336558915e-05,
	"loss": 0.0386,
	"step": 5510
	},
	{
	"epoch": 11.5,
	"grad_norm": 0.1641550362110138,
	"learning_rate": 4.554156096030149e-05,
	"loss": 0.0427,
	"step": 5520
	},
	{
	"epoch": 11.520833333333334,
	"grad_norm": 0.22372999787330627,
	"learning_rate": 4.537689731178883e-05,
	"loss": 0.0379,
	"step": 5530
	},
	{
	"epoch": 11.541666666666666,
	"grad_norm": 0.2067866027355194,
	"learning_rate": 4.5212284220786494e-05,
	"loss": 0.0475,
	"step": 5540
	},
	{
	"epoch": 11.5625,
	"grad_norm": 0.1630556732416153,
	"learning_rate": 4.504772348747687e-05,
	"loss": 0.0429,
	"step": 5550
	},
	{
	"epoch": 11.583333333333334,
	"grad_norm": 0.16432788968086243,
	"learning_rate": 4.488321691146975e-05,
	"loss": 0.0393,
	"step": 5560
	},
	{
	"epoch": 11.604166666666666,
	"grad_norm": 0.17831680178642273,
	"learning_rate": 4.471876629178273e-05,
	"loss": 0.0366,
	"step": 5570
	},
	{
	"epoch": 11.625,
	"grad_norm": 0.2123539000749588,
	"learning_rate": 4.4554373426821374e-05,
	"loss": 0.0412,
	"step": 5580
	},
	{
	"epoch": 11.645833333333334,
	"grad_norm": 0.2609133720397949,
	"learning_rate": 4.439004011435979e-05,
	"loss": 0.0427,
	"step": 5590
	},
	{
	"epoch": 11.666666666666666,
	"grad_norm": 0.25508642196655273,
	"learning_rate": 4.4225768151520694e-05,
	"loss": 0.042,
	"step": 5600
	},
	{
	"epoch": 11.6875,
	"grad_norm": 0.21042585372924805,
	"learning_rate": 4.406155933475599e-05,
	"loss": 0.0436,
	"step": 5610
	},
	{
	"epoch": 11.708333333333334,
	"grad_norm": 0.18732571601867676,
	"learning_rate": 4.3897415459827e-05,
	"loss": 0.037,
	"step": 5620
	},
	{
	"epoch": 11.729166666666666,
	"grad_norm": 0.18312667310237885,
	"learning_rate": 4.373333832178478e-05,
	"loss": 0.0407,
	"step": 5630
	},
	{
	"epoch": 11.75,
	"grad_norm": 0.16135013103485107,
	"learning_rate": 4.3569329714950704e-05,
	"loss": 0.0354,
	"step": 5640
	},
	{
	"epoch": 11.770833333333334,
	"grad_norm": 0.13367682695388794,
	"learning_rate": 4.3405391432896555e-05,
	"loss": 0.044,
	"step": 5650
	},
	{
	"epoch": 11.791666666666666,
	"grad_norm": 0.18768717348575592,
	"learning_rate": 4.324152526842517e-05,
	"loss": 0.0369,
	"step": 5660
	},
	{
	"epoch": 11.8125,
	"grad_norm": 0.1540452241897583,
	"learning_rate": 4.307773301355062e-05,
	"loss": 0.0394,
	"step": 5670
	},
	{
	"epoch": 11.833333333333334,
	"grad_norm": 0.2887902855873108,
	"learning_rate": 4.291401645947879e-05,
	"loss": 0.0397,
	"step": 5680
	},
	{
	"epoch": 11.854166666666666,
	"grad_norm": 0.37716343998908997,
	"learning_rate": 4.275037739658771e-05,
	"loss": 0.0427,
	"step": 5690
	},
	{
	"epoch": 11.875,
	"grad_norm": 0.23013059794902802,
	"learning_rate": 4.2586817614407895e-05,
	"loss": 0.0429,
	"step": 5700
	},
	{
	"epoch": 11.895833333333334,
	"grad_norm": 0.1979239135980606,
	"learning_rate": 4.2423338901602985e-05,
	"loss": 0.0388,
	"step": 5710
	},
	{
	"epoch": 11.916666666666666,
	"grad_norm": 0.16653117537498474,
	"learning_rate": 4.2259943045949934e-05,
	"loss": 0.0492,
	"step": 5720
	},
	{
	"epoch": 11.9375,
	"grad_norm": 0.2162189930677414,
	"learning_rate": 4.209663183431969e-05,
	"loss": 0.0442,
	"step": 5730
	},
	{
	"epoch": 11.958333333333334,
	"grad_norm": 0.19394119083881378,
	"learning_rate": 4.1933407052657456e-05,
	"loss": 0.0431,
	"step": 5740
	},
	{
	"epoch": 11.979166666666666,
	"grad_norm": 0.25315889716148376,
	"learning_rate": 4.17702704859633e-05,
	"loss": 0.0399,
	"step": 5750
	},
	{
	"epoch": 12.0,
	"grad_norm": 0.33700859546661377,
	"learning_rate": 4.160722391827262e-05,
	"loss": 0.0408,
	"step": 5760
	},
	{
	"epoch": 12.020833333333334,
	"grad_norm": 0.20825780928134918,
	"learning_rate": 4.14442691326365e-05,
	"loss": 0.0395,
	"step": 5770
	},
	{
	"epoch": 12.041666666666666,
	"grad_norm": 0.1547510176897049,
	"learning_rate": 4.1281407911102425e-05,
	"loss": 0.0354,
	"step": 5780
	},
	{
	"epoch": 12.0625,
	"grad_norm": 0.18649132549762726,
	"learning_rate": 4.111864203469457e-05,
	"loss": 0.0397,
	"step": 5790
	},
	{
	"epoch": 12.083333333333334,
	"grad_norm": 0.17303578555583954,
	"learning_rate": 4.095597328339452e-05,
	"loss": 0.0386,
	"step": 5800
	},
	{
	"epoch": 12.104166666666666,
	"grad_norm": 0.22204063832759857,
	"learning_rate": 4.079340343612165e-05,
	"loss": 0.0378,
	"step": 5810
	},
	{
	"epoch": 12.125,
	"grad_norm": 0.17748937010765076,
	"learning_rate": 4.063093427071376e-05,
	"loss": 0.0396,
	"step": 5820
	},
	{
	"epoch": 12.145833333333334,
	"grad_norm": 0.13429847359657288,
	"learning_rate": 4.046856756390767e-05,
	"loss": 0.039,
	"step": 5830
	},
	{
	"epoch": 12.166666666666666,
	"grad_norm": 0.18121349811553955,
	"learning_rate": 4.0306305091319595e-05,
	"loss": 0.0421,
	"step": 5840
	},
	{
	"epoch": 12.1875,
	"grad_norm": 0.20254682004451752,
	"learning_rate": 4.0144148627425993e-05,
	"loss": 0.0406,
	"step": 5850
	},
	{
	"epoch": 12.208333333333334,
	"grad_norm": 0.13965128362178802,
	"learning_rate": 3.9982099945543945e-05,
	"loss": 0.0426,
	"step": 5860
	},
	{
	"epoch": 12.229166666666666,
	"grad_norm": 0.23334594070911407,
	"learning_rate": 3.982016081781189e-05,
	"loss": 0.0401,
	"step": 5870
	},
	{
	"epoch": 12.25,
	"grad_norm": 0.29574814438819885,
	"learning_rate": 3.965833301517017e-05,
	"loss": 0.0368,
	"step": 5880
	},
	{
	"epoch": 12.270833333333334,
	"grad_norm": 0.15830658376216888,
	"learning_rate": 3.949661830734172e-05,
	"loss": 0.0498,
	"step": 5890
	},
	{
	"epoch": 12.291666666666666,
	"grad_norm": 0.11797461658716202,
	"learning_rate": 3.933501846281267e-05,
	"loss": 0.034,
	"step": 5900
	},
	{
	"epoch": 12.3125,
	"grad_norm": 0.17256031930446625,
	"learning_rate": 3.917353524881302e-05,
	"loss": 0.0473,
	"step": 5910
	},
	{
	"epoch": 12.333333333333334,
	"grad_norm": 0.1115083396434784,
	"learning_rate": 3.901217043129735e-05,
	"loss": 0.0356,
	"step": 5920
	},
	{
	"epoch": 12.354166666666666,
	"grad_norm": 0.24546393752098083,
	"learning_rate": 3.8850925774925425e-05,
	"loss": 0.0363,
	"step": 5930
	},
	{
	"epoch": 12.375,
	"grad_norm": 0.16720516979694366,
	"learning_rate": 3.8689803043043e-05,
	"loss": 0.0369,
	"step": 5940
	},
	{
	"epoch": 12.395833333333334,
	"grad_norm": 0.1878960281610489,
	"learning_rate": 3.852880399766243e-05,
	"loss": 0.0385,
	"step": 5950
	},
	{
	"epoch": 12.416666666666666,
	"grad_norm": 0.2697995901107788,
	"learning_rate": 3.836793039944349e-05,
	"loss": 0.0372,
	"step": 5960
	},
	{
	"epoch": 12.4375,
	"grad_norm": 0.2137763500213623,
	"learning_rate": 3.820718400767409e-05,
	"loss": 0.0352,
	"step": 5970
	},
	{
	"epoch": 12.458333333333334,
	"grad_norm": 0.12412809580564499,
	"learning_rate": 3.8046566580251e-05,
	"loss": 0.0385,
	"step": 5980
	},
	{
	"epoch": 12.479166666666666,
	"grad_norm": 0.16106805205345154,
	"learning_rate": 3.788607987366069e-05,
	"loss": 0.0374,
	"step": 5990
	},
	{
	"epoch": 12.5,
	"grad_norm": 0.20143009722232819,
	"learning_rate": 3.772572564296005e-05,
	"loss": 0.0399,
	"step": 6000
	},
	{
	"epoch": 12.520833333333334,
	"grad_norm": 0.2611088454723358,
	"learning_rate": 3.756550564175727e-05,
	"loss": 0.0378,
	"step": 6010
	},
	{
	"epoch": 12.541666666666666,
	"grad_norm": 0.19968561828136444,
	"learning_rate": 3.74054216221926e-05,
	"loss": 0.0336,
	"step": 6020
	},
	{
	"epoch": 12.5625,
	"grad_norm": 0.2946498394012451,
	"learning_rate": 3.7245475334919246e-05,
	"loss": 0.0419,
	"step": 6030
	},
	{
	"epoch": 12.583333333333334,
	"grad_norm": 0.24810166656970978,
	"learning_rate": 3.7085668529084184e-05,
	"loss": 0.0369,
	"step": 6040
	},
	{
	"epoch": 12.604166666666666,
	"grad_norm": 0.17250268161296844,
	"learning_rate": 3.6926002952309016e-05,
	"loss": 0.0389,
	"step": 6050
	},
	{
	"epoch": 12.625,
	"grad_norm": 0.18926459550857544,
	"learning_rate": 3.676648035067093e-05,
	"loss": 0.0381,
	"step": 6060
	},
	{
	"epoch": 12.645833333333334,
	"grad_norm": 0.16701489686965942,
	"learning_rate": 3.6607102468683526e-05,
	"loss": 0.0372,
	"step": 6070
	},
	{
	"epoch": 12.666666666666666,
	"grad_norm": 0.27794161438941956,
	"learning_rate": 3.6447871049277796e-05,
	"loss": 0.0476,
	"step": 6080
	},
	{
	"epoch": 12.6875,
	"grad_norm": 0.15059830248355865,
	"learning_rate": 3.628878783378302e-05,
	"loss": 0.0365,
	"step": 6090
	},
	{
	"epoch": 12.708333333333334,
	"grad_norm": 0.18658536672592163,
	"learning_rate": 3.612985456190778e-05,
	"loss": 0.0409,
	"step": 6100
	},
	{
	"epoch": 12.729166666666666,
	"grad_norm": 0.20055310428142548,
	"learning_rate": 3.597107297172084e-05,
	"loss": 0.0309,
	"step": 6110
	},
	{
	"epoch": 12.75,
	"grad_norm": 0.1511124223470688,
	"learning_rate": 3.581244479963225e-05,
	"loss": 0.0389,
	"step": 6120
	},
	{
	"epoch": 12.770833333333334,
	"grad_norm": 0.19505897164344788,
	"learning_rate": 3.5653971780374295e-05,
	"loss": 0.0376,
	"step": 6130
	},
	{
	"epoch": 12.791666666666666,
	"grad_norm": 0.26128458976745605,
	"learning_rate": 3.5495655646982505e-05,
	"loss": 0.0436,
	"step": 6140
	},
	{
	"epoch": 12.8125,
	"grad_norm": 0.19015803933143616,
	"learning_rate": 3.533749813077677e-05,
	"loss": 0.0337,
	"step": 6150
	},
	{
	"epoch": 12.833333333333334,
	"grad_norm": 0.18475806713104248,
	"learning_rate": 3.517950096134232e-05,
	"loss": 0.0394,
	"step": 6160
	},
	{
	"epoch": 12.854166666666666,
	"grad_norm": 0.199330672621727,
	"learning_rate": 3.5021665866510925e-05,
	"loss": 0.0393,
	"step": 6170
	},
	{
	"epoch": 12.875,
	"grad_norm": 0.1968792825937271,
	"learning_rate": 3.4863994572341843e-05,
	"loss": 0.0428,
	"step": 6180
	},
	{
	"epoch": 12.895833333333334,
	"grad_norm": 0.2163507491350174,
	"learning_rate": 3.470648880310313e-05,
	"loss": 0.0396,
	"step": 6190
	},
	{
	"epoch": 12.916666666666666,
	"grad_norm": 0.1362553834915161,
	"learning_rate": 3.4549150281252636e-05,
	"loss": 0.0415,
	"step": 6200
	},
	{
	"epoch": 12.9375,
	"grad_norm": 0.15272819995880127,
	"learning_rate": 3.439198072741921e-05,
	"loss": 0.0371,
	"step": 6210
	},
	{
	"epoch": 12.958333333333334,
	"grad_norm": 0.1750105768442154,
	"learning_rate": 3.423498186038393e-05,
	"loss": 0.0391,
	"step": 6220
	},
	{
	"epoch": 12.979166666666666,
	"grad_norm": 0.17547383904457092,
	"learning_rate": 3.407815539706124e-05,
	"loss": 0.036,
	"step": 6230
	},
	{
	"epoch": 13.0,
	"grad_norm": 0.2598505914211273,
	"learning_rate": 3.392150305248024e-05,
	"loss": 0.038,
	"step": 6240
	},
	{
	"epoch": 13.020833333333334,
	"grad_norm": 0.2553529739379883,
	"learning_rate": 3.3765026539765834e-05,
	"loss": 0.0387,
	"step": 6250
	},
	{
	"epoch": 13.041666666666666,
	"grad_norm": 0.17663992941379547,
	"learning_rate": 3.360872757012011e-05,
	"loss": 0.0389,
	"step": 6260
	},
	{
	"epoch": 13.0625,
	"grad_norm": 0.2314099818468094,
	"learning_rate": 3.3452607852803584e-05,
	"loss": 0.0434,
	"step": 6270
	},
	{
	"epoch": 13.083333333333334,
	"grad_norm": 0.17751750349998474,
	"learning_rate": 3.329666909511645e-05,
	"loss": 0.0383,
	"step": 6280
	},
	{
	"epoch": 13.104166666666666,
	"grad_norm": 0.1711682230234146,
	"learning_rate": 3.3140913002379995e-05,
	"loss": 0.0441,
	"step": 6290
	},
	{
	"epoch": 13.125,
	"grad_norm": 0.1765744388103485,
	"learning_rate": 3.298534127791785e-05,
	"loss": 0.0361,
	"step": 6300
	},
	{
	"epoch": 13.145833333333334,
	"grad_norm": 0.14884302020072937,
	"learning_rate": 3.282995562303754e-05,
	"loss": 0.0392,
	"step": 6310
	},
	{
	"epoch": 13.166666666666666,
	"grad_norm": 0.23284494876861572,
	"learning_rate": 3.267475773701161e-05,
	"loss": 0.0414,
	"step": 6320
	},
	{
	"epoch": 13.1875,
	"grad_norm": 0.21358659863471985,
	"learning_rate": 3.251974931705933e-05,
	"loss": 0.0389,
	"step": 6330
	},
	{
	"epoch": 13.208333333333334,
	"grad_norm": 0.2136419266462326,
	"learning_rate": 3.236493205832795e-05,
	"loss": 0.0394,
	"step": 6340
	},
	{
	"epoch": 13.229166666666666,
	"grad_norm": 0.17444035410881042,
	"learning_rate": 3.221030765387417e-05,
	"loss": 0.0335,
	"step": 6350
	},
	{
	"epoch": 13.25,
	"grad_norm": 0.12927989661693573,
	"learning_rate": 3.205587779464576e-05,
	"loss": 0.0297,
	"step": 6360
	},
	{
	"epoch": 13.270833333333334,
	"grad_norm": 0.20504234731197357,
	"learning_rate": 3.190164416946285e-05,
	"loss": 0.0398,
	"step": 6370
	},
	{
	"epoch": 13.291666666666666,
	"grad_norm": 0.1620664894580841,
	"learning_rate": 3.1747608464999725e-05,
	"loss": 0.0357,
	"step": 6380
	},
	{
	"epoch": 13.3125,
	"grad_norm": 0.18466980755329132,
	"learning_rate": 3.1593772365766105e-05,
	"loss": 0.0384,
	"step": 6390
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 0.19365406036376953,
	"learning_rate": 3.144013755408895e-05,
	"loss": 0.0379,
	"step": 6400
	},
	{
	"epoch": 13.354166666666666,
	"grad_norm": 0.22242169082164764,
	"learning_rate": 3.128670571009399e-05,
	"loss": 0.0378,
	"step": 6410
	},
	{
	"epoch": 13.375,
	"grad_norm": 0.19277265667915344,
	"learning_rate": 3.113347851168721e-05,
	"loss": 0.0394,
	"step": 6420
	},
	{
	"epoch": 13.395833333333334,
	"grad_norm": 0.15475115180015564,
	"learning_rate": 3.098045763453678e-05,
	"loss": 0.0341,
	"step": 6430
	},
	{
	"epoch": 13.416666666666666,
	"grad_norm": 0.24574577808380127,
	"learning_rate": 3.082764475205442e-05,
	"loss": 0.036,
	"step": 6440
	},
	{
	"epoch": 13.4375,
	"grad_norm": 0.1253107488155365,
	"learning_rate": 3.0675041535377405e-05,
	"loss": 0.0354,
	"step": 6450
	},
	{
	"epoch": 13.458333333333334,
	"grad_norm": 0.19683432579040527,
	"learning_rate": 3.052264965335e-05,
	"loss": 0.0333,
	"step": 6460
	},
	{
	"epoch": 13.479166666666666,
	"grad_norm": 0.2121218889951706,
	"learning_rate": 3.0370470772505433e-05,
	"loss": 0.0363,
	"step": 6470
	},
	{
	"epoch": 13.5,
	"grad_norm": 0.14255274832248688,
	"learning_rate": 3.0218506557047598e-05,
	"loss": 0.0425,
	"step": 6480
	},
	{
	"epoch": 13.520833333333334,
	"grad_norm": 0.14524437487125397,
	"learning_rate": 3.006675866883275e-05,
	"loss": 0.035,
	"step": 6490
	},
	{
	"epoch": 13.541666666666666,
	"grad_norm": 0.17796678841114044,
	"learning_rate": 2.991522876735154e-05,
	"loss": 0.0369,
	"step": 6500
	},
	{
	"epoch": 13.5625,
	"grad_norm": 0.276693731546402,
	"learning_rate": 2.976391850971065e-05,
	"loss": 0.0405,
	"step": 6510
	},
	{
	"epoch": 13.583333333333334,
	"grad_norm": 0.1899837702512741,
	"learning_rate": 2.9612829550614836e-05,
	"loss": 0.0391,
	"step": 6520
	},
	{
	"epoch": 13.604166666666666,
	"grad_norm": 0.17294272780418396,
	"learning_rate": 2.9461963542348737e-05,
	"loss": 0.0433,
	"step": 6530
	},
	{
	"epoch": 13.625,
	"grad_norm": 0.17909543216228485,
	"learning_rate": 2.931132213475884e-05,
	"loss": 0.0326,
	"step": 6540
	},
	{
	"epoch": 13.645833333333334,
	"grad_norm": 0.14403104782104492,
	"learning_rate": 2.916090697523549e-05,
	"loss": 0.0357,
	"step": 6550
	},
	{
	"epoch": 13.666666666666666,
	"grad_norm": 0.2349185347557068,
	"learning_rate": 2.9010719708694722e-05,
	"loss": 0.04,
	"step": 6560
	},
	{
	"epoch": 13.6875,
	"grad_norm": 0.23521877825260162,
	"learning_rate": 2.8860761977560436e-05,
	"loss": 0.0384,
	"step": 6570
	},
	{
	"epoch": 13.708333333333334,
	"grad_norm": 0.16321514546871185,
	"learning_rate": 2.8711035421746367e-05,
	"loss": 0.0465,
	"step": 6580
	},
	{
	"epoch": 13.729166666666666,
	"grad_norm": 0.1888456791639328,
	"learning_rate": 2.8561541678638142e-05,
	"loss": 0.0389,
	"step": 6590
	},
	{
	"epoch": 13.75,
	"grad_norm": 0.12604469060897827,
	"learning_rate": 2.8412282383075363e-05,
	"loss": 0.0377,
	"step": 6600
	},
	{
	"epoch": 13.770833333333334,
	"grad_norm": 0.13205738365650177,
	"learning_rate": 2.8263259167333777e-05,
	"loss": 0.0353,
	"step": 6610
	},
	{
	"epoch": 13.791666666666666,
	"grad_norm": 0.13578617572784424,
	"learning_rate": 2.811447366110741e-05,
	"loss": 0.0353,
	"step": 6620
	},
	{
	"epoch": 13.8125,
	"grad_norm": 0.20386967062950134,
	"learning_rate": 2.7965927491490705e-05,
	"loss": 0.0356,
	"step": 6630
	},
	{
	"epoch": 13.833333333333334,
	"grad_norm": 0.18563248217105865,
	"learning_rate": 2.7817622282960815e-05,
	"loss": 0.0422,
	"step": 6640
	},
	{
	"epoch": 13.854166666666666,
	"grad_norm": 0.13876503705978394,
	"learning_rate": 2.766955965735968e-05,
	"loss": 0.0372,
	"step": 6650
	},
	{
	"epoch": 13.875,
	"grad_norm": 0.1998944729566574,
	"learning_rate": 2.7521741233876496e-05,
	"loss": 0.0345,
	"step": 6660
	},
	{
	"epoch": 13.895833333333334,
	"grad_norm": 0.09204313904047012,
	"learning_rate": 2.7374168629029813e-05,
	"loss": 0.0333,
	"step": 6670
	},
	{
	"epoch": 13.916666666666666,
	"grad_norm": 0.21691344678401947,
	"learning_rate": 2.7226843456650037e-05,
	"loss": 0.0377,
	"step": 6680
	},
	{
	"epoch": 13.9375,
	"grad_norm": 0.1491704136133194,
	"learning_rate": 2.707976732786166e-05,
	"loss": 0.0389,
	"step": 6690
	},
	{
	"epoch": 13.958333333333334,
	"grad_norm": 0.17232492566108704,
	"learning_rate": 2.693294185106562e-05,
	"loss": 0.0389,
	"step": 6700
	},
	{
	"epoch": 13.979166666666666,
	"grad_norm": 0.2585275173187256,
	"learning_rate": 2.6786368631921836e-05,
	"loss": 0.0324,
	"step": 6710
	},
	{
	"epoch": 14.0,
	"grad_norm": 0.31349268555641174,
	"learning_rate": 2.6640049273331515e-05,
	"loss": 0.0379,
	"step": 6720
	},
	{
	"epoch": 14.020833333333334,
	"grad_norm": 0.21207097172737122,
	"learning_rate": 2.6493985375419778e-05,
	"loss": 0.0331,
	"step": 6730
	},
	{
	"epoch": 14.041666666666666,
	"grad_norm": 0.2716270089149475,
	"learning_rate": 2.6348178535517966e-05,
	"loss": 0.0399,
	"step": 6740
	},
	{
	"epoch": 14.0625,
	"grad_norm": 0.22059811651706696,
	"learning_rate": 2.6202630348146324e-05,
	"loss": 0.0412,
	"step": 6750
	},
	{
	"epoch": 14.083333333333334,
	"grad_norm": 0.15869638323783875,
	"learning_rate": 2.6057342404996522e-05,
	"loss": 0.0328,
	"step": 6760
	},
	{
	"epoch": 14.104166666666666,
	"grad_norm": 0.19988775253295898,
	"learning_rate": 2.591231629491423e-05,
	"loss": 0.0359,
	"step": 6770
	},
	{
	"epoch": 14.125,
	"grad_norm": 0.1618472784757614,
	"learning_rate": 2.5767553603881767e-05,
	"loss": 0.0306,
	"step": 6780
	},
	{
	"epoch": 14.145833333333334,
	"grad_norm": 0.2341802716255188,
	"learning_rate": 2.562305591500069e-05,
	"loss": 0.0363,
	"step": 6790
	},
	{
	"epoch": 14.166666666666666,
	"grad_norm": 0.22032411396503448,
	"learning_rate": 2.547882480847461e-05,
	"loss": 0.0374,
	"step": 6800
	},
	{
	"epoch": 14.1875,
	"grad_norm": 0.2002587914466858,
	"learning_rate": 2.5334861861591753e-05,
	"loss": 0.0417,
	"step": 6810
	},
	{
	"epoch": 14.208333333333334,
	"grad_norm": 0.1493261754512787,
	"learning_rate": 2.5191168648707887e-05,
	"loss": 0.038,
	"step": 6820
	},
	{
	"epoch": 14.229166666666666,
	"grad_norm": 0.12463536113500595,
	"learning_rate": 2.5047746741228978e-05,
	"loss": 0.0306,
	"step": 6830
	},
	{
	"epoch": 14.25,
	"grad_norm": 0.1263580024242401,
	"learning_rate": 2.490459770759398e-05,
	"loss": 0.0303,
	"step": 6840
	},
	{
	"epoch": 14.270833333333334,
	"grad_norm": 0.11605334281921387,
	"learning_rate": 2.476172311325783e-05,
	"loss": 0.035,
	"step": 6850
	},
	{
	"epoch": 14.291666666666666,
	"grad_norm": 0.14916780591011047,
	"learning_rate": 2.4619124520674146e-05,
	"loss": 0.0306,
	"step": 6860
	},
	{
	"epoch": 14.3125,
	"grad_norm": 0.11922206729650497,
	"learning_rate": 2.447680348927837e-05,
	"loss": 0.0387,
	"step": 6870
	},
	{
	"epoch": 14.333333333333334,
	"grad_norm": 0.2507418692111969,
	"learning_rate": 2.433476157547044e-05,
	"loss": 0.0377,
	"step": 6880
	},
	{
	"epoch": 14.354166666666666,
	"grad_norm": 0.22429078817367554,
	"learning_rate": 2.419300033259798e-05,
	"loss": 0.0474,
	"step": 6890
	},
	{
	"epoch": 14.375,
	"grad_norm": 0.24157516658306122,
	"learning_rate": 2.405152131093926e-05,
	"loss": 0.0363,
	"step": 6900
	},
	{
	"epoch": 14.395833333333334,
	"grad_norm": 0.38413891196250916,
	"learning_rate": 2.3910326057686127e-05,
	"loss": 0.0411,
	"step": 6910
	},
	{
	"epoch": 14.416666666666666,
	"grad_norm": 0.22351625561714172,
	"learning_rate": 2.3769416116927335e-05,
	"loss": 0.0401,
	"step": 6920
	},
	{
	"epoch": 14.4375,
	"grad_norm": 0.18442459404468536,
	"learning_rate": 2.362879302963135e-05,
	"loss": 0.0404,
	"step": 6930
	},
	{
	"epoch": 14.458333333333334,
	"grad_norm": 0.4082157611846924,
	"learning_rate": 2.3488458333629777e-05,
	"loss": 0.0329,
	"step": 6940
	},
	{
	"epoch": 14.479166666666666,
	"grad_norm": 0.21980011463165283,
	"learning_rate": 2.3348413563600325e-05,
	"loss": 0.0366,
	"step": 6950
	},
	{
	"epoch": 14.5,
	"grad_norm": 0.17586643993854523,
	"learning_rate": 2.3208660251050158e-05,
	"loss": 0.0387,
	"step": 6960
	},
	{
	"epoch": 14.520833333333334,
	"grad_norm": 0.15730033814907074,
	"learning_rate": 2.3069199924299174e-05,
	"loss": 0.0336,
	"step": 6970
	},
	{
	"epoch": 14.541666666666666,
	"grad_norm": 0.19087393581867218,
	"learning_rate": 2.29300341084631e-05,
	"loss": 0.035,
	"step": 6980
	},
	{
	"epoch": 14.5625,
	"grad_norm": 0.18095408380031586,
	"learning_rate": 2.279116432543705e-05,
	"loss": 0.0355,
	"step": 6990
	},
	{
	"epoch": 14.583333333333334,
	"grad_norm": 0.2578522562980652,
	"learning_rate": 2.2652592093878666e-05,
	"loss": 0.0345,
	"step": 7000
	},
	{
	"epoch": 14.604166666666666,
	"grad_norm": 0.20171664655208588,
	"learning_rate": 2.251431892919171e-05,
	"loss": 0.0356,
	"step": 7010
	},
	{
	"epoch": 14.625,
	"grad_norm": 0.3004615902900696,
	"learning_rate": 2.237634634350934e-05,
	"loss": 0.0368,
	"step": 7020
	},
	{
	"epoch": 14.645833333333334,
	"grad_norm": 0.16451160609722137,
	"learning_rate": 2.2238675845677663e-05,
	"loss": 0.0319,
	"step": 7030
	},
	{
	"epoch": 14.666666666666666,
	"grad_norm": 0.27891501784324646,
	"learning_rate": 2.2101308941239203e-05,
	"loss": 0.0361,
	"step": 7040
	},
	{
	"epoch": 14.6875,
	"grad_norm": 0.10866022855043411,
	"learning_rate": 2.196424713241637e-05,
	"loss": 0.0356,
	"step": 7050
	},
	{
	"epoch": 14.708333333333334,
	"grad_norm": 0.15736782550811768,
	"learning_rate": 2.182749191809518e-05,
	"loss": 0.0449,
	"step": 7060
	},
	{
	"epoch": 14.729166666666666,
	"grad_norm": 0.14991992712020874,
	"learning_rate": 2.1691044793808734e-05,
	"loss": 0.0336,
	"step": 7070
	},
	{
	"epoch": 14.75,
	"grad_norm": 0.23279936611652374,
	"learning_rate": 2.1554907251720945e-05,
	"loss": 0.0327,
	"step": 7080
	},
	{
	"epoch": 14.770833333333334,
	"grad_norm": 0.19482247531414032,
	"learning_rate": 2.1419080780610123e-05,
	"loss": 0.035,
	"step": 7090
	},
	{
	"epoch": 14.791666666666666,
	"grad_norm": 0.16053085029125214,
	"learning_rate": 2.128356686585282e-05,
	"loss": 0.0322,
	"step": 7100
	},
	{
	"epoch": 14.8125,
	"grad_norm": 0.17333699762821198,
	"learning_rate": 2.1148366989407496e-05,
	"loss": 0.0348,
	"step": 7110
	},
	{
	"epoch": 14.833333333333334,
	"grad_norm": 0.20065756142139435,
	"learning_rate": 2.1013482629798333e-05,
	"loss": 0.0344,
	"step": 7120
	},
	{
	"epoch": 14.854166666666666,
	"grad_norm": 0.2283259928226471,
	"learning_rate": 2.0878915262099098e-05,
	"loss": 0.0332,
	"step": 7130
	},
	{
	"epoch": 14.875,
	"grad_norm": 0.19784249365329742,
	"learning_rate": 2.0744666357916925e-05,
	"loss": 0.0374,
	"step": 7140
	},
	{
	"epoch": 14.895833333333334,
	"grad_norm": 0.1944170594215393,
	"learning_rate": 2.061073738537635e-05,
	"loss": 0.0379,
	"step": 7150
	},
	{
	"epoch": 14.916666666666666,
	"grad_norm": 0.15928591787815094,
	"learning_rate": 2.0477129809103147e-05,
	"loss": 0.0408,
	"step": 7160
	},
	{
	"epoch": 14.9375,
	"grad_norm": 0.21307940781116486,
	"learning_rate": 2.0343845090208368e-05,
	"loss": 0.0385,
	"step": 7170
	},
	{
	"epoch": 14.958333333333334,
	"grad_norm": 0.1387159526348114,
	"learning_rate": 2.0210884686272368e-05,
	"loss": 0.0327,
	"step": 7180
	},
	{
	"epoch": 14.979166666666666,
	"grad_norm": 0.21682381629943848,
	"learning_rate": 2.0078250051328784e-05,
	"loss": 0.0436,
	"step": 7190
	},
	{
	"epoch": 15.0,
	"grad_norm": 0.3708045482635498,
	"learning_rate": 1.9945942635848748e-05,
	"loss": 0.034,
	"step": 7200
	},
	{
	"epoch": 15.020833333333334,
	"grad_norm": 0.17879103124141693,
	"learning_rate": 1.981396388672496e-05,
	"loss": 0.0314,
	"step": 7210
	},
	{
	"epoch": 15.041666666666666,
	"grad_norm": 0.21308660507202148,
	"learning_rate": 1.9682315247255894e-05,
	"loss": 0.0338,
	"step": 7220
	},
	{
	"epoch": 15.0625,
	"grad_norm": 0.17053188383579254,
	"learning_rate": 1.9550998157129946e-05,
	"loss": 0.036,
	"step": 7230
	},
	{
	"epoch": 15.083333333333334,
	"grad_norm": 0.1819431036710739,
	"learning_rate": 1.942001405240979e-05,
	"loss": 0.0336,
	"step": 7240
	},
	{
	"epoch": 15.104166666666666,
	"grad_norm": 0.14159807562828064,
	"learning_rate": 1.928936436551661e-05,
	"loss": 0.0366,
	"step": 7250
	},
	{
	"epoch": 15.125,
	"grad_norm": 0.23496906459331512,
	"learning_rate": 1.9159050525214452e-05,
	"loss": 0.0363,
	"step": 7260
	},
	{
	"epoch": 15.145833333333334,
	"grad_norm": 0.21902140974998474,
	"learning_rate": 1.9029073956594606e-05,
	"loss": 0.0359,
	"step": 7270
	},
	{
	"epoch": 15.166666666666666,
	"grad_norm": 0.1490468978881836,
	"learning_rate": 1.8899436081059975e-05,
	"loss": 0.0336,
	"step": 7280
	},
	{
	"epoch": 15.1875,
	"grad_norm": 0.1414002925157547,
	"learning_rate": 1.877013831630961e-05,
	"loss": 0.0281,
	"step": 7290
	},
	{
	"epoch": 15.208333333333334,
	"grad_norm": 0.30052894353866577,
	"learning_rate": 1.8641182076323148e-05,
	"loss": 0.0375,
	"step": 7300
	},
	{
	"epoch": 15.229166666666666,
	"grad_norm": 0.2560082972049713,
	"learning_rate": 1.851256877134538e-05,
	"loss": 0.0355,
	"step": 7310
	},
	{
	"epoch": 15.25,
	"grad_norm": 0.13596679270267487,
	"learning_rate": 1.838429980787081e-05,
	"loss": 0.0371,
	"step": 7320
	},
	{
	"epoch": 15.270833333333334,
	"grad_norm": 0.15120552480220795,
	"learning_rate": 1.8256376588628238e-05,
	"loss": 0.0335,
	"step": 7330
	},
	{
	"epoch": 15.291666666666666,
	"grad_norm": 0.19444897770881653,
	"learning_rate": 1.8128800512565513e-05,
	"loss": 0.0365,
	"step": 7340
	},
	{
	"epoch": 15.3125,
	"grad_norm": 0.1597200185060501,
	"learning_rate": 1.800157297483417e-05,
	"loss": 0.0333,
	"step": 7350
	},
	{
	"epoch": 15.333333333333334,
	"grad_norm": 0.15598775446414948,
	"learning_rate": 1.787469536677419e-05,
	"loss": 0.0332,
	"step": 7360
	},
	{
	"epoch": 15.354166666666666,
	"grad_norm": 0.17735296487808228,
	"learning_rate": 1.774816907589873e-05,
	"loss": 0.0358,
	"step": 7370
	},
	{
	"epoch": 15.375,
	"grad_norm": 0.1667356789112091,
	"learning_rate": 1.7621995485879062e-05,
	"loss": 0.0324,
	"step": 7380
	},
	{
	"epoch": 15.395833333333334,
	"grad_norm": 0.17198875546455383,
	"learning_rate": 1.749617597652934e-05,
	"loss": 0.0342,
	"step": 7390
	},
	{
	"epoch": 15.416666666666666,
	"grad_norm": 0.13327492773532867,
	"learning_rate": 1.7370711923791567e-05,
	"loss": 0.0381,
	"step": 7400
	},
	{
	"epoch": 15.4375,
	"grad_norm": 0.14324255287647247,
	"learning_rate": 1.7245604699720535e-05,
	"loss": 0.0363,
	"step": 7410
	},
	{
	"epoch": 15.458333333333334,
	"grad_norm": 0.12375563383102417,
	"learning_rate": 1.712085567246878e-05,
	"loss": 0.0293,
	"step": 7420
	},
	{
	"epoch": 15.479166666666666,
	"grad_norm": 0.18987584114074707,
	"learning_rate": 1.699646620627168e-05,
	"loss": 0.0379,
	"step": 7430
	},
	{
	"epoch": 15.5,
	"grad_norm": 0.29758167266845703,
	"learning_rate": 1.6872437661432517e-05,
	"loss": 0.037,
	"step": 7440
	},
	{
	"epoch": 15.520833333333334,
	"grad_norm": 0.17801667749881744,
	"learning_rate": 1.6748771394307585e-05,
	"loss": 0.033,
	"step": 7450
	},
	{
	"epoch": 15.541666666666666,
	"grad_norm": 0.18180030584335327,
	"learning_rate": 1.662546875729138e-05,
	"loss": 0.0312,
	"step": 7460
	},
	{
	"epoch": 15.5625,
	"grad_norm": 0.14685310423374176,
	"learning_rate": 1.6502531098801753e-05,
	"loss": 0.0385,
	"step": 7470
	},
	{
	"epoch": 15.583333333333334,
	"grad_norm": 0.2291467934846878,
	"learning_rate": 1.637995976326527e-05,
	"loss": 0.0325,
	"step": 7480
	},
	{
	"epoch": 15.604166666666666,
	"grad_norm": 0.1897166520357132,
	"learning_rate": 1.62577560911024e-05,
	"loss": 0.0389,
	"step": 7490
	},
	{
	"epoch": 15.625,
	"grad_norm": 0.1944008767604828,
	"learning_rate": 1.6135921418712956e-05,
	"loss": 0.0335,
	"step": 7500
	},
	{
	"epoch": 15.645833333333334,
	"grad_norm": 0.27378949522972107,
	"learning_rate": 1.6014457078461353e-05,
	"loss": 0.038,
	"step": 7510
	},
	{
	"epoch": 15.666666666666666,
	"grad_norm": 0.25739747285842896,
	"learning_rate": 1.5893364398662176e-05,
	"loss": 0.0315,
	"step": 7520
	},
	{
	"epoch": 15.6875,
	"grad_norm": 0.14477567374706268,
	"learning_rate": 1.5772644703565565e-05,
	"loss": 0.0361,
	"step": 7530
	},
	{
	"epoch": 15.708333333333334,
	"grad_norm": 0.142717182636261,
	"learning_rate": 1.5652299313342773e-05,
	"loss": 0.034,
	"step": 7540
	},
	{
	"epoch": 15.729166666666666,
	"grad_norm": 0.1424303650856018,
	"learning_rate": 1.553232954407171e-05,
	"loss": 0.0316,
	"step": 7550
	},
	{
	"epoch": 15.75,
	"grad_norm": 0.18298421800136566,
	"learning_rate": 1.5412736707722537e-05,
	"loss": 0.0333,
	"step": 7560
	},
	{
	"epoch": 15.770833333333334,
	"grad_norm": 0.12771207094192505,
	"learning_rate": 1.5293522112143373e-05,
	"loss": 0.0337,
	"step": 7570
	},
	{
	"epoch": 15.791666666666666,
	"grad_norm": 0.3018227219581604,
	"learning_rate": 1.517468706104589e-05,
	"loss": 0.0372,
	"step": 7580
	},
	{
	"epoch": 15.8125,
	"grad_norm": 0.21921075880527496,
	"learning_rate": 1.5056232853991209e-05,
	"loss": 0.0382,
	"step": 7590
	},
	{
	"epoch": 15.833333333333334,
	"grad_norm": 0.1828688681125641,
	"learning_rate": 1.4938160786375572e-05,
	"loss": 0.0352,
	"step": 7600
	},
	{
	"epoch": 15.854166666666666,
	"grad_norm": 0.18489907681941986,
	"learning_rate": 1.4820472149416154e-05,
	"loss": 0.0339,
	"step": 7610
	},
	{
	"epoch": 15.875,
	"grad_norm": 0.14749230444431305,
	"learning_rate": 1.470316823013707e-05,
	"loss": 0.0338,
	"step": 7620
	},
	{
	"epoch": 15.895833333333334,
	"grad_norm": 0.17167989909648895,
	"learning_rate": 1.4586250311355132e-05,
	"loss": 0.0352,
	"step": 7630
	},
	{
	"epoch": 15.916666666666666,
	"grad_norm": 0.1753416210412979,
	"learning_rate": 1.4469719671666043e-05,
	"loss": 0.0338,
	"step": 7640
	},
	{
	"epoch": 15.9375,
	"grad_norm": 0.11780905723571777,
	"learning_rate": 1.435357758543015e-05,
	"loss": 0.0371,
	"step": 7650
	},
	{
	"epoch": 15.958333333333334,
	"grad_norm": 0.14981669187545776,
	"learning_rate": 1.4237825322758736e-05,
	"loss": 0.0331,
	"step": 7660
	},
	{
	"epoch": 15.979166666666666,
	"grad_norm": 0.19261877238750458,
	"learning_rate": 1.412246414949997e-05,
	"loss": 0.0336,
	"step": 7670
	},
	{
	"epoch": 16.0,
	"grad_norm": 0.29280322790145874,
	"learning_rate": 1.4007495327225162e-05,
	"loss": 0.0348,
	"step": 7680
	},
	{
	"epoch": 16.020833333333332,
	"grad_norm": 0.17434559762477875,
	"learning_rate": 1.389292011321498e-05,
	"loss": 0.0316,
	"step": 7690
	},
	{
	"epoch": 16.041666666666668,
	"grad_norm": 0.18764066696166992,
	"learning_rate": 1.3778739760445552e-05,
	"loss": 0.0337,
	"step": 7700
	},
	{
	"epoch": 16.0625,
	"grad_norm": 0.2059665024280548,
	"learning_rate": 1.3664955517574968e-05,
	"loss": 0.0348,
	"step": 7710
	},
	{
	"epoch": 16.083333333333332,
	"grad_norm": 0.15280863642692566,
	"learning_rate": 1.3551568628929434e-05,
	"loss": 0.0323,
	"step": 7720
	},
	{
	"epoch": 16.104166666666668,
	"grad_norm": 0.1486819088459015,
	"learning_rate": 1.343858033448982e-05,
	"loss": 0.0347,
	"step": 7730
	},
	{
	"epoch": 16.125,
	"grad_norm": 0.1927894651889801,
	"learning_rate": 1.3325991869878013e-05,
	"loss": 0.035,
	"step": 7740
	},
	{
	"epoch": 16.145833333333332,
	"grad_norm": 0.11955563724040985,
	"learning_rate": 1.3213804466343421e-05,
	"loss": 0.0329,
	"step": 7750
	},
	{
	"epoch": 16.166666666666668,
	"grad_norm": 0.16345830261707306,
	"learning_rate": 1.3102019350749528e-05,
	"loss": 0.0359,
	"step": 7760
	},
	{
	"epoch": 16.1875,
	"grad_norm": 0.2789859175682068,
	"learning_rate": 1.299063774556042e-05,
	"loss": 0.0328,
	"step": 7770
	},
	{
	"epoch": 16.208333333333332,
	"grad_norm": 0.21761833131313324,
	"learning_rate": 1.2879660868827508e-05,
	"loss": 0.0301,
	"step": 7780
	},
	{
	"epoch": 16.229166666666668,
	"grad_norm": 0.14734092354774475,
	"learning_rate": 1.2769089934176126e-05,
	"loss": 0.0322,
	"step": 7790
	},
	{
	"epoch": 16.25,
	"grad_norm": 0.2599899470806122,
	"learning_rate": 1.2658926150792322e-05,
	"loss": 0.0313,
	"step": 7800
	},
	{
	"epoch": 16.270833333333332,
	"grad_norm": 0.1787201315164566,
	"learning_rate": 1.2549170723409549e-05,
	"loss": 0.0339,
	"step": 7810
	},
	{
	"epoch": 16.291666666666668,
	"grad_norm": 0.16388441622257233,
	"learning_rate": 1.243982485229559e-05,
	"loss": 0.0346,
	"step": 7820
	},
	{
	"epoch": 16.3125,
	"grad_norm": 0.18000830709934235,
	"learning_rate": 1.233088973323937e-05,
	"loss": 0.04,
	"step": 7830
	},
	{
	"epoch": 16.333333333333332,
	"grad_norm": 0.17897577583789825,
	"learning_rate": 1.2222366557537911e-05,
	"loss": 0.0399,
	"step": 7840
	},
	{
	"epoch": 16.354166666666668,
	"grad_norm": 0.22064079344272614,
	"learning_rate": 1.2114256511983274e-05,
	"loss": 0.0318,
	"step": 7850
	},
	{
	"epoch": 16.375,
	"grad_norm": 0.18616275489330292,
	"learning_rate": 1.2006560778849578e-05,
	"loss": 0.0304,
	"step": 7860
	},
	{
	"epoch": 16.395833333333332,
	"grad_norm": 0.13920727372169495,
	"learning_rate": 1.1899280535880119e-05,
	"loss": 0.0316,
	"step": 7870
	},
	{
	"epoch": 16.416666666666668,
	"grad_norm": 0.23855414986610413,
	"learning_rate": 1.1792416956274444e-05,
	"loss": 0.0315,
	"step": 7880
	},
	{
	"epoch": 16.4375,
	"grad_norm": 0.20827260613441467,
	"learning_rate": 1.1685971208675539e-05,
	"loss": 0.0325,
	"step": 7890
	},
	{
	"epoch": 16.458333333333332,
	"grad_norm": 0.19448751211166382,
	"learning_rate": 1.157994445715706e-05,
	"loss": 0.0354,
	"step": 7900
	},
	{
	"epoch": 16.479166666666668,
	"grad_norm": 0.14408908784389496,
	"learning_rate": 1.1474337861210543e-05,
	"loss": 0.0339,
	"step": 7910
	},
	{
	"epoch": 16.5,
	"grad_norm": 0.2209048867225647,
	"learning_rate": 1.1369152575732822e-05,
	"loss": 0.036,
	"step": 7920
	},
	{
	"epoch": 16.520833333333332,
	"grad_norm": 0.1276281476020813,
	"learning_rate": 1.1264389751013326e-05,
	"loss": 0.0338,
	"step": 7930
	},
	{
	"epoch": 16.541666666666668,
	"grad_norm": 0.16983328759670258,
	"learning_rate": 1.1160050532721528e-05,
	"loss": 0.0356,
	"step": 7940
	},
	{
	"epoch": 16.5625,
	"grad_norm": 0.224867045879364,
	"learning_rate": 1.1056136061894384e-05,
	"loss": 0.0363,
	"step": 7950
	},
	{
	"epoch": 16.583333333333332,
	"grad_norm": 0.19840490818023682,
	"learning_rate": 1.095264747492391e-05,
	"loss": 0.0412,
	"step": 7960
	},
	{
	"epoch": 16.604166666666668,
	"grad_norm": 0.15883027017116547,
	"learning_rate": 1.0849585903544706e-05,
	"loss": 0.0415,
	"step": 7970
	},
	{
	"epoch": 16.625,
	"grad_norm": 0.14518824219703674,
	"learning_rate": 1.0746952474821614e-05,
	"loss": 0.0352,
	"step": 7980
	},
	{
	"epoch": 16.645833333333332,
	"grad_norm": 0.18514308333396912,
	"learning_rate": 1.0644748311137376e-05,
	"loss": 0.0433,
	"step": 7990
	},
	{
	"epoch": 16.666666666666668,
	"grad_norm": 0.1748477965593338,
	"learning_rate": 1.0542974530180327e-05,
	"loss": 0.0378,
	"step": 8000
	},
	{
	"epoch": 16.6875,
	"grad_norm": 0.17043419182300568,
	"learning_rate": 1.0441632244932237e-05,
	"loss": 0.0332,
	"step": 8010
	},
	{
	"epoch": 16.708333333333332,
	"grad_norm": 0.24716496467590332,
	"learning_rate": 1.0340722563656107e-05,
	"loss": 0.0349,
	"step": 8020
	},
	{
	"epoch": 16.729166666666668,
	"grad_norm": 0.1788455843925476,
	"learning_rate": 1.0240246589884044e-05,
	"loss": 0.0339,
	"step": 8030
	},
	{
	"epoch": 16.75,
	"grad_norm": 0.21836072206497192,
	"learning_rate": 1.0140205422405214e-05,
	"loss": 0.0399,
	"step": 8040
	},
	{
	"epoch": 16.770833333333332,
	"grad_norm": 0.13819825649261475,
	"learning_rate": 1.0040600155253765e-05,
	"loss": 0.032,
	"step": 8050
	},
	{
	"epoch": 16.791666666666668,
	"grad_norm": 0.14727181196212769,
	"learning_rate": 9.941431877696955e-06,
	"loss": 0.033,
	"step": 8060
	},
	{
	"epoch": 16.8125,
	"grad_norm": 0.3028770685195923,
	"learning_rate": 9.842701674223187e-06,
	"loss": 0.0348,
	"step": 8070
	},
	{
	"epoch": 16.833333333333332,
	"grad_norm": 0.1468600183725357,
	"learning_rate": 9.744410624530148e-06,
	"loss": 0.0296,
	"step": 8080
	},
	{
	"epoch": 16.854166666666668,
	"grad_norm": 0.14955639839172363,
	"learning_rate": 9.646559803512994e-06,
	"loss": 0.0335,
	"step": 8090
	},
	{
	"epoch": 16.875,
	"grad_norm": 0.3067767024040222,
	"learning_rate": 9.549150281252633e-06,
	"loss": 0.0311,
	"step": 8100
	},
	{
	"epoch": 16.895833333333332,
	"grad_norm": 0.1653410643339157,
	"learning_rate": 9.452183123004e-06,
	"loss": 0.0322,
	"step": 8110
	},
	{
	"epoch": 16.916666666666668,
	"grad_norm": 0.38487905263900757,
	"learning_rate": 9.355659389184396e-06,
	"loss": 0.0324,
	"step": 8120
	},
	{
	"epoch": 16.9375,
	"grad_norm": 0.1474359631538391,
	"learning_rate": 9.259580135361929e-06,
	"loss": 0.0306,
	"step": 8130
	},
	{
	"epoch": 16.958333333333332,
	"grad_norm": 0.1430114060640335,
	"learning_rate": 9.163946412243896e-06,
	"loss": 0.0306,
	"step": 8140
	},
	{
	"epoch": 16.979166666666668,
	"grad_norm": 0.17467962205410004,
	"learning_rate": 9.068759265665384e-06,
	"loss": 0.0376,
	"step": 8150
	},
	{
	"epoch": 17.0,
	"grad_norm": 0.16724301874637604,
	"learning_rate": 8.974019736577777e-06,
	"loss": 0.0348,
	"step": 8160
	},
	{
	"epoch": 17.020833333333332,
	"grad_norm": 0.14975309371948242,
	"learning_rate": 8.879728861037384e-06,
	"loss": 0.0306,
	"step": 8170
	},
	{
	"epoch": 17.041666666666668,
	"grad_norm": 0.17851698398590088,
	"learning_rate": 8.785887670194138e-06,
	"loss": 0.0322,
	"step": 8180
	},
	{
	"epoch": 17.0625,
	"grad_norm": 0.1703353375196457,
	"learning_rate": 8.692497190280224e-06,
	"loss": 0.0324,
	"step": 8190
	},
	{
	"epoch": 17.083333333333332,
	"grad_norm": 0.2298639714717865,
	"learning_rate": 8.599558442598998e-06,
	"loss": 0.0352,
	"step": 8200
	},
	{
	"epoch": 17.104166666666668,
	"grad_norm": 0.15811441838741302,
	"learning_rate": 8.507072443513702e-06,
	"loss": 0.0317,
	"step": 8210
	},
	{
	"epoch": 17.125,
	"grad_norm": 0.21073931455612183,
	"learning_rate": 8.415040204436426e-06,
	"loss": 0.0341,
	"step": 8220
	},
	{
	"epoch": 17.145833333333332,
	"grad_norm": 0.15325315296649933,
	"learning_rate": 8.323462731816961e-06,
	"loss": 0.0331,
	"step": 8230
	},
	{
	"epoch": 17.166666666666668,
	"grad_norm": 0.14133264124393463,
	"learning_rate": 8.232341027131885e-06,
	"loss": 0.0373,
	"step": 8240
	},
	{
	"epoch": 17.1875,
	"grad_norm": 0.2085970789194107,
	"learning_rate": 8.141676086873572e-06,
	"loss": 0.031,
	"step": 8250
	},
	{
	"epoch": 17.208333333333332,
	"grad_norm": 0.18166519701480865,
	"learning_rate": 8.051468902539272e-06,
	"loss": 0.0321,
	"step": 8260
	},
	{
	"epoch": 17.229166666666668,
	"grad_norm": 0.17954124510288239,
	"learning_rate": 7.96172046062032e-06,
	"loss": 0.0313,
	"step": 8270
	},
	{
	"epoch": 17.25,
	"grad_norm": 0.1591859608888626,
	"learning_rate": 7.872431742591268e-06,
	"loss": 0.0423,
	"step": 8280
	},
	{
	"epoch": 17.270833333333332,
	"grad_norm": 0.19576288759708405,
	"learning_rate": 7.783603724899257e-06,
	"loss": 0.034,
	"step": 8290
	},
	{
	"epoch": 17.291666666666668,
	"grad_norm": 0.16259166598320007,
	"learning_rate": 7.695237378953223e-06,
	"loss": 0.031,
	"step": 8300
	},
	{
	"epoch": 17.3125,
	"grad_norm": 0.2567852735519409,
	"learning_rate": 7.607333671113409e-06,
	"loss": 0.0319,
	"step": 8310
	},
	{
	"epoch": 17.333333333333332,
	"grad_norm": 0.1433526873588562,
	"learning_rate": 7.519893562680663e-06,
	"loss": 0.0387,
	"step": 8320
	},
	{
	"epoch": 17.354166666666668,
	"grad_norm": 0.12833265960216522,
	"learning_rate": 7.432918009885997e-06,
	"loss": 0.0356,
	"step": 8330
	},
	{
	"epoch": 17.375,
	"grad_norm": 0.18633872270584106,
	"learning_rate": 7.3464079638801365e-06,
	"loss": 0.0372,
	"step": 8340
	},
	{
	"epoch": 17.395833333333332,
	"grad_norm": 0.19157272577285767,
	"learning_rate": 7.260364370723044e-06,
	"loss": 0.0328,
	"step": 8350
	},
	{
	"epoch": 17.416666666666668,
	"grad_norm": 0.14308947324752808,
	"learning_rate": 7.174788171373731e-06,
	"loss": 0.034,
	"step": 8360
	},
	{
	"epoch": 17.4375,
	"grad_norm": 0.15091511607170105,
	"learning_rate": 7.089680301679752e-06,
	"loss": 0.032,
	"step": 8370
	},
	{
	"epoch": 17.458333333333332,
	"grad_norm": 0.17052793502807617,
	"learning_rate": 7.005041692367154e-06,
	"loss": 0.0269,
	"step": 8380
	},
	{
	"epoch": 17.479166666666668,
	"grad_norm": 0.1326158493757248,
	"learning_rate": 6.92087326903022e-06,
	"loss": 0.0353,
	"step": 8390
	},
	{
	"epoch": 17.5,
	"grad_norm": 0.1644575148820877,
	"learning_rate": 6.837175952121306e-06,
	"loss": 0.0314,
	"step": 8400
	},
	{
	"epoch": 17.520833333333332,
	"grad_norm": 0.1430823653936386,
	"learning_rate": 6.753950656940905e-06,
	"loss": 0.0254,
	"step": 8410
	},
	{
	"epoch": 17.541666666666668,
	"grad_norm": 0.20929637551307678,
	"learning_rate": 6.671198293627479e-06,
	"loss": 0.0329,
	"step": 8420
	},
	{
	"epoch": 17.5625,
	"grad_norm": 0.16513291001319885,
	"learning_rate": 6.588919767147639e-06,
	"loss": 0.0295,
	"step": 8430
	},
	{
	"epoch": 17.583333333333332,
	"grad_norm": 0.2245665341615677,
	"learning_rate": 6.5071159772861436e-06,
	"loss": 0.0324,
	"step": 8440
	},
	{
	"epoch": 17.604166666666668,
	"grad_norm": 0.16559205949306488,
	"learning_rate": 6.425787818636131e-06,
	"loss": 0.0301,
	"step": 8450
	},
	{
	"epoch": 17.625,
	"grad_norm": 0.19494593143463135,
	"learning_rate": 6.344936180589351e-06,
	"loss": 0.0319,
	"step": 8460
	},
	{
	"epoch": 17.645833333333332,
	"grad_norm": 0.22981615364551544,
	"learning_rate": 6.264561947326331e-06,
	"loss": 0.0301,
	"step": 8470
	},
	{
	"epoch": 17.666666666666668,
	"grad_norm": 0.107606902718544,
	"learning_rate": 6.184665997806832e-06,
	"loss": 0.032,
	"step": 8480
	},
	{
	"epoch": 17.6875,
	"grad_norm": 0.21070224046707153,
	"learning_rate": 6.1052492057601275e-06,
	"loss": 0.0412,
	"step": 8490
	},
	{
	"epoch": 17.708333333333332,
	"grad_norm": 0.19031378626823425,
	"learning_rate": 6.026312439675552e-06,
	"loss": 0.0358,
	"step": 8500
	},
	{
	"epoch": 17.729166666666668,
	"grad_norm": 0.19321215152740479,
	"learning_rate": 5.947856562792925e-06,
	"loss": 0.0292,
	"step": 8510
	},
	{
	"epoch": 17.75,
	"grad_norm": 0.16616252064704895,
	"learning_rate": 5.869882433093155e-06,
	"loss": 0.0356,
	"step": 8520
	},
	{
	"epoch": 17.770833333333332,
	"grad_norm": 0.15638171136379242,
	"learning_rate": 5.79239090328883e-06,
	"loss": 0.0312,
	"step": 8530
	},
	{
	"epoch": 17.791666666666668,
	"grad_norm": 0.2161197066307068,
	"learning_rate": 5.715382820814885e-06,
	"loss": 0.0315,
	"step": 8540
	},
	{
	"epoch": 17.8125,
	"grad_norm": 0.18795347213745117,
	"learning_rate": 5.6388590278194096e-06,
	"loss": 0.0317,
	"step": 8550
	},
	{
	"epoch": 17.833333333333332,
	"grad_norm": 0.15534399449825287,
	"learning_rate": 5.562820361154314e-06,
	"loss": 0.0332,
	"step": 8560
	},
	{
	"epoch": 17.854166666666668,
	"grad_norm": 0.16690361499786377,
	"learning_rate": 5.48726765236629e-06,
	"loss": 0.0314,
	"step": 8570
	},
	{
	"epoch": 17.875,
	"grad_norm": 0.26291123032569885,
	"learning_rate": 5.412201727687644e-06,
	"loss": 0.0379,
	"step": 8580
	},
	{
	"epoch": 17.895833333333332,
	"grad_norm": 0.18499770760536194,
	"learning_rate": 5.337623408027293e-06,
	"loss": 0.0293,
	"step": 8590
	},
	{
	"epoch": 17.916666666666668,
	"grad_norm": 0.18224544823169708,
	"learning_rate": 5.263533508961827e-06,
	"loss": 0.0331,
	"step": 8600
	},
	{
	"epoch": 17.9375,
	"grad_norm": 0.1336999535560608,
	"learning_rate": 5.1899328407264855e-06,
	"loss": 0.0371,
	"step": 8610
	},
	{
	"epoch": 17.958333333333332,
	"grad_norm": 0.2066693902015686,
	"learning_rate": 5.116822208206396e-06,
	"loss": 0.036,
	"step": 8620
	},
	{
	"epoch": 17.979166666666668,
	"grad_norm": 0.27295708656311035,
	"learning_rate": 5.044202410927706e-06,
	"loss": 0.0332,
	"step": 8630
	},
	{
	"epoch": 18.0,
	"grad_norm": 0.3093808889389038,
	"learning_rate": 4.972074243048897e-06,
	"loss": 0.0364,
	"step": 8640
	},
	{
	"epoch": 18.020833333333332,
	"grad_norm": 0.13390128314495087,
	"learning_rate": 4.900438493352055e-06,
	"loss": 0.0307,
	"step": 8650
	},
	{
	"epoch": 18.041666666666668,
	"grad_norm": 0.20206564664840698,
	"learning_rate": 4.829295945234258e-06,
	"loss": 0.0354,
	"step": 8660
	},
	{
	"epoch": 18.0625,
	"grad_norm": 0.1990128606557846,
	"learning_rate": 4.758647376699032e-06,
	"loss": 0.0303,
	"step": 8670
	},
	{
	"epoch": 18.083333333333332,
	"grad_norm": 0.31685084104537964,
	"learning_rate": 4.688493560347773e-06,
	"loss": 0.0328,
	"step": 8680
	},
	{
	"epoch": 18.104166666666668,
	"grad_norm": 0.16394484043121338,
	"learning_rate": 4.618835263371396e-06,
	"loss": 0.0367,
	"step": 8690
	},
	{
	"epoch": 18.125,
	"grad_norm": 0.24125359952449799,
	"learning_rate": 4.549673247541875e-06,
	"loss": 0.0298,
	"step": 8700
	},
	{
	"epoch": 18.145833333333332,
	"grad_norm": 0.17618513107299805,
	"learning_rate": 4.48100826920394e-06,
	"loss": 0.0318,
	"step": 8710
	},
	{
	"epoch": 18.166666666666668,
	"grad_norm": 0.13456808030605316,
	"learning_rate": 4.412841079266777e-06,
	"loss": 0.027,
	"step": 8720
	},
	{
	"epoch": 18.1875,
	"grad_norm": 0.20114630460739136,
	"learning_rate": 4.3451724231958644e-06,
	"loss": 0.0336,
	"step": 8730
	},
	{
	"epoch": 18.208333333333332,
	"grad_norm": 0.19448570907115936,
	"learning_rate": 4.27800304100478e-06,
	"loss": 0.0333,
	"step": 8740
	},
	{
	"epoch": 18.229166666666668,
	"grad_norm": 0.22494345903396606,
	"learning_rate": 4.2113336672471245e-06,
	"loss": 0.037,
	"step": 8750
	},
	{
	"epoch": 18.25,
	"grad_norm": 0.19884195923805237,
	"learning_rate": 4.145165031008508e-06,
	"loss": 0.0302,
	"step": 8760
	},
	{
	"epoch": 18.270833333333332,
	"grad_norm": 0.21482793986797333,
	"learning_rate": 4.079497855898501e-06,
	"loss": 0.035,
	"step": 8770
	},
	{
	"epoch": 18.291666666666668,
	"grad_norm": 0.18211424350738525,
	"learning_rate": 4.01433286004283e-06,
	"loss": 0.0325,
	"step": 8780
	},
	{
	"epoch": 18.3125,
	"grad_norm": 0.18658918142318726,
	"learning_rate": 3.949670756075447e-06,
	"loss": 0.0338,
	"step": 8790
	},
	{
	"epoch": 18.333333333333332,
	"grad_norm": 0.14777681231498718,
	"learning_rate": 3.885512251130763e-06,
	"loss": 0.0343,
	"step": 8800
	},
	{
	"epoch": 18.354166666666668,
	"grad_norm": 0.18653449416160583,
	"learning_rate": 3.821858046835913e-06,
	"loss": 0.0348,
	"step": 8810
	},
	{
	"epoch": 18.375,
	"grad_norm": 0.14548705518245697,
	"learning_rate": 3.75870883930306e-06,
	"loss": 0.0301,
	"step": 8820
	},
	{
	"epoch": 18.395833333333332,
	"grad_norm": 0.20936094224452972,
	"learning_rate": 3.696065319121833e-06,
	"loss": 0.0325,
	"step": 8830
	},
	{
	"epoch": 18.416666666666668,
	"grad_norm": 0.21354569494724274,
	"learning_rate": 3.6339281713517303e-06,
	"loss": 0.0375,
	"step": 8840
	},
	{
	"epoch": 18.4375,
	"grad_norm": 0.1711226850748062,
	"learning_rate": 3.5722980755146517e-06,
	"loss": 0.0322,
	"step": 8850
	},
	{
	"epoch": 18.458333333333332,
	"grad_norm": 0.11110875010490417,
	"learning_rate": 3.511175705587433e-06,
	"loss": 0.0364,
	"step": 8860
	},
	{
	"epoch": 18.479166666666668,
	"grad_norm": 0.25910326838493347,
	"learning_rate": 3.4505617299945336e-06,
	"loss": 0.0357,
	"step": 8870
	},
	{
	"epoch": 18.5,
	"grad_norm": 0.24128733575344086,
	"learning_rate": 3.390456811600673e-06,
	"loss": 0.0306,
	"step": 8880
	},
	{
	"epoch": 18.520833333333332,
	"grad_norm": 0.15856292843818665,
	"learning_rate": 3.3308616077036115e-06,
	"loss": 0.032,
	"step": 8890
	},
	{
	"epoch": 18.541666666666668,
	"grad_norm": 0.24794311821460724,
	"learning_rate": 3.271776770026963e-06,
	"loss": 0.0295,
	"step": 8900
	},
	{
	"epoch": 18.5625,
	"grad_norm": 0.2193899005651474,
	"learning_rate": 3.213202944713023e-06,
	"loss": 0.0345,
	"step": 8910
	},
	{
	"epoch": 18.583333333333332,
	"grad_norm": 0.1675347238779068,
	"learning_rate": 3.155140772315773e-06,
	"loss": 0.0313,
	"step": 8920
	},
	{
	"epoch": 18.604166666666668,
	"grad_norm": 0.17640578746795654,
	"learning_rate": 3.0975908877938277e-06,
	"loss": 0.0325,
	"step": 8930
	},
	{
	"epoch": 18.625,
	"grad_norm": 0.16503232717514038,
	"learning_rate": 3.040553920503503e-06,
	"loss": 0.0305,
	"step": 8940
	},
	{
	"epoch": 18.645833333333332,
	"grad_norm": 0.22779154777526855,
	"learning_rate": 2.9840304941919415e-06,
	"loss": 0.0311,
	"step": 8950
	},
	{
	"epoch": 18.666666666666668,
	"grad_norm": 0.20752200484275818,
	"learning_rate": 2.928021226990263e-06,
	"loss": 0.0379,
	"step": 8960
	},
	{
	"epoch": 18.6875,
	"grad_norm": 0.25029054284095764,
	"learning_rate": 2.8725267314068495e-06,
	"loss": 0.0313,
	"step": 8970
	},
	{
	"epoch": 18.708333333333332,
	"grad_norm": 0.1501133143901825,
	"learning_rate": 2.817547614320615e-06,
	"loss": 0.0306,
	"step": 8980
	},
	{
	"epoch": 18.729166666666668,
	"grad_norm": 0.14609061181545258,
	"learning_rate": 2.7630844769743757e-06,
	"loss": 0.0348,
	"step": 8990
	},
	{
	"epoch": 18.75,
	"grad_norm": 0.17063935101032257,
	"learning_rate": 2.7091379149682685e-06,
	"loss": 0.0356,
	"step": 9000
	},
	{
	"epoch": 18.770833333333332,
	"grad_norm": 0.15772214531898499,
	"learning_rate": 2.6557085182532582e-06,
	"loss": 0.037,
	"step": 9010
	},
	{
	"epoch": 18.791666666666668,
	"grad_norm": 0.17870227992534637,
	"learning_rate": 2.602796871124663e-06,
	"loss": 0.0306,
	"step": 9020
	},
	{
	"epoch": 18.8125,
	"grad_norm": 0.1352458894252777,
	"learning_rate": 2.5504035522157854e-06,
	"loss": 0.0269,
	"step": 9030
	},
	{
	"epoch": 18.833333333333332,
	"grad_norm": 0.13433943688869476,
	"learning_rate": 2.4985291344915674e-06,
	"loss": 0.0336,
	"step": 9040
	},
	{
	"epoch": 18.854166666666668,
	"grad_norm": 0.13748623430728912,
	"learning_rate": 2.4471741852423237e-06,
	"loss": 0.031,
	"step": 9050
	},
	{
	"epoch": 18.875,
	"grad_norm": 0.14584968984127045,
	"learning_rate": 2.3963392660775575e-06,
	"loss": 0.034,
	"step": 9060
	},
	{
	"epoch": 18.895833333333332,
	"grad_norm": 0.17508484423160553,
	"learning_rate": 2.3460249329197824e-06,
	"loss": 0.034,
	"step": 9070
	},
	{
	"epoch": 18.916666666666668,
	"grad_norm": 0.29237616062164307,
	"learning_rate": 2.296231735998511e-06,
	"loss": 0.0356,
	"step": 9080
	},
	{
	"epoch": 18.9375,
	"grad_norm": 0.19162213802337646,
	"learning_rate": 2.2469602198441573e-06,
	"loss": 0.0281,
	"step": 9090
	},
	{
	"epoch": 18.958333333333332,
	"grad_norm": 0.147079199552536,
	"learning_rate": 2.1982109232821178e-06,
	"loss": 0.0313,
	"step": 9100
	},
	{
	"epoch": 18.979166666666668,
	"grad_norm": 0.13137395679950714,
	"learning_rate": 2.149984379426906e-06,
	"loss": 0.0399,
	"step": 9110
	},
	{
	"epoch": 19.0,
	"grad_norm": 0.4080326557159424,
	"learning_rate": 2.102281115676258e-06,
	"loss": 0.038,
	"step": 9120
	},
	{
	"epoch": 19.020833333333332,
	"grad_norm": 0.13633409142494202,
	"learning_rate": 2.0551016537054493e-06,
	"loss": 0.0331,
	"step": 9130
	},
	{
	"epoch": 19.041666666666668,
	"grad_norm": 0.13765296339988708,
	"learning_rate": 2.008446509461498e-06,
	"loss": 0.0263,
	"step": 9140
	},
	{
	"epoch": 19.0625,
	"grad_norm": 0.23236972093582153,
	"learning_rate": 1.962316193157593e-06,
	"loss": 0.0328,
	"step": 9150
	},
	{
	"epoch": 19.083333333333332,
	"grad_norm": 0.15789905190467834,
	"learning_rate": 1.91671120926748e-06,
	"loss": 0.0367,
	"step": 9160
	},
	{
	"epoch": 19.104166666666668,
	"grad_norm": 0.13010896742343903,
	"learning_rate": 1.8716320565199618e-06,
	"loss": 0.0297,
	"step": 9170
	},
	{
	"epoch": 19.125,
	"grad_norm": 0.15396663546562195,
	"learning_rate": 1.8270792278934302e-06,
	"loss": 0.0383,
	"step": 9180
	},
	{
	"epoch": 19.145833333333332,
	"grad_norm": 0.18995301425457,
	"learning_rate": 1.7830532106104747e-06,
	"loss": 0.0325,
	"step": 9190
	},
	{
	"epoch": 19.166666666666668,
	"grad_norm": 0.18019302189350128,
	"learning_rate": 1.7395544861325718e-06,
	"loss": 0.0284,
	"step": 9200
	},
	{
	"epoch": 19.1875,
	"grad_norm": 0.18761536478996277,
	"learning_rate": 1.696583530154794e-06,
	"loss": 0.0338,
	"step": 9210
	},
	{
	"epoch": 19.208333333333332,
	"grad_norm": 0.2118709832429886,
	"learning_rate": 1.6541408126006463e-06,
	"loss": 0.03,
	"step": 9220
	},
	{
	"epoch": 19.229166666666668,
	"grad_norm": 0.1725333034992218,
	"learning_rate": 1.6122267976168781e-06,
	"loss": 0.0372,
	"step": 9230
	},
	{
	"epoch": 19.25,
	"grad_norm": 0.18301089107990265,
	"learning_rate": 1.5708419435684462e-06,
	"loss": 0.0324,
	"step": 9240
	},
	{
	"epoch": 19.270833333333332,
	"grad_norm": 0.11558585613965988,
	"learning_rate": 1.5299867030334814e-06,
	"loss": 0.0328,
	"step": 9250
	},
	{
	"epoch": 19.291666666666668,
	"grad_norm": 0.1680075079202652,
	"learning_rate": 1.4896615227983468e-06,
	"loss": 0.0323,
	"step": 9260
	},
	{
	"epoch": 19.3125,
	"grad_norm": 0.13936129212379456,
	"learning_rate": 1.4498668438527597e-06,
	"loss": 0.0317,
	"step": 9270
	},
	{
	"epoch": 19.333333333333332,
	"grad_norm": 0.24704353511333466,
	"learning_rate": 1.4106031013849496e-06,
	"loss": 0.0335,
	"step": 9280
	},
	{
	"epoch": 19.354166666666668,
	"grad_norm": 0.11719508469104767,
	"learning_rate": 1.3718707247769135e-06,
	"loss": 0.0275,
	"step": 9290
	},
	{
	"epoch": 19.375,
	"grad_norm": 0.18378089368343353,
	"learning_rate": 1.333670137599713e-06,
	"loss": 0.0291,
	"step": 9300
	},
	{
	"epoch": 19.395833333333332,
	"grad_norm": 0.30711549520492554,
	"learning_rate": 1.2960017576088446e-06,
	"loss": 0.0365,
	"step": 9310
	},
	{
	"epoch": 19.416666666666668,
	"grad_norm": 0.41542425751686096,
	"learning_rate": 1.2588659967397e-06,
	"loss": 0.0317,
	"step": 9320
	},
	{
	"epoch": 19.4375,
	"grad_norm": 0.16232679784297943,
	"learning_rate": 1.222263261102985e-06,
	"loss": 0.0314,
	"step": 9330
	},
	{
	"epoch": 19.458333333333332,
	"grad_norm": 0.22481182217597961,
	"learning_rate": 1.1861939509803687e-06,
	"loss": 0.0347,
	"step": 9340
	},
	{
	"epoch": 19.479166666666668,
	"grad_norm": 0.1459631323814392,
	"learning_rate": 1.1506584608200367e-06,
	"loss": 0.0317,
	"step": 9350
	},
	{
	"epoch": 19.5,
	"grad_norm": 0.2111710160970688,
	"learning_rate": 1.1156571792324211e-06,
	"loss": 0.0293,
	"step": 9360
	},
	{
	"epoch": 19.520833333333332,
	"grad_norm": 0.1639842689037323,
	"learning_rate": 1.0811904889859336e-06,
	"loss": 0.0318,
	"step": 9370
	},
	{
	"epoch": 19.541666666666668,
	"grad_norm": 0.14058507978916168,
	"learning_rate": 1.0472587670027678e-06,
	"loss": 0.0401,
	"step": 9380
	},
	{
	"epoch": 19.5625,
	"grad_norm": 0.17518417537212372,
	"learning_rate": 1.0138623843548078e-06,
	"loss": 0.0349,
	"step": 9390
	},
	{
	"epoch": 19.583333333333332,
	"grad_norm": 0.15717728435993195,
	"learning_rate": 9.810017062595322e-07,
	"loss": 0.0319,
	"step": 9400
	},
	{
	"epoch": 19.604166666666668,
	"grad_norm": 0.23628921806812286,
	"learning_rate": 9.486770920760668e-07,
	"loss": 0.0327,
	"step": 9410
	},
	{
	"epoch": 19.625,
	"grad_norm": 0.16475990414619446,
	"learning_rate": 9.168888953011989e-07,
	"loss": 0.0282,
	"step": 9420
	},
	{
	"epoch": 19.645833333333332,
	"grad_norm": 0.13366751372814178,
	"learning_rate": 8.856374635655695e-07,
	"loss": 0.0315,
	"step": 9430
	},
	{
	"epoch": 19.666666666666668,
	"grad_norm": 0.2342182844877243,
	"learning_rate": 8.549231386298151e-07,
	"loss": 0.0303,
	"step": 9440
	},
	{
	"epoch": 19.6875,
	"grad_norm": 0.17857497930526733,
	"learning_rate": 8.247462563808817e-07,
	"loss": 0.0376,
	"step": 9450
	},
	{
	"epoch": 19.708333333333332,
	"grad_norm": 0.09750518202781677,
	"learning_rate": 7.951071468283167e-07,
	"loss": 0.0326,
	"step": 9460
	},
	{
	"epoch": 19.729166666666668,
	"grad_norm": 0.14700888097286224,
	"learning_rate": 7.66006134100672e-07,
	"loss": 0.0338,
	"step": 9470
	},
	{
	"epoch": 19.75,
	"grad_norm": 0.19283577799797058,
	"learning_rate": 7.374435364419674e-07,
	"loss": 0.0297,
	"step": 9480
	},
	{
	"epoch": 19.770833333333332,
	"grad_norm": 0.17570871114730835,
	"learning_rate": 7.094196662081831e-07,
	"loss": 0.0298,
	"step": 9490
	},
	{
	"epoch": 19.791666666666668,
	"grad_norm": 0.15083159506320953,
	"learning_rate": 6.819348298638839e-07,
	"loss": 0.0337,
	"step": 9500
	},
	{
	"epoch": 19.8125,
	"grad_norm": 0.21180565655231476,
	"learning_rate": 6.549893279788277e-07,
	"loss": 0.0362,
	"step": 9510
	},
	{
	"epoch": 19.833333333333332,
	"grad_norm": 0.1290484517812729,
	"learning_rate": 6.285834552247128e-07,
	"loss": 0.0288,
	"step": 9520
	},
	{
	"epoch": 19.854166666666668,
	"grad_norm": 0.20939485728740692,
	"learning_rate": 6.027175003719354e-07,
	"loss": 0.0394,
	"step": 9530
	},
	{
	"epoch": 19.875,
	"grad_norm": 0.20585738122463226,
	"learning_rate": 5.773917462864264e-07,
	"loss": 0.034,
	"step": 9540
	},
	{
	"epoch": 19.895833333333332,
	"grad_norm": 0.1653178483247757,
	"learning_rate": 5.526064699265753e-07,
	"loss": 0.035,
	"step": 9550
	},
	{
	"epoch": 19.916666666666668,
	"grad_norm": 0.19663727283477783,
	"learning_rate": 5.283619423401998e-07,
	"loss": 0.0333,
	"step": 9560
	},
	{
	"epoch": 19.9375,
	"grad_norm": 0.1678989678621292,
	"learning_rate": 5.046584286615697e-07,
	"loss": 0.0369,
	"step": 9570
	},
	{
	"epoch": 19.958333333333332,
	"grad_norm": 0.28280648589134216,
	"learning_rate": 4.814961881085045e-07,
	"loss": 0.0337,
	"step": 9580
	},
	{
	"epoch": 19.979166666666668,
	"grad_norm": 0.199066624045372,
	"learning_rate": 4.5887547397955864e-07,
	"loss": 0.0348,
	"step": 9590
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.24922700226306915,
	"learning_rate": 4.367965336512403e-07,
	"loss": 0.0276,
	"step": 9600
	},
	{
	"epoch": 20.020833333333332,
	"grad_norm": 0.16354601085186005,
	"learning_rate": 4.1525960857530243e-07,
	"loss": 0.0308,
	"step": 9610
	},
	{
	"epoch": 20.041666666666668,
	"grad_norm": 0.24178677797317505,
	"learning_rate": 3.9426493427611177e-07,
	"loss": 0.0371,
	"step": 9620
	},
	{
	"epoch": 20.0625,
	"grad_norm": 0.18796806037425995,
	"learning_rate": 3.738127403480507e-07,
	"loss": 0.0388,
	"step": 9630
	},
	{
	"epoch": 20.083333333333332,
	"grad_norm": 0.20693808794021606,
	"learning_rate": 3.5390325045304706e-07,
	"loss": 0.0333,
	"step": 9640
	},
	{
	"epoch": 20.104166666666668,
	"grad_norm": 0.18679924309253693,
	"learning_rate": 3.3453668231809286e-07,
	"loss": 0.031,
	"step": 9650
	},
	{
	"epoch": 20.125,
	"grad_norm": 0.10266103595495224,
	"learning_rate": 3.157132477328628e-07,
	"loss": 0.0299,
	"step": 9660
	},
	{
	"epoch": 20.145833333333332,
	"grad_norm": 0.18884888291358948,
	"learning_rate": 2.9743315254743833e-07,
	"loss": 0.0364,
	"step": 9670
	},
	{
	"epoch": 20.166666666666668,
	"grad_norm": 0.20858243107795715,
	"learning_rate": 2.796965966699927e-07,
	"loss": 0.0353,
	"step": 9680
	},
	{
	"epoch": 20.1875,
	"grad_norm": 0.2836136817932129,
	"learning_rate": 2.625037740646763e-07,
	"loss": 0.0339,
	"step": 9690
	},
	{
	"epoch": 20.208333333333332,
	"grad_norm": 0.1977325975894928,
	"learning_rate": 2.458548727494292e-07,
	"loss": 0.029,
	"step": 9700
	},
	{
	"epoch": 20.229166666666668,
	"grad_norm": 0.21082016825675964,
	"learning_rate": 2.2975007479397738e-07,
	"loss": 0.0312,
	"step": 9710
	},
	{
	"epoch": 20.25,
	"grad_norm": 0.22530245780944824,
	"learning_rate": 2.1418955631781202e-07,
	"loss": 0.0361,
	"step": 9720
	},
	{
	"epoch": 20.270833333333332,
	"grad_norm": 0.11725817620754242,
	"learning_rate": 1.9917348748826335e-07,
	"loss": 0.0309,
	"step": 9730
	},
	{
	"epoch": 20.291666666666668,
	"grad_norm": 0.23259659111499786,
	"learning_rate": 1.847020325186577e-07,
	"loss": 0.0356,
	"step": 9740
	},
	{
	"epoch": 20.3125,
	"grad_norm": 0.25922563672065735,
	"learning_rate": 1.7077534966650766e-07,
	"loss": 0.0352,
	"step": 9750
	},
	{
	"epoch": 20.333333333333332,
	"grad_norm": 0.160082146525383,
	"learning_rate": 1.5739359123178587e-07,
	"loss": 0.0315,
	"step": 9760
	},
	{
	"epoch": 20.354166666666668,
	"grad_norm": 0.1723332554101944,
	"learning_rate": 1.4455690355525964e-07,
	"loss": 0.03,
	"step": 9770
	},
	{
	"epoch": 20.375,
	"grad_norm": 0.39016783237457275,
	"learning_rate": 1.3226542701689215e-07,
	"loss": 0.0333,
	"step": 9780
	},
	{
	"epoch": 20.395833333333332,
	"grad_norm": 0.17745746672153473,
	"learning_rate": 1.2051929603428825e-07,
	"loss": 0.0335,
	"step": 9790
	},
	{
	"epoch": 20.416666666666668,
	"grad_norm": 0.19119124114513397,
	"learning_rate": 1.0931863906127327e-07,
	"loss": 0.0371,
	"step": 9800
	},
	{
	"epoch": 20.4375,
	"grad_norm": 0.19665691256523132,
	"learning_rate": 9.866357858642205e-08,
	"loss": 0.0301,
	"step": 9810
	},
	{
	"epoch": 20.458333333333332,
	"grad_norm": 0.2378683239221573,
	"learning_rate": 8.855423113177664e-08,
	"loss": 0.0339,
	"step": 9820
	},
	{
	"epoch": 20.479166666666668,
	"grad_norm": 0.21455919742584229,
	"learning_rate": 7.899070725153613e-08,
	"loss": 0.0301,
	"step": 9830
	},
	{
	"epoch": 20.5,
	"grad_norm": 0.1403769999742508,
	"learning_rate": 6.997311153086883e-08,
	"loss": 0.0348,
	"step": 9840
	},
	{
	"epoch": 20.520833333333332,
	"grad_norm": 0.1677563339471817,
	"learning_rate": 6.150154258476315e-08,
	"loss": 0.0294,
	"step": 9850
	},
	{
	"epoch": 20.541666666666668,
	"grad_norm": 0.22757263481616974,
	"learning_rate": 5.3576093056922906e-08,
	"loss": 0.0371,
	"step": 9860
	},
	{
	"epoch": 20.5625,
	"grad_norm": 0.14663146436214447,
	"learning_rate": 4.619684961881254e-08,
	"loss": 0.0344,
	"step": 9870
	},
	{
	"epoch": 20.583333333333332,
	"grad_norm": 0.205908864736557,
	"learning_rate": 3.936389296864129e-08,
	"loss": 0.0275,
	"step": 9880
	},
	{
	"epoch": 20.604166666666668,
	"grad_norm": 0.12263581156730652,
	"learning_rate": 3.3077297830541584e-08,
	"loss": 0.0306,
	"step": 9890
	},
	{
	"epoch": 20.625,
	"grad_norm": 0.24407680332660675,
	"learning_rate": 2.7337132953697554e-08,
	"loss": 0.0353,
	"step": 9900
	},
	{
	"epoch": 20.645833333333332,
	"grad_norm": 0.17561787366867065,
	"learning_rate": 2.214346111164556e-08,
	"loss": 0.0343,
	"step": 9910
	},
	{
	"epoch": 20.666666666666668,
	"grad_norm": 0.28819283843040466,
	"learning_rate": 1.749633910153592e-08,
	"loss": 0.0353,
	"step": 9920
	},
	{
	"epoch": 20.6875,
	"grad_norm": 0.12137261778116226,
	"learning_rate": 1.3395817743561134e-08,
	"loss": 0.0355,
	"step": 9930
	},
	{
	"epoch": 20.708333333333332,
	"grad_norm": 0.15780037641525269,
	"learning_rate": 9.841941880361916e-09,
	"loss": 0.0292,
	"step": 9940
	},
	{
	"epoch": 20.729166666666668,
	"grad_norm": 0.15066218376159668,
	"learning_rate": 6.834750376549792e-09,
	"loss": 0.0332,
	"step": 9950
	},
	{
	"epoch": 20.75,
	"grad_norm": 0.17980065941810608,
	"learning_rate": 4.3742761183018784e-09,
	"loss": 0.0339,
	"step": 9960
	},
	{
	"epoch": 20.770833333333332,
	"grad_norm": 0.18489395081996918,
	"learning_rate": 2.4605460129556445e-09,
	"loss": 0.0353,
	"step": 9970
	},
	{
	"epoch": 20.791666666666668,
	"grad_norm": 0.16273553669452667,
	"learning_rate": 1.0935809887702154e-09,
	"loss": 0.0326,
	"step": 9980
	},
	{
	"epoch": 20.8125,
	"grad_norm": 0.21852363646030426,
	"learning_rate": 2.7339599464326627e-10,
	"loss": 0.0297,
	"step": 9990
	},
	{
	"epoch": 20.833333333333332,
	"grad_norm": 0.09543376415967941,
	"learning_rate": 0.0,
	"loss": 0.0322,
	"step": 10000
	}
	],
	"logging_steps": 10,
	"max_steps": 10000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 21,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.191112056860797e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}