final_2b / trainer_state.json

upload

420d818 verified 17 days ago

218 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 12450,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0024099289070972406,
	"grad_norm": 4.99730110168457,
	"learning_rate": 7.228915662650603e-08,
	"loss": 0.5764,
	"step": 10
	},
	{
	"epoch": 0.004819857814194481,
	"grad_norm": 5.167454242706299,
	"learning_rate": 1.526104417670683e-07,
	"loss": 0.5672,
	"step": 20
	},
	{
	"epoch": 0.007229786721291722,
	"grad_norm": 4.905083179473877,
	"learning_rate": 2.3293172690763053e-07,
	"loss": 0.5632,
	"step": 30
	},
	{
	"epoch": 0.009639715628388962,
	"grad_norm": 4.453798294067383,
	"learning_rate": 3.1325301204819284e-07,
	"loss": 0.5563,
	"step": 40
	},
	{
	"epoch": 0.012049644535486204,
	"grad_norm": 3.5552871227264404,
	"learning_rate": 3.93574297188755e-07,
	"loss": 0.5509,
	"step": 50
	},
	{
	"epoch": 0.014459573442583444,
	"grad_norm": 3.192530870437622,
	"learning_rate": 4.738955823293173e-07,
	"loss": 0.5299,
	"step": 60
	},
	{
	"epoch": 0.016869502349680685,
	"grad_norm": 1.4914848804473877,
	"learning_rate": 5.542168674698796e-07,
	"loss": 0.5054,
	"step": 70
	},
	{
	"epoch": 0.019279431256777925,
	"grad_norm": 1.3909329175949097,
	"learning_rate": 6.345381526104419e-07,
	"loss": 0.4742,
	"step": 80
	},
	{
	"epoch": 0.021689360163875165,
	"grad_norm": 1.0395864248275757,
	"learning_rate": 7.14859437751004e-07,
	"loss": 0.4553,
	"step": 90
	},
	{
	"epoch": 0.024099289070972408,
	"grad_norm": 0.5118458271026611,
	"learning_rate": 7.951807228915663e-07,
	"loss": 0.437,
	"step": 100
	},
	{
	"epoch": 0.026509217978069648,
	"grad_norm": 0.46049413084983826,
	"learning_rate": 8.755020080321286e-07,
	"loss": 0.4401,
	"step": 110
	},
	{
	"epoch": 0.028919146885166887,
	"grad_norm": 0.33334410190582275,
	"learning_rate": 9.558232931726909e-07,
	"loss": 0.4237,
	"step": 120
	},
	{
	"epoch": 0.03132907579226413,
	"grad_norm": 0.29329338669776917,
	"learning_rate": 1.0361445783132532e-06,
	"loss": 0.4172,
	"step": 130
	},
	{
	"epoch": 0.03373900469936137,
	"grad_norm": 0.2698806822299957,
	"learning_rate": 1.1164658634538152e-06,
	"loss": 0.4073,
	"step": 140
	},
	{
	"epoch": 0.03614893360645861,
	"grad_norm": 0.27062541246414185,
	"learning_rate": 1.1967871485943775e-06,
	"loss": 0.4077,
	"step": 150
	},
	{
	"epoch": 0.03855886251355585,
	"grad_norm": 0.25270265340805054,
	"learning_rate": 1.2771084337349398e-06,
	"loss": 0.406,
	"step": 160
	},
	{
	"epoch": 0.04096879142065309,
	"grad_norm": 0.24482131004333496,
	"learning_rate": 1.357429718875502e-06,
	"loss": 0.3962,
	"step": 170
	},
	{
	"epoch": 0.04337872032775033,
	"grad_norm": 0.2311403751373291,
	"learning_rate": 1.4377510040160644e-06,
	"loss": 0.3964,
	"step": 180
	},
	{
	"epoch": 0.04578864923484757,
	"grad_norm": 0.23585936427116394,
	"learning_rate": 1.5180722891566266e-06,
	"loss": 0.3964,
	"step": 190
	},
	{
	"epoch": 0.048198578141944816,
	"grad_norm": 0.24917492270469666,
	"learning_rate": 1.598393574297189e-06,
	"loss": 0.3919,
	"step": 200
	},
	{
	"epoch": 0.05060850704904205,
	"grad_norm": 0.21880516409873962,
	"learning_rate": 1.6787148594377512e-06,
	"loss": 0.3892,
	"step": 210
	},
	{
	"epoch": 0.053018435956139295,
	"grad_norm": 0.26011061668395996,
	"learning_rate": 1.7590361445783133e-06,
	"loss": 0.3919,
	"step": 220
	},
	{
	"epoch": 0.05542836486323653,
	"grad_norm": 0.24149279296398163,
	"learning_rate": 1.8393574297188758e-06,
	"loss": 0.3817,
	"step": 230
	},
	{
	"epoch": 0.057838293770333775,
	"grad_norm": 0.2522621154785156,
	"learning_rate": 1.919678714859438e-06,
	"loss": 0.3827,
	"step": 240
	},
	{
	"epoch": 0.06024822267743102,
	"grad_norm": 0.22799324989318848,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.3804,
	"step": 250
	},
	{
	"epoch": 0.06265815158452825,
	"grad_norm": 0.2407514750957489,
	"learning_rate": 2.0803212851405624e-06,
	"loss": 0.3809,
	"step": 260
	},
	{
	"epoch": 0.06506808049162549,
	"grad_norm": 0.23772907257080078,
	"learning_rate": 2.1606425702811245e-06,
	"loss": 0.3798,
	"step": 270
	},
	{
	"epoch": 0.06747800939872274,
	"grad_norm": 0.22972726821899414,
	"learning_rate": 2.240963855421687e-06,
	"loss": 0.3741,
	"step": 280
	},
	{
	"epoch": 0.06988793830581998,
	"grad_norm": 0.3202522099018097,
	"learning_rate": 2.321285140562249e-06,
	"loss": 0.3764,
	"step": 290
	},
	{
	"epoch": 0.07229786721291721,
	"grad_norm": 0.2453959435224533,
	"learning_rate": 2.4016064257028115e-06,
	"loss": 0.3745,
	"step": 300
	},
	{
	"epoch": 0.07470779612001446,
	"grad_norm": 0.23520852625370026,
	"learning_rate": 2.4819277108433736e-06,
	"loss": 0.3674,
	"step": 310
	},
	{
	"epoch": 0.0771177250271117,
	"grad_norm": 0.27136802673339844,
	"learning_rate": 2.5622489959839357e-06,
	"loss": 0.3713,
	"step": 320
	},
	{
	"epoch": 0.07952765393420894,
	"grad_norm": 0.27828076481819153,
	"learning_rate": 2.642570281124498e-06,
	"loss": 0.3651,
	"step": 330
	},
	{
	"epoch": 0.08193758284130619,
	"grad_norm": 0.2916911542415619,
	"learning_rate": 2.7228915662650607e-06,
	"loss": 0.3657,
	"step": 340
	},
	{
	"epoch": 0.08434751174840342,
	"grad_norm": 0.25117623805999756,
	"learning_rate": 2.8032128514056227e-06,
	"loss": 0.3659,
	"step": 350
	},
	{
	"epoch": 0.08675744065550066,
	"grad_norm": 0.23513498902320862,
	"learning_rate": 2.883534136546185e-06,
	"loss": 0.3642,
	"step": 360
	},
	{
	"epoch": 0.08916736956259791,
	"grad_norm": 0.258495956659317,
	"learning_rate": 2.9638554216867473e-06,
	"loss": 0.3626,
	"step": 370
	},
	{
	"epoch": 0.09157729846969515,
	"grad_norm": 0.28675827383995056,
	"learning_rate": 3.0441767068273094e-06,
	"loss": 0.3631,
	"step": 380
	},
	{
	"epoch": 0.09398722737679238,
	"grad_norm": 0.2855989634990692,
	"learning_rate": 3.124497991967872e-06,
	"loss": 0.3627,
	"step": 390
	},
	{
	"epoch": 0.09639715628388963,
	"grad_norm": 0.24374233186244965,
	"learning_rate": 3.204819277108434e-06,
	"loss": 0.3637,
	"step": 400
	},
	{
	"epoch": 0.09880708519098687,
	"grad_norm": 0.28183749318122864,
	"learning_rate": 3.2851405622489964e-06,
	"loss": 0.354,
	"step": 410
	},
	{
	"epoch": 0.1012170140980841,
	"grad_norm": 0.2566349506378174,
	"learning_rate": 3.3654618473895585e-06,
	"loss": 0.3576,
	"step": 420
	},
	{
	"epoch": 0.10362694300518134,
	"grad_norm": 0.26523247361183167,
	"learning_rate": 3.4457831325301206e-06,
	"loss": 0.363,
	"step": 430
	},
	{
	"epoch": 0.10603687191227859,
	"grad_norm": 0.24179835617542267,
	"learning_rate": 3.526104417670683e-06,
	"loss": 0.3544,
	"step": 440
	},
	{
	"epoch": 0.10844680081937583,
	"grad_norm": 0.28602543473243713,
	"learning_rate": 3.6064257028112455e-06,
	"loss": 0.3568,
	"step": 450
	},
	{
	"epoch": 0.11085672972647306,
	"grad_norm": 0.25611138343811035,
	"learning_rate": 3.6867469879518076e-06,
	"loss": 0.3597,
	"step": 460
	},
	{
	"epoch": 0.11326665863357031,
	"grad_norm": 0.26750630140304565,
	"learning_rate": 3.7670682730923697e-06,
	"loss": 0.3553,
	"step": 470
	},
	{
	"epoch": 0.11567658754066755,
	"grad_norm": 0.2654809355735779,
	"learning_rate": 3.847389558232932e-06,
	"loss": 0.3551,
	"step": 480
	},
	{
	"epoch": 0.11808651644776479,
	"grad_norm": 0.2738378345966339,
	"learning_rate": 3.927710843373494e-06,
	"loss": 0.3527,
	"step": 490
	},
	{
	"epoch": 0.12049644535486204,
	"grad_norm": 0.2891661524772644,
	"learning_rate": 4.008032128514057e-06,
	"loss": 0.3584,
	"step": 500
	},
	{
	"epoch": 0.12290637426195927,
	"grad_norm": 0.3008696436882019,
	"learning_rate": 4.088353413654618e-06,
	"loss": 0.3522,
	"step": 510
	},
	{
	"epoch": 0.1253163031690565,
	"grad_norm": 0.26106342673301697,
	"learning_rate": 4.168674698795181e-06,
	"loss": 0.3585,
	"step": 520
	},
	{
	"epoch": 0.12772623207615375,
	"grad_norm": 0.30646249651908875,
	"learning_rate": 4.248995983935743e-06,
	"loss": 0.354,
	"step": 530
	},
	{
	"epoch": 0.13013616098325098,
	"grad_norm": 0.2686347961425781,
	"learning_rate": 4.329317269076306e-06,
	"loss": 0.3532,
	"step": 540
	},
	{
	"epoch": 0.13254608989034825,
	"grad_norm": 0.3293842077255249,
	"learning_rate": 4.4096385542168675e-06,
	"loss": 0.3516,
	"step": 550
	},
	{
	"epoch": 0.13495601879744548,
	"grad_norm": 0.3065902292728424,
	"learning_rate": 4.48995983935743e-06,
	"loss": 0.3478,
	"step": 560
	},
	{
	"epoch": 0.13736594770454272,
	"grad_norm": 0.2703969478607178,
	"learning_rate": 4.5702811244979925e-06,
	"loss": 0.355,
	"step": 570
	},
	{
	"epoch": 0.13977587661163995,
	"grad_norm": 0.32646989822387695,
	"learning_rate": 4.650602409638554e-06,
	"loss": 0.3516,
	"step": 580
	},
	{
	"epoch": 0.1421858055187372,
	"grad_norm": 0.31451666355133057,
	"learning_rate": 4.730923694779117e-06,
	"loss": 0.3529,
	"step": 590
	},
	{
	"epoch": 0.14459573442583443,
	"grad_norm": 0.28364938497543335,
	"learning_rate": 4.811244979919679e-06,
	"loss": 0.3462,
	"step": 600
	},
	{
	"epoch": 0.1470056633329317,
	"grad_norm": 0.29597198963165283,
	"learning_rate": 4.891566265060242e-06,
	"loss": 0.3464,
	"step": 610
	},
	{
	"epoch": 0.14941559224002893,
	"grad_norm": 0.3085920810699463,
	"learning_rate": 4.971887550200803e-06,
	"loss": 0.348,
	"step": 620
	},
	{
	"epoch": 0.15182552114712616,
	"grad_norm": 0.34739628434181213,
	"learning_rate": 5.052208835341366e-06,
	"loss": 0.3476,
	"step": 630
	},
	{
	"epoch": 0.1542354500542234,
	"grad_norm": 0.39056167006492615,
	"learning_rate": 5.132530120481927e-06,
	"loss": 0.3457,
	"step": 640
	},
	{
	"epoch": 0.15664537896132064,
	"grad_norm": 0.42464467883110046,
	"learning_rate": 5.21285140562249e-06,
	"loss": 0.3469,
	"step": 650
	},
	{
	"epoch": 0.15905530786841787,
	"grad_norm": 0.2956889569759369,
	"learning_rate": 5.293172690763053e-06,
	"loss": 0.345,
	"step": 660
	},
	{
	"epoch": 0.1614652367755151,
	"grad_norm": 0.2830050587654114,
	"learning_rate": 5.373493975903615e-06,
	"loss": 0.3487,
	"step": 670
	},
	{
	"epoch": 0.16387516568261237,
	"grad_norm": 0.3202907145023346,
	"learning_rate": 5.453815261044177e-06,
	"loss": 0.3444,
	"step": 680
	},
	{
	"epoch": 0.1662850945897096,
	"grad_norm": 0.3004600405693054,
	"learning_rate": 5.53413654618474e-06,
	"loss": 0.3471,
	"step": 690
	},
	{
	"epoch": 0.16869502349680685,
	"grad_norm": 0.34944525361061096,
	"learning_rate": 5.6144578313253015e-06,
	"loss": 0.3389,
	"step": 700
	},
	{
	"epoch": 0.17110495240390408,
	"grad_norm": 0.36610379815101624,
	"learning_rate": 5.694779116465864e-06,
	"loss": 0.3398,
	"step": 710
	},
	{
	"epoch": 0.17351488131100132,
	"grad_norm": 0.28187426924705505,
	"learning_rate": 5.775100401606426e-06,
	"loss": 0.3418,
	"step": 720
	},
	{
	"epoch": 0.17592481021809855,
	"grad_norm": 0.29545527696609497,
	"learning_rate": 5.855421686746988e-06,
	"loss": 0.3477,
	"step": 730
	},
	{
	"epoch": 0.17833473912519582,
	"grad_norm": 0.25383058190345764,
	"learning_rate": 5.935742971887551e-06,
	"loss": 0.3477,
	"step": 740
	},
	{
	"epoch": 0.18074466803229305,
	"grad_norm": 0.30130770802497864,
	"learning_rate": 6.016064257028112e-06,
	"loss": 0.3451,
	"step": 750
	},
	{
	"epoch": 0.1831545969393903,
	"grad_norm": 0.29790839552879333,
	"learning_rate": 6.096385542168676e-06,
	"loss": 0.3368,
	"step": 760
	},
	{
	"epoch": 0.18556452584648753,
	"grad_norm": 0.40179699659347534,
	"learning_rate": 6.176706827309238e-06,
	"loss": 0.3426,
	"step": 770
	},
	{
	"epoch": 0.18797445475358476,
	"grad_norm": 0.3965051770210266,
	"learning_rate": 6.2570281124498e-06,
	"loss": 0.3385,
	"step": 780
	},
	{
	"epoch": 0.190384383660682,
	"grad_norm": 0.3644832372665405,
	"learning_rate": 6.337349397590362e-06,
	"loss": 0.3448,
	"step": 790
	},
	{
	"epoch": 0.19279431256777926,
	"grad_norm": 0.3456932306289673,
	"learning_rate": 6.417670682730924e-06,
	"loss": 0.3412,
	"step": 800
	},
	{
	"epoch": 0.1952042414748765,
	"grad_norm": 0.2943567633628845,
	"learning_rate": 6.4979919678714864e-06,
	"loss": 0.339,
	"step": 810
	},
	{
	"epoch": 0.19761417038197374,
	"grad_norm": 0.36465391516685486,
	"learning_rate": 6.578313253012049e-06,
	"loss": 0.3417,
	"step": 820
	},
	{
	"epoch": 0.20002409928907097,
	"grad_norm": 0.3800937235355377,
	"learning_rate": 6.6586345381526106e-06,
	"loss": 0.3439,
	"step": 830
	},
	{
	"epoch": 0.2024340281961682,
	"grad_norm": 0.41472527384757996,
	"learning_rate": 6.738955823293173e-06,
	"loss": 0.3384,
	"step": 840
	},
	{
	"epoch": 0.20484395710326544,
	"grad_norm": 0.32542121410369873,
	"learning_rate": 6.819277108433735e-06,
	"loss": 0.3408,
	"step": 850
	},
	{
	"epoch": 0.20725388601036268,
	"grad_norm": 0.38300177454948425,
	"learning_rate": 6.899598393574298e-06,
	"loss": 0.3388,
	"step": 860
	},
	{
	"epoch": 0.20966381491745995,
	"grad_norm": 0.34253501892089844,
	"learning_rate": 6.9799196787148605e-06,
	"loss": 0.3406,
	"step": 870
	},
	{
	"epoch": 0.21207374382455718,
	"grad_norm": 0.2961103916168213,
	"learning_rate": 7.060240963855422e-06,
	"loss": 0.3391,
	"step": 880
	},
	{
	"epoch": 0.21448367273165442,
	"grad_norm": 0.3785921633243561,
	"learning_rate": 7.140562248995985e-06,
	"loss": 0.3384,
	"step": 890
	},
	{
	"epoch": 0.21689360163875165,
	"grad_norm": 0.3351537585258484,
	"learning_rate": 7.220883534136547e-06,
	"loss": 0.3331,
	"step": 900
	},
	{
	"epoch": 0.2193035305458489,
	"grad_norm": 0.30644822120666504,
	"learning_rate": 7.301204819277109e-06,
	"loss": 0.3364,
	"step": 910
	},
	{
	"epoch": 0.22171345945294613,
	"grad_norm": 0.3286297619342804,
	"learning_rate": 7.381526104417671e-06,
	"loss": 0.3401,
	"step": 920
	},
	{
	"epoch": 0.2241233883600434,
	"grad_norm": 0.37144041061401367,
	"learning_rate": 7.461847389558233e-06,
	"loss": 0.3375,
	"step": 930
	},
	{
	"epoch": 0.22653331726714063,
	"grad_norm": 0.3658130466938019,
	"learning_rate": 7.5421686746987955e-06,
	"loss": 0.3369,
	"step": 940
	},
	{
	"epoch": 0.22894324617423786,
	"grad_norm": 0.3662518560886383,
	"learning_rate": 7.622489959839358e-06,
	"loss": 0.3372,
	"step": 950
	},
	{
	"epoch": 0.2313531750813351,
	"grad_norm": 0.4177001416683197,
	"learning_rate": 7.702811244979921e-06,
	"loss": 0.3374,
	"step": 960
	},
	{
	"epoch": 0.23376310398843234,
	"grad_norm": 0.4406464993953705,
	"learning_rate": 7.783132530120484e-06,
	"loss": 0.3367,
	"step": 970
	},
	{
	"epoch": 0.23617303289552957,
	"grad_norm": 0.3053452968597412,
	"learning_rate": 7.863453815261045e-06,
	"loss": 0.3319,
	"step": 980
	},
	{
	"epoch": 0.23858296180262684,
	"grad_norm": 0.32051965594291687,
	"learning_rate": 7.943775100401607e-06,
	"loss": 0.3349,
	"step": 990
	},
	{
	"epoch": 0.24099289070972407,
	"grad_norm": 0.38129672408103943,
	"learning_rate": 8.02409638554217e-06,
	"loss": 0.338,
	"step": 1000
	},
	{
	"epoch": 0.2434028196168213,
	"grad_norm": 0.3169671595096588,
	"learning_rate": 8.104417670682732e-06,
	"loss": 0.3354,
	"step": 1010
	},
	{
	"epoch": 0.24581274852391855,
	"grad_norm": 0.4040863513946533,
	"learning_rate": 8.184738955823293e-06,
	"loss": 0.3366,
	"step": 1020
	},
	{
	"epoch": 0.24822267743101578,
	"grad_norm": 0.41644954681396484,
	"learning_rate": 8.265060240963855e-06,
	"loss": 0.3337,
	"step": 1030
	},
	{
	"epoch": 0.250632606338113,
	"grad_norm": 0.36061403155326843,
	"learning_rate": 8.345381526104418e-06,
	"loss": 0.3344,
	"step": 1040
	},
	{
	"epoch": 0.25304253524521025,
	"grad_norm": 0.3897075057029724,
	"learning_rate": 8.42570281124498e-06,
	"loss": 0.3339,
	"step": 1050
	},
	{
	"epoch": 0.2554524641523075,
	"grad_norm": 0.5573968887329102,
	"learning_rate": 8.506024096385543e-06,
	"loss": 0.335,
	"step": 1060
	},
	{
	"epoch": 0.2578623930594047,
	"grad_norm": 0.3480527400970459,
	"learning_rate": 8.586345381526105e-06,
	"loss": 0.3316,
	"step": 1070
	},
	{
	"epoch": 0.26027232196650196,
	"grad_norm": 0.39568933844566345,
	"learning_rate": 8.666666666666668e-06,
	"loss": 0.3345,
	"step": 1080
	},
	{
	"epoch": 0.26268225087359925,
	"grad_norm": 0.46093761920928955,
	"learning_rate": 8.74698795180723e-06,
	"loss": 0.3361,
	"step": 1090
	},
	{
	"epoch": 0.2650921797806965,
	"grad_norm": 0.3842453360557556,
	"learning_rate": 8.827309236947791e-06,
	"loss": 0.3324,
	"step": 1100
	},
	{
	"epoch": 0.2675021086877937,
	"grad_norm": 0.33133313059806824,
	"learning_rate": 8.907630522088354e-06,
	"loss": 0.3398,
	"step": 1110
	},
	{
	"epoch": 0.26991203759489096,
	"grad_norm": 0.3757345378398895,
	"learning_rate": 8.987951807228916e-06,
	"loss": 0.3345,
	"step": 1120
	},
	{
	"epoch": 0.2723219665019882,
	"grad_norm": 0.3183879852294922,
	"learning_rate": 9.068273092369479e-06,
	"loss": 0.3287,
	"step": 1130
	},
	{
	"epoch": 0.27473189540908544,
	"grad_norm": 0.3695259988307953,
	"learning_rate": 9.148594377510041e-06,
	"loss": 0.3349,
	"step": 1140
	},
	{
	"epoch": 0.27714182431618267,
	"grad_norm": 0.4644116163253784,
	"learning_rate": 9.228915662650602e-06,
	"loss": 0.3279,
	"step": 1150
	},
	{
	"epoch": 0.2795517532232799,
	"grad_norm": 0.5456885695457458,
	"learning_rate": 9.309236947791166e-06,
	"loss": 0.3325,
	"step": 1160
	},
	{
	"epoch": 0.28196168213037714,
	"grad_norm": 0.3171805441379547,
	"learning_rate": 9.389558232931729e-06,
	"loss": 0.3285,
	"step": 1170
	},
	{
	"epoch": 0.2843716110374744,
	"grad_norm": 0.37826988101005554,
	"learning_rate": 9.46987951807229e-06,
	"loss": 0.3307,
	"step": 1180
	},
	{
	"epoch": 0.2867815399445716,
	"grad_norm": 0.35376235842704773,
	"learning_rate": 9.550200803212852e-06,
	"loss": 0.3267,
	"step": 1190
	},
	{
	"epoch": 0.28919146885166885,
	"grad_norm": 0.34854981303215027,
	"learning_rate": 9.630522088353414e-06,
	"loss": 0.3274,
	"step": 1200
	},
	{
	"epoch": 0.2916013977587661,
	"grad_norm": 0.3721908926963806,
	"learning_rate": 9.710843373493977e-06,
	"loss": 0.3318,
	"step": 1210
	},
	{
	"epoch": 0.2940113266658634,
	"grad_norm": 0.341938316822052,
	"learning_rate": 9.79116465863454e-06,
	"loss": 0.3238,
	"step": 1220
	},
	{
	"epoch": 0.2964212555729606,
	"grad_norm": 0.4187048673629761,
	"learning_rate": 9.8714859437751e-06,
	"loss": 0.3327,
	"step": 1230
	},
	{
	"epoch": 0.29883118448005785,
	"grad_norm": 0.43363118171691895,
	"learning_rate": 9.951807228915663e-06,
	"loss": 0.3278,
	"step": 1240
	},
	{
	"epoch": 0.3012411133871551,
	"grad_norm": 0.5067293047904968,
	"learning_rate": 9.999996855613166e-06,
	"loss": 0.3285,
	"step": 1250
	},
	{
	"epoch": 0.3036510422942523,
	"grad_norm": 0.5694174766540527,
	"learning_rate": 9.999961481306676e-06,
	"loss": 0.3282,
	"step": 1260
	},
	{
	"epoch": 0.30606097120134956,
	"grad_norm": 0.3565868139266968,
	"learning_rate": 9.999886802489159e-06,
	"loss": 0.3252,
	"step": 1270
	},
	{
	"epoch": 0.3084709001084468,
	"grad_norm": 0.31500163674354553,
	"learning_rate": 9.999772819747658e-06,
	"loss": 0.3299,
	"step": 1280
	},
	{
	"epoch": 0.31088082901554404,
	"grad_norm": 0.35977113246917725,
	"learning_rate": 9.99961953397819e-06,
	"loss": 0.3337,
	"step": 1290
	},
	{
	"epoch": 0.31329075792264127,
	"grad_norm": 0.47404736280441284,
	"learning_rate": 9.999426946385727e-06,
	"loss": 0.3336,
	"step": 1300
	},
	{
	"epoch": 0.3157006868297385,
	"grad_norm": 0.44246211647987366,
	"learning_rate": 9.999195058484192e-06,
	"loss": 0.33,
	"step": 1310
	},
	{
	"epoch": 0.31811061573683574,
	"grad_norm": 0.37307557463645935,
	"learning_rate": 9.998923872096449e-06,
	"loss": 0.3304,
	"step": 1320
	},
	{
	"epoch": 0.320520544643933,
	"grad_norm": 0.33273833990097046,
	"learning_rate": 9.998613389354283e-06,
	"loss": 0.3253,
	"step": 1330
	},
	{
	"epoch": 0.3229304735510302,
	"grad_norm": 0.356775164604187,
	"learning_rate": 9.998263612698386e-06,
	"loss": 0.3326,
	"step": 1340
	},
	{
	"epoch": 0.3253404024581275,
	"grad_norm": 0.42774611711502075,
	"learning_rate": 9.997874544878343e-06,
	"loss": 0.3268,
	"step": 1350
	},
	{
	"epoch": 0.32775033136522475,
	"grad_norm": 0.3527379035949707,
	"learning_rate": 9.997446188952599e-06,
	"loss": 0.3208,
	"step": 1360
	},
	{
	"epoch": 0.330160260272322,
	"grad_norm": 0.38327208161354065,
	"learning_rate": 9.996978548288446e-06,
	"loss": 0.3315,
	"step": 1370
	},
	{
	"epoch": 0.3325701891794192,
	"grad_norm": 0.3687468469142914,
	"learning_rate": 9.996471626561988e-06,
	"loss": 0.3282,
	"step": 1380
	},
	{
	"epoch": 0.33498011808651645,
	"grad_norm": 0.3604696989059448,
	"learning_rate": 9.995925427758117e-06,
	"loss": 0.328,
	"step": 1390
	},
	{
	"epoch": 0.3373900469936137,
	"grad_norm": 0.3864571452140808,
	"learning_rate": 9.995339956170482e-06,
	"loss": 0.3256,
	"step": 1400
	},
	{
	"epoch": 0.3397999759007109,
	"grad_norm": 0.411621630191803,
	"learning_rate": 9.994715216401457e-06,
	"loss": 0.3244,
	"step": 1410
	},
	{
	"epoch": 0.34220990480780816,
	"grad_norm": 0.4082527756690979,
	"learning_rate": 9.994051213362091e-06,
	"loss": 0.3254,
	"step": 1420
	},
	{
	"epoch": 0.3446198337149054,
	"grad_norm": 0.39768990874290466,
	"learning_rate": 9.993347952272095e-06,
	"loss": 0.3185,
	"step": 1430
	},
	{
	"epoch": 0.34702976262200264,
	"grad_norm": 0.417570561170578,
	"learning_rate": 9.992605438659773e-06,
	"loss": 0.3237,
	"step": 1440
	},
	{
	"epoch": 0.34943969152909987,
	"grad_norm": 0.4242357015609741,
	"learning_rate": 9.991823678361997e-06,
	"loss": 0.3257,
	"step": 1450
	},
	{
	"epoch": 0.3518496204361971,
	"grad_norm": 0.41952574253082275,
	"learning_rate": 9.991002677524158e-06,
	"loss": 0.3229,
	"step": 1460
	},
	{
	"epoch": 0.3542595493432944,
	"grad_norm": 0.5130243897438049,
	"learning_rate": 9.990142442600113e-06,
	"loss": 0.329,
	"step": 1470
	},
	{
	"epoch": 0.35666947825039164,
	"grad_norm": 0.38615986704826355,
	"learning_rate": 9.989242980352134e-06,
	"loss": 0.3278,
	"step": 1480
	},
	{
	"epoch": 0.3590794071574889,
	"grad_norm": 0.4560551643371582,
	"learning_rate": 9.988304297850864e-06,
	"loss": 0.3259,
	"step": 1490
	},
	{
	"epoch": 0.3614893360645861,
	"grad_norm": 0.33149728178977966,
	"learning_rate": 9.987326402475246e-06,
	"loss": 0.3271,
	"step": 1500
	},
	{
	"epoch": 0.36389926497168334,
	"grad_norm": 0.42468443512916565,
	"learning_rate": 9.986309301912484e-06,
	"loss": 0.3202,
	"step": 1510
	},
	{
	"epoch": 0.3663091938787806,
	"grad_norm": 0.4044632315635681,
	"learning_rate": 9.985253004157967e-06,
	"loss": 0.3222,
	"step": 1520
	},
	{
	"epoch": 0.3687191227858778,
	"grad_norm": 0.3409240245819092,
	"learning_rate": 9.984157517515209e-06,
	"loss": 0.3195,
	"step": 1530
	},
	{
	"epoch": 0.37112905169297505,
	"grad_norm": 0.412122517824173,
	"learning_rate": 9.983022850595794e-06,
	"loss": 0.3223,
	"step": 1540
	},
	{
	"epoch": 0.3735389806000723,
	"grad_norm": 0.30499207973480225,
	"learning_rate": 9.981849012319294e-06,
	"loss": 0.3214,
	"step": 1550
	},
	{
	"epoch": 0.3759489095071695,
	"grad_norm": 0.3151707947254181,
	"learning_rate": 9.980636011913207e-06,
	"loss": 0.3222,
	"step": 1560
	},
	{
	"epoch": 0.37835883841426676,
	"grad_norm": 0.47020789980888367,
	"learning_rate": 9.979383858912886e-06,
	"loss": 0.3232,
	"step": 1570
	},
	{
	"epoch": 0.380768767321364,
	"grad_norm": 0.3505389392375946,
	"learning_rate": 9.97809256316146e-06,
	"loss": 0.3197,
	"step": 1580
	},
	{
	"epoch": 0.38317869622846124,
	"grad_norm": 0.38165754079818726,
	"learning_rate": 9.976762134809752e-06,
	"loss": 0.3241,
	"step": 1590
	},
	{
	"epoch": 0.3855886251355585,
	"grad_norm": 0.4632934033870697,
	"learning_rate": 9.975392584316215e-06,
	"loss": 0.319,
	"step": 1600
	},
	{
	"epoch": 0.38799855404265576,
	"grad_norm": 0.45982739329338074,
	"learning_rate": 9.973983922446832e-06,
	"loss": 0.3241,
	"step": 1610
	},
	{
	"epoch": 0.390408482949753,
	"grad_norm": 0.36871007084846497,
	"learning_rate": 9.972536160275042e-06,
	"loss": 0.3193,
	"step": 1620
	},
	{
	"epoch": 0.39281841185685024,
	"grad_norm": 0.4977194368839264,
	"learning_rate": 9.971049309181648e-06,
	"loss": 0.3209,
	"step": 1630
	},
	{
	"epoch": 0.39522834076394747,
	"grad_norm": 0.5282176733016968,
	"learning_rate": 9.969523380854736e-06,
	"loss": 0.3242,
	"step": 1640
	},
	{
	"epoch": 0.3976382696710447,
	"grad_norm": 0.47823745012283325,
	"learning_rate": 9.967958387289564e-06,
	"loss": 0.325,
	"step": 1650
	},
	{
	"epoch": 0.40004819857814194,
	"grad_norm": 0.44038519263267517,
	"learning_rate": 9.966354340788496e-06,
	"loss": 0.3189,
	"step": 1660
	},
	{
	"epoch": 0.4024581274852392,
	"grad_norm": 0.37985959649086,
	"learning_rate": 9.964711253960877e-06,
	"loss": 0.3206,
	"step": 1670
	},
	{
	"epoch": 0.4048680563923364,
	"grad_norm": 0.4768208861351013,
	"learning_rate": 9.963029139722952e-06,
	"loss": 0.3215,
	"step": 1680
	},
	{
	"epoch": 0.40727798529943365,
	"grad_norm": 0.32752227783203125,
	"learning_rate": 9.96130801129776e-06,
	"loss": 0.3189,
	"step": 1690
	},
	{
	"epoch": 0.4096879142065309,
	"grad_norm": 0.3462403416633606,
	"learning_rate": 9.959547882215025e-06,
	"loss": 0.3214,
	"step": 1700
	},
	{
	"epoch": 0.4120978431136281,
	"grad_norm": 0.3703222870826721,
	"learning_rate": 9.957748766311059e-06,
	"loss": 0.3243,
	"step": 1710
	},
	{
	"epoch": 0.41450777202072536,
	"grad_norm": 0.33374089002609253,
	"learning_rate": 9.955910677728643e-06,
	"loss": 0.3224,
	"step": 1720
	},
	{
	"epoch": 0.41691770092782265,
	"grad_norm": 0.39270496368408203,
	"learning_rate": 9.954033630916926e-06,
	"loss": 0.3177,
	"step": 1730
	},
	{
	"epoch": 0.4193276298349199,
	"grad_norm": 0.3923777639865875,
	"learning_rate": 9.952117640631298e-06,
	"loss": 0.317,
	"step": 1740
	},
	{
	"epoch": 0.4217375587420171,
	"grad_norm": 0.3095235526561737,
	"learning_rate": 9.950162721933292e-06,
	"loss": 0.3208,
	"step": 1750
	},
	{
	"epoch": 0.42414748764911436,
	"grad_norm": 0.3563034236431122,
	"learning_rate": 9.948168890190448e-06,
	"loss": 0.3165,
	"step": 1760
	},
	{
	"epoch": 0.4265574165562116,
	"grad_norm": 0.31377676129341125,
	"learning_rate": 9.946136161076205e-06,
	"loss": 0.3189,
	"step": 1770
	},
	{
	"epoch": 0.42896734546330884,
	"grad_norm": 0.3668026328086853,
	"learning_rate": 9.94406455056977e-06,
	"loss": 0.3212,
	"step": 1780
	},
	{
	"epoch": 0.43137727437040607,
	"grad_norm": 0.3926338851451874,
	"learning_rate": 9.941954074955995e-06,
	"loss": 0.3131,
	"step": 1790
	},
	{
	"epoch": 0.4337872032775033,
	"grad_norm": 0.3788054287433624,
	"learning_rate": 9.939804750825253e-06,
	"loss": 0.3164,
	"step": 1800
	},
	{
	"epoch": 0.43619713218460054,
	"grad_norm": 0.36703112721443176,
	"learning_rate": 9.937616595073299e-06,
	"loss": 0.3195,
	"step": 1810
	},
	{
	"epoch": 0.4386070610916978,
	"grad_norm": 0.40534377098083496,
	"learning_rate": 9.935389624901143e-06,
	"loss": 0.3209,
	"step": 1820
	},
	{
	"epoch": 0.441016989998795,
	"grad_norm": 0.370475709438324,
	"learning_rate": 9.933123857814917e-06,
	"loss": 0.3196,
	"step": 1830
	},
	{
	"epoch": 0.44342691890589225,
	"grad_norm": 0.3701495826244354,
	"learning_rate": 9.93081931162573e-06,
	"loss": 0.3182,
	"step": 1840
	},
	{
	"epoch": 0.4458368478129895,
	"grad_norm": 0.3598426580429077,
	"learning_rate": 9.928476004449534e-06,
	"loss": 0.3169,
	"step": 1850
	},
	{
	"epoch": 0.4482467767200868,
	"grad_norm": 0.32412129640579224,
	"learning_rate": 9.926093954706982e-06,
	"loss": 0.3169,
	"step": 1860
	},
	{
	"epoch": 0.450656705627184,
	"grad_norm": 0.4030982553958893,
	"learning_rate": 9.923673181123273e-06,
	"loss": 0.3214,
	"step": 1870
	},
	{
	"epoch": 0.45306663453428125,
	"grad_norm": 0.38873291015625,
	"learning_rate": 9.921213702728023e-06,
	"loss": 0.3154,
	"step": 1880
	},
	{
	"epoch": 0.4554765634413785,
	"grad_norm": 0.36174464225769043,
	"learning_rate": 9.918715538855098e-06,
	"loss": 0.3159,
	"step": 1890
	},
	{
	"epoch": 0.4578864923484757,
	"grad_norm": 0.30725106596946716,
	"learning_rate": 9.916178709142472e-06,
	"loss": 0.316,
	"step": 1900
	},
	{
	"epoch": 0.46029642125557296,
	"grad_norm": 0.3190896511077881,
	"learning_rate": 9.913603233532067e-06,
	"loss": 0.3178,
	"step": 1910
	},
	{
	"epoch": 0.4627063501626702,
	"grad_norm": 0.34455135464668274,
	"learning_rate": 9.910989132269604e-06,
	"loss": 0.3176,
	"step": 1920
	},
	{
	"epoch": 0.46511627906976744,
	"grad_norm": 0.3859594762325287,
	"learning_rate": 9.908336425904432e-06,
	"loss": 0.3178,
	"step": 1930
	},
	{
	"epoch": 0.46752620797686467,
	"grad_norm": 0.34146711230278015,
	"learning_rate": 9.905645135289378e-06,
	"loss": 0.3179,
	"step": 1940
	},
	{
	"epoch": 0.4699361368839619,
	"grad_norm": 0.3704296052455902,
	"learning_rate": 9.902915281580581e-06,
	"loss": 0.3191,
	"step": 1950
	},
	{
	"epoch": 0.47234606579105914,
	"grad_norm": 0.34843534231185913,
	"learning_rate": 9.900146886237316e-06,
	"loss": 0.3177,
	"step": 1960
	},
	{
	"epoch": 0.4747559946981564,
	"grad_norm": 0.36569344997406006,
	"learning_rate": 9.897339971021836e-06,
	"loss": 0.3163,
	"step": 1970
	},
	{
	"epoch": 0.4771659236052537,
	"grad_norm": 0.306214839220047,
	"learning_rate": 9.894494557999195e-06,
	"loss": 0.3145,
	"step": 1980
	},
	{
	"epoch": 0.4795758525123509,
	"grad_norm": 0.31397199630737305,
	"learning_rate": 9.891610669537084e-06,
	"loss": 0.3112,
	"step": 1990
	},
	{
	"epoch": 0.48198578141944814,
	"grad_norm": 0.406314879655838,
	"learning_rate": 9.888688328305638e-06,
	"loss": 0.3155,
	"step": 2000
	},
	{
	"epoch": 0.4843957103265454,
	"grad_norm": 0.38942062854766846,
	"learning_rate": 9.885727557277275e-06,
	"loss": 0.3156,
	"step": 2010
	},
	{
	"epoch": 0.4868056392336426,
	"grad_norm": 0.3102668821811676,
	"learning_rate": 9.882728379726506e-06,
	"loss": 0.3167,
	"step": 2020
	},
	{
	"epoch": 0.48921556814073985,
	"grad_norm": 0.32888996601104736,
	"learning_rate": 9.879690819229752e-06,
	"loss": 0.3085,
	"step": 2030
	},
	{
	"epoch": 0.4916254970478371,
	"grad_norm": 0.3564631938934326,
	"learning_rate": 9.876614899665167e-06,
	"loss": 0.3161,
	"step": 2040
	},
	{
	"epoch": 0.4940354259549343,
	"grad_norm": 0.3389926850795746,
	"learning_rate": 9.873500645212434e-06,
	"loss": 0.316,
	"step": 2050
	},
	{
	"epoch": 0.49644535486203156,
	"grad_norm": 0.38447585701942444,
	"learning_rate": 9.870348080352597e-06,
	"loss": 0.3154,
	"step": 2060
	},
	{
	"epoch": 0.4988552837691288,
	"grad_norm": 0.32701340317726135,
	"learning_rate": 9.867157229867847e-06,
	"loss": 0.3127,
	"step": 2070
	},
	{
	"epoch": 0.501265212676226,
	"grad_norm": 0.3276364207267761,
	"learning_rate": 9.863928118841344e-06,
	"loss": 0.3181,
	"step": 2080
	},
	{
	"epoch": 0.5036751415833233,
	"grad_norm": 0.2939928472042084,
	"learning_rate": 9.860660772657008e-06,
	"loss": 0.3135,
	"step": 2090
	},
	{
	"epoch": 0.5060850704904205,
	"grad_norm": 0.3142566382884979,
	"learning_rate": 9.857355216999324e-06,
	"loss": 0.3105,
	"step": 2100
	},
	{
	"epoch": 0.5084949993975177,
	"grad_norm": 0.3342039883136749,
	"learning_rate": 9.854011477853147e-06,
	"loss": 0.3154,
	"step": 2110
	},
	{
	"epoch": 0.510904928304615,
	"grad_norm": 0.4212075173854828,
	"learning_rate": 9.850629581503481e-06,
	"loss": 0.314,
	"step": 2120
	},
	{
	"epoch": 0.5133148572117122,
	"grad_norm": 0.39086002111434937,
	"learning_rate": 9.847209554535288e-06,
	"loss": 0.3144,
	"step": 2130
	},
	{
	"epoch": 0.5157247861188095,
	"grad_norm": 0.3392418920993805,
	"learning_rate": 9.843751423833274e-06,
	"loss": 0.3119,
	"step": 2140
	},
	{
	"epoch": 0.5181347150259067,
	"grad_norm": 0.3055441081523895,
	"learning_rate": 9.840255216581676e-06,
	"loss": 0.3102,
	"step": 2150
	},
	{
	"epoch": 0.5205446439330039,
	"grad_norm": 0.36162540316581726,
	"learning_rate": 9.836720960264049e-06,
	"loss": 0.3179,
	"step": 2160
	},
	{
	"epoch": 0.5229545728401012,
	"grad_norm": 0.3036174476146698,
	"learning_rate": 9.833148682663048e-06,
	"loss": 0.3162,
	"step": 2170
	},
	{
	"epoch": 0.5253645017471985,
	"grad_norm": 0.3199686110019684,
	"learning_rate": 9.829538411860218e-06,
	"loss": 0.314,
	"step": 2180
	},
	{
	"epoch": 0.5277744306542957,
	"grad_norm": 0.3634372353553772,
	"learning_rate": 9.82589017623576e-06,
	"loss": 0.3159,
	"step": 2190
	},
	{
	"epoch": 0.530184359561393,
	"grad_norm": 0.30238378047943115,
	"learning_rate": 9.822204004468319e-06,
	"loss": 0.3152,
	"step": 2200
	},
	{
	"epoch": 0.5325942884684902,
	"grad_norm": 0.3749971389770508,
	"learning_rate": 9.818479925534755e-06,
	"loss": 0.3081,
	"step": 2210
	},
	{
	"epoch": 0.5350042173755875,
	"grad_norm": 0.41022026538848877,
	"learning_rate": 9.814717968709912e-06,
	"loss": 0.3171,
	"step": 2220
	},
	{
	"epoch": 0.5374141462826847,
	"grad_norm": 0.3358675539493561,
	"learning_rate": 9.810918163566396e-06,
	"loss": 0.3118,
	"step": 2230
	},
	{
	"epoch": 0.5398240751897819,
	"grad_norm": 0.4359574317932129,
	"learning_rate": 9.80708053997433e-06,
	"loss": 0.312,
	"step": 2240
	},
	{
	"epoch": 0.5422340040968792,
	"grad_norm": 0.33781152963638306,
	"learning_rate": 9.803205128101134e-06,
	"loss": 0.3161,
	"step": 2250
	},
	{
	"epoch": 0.5446439330039764,
	"grad_norm": 0.31946083903312683,
	"learning_rate": 9.799291958411273e-06,
	"loss": 0.3136,
	"step": 2260
	},
	{
	"epoch": 0.5470538619110736,
	"grad_norm": 0.2877112030982971,
	"learning_rate": 9.795341061666031e-06,
	"loss": 0.3127,
	"step": 2270
	},
	{
	"epoch": 0.5494637908181709,
	"grad_norm": 0.40763577818870544,
	"learning_rate": 9.791352468923257e-06,
	"loss": 0.316,
	"step": 2280
	},
	{
	"epoch": 0.5518737197252681,
	"grad_norm": 0.3572064936161041,
	"learning_rate": 9.787326211537132e-06,
	"loss": 0.3087,
	"step": 2290
	},
	{
	"epoch": 0.5542836486323653,
	"grad_norm": 0.3628453314304352,
	"learning_rate": 9.783262321157915e-06,
	"loss": 0.3146,
	"step": 2300
	},
	{
	"epoch": 0.5566935775394626,
	"grad_norm": 0.31631550192832947,
	"learning_rate": 9.779160829731698e-06,
	"loss": 0.3139,
	"step": 2310
	},
	{
	"epoch": 0.5591035064465598,
	"grad_norm": 0.42566874623298645,
	"learning_rate": 9.77502176950015e-06,
	"loss": 0.3119,
	"step": 2320
	},
	{
	"epoch": 0.561513435353657,
	"grad_norm": 0.3481924831867218,
	"learning_rate": 9.770845173000272e-06,
	"loss": 0.3123,
	"step": 2330
	},
	{
	"epoch": 0.5639233642607543,
	"grad_norm": 0.361442893743515,
	"learning_rate": 9.766631073064132e-06,
	"loss": 0.3103,
	"step": 2340
	},
	{
	"epoch": 0.5663332931678515,
	"grad_norm": 0.41067999601364136,
	"learning_rate": 9.762379502818613e-06,
	"loss": 0.3121,
	"step": 2350
	},
	{
	"epoch": 0.5687432220749488,
	"grad_norm": 0.30996206402778625,
	"learning_rate": 9.758090495685151e-06,
	"loss": 0.3113,
	"step": 2360
	},
	{
	"epoch": 0.571153150982046,
	"grad_norm": 0.3812122344970703,
	"learning_rate": 9.75376408537947e-06,
	"loss": 0.3136,
	"step": 2370
	},
	{
	"epoch": 0.5735630798891432,
	"grad_norm": 0.33284416794776917,
	"learning_rate": 9.749400305911323e-06,
	"loss": 0.3122,
	"step": 2380
	},
	{
	"epoch": 0.5759730087962405,
	"grad_norm": 0.34793955087661743,
	"learning_rate": 9.744999191584214e-06,
	"loss": 0.3105,
	"step": 2390
	},
	{
	"epoch": 0.5783829377033377,
	"grad_norm": 0.35092470049858093,
	"learning_rate": 9.740560776995142e-06,
	"loss": 0.3157,
	"step": 2400
	},
	{
	"epoch": 0.5807928666104349,
	"grad_norm": 0.3911297619342804,
	"learning_rate": 9.736085097034318e-06,
	"loss": 0.3114,
	"step": 2410
	},
	{
	"epoch": 0.5832027955175322,
	"grad_norm": 0.381945937871933,
	"learning_rate": 9.731572186884894e-06,
	"loss": 0.3098,
	"step": 2420
	},
	{
	"epoch": 0.5856127244246295,
	"grad_norm": 0.31567636132240295,
	"learning_rate": 9.727022082022692e-06,
	"loss": 0.3057,
	"step": 2430
	},
	{
	"epoch": 0.5880226533317268,
	"grad_norm": 0.33608657121658325,
	"learning_rate": 9.722434818215914e-06,
	"loss": 0.3141,
	"step": 2440
	},
	{
	"epoch": 0.590432582238824,
	"grad_norm": 0.380286306142807,
	"learning_rate": 9.71781043152487e-06,
	"loss": 0.312,
	"step": 2450
	},
	{
	"epoch": 0.5928425111459212,
	"grad_norm": 0.40668782591819763,
	"learning_rate": 9.713148958301692e-06,
	"loss": 0.3101,
	"step": 2460
	},
	{
	"epoch": 0.5952524400530185,
	"grad_norm": 0.4976201057434082,
	"learning_rate": 9.708450435190048e-06,
	"loss": 0.3141,
	"step": 2470
	},
	{
	"epoch": 0.5976623689601157,
	"grad_norm": 0.40693560242652893,
	"learning_rate": 9.703714899124853e-06,
	"loss": 0.3081,
	"step": 2480
	},
	{
	"epoch": 0.600072297867213,
	"grad_norm": 0.3760072588920593,
	"learning_rate": 9.698942387331983e-06,
	"loss": 0.31,
	"step": 2490
	},
	{
	"epoch": 0.6024822267743102,
	"grad_norm": 0.3943402171134949,
	"learning_rate": 9.694132937327969e-06,
	"loss": 0.3115,
	"step": 2500
	},
	{
	"epoch": 0.6048921556814074,
	"grad_norm": 0.35114535689353943,
	"learning_rate": 9.689286586919721e-06,
	"loss": 0.314,
	"step": 2510
	},
	{
	"epoch": 0.6073020845885047,
	"grad_norm": 0.38371747732162476,
	"learning_rate": 9.684403374204223e-06,
	"loss": 0.315,
	"step": 2520
	},
	{
	"epoch": 0.6097120134956019,
	"grad_norm": 0.3510715663433075,
	"learning_rate": 9.679483337568223e-06,
	"loss": 0.3126,
	"step": 2530
	},
	{
	"epoch": 0.6121219424026991,
	"grad_norm": 0.33821478486061096,
	"learning_rate": 9.674526515687947e-06,
	"loss": 0.3139,
	"step": 2540
	},
	{
	"epoch": 0.6145318713097964,
	"grad_norm": 0.3204171061515808,
	"learning_rate": 9.669532947528789e-06,
	"loss": 0.3066,
	"step": 2550
	},
	{
	"epoch": 0.6169418002168936,
	"grad_norm": 0.3814868628978729,
	"learning_rate": 9.664502672345002e-06,
	"loss": 0.3131,
	"step": 2560
	},
	{
	"epoch": 0.6193517291239908,
	"grad_norm": 0.4921514093875885,
	"learning_rate": 9.65943572967939e-06,
	"loss": 0.3095,
	"step": 2570
	},
	{
	"epoch": 0.6217616580310881,
	"grad_norm": 0.391776442527771,
	"learning_rate": 9.654332159363004e-06,
	"loss": 0.3152,
	"step": 2580
	},
	{
	"epoch": 0.6241715869381853,
	"grad_norm": 0.30494168400764465,
	"learning_rate": 9.649192001514817e-06,
	"loss": 0.3068,
	"step": 2590
	},
	{
	"epoch": 0.6265815158452825,
	"grad_norm": 0.2581673264503479,
	"learning_rate": 9.64401529654142e-06,
	"loss": 0.3077,
	"step": 2600
	},
	{
	"epoch": 0.6289914447523798,
	"grad_norm": 0.2976085841655731,
	"learning_rate": 9.638802085136698e-06,
	"loss": 0.3072,
	"step": 2610
	},
	{
	"epoch": 0.631401373659477,
	"grad_norm": 0.3369103670120239,
	"learning_rate": 9.63355240828151e-06,
	"loss": 0.3091,
	"step": 2620
	},
	{
	"epoch": 0.6338113025665743,
	"grad_norm": 0.38195011019706726,
	"learning_rate": 9.628266307243373e-06,
	"loss": 0.3075,
	"step": 2630
	},
	{
	"epoch": 0.6362212314736715,
	"grad_norm": 0.5041720867156982,
	"learning_rate": 9.62294382357613e-06,
	"loss": 0.3088,
	"step": 2640
	},
	{
	"epoch": 0.6386311603807687,
	"grad_norm": 0.31380414962768555,
	"learning_rate": 9.617584999119624e-06,
	"loss": 0.3055,
	"step": 2650
	},
	{
	"epoch": 0.641041089287866,
	"grad_norm": 0.34265589714050293,
	"learning_rate": 9.612189875999378e-06,
	"loss": 0.305,
	"step": 2660
	},
	{
	"epoch": 0.6434510181949632,
	"grad_norm": 0.3556048274040222,
	"learning_rate": 9.606758496626252e-06,
	"loss": 0.3101,
	"step": 2670
	},
	{
	"epoch": 0.6458609471020604,
	"grad_norm": 0.5002127289772034,
	"learning_rate": 9.60129090369612e-06,
	"loss": 0.3096,
	"step": 2680
	},
	{
	"epoch": 0.6482708760091578,
	"grad_norm": 0.28187206387519836,
	"learning_rate": 9.59578714018952e-06,
	"loss": 0.3099,
	"step": 2690
	},
	{
	"epoch": 0.650680804916255,
	"grad_norm": 0.3236331045627594,
	"learning_rate": 9.590247249371338e-06,
	"loss": 0.3131,
	"step": 2700
	},
	{
	"epoch": 0.6530907338233523,
	"grad_norm": 0.4091644287109375,
	"learning_rate": 9.584671274790447e-06,
	"loss": 0.3032,
	"step": 2710
	},
	{
	"epoch": 0.6555006627304495,
	"grad_norm": 0.391487717628479,
	"learning_rate": 9.579059260279376e-06,
	"loss": 0.3101,
	"step": 2720
	},
	{
	"epoch": 0.6579105916375467,
	"grad_norm": 0.36854907870292664,
	"learning_rate": 9.573411249953963e-06,
	"loss": 0.3096,
	"step": 2730
	},
	{
	"epoch": 0.660320520544644,
	"grad_norm": 0.35232406854629517,
	"learning_rate": 9.567727288213005e-06,
	"loss": 0.3101,
	"step": 2740
	},
	{
	"epoch": 0.6627304494517412,
	"grad_norm": 0.3485894203186035,
	"learning_rate": 9.562007419737916e-06,
	"loss": 0.3103,
	"step": 2750
	},
	{
	"epoch": 0.6651403783588384,
	"grad_norm": 0.43942534923553467,
	"learning_rate": 9.556251689492366e-06,
	"loss": 0.3126,
	"step": 2760
	},
	{
	"epoch": 0.6675503072659357,
	"grad_norm": 0.5115067958831787,
	"learning_rate": 9.550460142721938e-06,
	"loss": 0.3065,
	"step": 2770
	},
	{
	"epoch": 0.6699602361730329,
	"grad_norm": 0.3313819169998169,
	"learning_rate": 9.544632824953767e-06,
	"loss": 0.3033,
	"step": 2780
	},
	{
	"epoch": 0.6723701650801301,
	"grad_norm": 0.36267027258872986,
	"learning_rate": 9.538769781996178e-06,
	"loss": 0.3069,
	"step": 2790
	},
	{
	"epoch": 0.6747800939872274,
	"grad_norm": 0.39608898758888245,
	"learning_rate": 9.532871059938335e-06,
	"loss": 0.3088,
	"step": 2800
	},
	{
	"epoch": 0.6771900228943246,
	"grad_norm": 0.3979943096637726,
	"learning_rate": 9.526936705149872e-06,
	"loss": 0.3093,
	"step": 2810
	},
	{
	"epoch": 0.6795999518014219,
	"grad_norm": 0.3701120615005493,
	"learning_rate": 9.520966764280532e-06,
	"loss": 0.3073,
	"step": 2820
	},
	{
	"epoch": 0.6820098807085191,
	"grad_norm": 0.34304845333099365,
	"learning_rate": 9.514961284259796e-06,
	"loss": 0.3115,
	"step": 2830
	},
	{
	"epoch": 0.6844198096156163,
	"grad_norm": 0.3878118097782135,
	"learning_rate": 9.50892031229652e-06,
	"loss": 0.3058,
	"step": 2840
	},
	{
	"epoch": 0.6868297385227136,
	"grad_norm": 0.448525995016098,
	"learning_rate": 9.50284389587856e-06,
	"loss": 0.3105,
	"step": 2850
	},
	{
	"epoch": 0.6892396674298108,
	"grad_norm": 0.3206503391265869,
	"learning_rate": 9.4967320827724e-06,
	"loss": 0.3059,
	"step": 2860
	},
	{
	"epoch": 0.691649596336908,
	"grad_norm": 0.41052117943763733,
	"learning_rate": 9.490584921022773e-06,
	"loss": 0.3083,
	"step": 2870
	},
	{
	"epoch": 0.6940595252440053,
	"grad_norm": 0.31906405091285706,
	"learning_rate": 9.484402458952289e-06,
	"loss": 0.3064,
	"step": 2880
	},
	{
	"epoch": 0.6964694541511025,
	"grad_norm": 0.28955116868019104,
	"learning_rate": 9.478184745161052e-06,
	"loss": 0.3076,
	"step": 2890
	},
	{
	"epoch": 0.6988793830581997,
	"grad_norm": 0.2948871850967407,
	"learning_rate": 9.471931828526282e-06,
	"loss": 0.311,
	"step": 2900
	},
	{
	"epoch": 0.701289311965297,
	"grad_norm": 0.3445327579975128,
	"learning_rate": 9.46564375820192e-06,
	"loss": 0.3042,
	"step": 2910
	},
	{
	"epoch": 0.7036992408723942,
	"grad_norm": 0.29192298650741577,
	"learning_rate": 9.459320583618253e-06,
	"loss": 0.3075,
	"step": 2920
	},
	{
	"epoch": 0.7061091697794915,
	"grad_norm": 0.3400985598564148,
	"learning_rate": 9.452962354481523e-06,
	"loss": 0.3068,
	"step": 2930
	},
	{
	"epoch": 0.7085190986865888,
	"grad_norm": 0.3213748335838318,
	"learning_rate": 9.44656912077353e-06,
	"loss": 0.3075,
	"step": 2940
	},
	{
	"epoch": 0.710929027593686,
	"grad_norm": 0.3559892177581787,
	"learning_rate": 9.440140932751249e-06,
	"loss": 0.3101,
	"step": 2950
	},
	{
	"epoch": 0.7133389565007833,
	"grad_norm": 0.3576161861419678,
	"learning_rate": 9.433677840946424e-06,
	"loss": 0.305,
	"step": 2960
	},
	{
	"epoch": 0.7157488854078805,
	"grad_norm": 0.49166232347488403,
	"learning_rate": 9.427179896165182e-06,
	"loss": 0.3062,
	"step": 2970
	},
	{
	"epoch": 0.7181588143149777,
	"grad_norm": 0.39326757192611694,
	"learning_rate": 9.420647149487622e-06,
	"loss": 0.3094,
	"step": 2980
	},
	{
	"epoch": 0.720568743222075,
	"grad_norm": 0.3134942948818207,
	"learning_rate": 9.414079652267422e-06,
	"loss": 0.3044,
	"step": 2990
	},
	{
	"epoch": 0.7229786721291722,
	"grad_norm": 0.3560328483581543,
	"learning_rate": 9.407477456131438e-06,
	"loss": 0.3077,
	"step": 3000
	},
	{
	"epoch": 0.7253886010362695,
	"grad_norm": 0.3704826831817627,
	"learning_rate": 9.400840612979283e-06,
	"loss": 0.3109,
	"step": 3010
	},
	{
	"epoch": 0.7277985299433667,
	"grad_norm": 0.28914615511894226,
	"learning_rate": 9.394169174982935e-06,
	"loss": 0.3065,
	"step": 3020
	},
	{
	"epoch": 0.7302084588504639,
	"grad_norm": 0.3530306816101074,
	"learning_rate": 9.387463194586321e-06,
	"loss": 0.3046,
	"step": 3030
	},
	{
	"epoch": 0.7326183877575612,
	"grad_norm": 0.37693601846694946,
	"learning_rate": 9.380722724504902e-06,
	"loss": 0.3058,
	"step": 3040
	},
	{
	"epoch": 0.7350283166646584,
	"grad_norm": 0.33682724833488464,
	"learning_rate": 9.373947817725262e-06,
	"loss": 0.3085,
	"step": 3050
	},
	{
	"epoch": 0.7374382455717556,
	"grad_norm": 0.34249773621559143,
	"learning_rate": 9.367138527504694e-06,
	"loss": 0.305,
	"step": 3060
	},
	{
	"epoch": 0.7398481744788529,
	"grad_norm": 0.3789710998535156,
	"learning_rate": 9.36029490737077e-06,
	"loss": 0.3062,
	"step": 3070
	},
	{
	"epoch": 0.7422581033859501,
	"grad_norm": 0.49017760157585144,
	"learning_rate": 9.353417011120937e-06,
	"loss": 0.3035,
	"step": 3080
	},
	{
	"epoch": 0.7446680322930473,
	"grad_norm": 0.3358609974384308,
	"learning_rate": 9.34650489282208e-06,
	"loss": 0.3089,
	"step": 3090
	},
	{
	"epoch": 0.7470779612001446,
	"grad_norm": 0.3210594058036804,
	"learning_rate": 9.339558606810102e-06,
	"loss": 0.3023,
	"step": 3100
	},
	{
	"epoch": 0.7494878901072418,
	"grad_norm": 0.3093093931674957,
	"learning_rate": 9.332578207689501e-06,
	"loss": 0.3035,
	"step": 3110
	},
	{
	"epoch": 0.751897819014339,
	"grad_norm": 0.39820078015327454,
	"learning_rate": 9.325563750332935e-06,
	"loss": 0.308,
	"step": 3120
	},
	{
	"epoch": 0.7543077479214363,
	"grad_norm": 0.375964879989624,
	"learning_rate": 9.31851528988079e-06,
	"loss": 0.3037,
	"step": 3130
	},
	{
	"epoch": 0.7567176768285335,
	"grad_norm": 0.33551225066185,
	"learning_rate": 9.311432881740752e-06,
	"loss": 0.3047,
	"step": 3140
	},
	{
	"epoch": 0.7591276057356308,
	"grad_norm": 0.36527419090270996,
	"learning_rate": 9.304316581587367e-06,
	"loss": 0.3016,
	"step": 3150
	},
	{
	"epoch": 0.761537534642728,
	"grad_norm": 0.3218270540237427,
	"learning_rate": 9.297166445361608e-06,
	"loss": 0.3004,
	"step": 3160
	},
	{
	"epoch": 0.7639474635498252,
	"grad_norm": 0.36935609579086304,
	"learning_rate": 9.289982529270424e-06,
	"loss": 0.3095,
	"step": 3170
	},
	{
	"epoch": 0.7663573924569225,
	"grad_norm": 0.3403039872646332,
	"learning_rate": 9.28276488978632e-06,
	"loss": 0.3006,
	"step": 3180
	},
	{
	"epoch": 0.7687673213640197,
	"grad_norm": 0.43030065298080444,
	"learning_rate": 9.275513583646885e-06,
	"loss": 0.3048,
	"step": 3190
	},
	{
	"epoch": 0.771177250271117,
	"grad_norm": 0.40511396527290344,
	"learning_rate": 9.26822866785437e-06,
	"loss": 0.3064,
	"step": 3200
	},
	{
	"epoch": 0.7735871791782143,
	"grad_norm": 0.3385162949562073,
	"learning_rate": 9.260910199675224e-06,
	"loss": 0.3027,
	"step": 3210
	},
	{
	"epoch": 0.7759971080853115,
	"grad_norm": 0.3170197010040283,
	"learning_rate": 9.253558236639654e-06,
	"loss": 0.3074,
	"step": 3220
	},
	{
	"epoch": 0.7784070369924088,
	"grad_norm": 0.44988951086997986,
	"learning_rate": 9.246172836541167e-06,
	"loss": 0.3053,
	"step": 3230
	},
	{
	"epoch": 0.780816965899506,
	"grad_norm": 0.41248124837875366,
	"learning_rate": 9.238754057436121e-06,
	"loss": 0.3097,
	"step": 3240
	},
	{
	"epoch": 0.7832268948066032,
	"grad_norm": 0.3474321663379669,
	"learning_rate": 9.23130195764326e-06,
	"loss": 0.3033,
	"step": 3250
	},
	{
	"epoch": 0.7856368237137005,
	"grad_norm": 0.39126449823379517,
	"learning_rate": 9.223816595743263e-06,
	"loss": 0.3003,
	"step": 3260
	},
	{
	"epoch": 0.7880467526207977,
	"grad_norm": 0.30676940083503723,
	"learning_rate": 9.21629803057828e-06,
	"loss": 0.3103,
	"step": 3270
	},
	{
	"epoch": 0.7904566815278949,
	"grad_norm": 0.3278960585594177,
	"learning_rate": 9.208746321251477e-06,
	"loss": 0.3067,
	"step": 3280
	},
	{
	"epoch": 0.7928666104349922,
	"grad_norm": 0.35158321261405945,
	"learning_rate": 9.201161527126554e-06,
	"loss": 0.3007,
	"step": 3290
	},
	{
	"epoch": 0.7952765393420894,
	"grad_norm": 0.32569819688796997,
	"learning_rate": 9.193543707827297e-06,
	"loss": 0.3044,
	"step": 3300
	},
	{
	"epoch": 0.7976864682491867,
	"grad_norm": 0.3513696491718292,
	"learning_rate": 9.185892923237101e-06,
	"loss": 0.2999,
	"step": 3310
	},
	{
	"epoch": 0.8000963971562839,
	"grad_norm": 0.3051331043243408,
	"learning_rate": 9.178209233498497e-06,
	"loss": 0.3038,
	"step": 3320
	},
	{
	"epoch": 0.8025063260633811,
	"grad_norm": 0.3286254107952118,
	"learning_rate": 9.170492699012686e-06,
	"loss": 0.3071,
	"step": 3330
	},
	{
	"epoch": 0.8049162549704784,
	"grad_norm": 0.2913951575756073,
	"learning_rate": 9.162743380439057e-06,
	"loss": 0.3068,
	"step": 3340
	},
	{
	"epoch": 0.8073261838775756,
	"grad_norm": 0.29590246081352234,
	"learning_rate": 9.154961338694714e-06,
	"loss": 0.2977,
	"step": 3350
	},
	{
	"epoch": 0.8097361127846728,
	"grad_norm": 0.30989399552345276,
	"learning_rate": 9.147146634954e-06,
	"loss": 0.3043,
	"step": 3360
	},
	{
	"epoch": 0.8121460416917701,
	"grad_norm": 0.2848321199417114,
	"learning_rate": 9.139299330648006e-06,
	"loss": 0.3053,
	"step": 3370
	},
	{
	"epoch": 0.8145559705988673,
	"grad_norm": 0.3743208944797516,
	"learning_rate": 9.131419487464104e-06,
	"loss": 0.3022,
	"step": 3380
	},
	{
	"epoch": 0.8169658995059645,
	"grad_norm": 0.3673948049545288,
	"learning_rate": 9.123507167345444e-06,
	"loss": 0.3069,
	"step": 3390
	},
	{
	"epoch": 0.8193758284130618,
	"grad_norm": 0.36022040247917175,
	"learning_rate": 9.115562432490482e-06,
	"loss": 0.3067,
	"step": 3400
	},
	{
	"epoch": 0.821785757320159,
	"grad_norm": 0.3526465594768524,
	"learning_rate": 9.107585345352481e-06,
	"loss": 0.3002,
	"step": 3410
	},
	{
	"epoch": 0.8241956862272563,
	"grad_norm": 0.3724801540374756,
	"learning_rate": 9.099575968639028e-06,
	"loss": 0.3041,
	"step": 3420
	},
	{
	"epoch": 0.8266056151343535,
	"grad_norm": 0.3191385269165039,
	"learning_rate": 9.091534365311531e-06,
	"loss": 0.3041,
	"step": 3430
	},
	{
	"epoch": 0.8290155440414507,
	"grad_norm": 0.31902626156806946,
	"learning_rate": 9.08346059858474e-06,
	"loss": 0.3012,
	"step": 3440
	},
	{
	"epoch": 0.8314254729485481,
	"grad_norm": 0.34802573919296265,
	"learning_rate": 9.075354731926232e-06,
	"loss": 0.3016,
	"step": 3450
	},
	{
	"epoch": 0.8338354018556453,
	"grad_norm": 0.29537567496299744,
	"learning_rate": 9.067216829055922e-06,
	"loss": 0.3046,
	"step": 3460
	},
	{
	"epoch": 0.8362453307627425,
	"grad_norm": 0.298636794090271,
	"learning_rate": 9.059046953945563e-06,
	"loss": 0.3026,
	"step": 3470
	},
	{
	"epoch": 0.8386552596698398,
	"grad_norm": 0.40398988127708435,
	"learning_rate": 9.050845170818239e-06,
	"loss": 0.302,
	"step": 3480
	},
	{
	"epoch": 0.841065188576937,
	"grad_norm": 0.3862531781196594,
	"learning_rate": 9.04261154414786e-06,
	"loss": 0.3035,
	"step": 3490
	},
	{
	"epoch": 0.8434751174840343,
	"grad_norm": 0.31448954343795776,
	"learning_rate": 9.03434613865866e-06,
	"loss": 0.3038,
	"step": 3500
	},
	{
	"epoch": 0.8458850463911315,
	"grad_norm": 0.31113678216934204,
	"learning_rate": 9.026049019324686e-06,
	"loss": 0.308,
	"step": 3510
	},
	{
	"epoch": 0.8482949752982287,
	"grad_norm": 0.36691924929618835,
	"learning_rate": 9.01772025136928e-06,
	"loss": 0.2966,
	"step": 3520
	},
	{
	"epoch": 0.850704904205326,
	"grad_norm": 0.3512410521507263,
	"learning_rate": 9.009359900264579e-06,
	"loss": 0.3027,
	"step": 3530
	},
	{
	"epoch": 0.8531148331124232,
	"grad_norm": 0.28265276551246643,
	"learning_rate": 9.00096803173099e-06,
	"loss": 0.2964,
	"step": 3540
	},
	{
	"epoch": 0.8555247620195204,
	"grad_norm": 0.345127671957016,
	"learning_rate": 8.992544711736682e-06,
	"loss": 0.2999,
	"step": 3550
	},
	{
	"epoch": 0.8579346909266177,
	"grad_norm": 0.3333861231803894,
	"learning_rate": 8.984090006497056e-06,
	"loss": 0.3004,
	"step": 3560
	},
	{
	"epoch": 0.8603446198337149,
	"grad_norm": 0.31146806478500366,
	"learning_rate": 8.97560398247424e-06,
	"loss": 0.2991,
	"step": 3570
	},
	{
	"epoch": 0.8627545487408121,
	"grad_norm": 0.31897222995758057,
	"learning_rate": 8.96708670637655e-06,
	"loss": 0.2985,
	"step": 3580
	},
	{
	"epoch": 0.8651644776479094,
	"grad_norm": 0.33898115158081055,
	"learning_rate": 8.958538245157975e-06,
	"loss": 0.3038,
	"step": 3590
	},
	{
	"epoch": 0.8675744065550066,
	"grad_norm": 0.3297579884529114,
	"learning_rate": 8.949958666017652e-06,
	"loss": 0.3022,
	"step": 3600
	},
	{
	"epoch": 0.8699843354621039,
	"grad_norm": 0.41621819138526917,
	"learning_rate": 8.941348036399333e-06,
	"loss": 0.3024,
	"step": 3610
	},
	{
	"epoch": 0.8723942643692011,
	"grad_norm": 0.3536902666091919,
	"learning_rate": 8.932706423990856e-06,
	"loss": 0.3042,
	"step": 3620
	},
	{
	"epoch": 0.8748041932762983,
	"grad_norm": 0.35416945815086365,
	"learning_rate": 8.924033896723617e-06,
	"loss": 0.3045,
	"step": 3630
	},
	{
	"epoch": 0.8772141221833956,
	"grad_norm": 0.3790295124053955,
	"learning_rate": 8.915330522772028e-06,
	"loss": 0.3036,
	"step": 3640
	},
	{
	"epoch": 0.8796240510904928,
	"grad_norm": 0.36422640085220337,
	"learning_rate": 8.906596370552985e-06,
	"loss": 0.3002,
	"step": 3650
	},
	{
	"epoch": 0.88203397999759,
	"grad_norm": 0.43338558077812195,
	"learning_rate": 8.897831508725338e-06,
	"loss": 0.2993,
	"step": 3660
	},
	{
	"epoch": 0.8844439089046873,
	"grad_norm": 0.3285799026489258,
	"learning_rate": 8.889036006189338e-06,
	"loss": 0.3012,
	"step": 3670
	},
	{
	"epoch": 0.8868538378117845,
	"grad_norm": 0.3352440297603607,
	"learning_rate": 8.880209932086102e-06,
	"loss": 0.305,
	"step": 3680
	},
	{
	"epoch": 0.8892637667188817,
	"grad_norm": 0.3382684290409088,
	"learning_rate": 8.87135335579707e-06,
	"loss": 0.2966,
	"step": 3690
	},
	{
	"epoch": 0.891673695625979,
	"grad_norm": 0.32641956210136414,
	"learning_rate": 8.862466346943457e-06,
	"loss": 0.3047,
	"step": 3700
	},
	{
	"epoch": 0.8940836245330763,
	"grad_norm": 0.45006510615348816,
	"learning_rate": 8.853548975385714e-06,
	"loss": 0.3011,
	"step": 3710
	},
	{
	"epoch": 0.8964935534401736,
	"grad_norm": 0.33726203441619873,
	"learning_rate": 8.84460131122296e-06,
	"loss": 0.3009,
	"step": 3720
	},
	{
	"epoch": 0.8989034823472708,
	"grad_norm": 0.38760116696357727,
	"learning_rate": 8.835623424792453e-06,
	"loss": 0.3053,
	"step": 3730
	},
	{
	"epoch": 0.901313411254368,
	"grad_norm": 0.3780306279659271,
	"learning_rate": 8.826615386669025e-06,
	"loss": 0.3004,
	"step": 3740
	},
	{
	"epoch": 0.9037233401614653,
	"grad_norm": 0.3656074106693268,
	"learning_rate": 8.817577267664528e-06,
	"loss": 0.3022,
	"step": 3750
	},
	{
	"epoch": 0.9061332690685625,
	"grad_norm": 0.30001628398895264,
	"learning_rate": 8.808509138827275e-06,
	"loss": 0.3007,
	"step": 3760
	},
	{
	"epoch": 0.9085431979756597,
	"grad_norm": 0.3037179410457611,
	"learning_rate": 8.799411071441496e-06,
	"loss": 0.3003,
	"step": 3770
	},
	{
	"epoch": 0.910953126882757,
	"grad_norm": 0.3378826677799225,
	"learning_rate": 8.790283137026754e-06,
	"loss": 0.3003,
	"step": 3780
	},
	{
	"epoch": 0.9133630557898542,
	"grad_norm": 0.33926254510879517,
	"learning_rate": 8.781125407337405e-06,
	"loss": 0.3022,
	"step": 3790
	},
	{
	"epoch": 0.9157729846969515,
	"grad_norm": 0.3035823404788971,
	"learning_rate": 8.77193795436202e-06,
	"loss": 0.2978,
	"step": 3800
	},
	{
	"epoch": 0.9181829136040487,
	"grad_norm": 0.3493920862674713,
	"learning_rate": 8.762720850322823e-06,
	"loss": 0.2998,
	"step": 3810
	},
	{
	"epoch": 0.9205928425111459,
	"grad_norm": 0.30148014426231384,
	"learning_rate": 8.753474167675128e-06,
	"loss": 0.3025,
	"step": 3820
	},
	{
	"epoch": 0.9230027714182432,
	"grad_norm": 0.3359116315841675,
	"learning_rate": 8.744197979106763e-06,
	"loss": 0.3045,
	"step": 3830
	},
	{
	"epoch": 0.9254127003253404,
	"grad_norm": 0.3594037592411041,
	"learning_rate": 8.7348923575375e-06,
	"loss": 0.3023,
	"step": 3840
	},
	{
	"epoch": 0.9278226292324376,
	"grad_norm": 0.5102711319923401,
	"learning_rate": 8.725557376118482e-06,
	"loss": 0.3029,
	"step": 3850
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 0.35864967107772827,
	"learning_rate": 8.716193108231655e-06,
	"loss": 0.3,
	"step": 3860
	},
	{
	"epoch": 0.9326424870466321,
	"grad_norm": 0.3220728933811188,
	"learning_rate": 8.706799627489175e-06,
	"loss": 0.3012,
	"step": 3870
	},
	{
	"epoch": 0.9350524159537293,
	"grad_norm": 0.30578723549842834,
	"learning_rate": 8.697377007732848e-06,
	"loss": 0.2999,
	"step": 3880
	},
	{
	"epoch": 0.9374623448608266,
	"grad_norm": 0.421186238527298,
	"learning_rate": 8.687925323033536e-06,
	"loss": 0.3001,
	"step": 3890
	},
	{
	"epoch": 0.9398722737679238,
	"grad_norm": 0.3041814863681793,
	"learning_rate": 8.67844464769058e-06,
	"loss": 0.2996,
	"step": 3900
	},
	{
	"epoch": 0.942282202675021,
	"grad_norm": 0.29945966601371765,
	"learning_rate": 8.668935056231216e-06,
	"loss": 0.2966,
	"step": 3910
	},
	{
	"epoch": 0.9446921315821183,
	"grad_norm": 0.42578884959220886,
	"learning_rate": 8.659396623409987e-06,
	"loss": 0.3045,
	"step": 3920
	},
	{
	"epoch": 0.9471020604892155,
	"grad_norm": 0.31331709027290344,
	"learning_rate": 8.649829424208163e-06,
	"loss": 0.3029,
	"step": 3930
	},
	{
	"epoch": 0.9495119893963128,
	"grad_norm": 0.3299744725227356,
	"learning_rate": 8.640233533833136e-06,
	"loss": 0.2974,
	"step": 3940
	},
	{
	"epoch": 0.95192191830341,
	"grad_norm": 0.3627570569515228,
	"learning_rate": 8.630609027717843e-06,
	"loss": 0.2991,
	"step": 3950
	},
	{
	"epoch": 0.9543318472105073,
	"grad_norm": 0.34319618344306946,
	"learning_rate": 8.620955981520171e-06,
	"loss": 0.2984,
	"step": 3960
	},
	{
	"epoch": 0.9567417761176046,
	"grad_norm": 0.31415611505508423,
	"learning_rate": 8.611274471122355e-06,
	"loss": 0.3037,
	"step": 3970
	},
	{
	"epoch": 0.9591517050247018,
	"grad_norm": 0.33094286918640137,
	"learning_rate": 8.601564572630387e-06,
	"loss": 0.2981,
	"step": 3980
	},
	{
	"epoch": 0.961561633931799,
	"grad_norm": 0.3721362352371216,
	"learning_rate": 8.591826362373421e-06,
	"loss": 0.3043,
	"step": 3990
	},
	{
	"epoch": 0.9639715628388963,
	"grad_norm": 0.30638155341148376,
	"learning_rate": 8.58205991690316e-06,
	"loss": 0.3031,
	"step": 4000
	},
	{
	"epoch": 0.9663814917459935,
	"grad_norm": 0.3266850709915161,
	"learning_rate": 8.572265312993274e-06,
	"loss": 0.2987,
	"step": 4010
	},
	{
	"epoch": 0.9687914206530908,
	"grad_norm": 0.3235878348350525,
	"learning_rate": 8.562442627638774e-06,
	"loss": 0.3012,
	"step": 4020
	},
	{
	"epoch": 0.971201349560188,
	"grad_norm": 0.30357399582862854,
	"learning_rate": 8.552591938055425e-06,
	"loss": 0.2969,
	"step": 4030
	},
	{
	"epoch": 0.9736112784672852,
	"grad_norm": 0.32368770241737366,
	"learning_rate": 8.542713321679137e-06,
	"loss": 0.3024,
	"step": 4040
	},
	{
	"epoch": 0.9760212073743825,
	"grad_norm": 0.31781965494155884,
	"learning_rate": 8.532806856165337e-06,
	"loss": 0.2975,
	"step": 4050
	},
	{
	"epoch": 0.9784311362814797,
	"grad_norm": 0.33109819889068604,
	"learning_rate": 8.522872619388387e-06,
	"loss": 0.3023,
	"step": 4060
	},
	{
	"epoch": 0.9808410651885769,
	"grad_norm": 0.32589927315711975,
	"learning_rate": 8.512910689440951e-06,
	"loss": 0.3001,
	"step": 4070
	},
	{
	"epoch": 0.9832509940956742,
	"grad_norm": 0.3250199258327484,
	"learning_rate": 8.50292114463339e-06,
	"loss": 0.2947,
	"step": 4080
	},
	{
	"epoch": 0.9856609230027714,
	"grad_norm": 0.3434169590473175,
	"learning_rate": 8.49290406349314e-06,
	"loss": 0.2996,
	"step": 4090
	},
	{
	"epoch": 0.9880708519098687,
	"grad_norm": 0.42787966132164,
	"learning_rate": 8.482859524764108e-06,
	"loss": 0.3026,
	"step": 4100
	},
	{
	"epoch": 0.9904807808169659,
	"grad_norm": 0.2997083365917206,
	"learning_rate": 8.472787607406036e-06,
	"loss": 0.298,
	"step": 4110
	},
	{
	"epoch": 0.9928907097240631,
	"grad_norm": 0.3177242875099182,
	"learning_rate": 8.462688390593894e-06,
	"loss": 0.3055,
	"step": 4120
	},
	{
	"epoch": 0.9953006386311604,
	"grad_norm": 0.37339797616004944,
	"learning_rate": 8.452561953717246e-06,
	"loss": 0.2967,
	"step": 4130
	},
	{
	"epoch": 0.9977105675382576,
	"grad_norm": 0.3122716546058655,
	"learning_rate": 8.442408376379637e-06,
	"loss": 0.3016,
	"step": 4140
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.35738295316696167,
	"learning_rate": 8.43222773839796e-06,
	"loss": 0.2955,
	"step": 4150
	},
	{
	"epoch": 1.0024099289070973,
	"grad_norm": 0.3128674030303955,
	"learning_rate": 8.422020119801831e-06,
	"loss": 0.2932,
	"step": 4160
	},
	{
	"epoch": 1.0048198578141945,
	"grad_norm": 0.31639012694358826,
	"learning_rate": 8.411785600832959e-06,
	"loss": 0.2987,
	"step": 4170
	},
	{
	"epoch": 1.0072297867212918,
	"grad_norm": 0.2962532043457031,
	"learning_rate": 8.401524261944519e-06,
	"loss": 0.2976,
	"step": 4180
	},
	{
	"epoch": 1.009639715628389,
	"grad_norm": 0.2902938723564148,
	"learning_rate": 8.39123618380051e-06,
	"loss": 0.2955,
	"step": 4190
	},
	{
	"epoch": 1.0120496445354863,
	"grad_norm": 0.34580886363983154,
	"learning_rate": 8.380921447275137e-06,
	"loss": 0.2993,
	"step": 4200
	},
	{
	"epoch": 1.0144595734425834,
	"grad_norm": 0.34318143129348755,
	"learning_rate": 8.370580133452153e-06,
	"loss": 0.2985,
	"step": 4210
	},
	{
	"epoch": 1.0168695023496808,
	"grad_norm": 0.33303534984588623,
	"learning_rate": 8.360212323624246e-06,
	"loss": 0.2967,
	"step": 4220
	},
	{
	"epoch": 1.019279431256778,
	"grad_norm": 0.31738531589508057,
	"learning_rate": 8.349818099292379e-06,
	"loss": 0.2992,
	"step": 4230
	},
	{
	"epoch": 1.0216893601638752,
	"grad_norm": 0.2974781394004822,
	"learning_rate": 8.339397542165166e-06,
	"loss": 0.2951,
	"step": 4240
	},
	{
	"epoch": 1.0240992890709724,
	"grad_norm": 0.34444278478622437,
	"learning_rate": 8.328950734158219e-06,
	"loss": 0.2963,
	"step": 4250
	},
	{
	"epoch": 1.0265092179780697,
	"grad_norm": 0.30407750606536865,
	"learning_rate": 8.318477757393502e-06,
	"loss": 0.2928,
	"step": 4260
	},
	{
	"epoch": 1.0289191468851668,
	"grad_norm": 0.31546610593795776,
	"learning_rate": 8.3079786941987e-06,
	"loss": 0.2949,
	"step": 4270
	},
	{
	"epoch": 1.0313290757922642,
	"grad_norm": 0.30053380131721497,
	"learning_rate": 8.297453627106556e-06,
	"loss": 0.2922,
	"step": 4280
	},
	{
	"epoch": 1.0337390046993613,
	"grad_norm": 0.4461379945278168,
	"learning_rate": 8.28690263885423e-06,
	"loss": 0.2943,
	"step": 4290
	},
	{
	"epoch": 1.0361489336064587,
	"grad_norm": 0.4567718803882599,
	"learning_rate": 8.276325812382648e-06,
	"loss": 0.2948,
	"step": 4300
	},
	{
	"epoch": 1.0385588625135558,
	"grad_norm": 0.41117385029792786,
	"learning_rate": 8.265723230835852e-06,
	"loss": 0.2921,
	"step": 4310
	},
	{
	"epoch": 1.0409687914206531,
	"grad_norm": 0.30204108357429504,
	"learning_rate": 8.255094977560335e-06,
	"loss": 0.294,
	"step": 4320
	},
	{
	"epoch": 1.0433787203277503,
	"grad_norm": 0.30539757013320923,
	"learning_rate": 8.244441136104406e-06,
	"loss": 0.2929,
	"step": 4330
	},
	{
	"epoch": 1.0457886492348476,
	"grad_norm": 0.3165344297885895,
	"learning_rate": 8.233761790217512e-06,
	"loss": 0.2951,
	"step": 4340
	},
	{
	"epoch": 1.0481985781419447,
	"grad_norm": 0.3072460889816284,
	"learning_rate": 8.223057023849595e-06,
	"loss": 0.2935,
	"step": 4350
	},
	{
	"epoch": 1.050608507049042,
	"grad_norm": 0.31209057569503784,
	"learning_rate": 8.212326921150426e-06,
	"loss": 0.2986,
	"step": 4360
	},
	{
	"epoch": 1.0530184359561392,
	"grad_norm": 0.2894691228866577,
	"learning_rate": 8.20157156646894e-06,
	"loss": 0.2987,
	"step": 4370
	},
	{
	"epoch": 1.0554283648632365,
	"grad_norm": 0.3207477331161499,
	"learning_rate": 8.190791044352581e-06,
	"loss": 0.2919,
	"step": 4380
	},
	{
	"epoch": 1.0578382937703337,
	"grad_norm": 0.33544445037841797,
	"learning_rate": 8.179985439546633e-06,
	"loss": 0.2925,
	"step": 4390
	},
	{
	"epoch": 1.060248222677431,
	"grad_norm": 0.37554970383644104,
	"learning_rate": 8.16915483699355e-06,
	"loss": 0.2925,
	"step": 4400
	},
	{
	"epoch": 1.0626581515845284,
	"grad_norm": 0.3525862693786621,
	"learning_rate": 8.158299321832301e-06,
	"loss": 0.2935,
	"step": 4410
	},
	{
	"epoch": 1.0650680804916255,
	"grad_norm": 0.32895445823669434,
	"learning_rate": 8.147418979397682e-06,
	"loss": 0.3028,
	"step": 4420
	},
	{
	"epoch": 1.0674780093987228,
	"grad_norm": 0.35945138335227966,
	"learning_rate": 8.13651389521966e-06,
	"loss": 0.2976,
	"step": 4430
	},
	{
	"epoch": 1.06988793830582,
	"grad_norm": 0.33536985516548157,
	"learning_rate": 8.125584155022696e-06,
	"loss": 0.2955,
	"step": 4440
	},
	{
	"epoch": 1.0722978672129173,
	"grad_norm": 0.39662909507751465,
	"learning_rate": 8.114629844725073e-06,
	"loss": 0.2937,
	"step": 4450
	},
	{
	"epoch": 1.0747077961200144,
	"grad_norm": 0.276529461145401,
	"learning_rate": 8.103651050438213e-06,
	"loss": 0.2937,
	"step": 4460
	},
	{
	"epoch": 1.0771177250271118,
	"grad_norm": 0.3437960147857666,
	"learning_rate": 8.09264785846601e-06,
	"loss": 0.2971,
	"step": 4470
	},
	{
	"epoch": 1.079527653934209,
	"grad_norm": 0.3288930356502533,
	"learning_rate": 8.081620355304147e-06,
	"loss": 0.2922,
	"step": 4480
	},
	{
	"epoch": 1.0819375828413063,
	"grad_norm": 0.34666645526885986,
	"learning_rate": 8.070568627639418e-06,
	"loss": 0.2965,
	"step": 4490
	},
	{
	"epoch": 1.0843475117484034,
	"grad_norm": 0.2742771804332733,
	"learning_rate": 8.059492762349037e-06,
	"loss": 0.294,
	"step": 4500
	},
	{
	"epoch": 1.0867574406555007,
	"grad_norm": 0.3294879198074341,
	"learning_rate": 8.048392846499974e-06,
	"loss": 0.2949,
	"step": 4510
	},
	{
	"epoch": 1.0891673695625979,
	"grad_norm": 0.42899349331855774,
	"learning_rate": 8.037268967348252e-06,
	"loss": 0.2972,
	"step": 4520
	},
	{
	"epoch": 1.0915772984696952,
	"grad_norm": 0.44275566935539246,
	"learning_rate": 8.026121212338271e-06,
	"loss": 0.2938,
	"step": 4530
	},
	{
	"epoch": 1.0939872273767923,
	"grad_norm": 0.3020595610141754,
	"learning_rate": 8.014949669102117e-06,
	"loss": 0.2902,
	"step": 4540
	},
	{
	"epoch": 1.0963971562838897,
	"grad_norm": 0.29598134756088257,
	"learning_rate": 8.003754425458878e-06,
	"loss": 0.2951,
	"step": 4550
	},
	{
	"epoch": 1.0988070851909868,
	"grad_norm": 0.3244931697845459,
	"learning_rate": 7.992535569413944e-06,
	"loss": 0.2894,
	"step": 4560
	},
	{
	"epoch": 1.1012170140980841,
	"grad_norm": 0.3689635097980499,
	"learning_rate": 7.981293189158327e-06,
	"loss": 0.29,
	"step": 4570
	},
	{
	"epoch": 1.1036269430051813,
	"grad_norm": 0.30727267265319824,
	"learning_rate": 7.970027373067961e-06,
	"loss": 0.2941,
	"step": 4580
	},
	{
	"epoch": 1.1060368719122786,
	"grad_norm": 0.36431965231895447,
	"learning_rate": 7.958738209703004e-06,
	"loss": 0.2927,
	"step": 4590
	},
	{
	"epoch": 1.1084468008193757,
	"grad_norm": 0.3473125696182251,
	"learning_rate": 7.94742578780715e-06,
	"loss": 0.2915,
	"step": 4600
	},
	{
	"epoch": 1.110856729726473,
	"grad_norm": 0.314858078956604,
	"learning_rate": 7.936090196306925e-06,
	"loss": 0.2943,
	"step": 4610
	},
	{
	"epoch": 1.1132666586335702,
	"grad_norm": 0.33897122740745544,
	"learning_rate": 7.924731524310993e-06,
	"loss": 0.2935,
	"step": 4620
	},
	{
	"epoch": 1.1156765875406676,
	"grad_norm": 0.304818332195282,
	"learning_rate": 7.91334986110945e-06,
	"loss": 0.2983,
	"step": 4630
	},
	{
	"epoch": 1.1180865164477647,
	"grad_norm": 0.29697901010513306,
	"learning_rate": 7.90194529617313e-06,
	"loss": 0.2937,
	"step": 4640
	},
	{
	"epoch": 1.120496445354862,
	"grad_norm": 0.35807687044143677,
	"learning_rate": 7.890517919152892e-06,
	"loss": 0.2956,
	"step": 4650
	},
	{
	"epoch": 1.1229063742619592,
	"grad_norm": 0.2936134338378906,
	"learning_rate": 7.879067819878918e-06,
	"loss": 0.2947,
	"step": 4660
	},
	{
	"epoch": 1.1253163031690565,
	"grad_norm": 0.30898424983024597,
	"learning_rate": 7.867595088360016e-06,
	"loss": 0.2927,
	"step": 4670
	},
	{
	"epoch": 1.1277262320761539,
	"grad_norm": 0.3543315827846527,
	"learning_rate": 7.856099814782901e-06,
	"loss": 0.2953,
	"step": 4680
	},
	{
	"epoch": 1.130136160983251,
	"grad_norm": 0.35695090889930725,
	"learning_rate": 7.844582089511486e-06,
	"loss": 0.2919,
	"step": 4690
	},
	{
	"epoch": 1.1325460898903483,
	"grad_norm": 0.35359513759613037,
	"learning_rate": 7.833042003086186e-06,
	"loss": 0.2914,
	"step": 4700
	},
	{
	"epoch": 1.1349560187974455,
	"grad_norm": 0.34438928961753845,
	"learning_rate": 7.82147964622319e-06,
	"loss": 0.2936,
	"step": 4710
	},
	{
	"epoch": 1.1373659477045428,
	"grad_norm": 0.427782267332077,
	"learning_rate": 7.809895109813752e-06,
	"loss": 0.2918,
	"step": 4720
	},
	{
	"epoch": 1.13977587661164,
	"grad_norm": 0.3296375274658203,
	"learning_rate": 7.798288484923482e-06,
	"loss": 0.2928,
	"step": 4730
	},
	{
	"epoch": 1.1421858055187373,
	"grad_norm": 0.31376180052757263,
	"learning_rate": 7.786659862791628e-06,
	"loss": 0.2941,
	"step": 4740
	},
	{
	"epoch": 1.1445957344258344,
	"grad_norm": 0.32094138860702515,
	"learning_rate": 7.775009334830354e-06,
	"loss": 0.2972,
	"step": 4750
	},
	{
	"epoch": 1.1470056633329317,
	"grad_norm": 0.3006517291069031,
	"learning_rate": 7.763336992624027e-06,
	"loss": 0.2952,
	"step": 4760
	},
	{
	"epoch": 1.1494155922400289,
	"grad_norm": 0.2795007824897766,
	"learning_rate": 7.751642927928495e-06,
	"loss": 0.2938,
	"step": 4770
	},
	{
	"epoch": 1.1518255211471262,
	"grad_norm": 0.34525927901268005,
	"learning_rate": 7.739927232670363e-06,
	"loss": 0.2956,
	"step": 4780
	},
	{
	"epoch": 1.1542354500542233,
	"grad_norm": 0.309376060962677,
	"learning_rate": 7.728189998946278e-06,
	"loss": 0.2935,
	"step": 4790
	},
	{
	"epoch": 1.1566453789613207,
	"grad_norm": 0.3839871883392334,
	"learning_rate": 7.716431319022197e-06,
	"loss": 0.2961,
	"step": 4800
	},
	{
	"epoch": 1.1590553078684178,
	"grad_norm": 0.36691945791244507,
	"learning_rate": 7.704651285332662e-06,
	"loss": 0.2934,
	"step": 4810
	},
	{
	"epoch": 1.1614652367755152,
	"grad_norm": 0.33612367510795593,
	"learning_rate": 7.692849990480082e-06,
	"loss": 0.2958,
	"step": 4820
	},
	{
	"epoch": 1.1638751656826123,
	"grad_norm": 0.37561455368995667,
	"learning_rate": 7.681027527233995e-06,
	"loss": 0.2918,
	"step": 4830
	},
	{
	"epoch": 1.1662850945897096,
	"grad_norm": 0.3043507933616638,
	"learning_rate": 7.669183988530346e-06,
	"loss": 0.2957,
	"step": 4840
	},
	{
	"epoch": 1.1686950234968068,
	"grad_norm": 0.3756212294101715,
	"learning_rate": 7.65731946747075e-06,
	"loss": 0.2958,
	"step": 4850
	},
	{
	"epoch": 1.171104952403904,
	"grad_norm": 0.34560471773147583,
	"learning_rate": 7.645434057321765e-06,
	"loss": 0.2923,
	"step": 4860
	},
	{
	"epoch": 1.1735148813110012,
	"grad_norm": 0.32109159231185913,
	"learning_rate": 7.633527851514163e-06,
	"loss": 0.2925,
	"step": 4870
	},
	{
	"epoch": 1.1759248102180986,
	"grad_norm": 0.37646690011024475,
	"learning_rate": 7.621600943642175e-06,
	"loss": 0.2938,
	"step": 4880
	},
	{
	"epoch": 1.1783347391251957,
	"grad_norm": 0.29935309290885925,
	"learning_rate": 7.609653427462789e-06,
	"loss": 0.2964,
	"step": 4890
	},
	{
	"epoch": 1.180744668032293,
	"grad_norm": 0.3204425275325775,
	"learning_rate": 7.5976853968949785e-06,
	"loss": 0.2936,
	"step": 4900
	},
	{
	"epoch": 1.1831545969393904,
	"grad_norm": 0.29764094948768616,
	"learning_rate": 7.585696946018988e-06,
	"loss": 0.2931,
	"step": 4910
	},
	{
	"epoch": 1.1855645258464875,
	"grad_norm": 0.2924026846885681,
	"learning_rate": 7.573688169075584e-06,
	"loss": 0.2886,
	"step": 4920
	},
	{
	"epoch": 1.1879744547535847,
	"grad_norm": 0.3182421028614044,
	"learning_rate": 7.561659160465314e-06,
	"loss": 0.2891,
	"step": 4930
	},
	{
	"epoch": 1.190384383660682,
	"grad_norm": 0.29416242241859436,
	"learning_rate": 7.549610014747769e-06,
	"loss": 0.2943,
	"step": 4940
	},
	{
	"epoch": 1.1927943125677793,
	"grad_norm": 0.28267455101013184,
	"learning_rate": 7.537540826640834e-06,
	"loss": 0.2898,
	"step": 4950
	},
	{
	"epoch": 1.1952042414748765,
	"grad_norm": 0.2981799244880676,
	"learning_rate": 7.525451691019945e-06,
	"loss": 0.2904,
	"step": 4960
	},
	{
	"epoch": 1.1976141703819738,
	"grad_norm": 0.31924667954444885,
	"learning_rate": 7.513342702917349e-06,
	"loss": 0.2947,
	"step": 4970
	},
	{
	"epoch": 1.200024099289071,
	"grad_norm": 0.3477831184864044,
	"learning_rate": 7.5012139575213505e-06,
	"loss": 0.2941,
	"step": 4980
	},
	{
	"epoch": 1.2024340281961683,
	"grad_norm": 0.3827824592590332,
	"learning_rate": 7.4890655501755634e-06,
	"loss": 0.2941,
	"step": 4990
	},
	{
	"epoch": 1.2048439571032654,
	"grad_norm": 0.3301846981048584,
	"learning_rate": 7.476897576378169e-06,
	"loss": 0.2932,
	"step": 5000
	},
	{
	"epoch": 1.2072538860103628,
	"grad_norm": 0.2990403473377228,
	"learning_rate": 7.464710131781154e-06,
	"loss": 0.2943,
	"step": 5010
	},
	{
	"epoch": 1.20966381491746,
	"grad_norm": 0.2877965569496155,
	"learning_rate": 7.452503312189567e-06,
	"loss": 0.2887,
	"step": 5020
	},
	{
	"epoch": 1.2120737438245572,
	"grad_norm": 0.4139057695865631,
	"learning_rate": 7.440277213560763e-06,
	"loss": 0.2915,
	"step": 5030
	},
	{
	"epoch": 1.2144836727316544,
	"grad_norm": 0.36445915699005127,
	"learning_rate": 7.428031932003647e-06,
	"loss": 0.291,
	"step": 5040
	},
	{
	"epoch": 1.2168936016387517,
	"grad_norm": 0.30009666085243225,
	"learning_rate": 7.415767563777922e-06,
	"loss": 0.293,
	"step": 5050
	},
	{
	"epoch": 1.2193035305458488,
	"grad_norm": 0.3052422106266022,
	"learning_rate": 7.40348420529333e-06,
	"loss": 0.2921,
	"step": 5060
	},
	{
	"epoch": 1.2217134594529462,
	"grad_norm": 0.3795696496963501,
	"learning_rate": 7.3911819531088926e-06,
	"loss": 0.2939,
	"step": 5070
	},
	{
	"epoch": 1.2241233883600433,
	"grad_norm": 0.348404198884964,
	"learning_rate": 7.378860903932159e-06,
	"loss": 0.2908,
	"step": 5080
	},
	{
	"epoch": 1.2265333172671407,
	"grad_norm": 0.3660510778427124,
	"learning_rate": 7.366521154618438e-06,
	"loss": 0.2924,
	"step": 5090
	},
	{
	"epoch": 1.2289432461742378,
	"grad_norm": 0.32647138833999634,
	"learning_rate": 7.354162802170037e-06,
	"loss": 0.293,
	"step": 5100
	},
	{
	"epoch": 1.2313531750813351,
	"grad_norm": 0.3991613984107971,
	"learning_rate": 7.341785943735507e-06,
	"loss": 0.293,
	"step": 5110
	},
	{
	"epoch": 1.2337631039884323,
	"grad_norm": 0.3387329876422882,
	"learning_rate": 7.3293906766088694e-06,
	"loss": 0.2915,
	"step": 5120
	},
	{
	"epoch": 1.2361730328955296,
	"grad_norm": 0.296353280544281,
	"learning_rate": 7.316977098228858e-06,
	"loss": 0.2967,
	"step": 5130
	},
	{
	"epoch": 1.238582961802627,
	"grad_norm": 0.3713757395744324,
	"learning_rate": 7.3045453061781504e-06,
	"loss": 0.2964,
	"step": 5140
	},
	{
	"epoch": 1.240992890709724,
	"grad_norm": 0.3761545717716217,
	"learning_rate": 7.292095398182601e-06,
	"loss": 0.2951,
	"step": 5150
	},
	{
	"epoch": 1.2434028196168212,
	"grad_norm": 0.34979012608528137,
	"learning_rate": 7.2796274721104745e-06,
	"loss": 0.2915,
	"step": 5160
	},
	{
	"epoch": 1.2458127485239185,
	"grad_norm": 0.3694073259830475,
	"learning_rate": 7.267141625971672e-06,
	"loss": 0.2919,
	"step": 5170
	},
	{
	"epoch": 1.248222677431016,
	"grad_norm": 0.3596980571746826,
	"learning_rate": 7.254637957916964e-06,
	"loss": 0.2888,
	"step": 5180
	},
	{
	"epoch": 1.250632606338113,
	"grad_norm": 0.2971567213535309,
	"learning_rate": 7.2421165662372216e-06,
	"loss": 0.2925,
	"step": 5190
	},
	{
	"epoch": 1.2530425352452101,
	"grad_norm": 0.27229705452919006,
	"learning_rate": 7.229577549362638e-06,
	"loss": 0.292,
	"step": 5200
	},
	{
	"epoch": 1.2554524641523075,
	"grad_norm": 0.2569279968738556,
	"learning_rate": 7.217021005861957e-06,
	"loss": 0.2897,
	"step": 5210
	},
	{
	"epoch": 1.2578623930594048,
	"grad_norm": 0.25952446460723877,
	"learning_rate": 7.204447034441699e-06,
	"loss": 0.2941,
	"step": 5220
	},
	{
	"epoch": 1.260272321966502,
	"grad_norm": 0.32470980286598206,
	"learning_rate": 7.191855733945388e-06,
	"loss": 0.2935,
	"step": 5230
	},
	{
	"epoch": 1.2626822508735993,
	"grad_norm": 0.3019980192184448,
	"learning_rate": 7.179247203352766e-06,
	"loss": 0.2917,
	"step": 5240
	},
	{
	"epoch": 1.2650921797806964,
	"grad_norm": 0.39613986015319824,
	"learning_rate": 7.166621541779023e-06,
	"loss": 0.2934,
	"step": 5250
	},
	{
	"epoch": 1.2675021086877938,
	"grad_norm": 0.32236409187316895,
	"learning_rate": 7.153978848474015e-06,
	"loss": 0.289,
	"step": 5260
	},
	{
	"epoch": 1.269912037594891,
	"grad_norm": 0.33381563425064087,
	"learning_rate": 7.141319222821483e-06,
	"loss": 0.2905,
	"step": 5270
	},
	{
	"epoch": 1.2723219665019883,
	"grad_norm": 0.2984042465686798,
	"learning_rate": 7.128642764338273e-06,
	"loss": 0.2943,
	"step": 5280
	},
	{
	"epoch": 1.2747318954090854,
	"grad_norm": 0.32981225848197937,
	"learning_rate": 7.115949572673552e-06,
	"loss": 0.2886,
	"step": 5290
	},
	{
	"epoch": 1.2771418243161827,
	"grad_norm": 0.29191964864730835,
	"learning_rate": 7.1032397476080285e-06,
	"loss": 0.2901,
	"step": 5300
	},
	{
	"epoch": 1.2795517532232799,
	"grad_norm": 0.3010197579860687,
	"learning_rate": 7.090513389053164e-06,
	"loss": 0.2887,
	"step": 5310
	},
	{
	"epoch": 1.2819616821303772,
	"grad_norm": 0.2844763696193695,
	"learning_rate": 7.0777705970503885e-06,
	"loss": 0.2929,
	"step": 5320
	},
	{
	"epoch": 1.2843716110374743,
	"grad_norm": 0.29825469851493835,
	"learning_rate": 7.065011471770316e-06,
	"loss": 0.2891,
	"step": 5330
	},
	{
	"epoch": 1.2867815399445717,
	"grad_norm": 0.3302004635334015,
	"learning_rate": 7.052236113511955e-06,
	"loss": 0.2859,
	"step": 5340
	},
	{
	"epoch": 1.2891914688516688,
	"grad_norm": 0.3303605020046234,
	"learning_rate": 7.039444622701922e-06,
	"loss": 0.2927,
	"step": 5350
	},
	{
	"epoch": 1.2916013977587661,
	"grad_norm": 0.28266441822052,
	"learning_rate": 7.0266370998936475e-06,
	"loss": 0.2898,
	"step": 5360
	},
	{
	"epoch": 1.2940113266658635,
	"grad_norm": 0.2995830774307251,
	"learning_rate": 7.013813645766593e-06,
	"loss": 0.2886,
	"step": 5370
	},
	{
	"epoch": 1.2964212555729606,
	"grad_norm": 0.3291394114494324,
	"learning_rate": 7.000974361125454e-06,
	"loss": 0.2903,
	"step": 5380
	},
	{
	"epoch": 1.2988311844800577,
	"grad_norm": 0.3445577919483185,
	"learning_rate": 6.98811934689937e-06,
	"loss": 0.2926,
	"step": 5390
	},
	{
	"epoch": 1.301241113387155,
	"grad_norm": 0.38025858998298645,
	"learning_rate": 6.975248704141128e-06,
	"loss": 0.2902,
	"step": 5400
	},
	{
	"epoch": 1.3036510422942524,
	"grad_norm": 0.3463076949119568,
	"learning_rate": 6.96236253402637e-06,
	"loss": 0.294,
	"step": 5410
	},
	{
	"epoch": 1.3060609712013496,
	"grad_norm": 0.29396772384643555,
	"learning_rate": 6.949460937852803e-06,
	"loss": 0.2897,
	"step": 5420
	},
	{
	"epoch": 1.3084709001084467,
	"grad_norm": 0.30489712953567505,
	"learning_rate": 6.936544017039391e-06,
	"loss": 0.2953,
	"step": 5430
	},
	{
	"epoch": 1.310880829015544,
	"grad_norm": 0.28239792585372925,
	"learning_rate": 6.923611873125568e-06,
	"loss": 0.2901,
	"step": 5440
	},
	{
	"epoch": 1.3132907579226414,
	"grad_norm": 0.2712880074977875,
	"learning_rate": 6.910664607770436e-06,
	"loss": 0.2913,
	"step": 5450
	},
	{
	"epoch": 1.3157006868297385,
	"grad_norm": 0.3295143246650696,
	"learning_rate": 6.897702322751968e-06,
	"loss": 0.2919,
	"step": 5460
	},
	{
	"epoch": 1.3181106157368356,
	"grad_norm": 0.2658911347389221,
	"learning_rate": 6.8847251199662025e-06,
	"loss": 0.2931,
	"step": 5470
	},
	{
	"epoch": 1.320520544643933,
	"grad_norm": 0.3096064031124115,
	"learning_rate": 6.871733101426446e-06,
	"loss": 0.2856,
	"step": 5480
	},
	{
	"epoch": 1.3229304735510303,
	"grad_norm": 0.30576658248901367,
	"learning_rate": 6.858726369262474e-06,
	"loss": 0.2883,
	"step": 5490
	},
	{
	"epoch": 1.3253404024581275,
	"grad_norm": 0.28704652190208435,
	"learning_rate": 6.8457050257197225e-06,
	"loss": 0.2908,
	"step": 5500
	},
	{
	"epoch": 1.3277503313652248,
	"grad_norm": 0.27122265100479126,
	"learning_rate": 6.832669173158488e-06,
	"loss": 0.2917,
	"step": 5510
	},
	{
	"epoch": 1.330160260272322,
	"grad_norm": 0.27687370777130127,
	"learning_rate": 6.819618914053126e-06,
	"loss": 0.2878,
	"step": 5520
	},
	{
	"epoch": 1.3325701891794193,
	"grad_norm": 0.32107046246528625,
	"learning_rate": 6.806554350991233e-06,
	"loss": 0.293,
	"step": 5530
	},
	{
	"epoch": 1.3349801180865164,
	"grad_norm": 0.3296975791454315,
	"learning_rate": 6.793475586672853e-06,
	"loss": 0.2934,
	"step": 5540
	},
	{
	"epoch": 1.3373900469936137,
	"grad_norm": 0.3705105185508728,
	"learning_rate": 6.780382723909669e-06,
	"loss": 0.29,
	"step": 5550
	},
	{
	"epoch": 1.3397999759007109,
	"grad_norm": 0.278164267539978,
	"learning_rate": 6.767275865624183e-06,
	"loss": 0.2931,
	"step": 5560
	},
	{
	"epoch": 1.3422099048078082,
	"grad_norm": 0.2963508367538452,
	"learning_rate": 6.754155114848924e-06,
	"loss": 0.2929,
	"step": 5570
	},
	{
	"epoch": 1.3446198337149053,
	"grad_norm": 0.29193806648254395,
	"learning_rate": 6.741020574725622e-06,
	"loss": 0.2888,
	"step": 5580
	},
	{
	"epoch": 1.3470297626220027,
	"grad_norm": 0.2833113372325897,
	"learning_rate": 6.72787234850441e-06,
	"loss": 0.2942,
	"step": 5590
	},
	{
	"epoch": 1.3494396915290998,
	"grad_norm": 0.3103671371936798,
	"learning_rate": 6.7147105395430045e-06,
	"loss": 0.2908,
	"step": 5600
	},
	{
	"epoch": 1.3518496204361972,
	"grad_norm": 0.29397091269493103,
	"learning_rate": 6.701535251305895e-06,
	"loss": 0.2889,
	"step": 5610
	},
	{
	"epoch": 1.3542595493432943,
	"grad_norm": 0.30432817339897156,
	"learning_rate": 6.688346587363533e-06,
	"loss": 0.2896,
	"step": 5620
	},
	{
	"epoch": 1.3566694782503916,
	"grad_norm": 0.33097174763679504,
	"learning_rate": 6.675144651391511e-06,
	"loss": 0.2924,
	"step": 5630
	},
	{
	"epoch": 1.359079407157489,
	"grad_norm": 0.35036495327949524,
	"learning_rate": 6.661929547169761e-06,
	"loss": 0.2871,
	"step": 5640
	},
	{
	"epoch": 1.361489336064586,
	"grad_norm": 0.3158203065395355,
	"learning_rate": 6.648701378581722e-06,
	"loss": 0.2927,
	"step": 5650
	},
	{
	"epoch": 1.3638992649716832,
	"grad_norm": 0.28271350264549255,
	"learning_rate": 6.635460249613537e-06,
	"loss": 0.2856,
	"step": 5660
	},
	{
	"epoch": 1.3663091938787806,
	"grad_norm": 0.33273833990097046,
	"learning_rate": 6.622206264353225e-06,
	"loss": 0.2858,
	"step": 5670
	},
	{
	"epoch": 1.368719122785878,
	"grad_norm": 0.32535332441329956,
	"learning_rate": 6.6089395269898715e-06,
	"loss": 0.2859,
	"step": 5680
	},
	{
	"epoch": 1.371129051692975,
	"grad_norm": 0.31465989351272583,
	"learning_rate": 6.595660141812806e-06,
	"loss": 0.2905,
	"step": 5690
	},
	{
	"epoch": 1.3735389806000722,
	"grad_norm": 0.2984545826911926,
	"learning_rate": 6.582368213210781e-06,
	"loss": 0.2885,
	"step": 5700
	},
	{
	"epoch": 1.3759489095071695,
	"grad_norm": 0.3405298888683319,
	"learning_rate": 6.569063845671153e-06,
	"loss": 0.2916,
	"step": 5710
	},
	{
	"epoch": 1.3783588384142669,
	"grad_norm": 0.29299426078796387,
	"learning_rate": 6.555747143779058e-06,
	"loss": 0.2908,
	"step": 5720
	},
	{
	"epoch": 1.380768767321364,
	"grad_norm": 0.28607264161109924,
	"learning_rate": 6.542418212216592e-06,
	"loss": 0.2904,
	"step": 5730
	},
	{
	"epoch": 1.3831786962284611,
	"grad_norm": 0.30494213104248047,
	"learning_rate": 6.5290771557619935e-06,
	"loss": 0.2906,
	"step": 5740
	},
	{
	"epoch": 1.3855886251355585,
	"grad_norm": 0.2538268268108368,
	"learning_rate": 6.51572407928881e-06,
	"loss": 0.2895,
	"step": 5750
	},
	{
	"epoch": 1.3879985540426558,
	"grad_norm": 0.2843555212020874,
	"learning_rate": 6.502359087765077e-06,
	"loss": 0.2942,
	"step": 5760
	},
	{
	"epoch": 1.390408482949753,
	"grad_norm": 0.28180286288261414,
	"learning_rate": 6.488982286252495e-06,
	"loss": 0.292,
	"step": 5770
	},
	{
	"epoch": 1.3928184118568503,
	"grad_norm": 0.2639807164669037,
	"learning_rate": 6.475593779905604e-06,
	"loss": 0.2861,
	"step": 5780
	},
	{
	"epoch": 1.3952283407639474,
	"grad_norm": 0.3540901243686676,
	"learning_rate": 6.462193673970954e-06,
	"loss": 0.2897,
	"step": 5790
	},
	{
	"epoch": 1.3976382696710448,
	"grad_norm": 0.26980575919151306,
	"learning_rate": 6.448782073786276e-06,
	"loss": 0.2895,
	"step": 5800
	},
	{
	"epoch": 1.400048198578142,
	"grad_norm": 0.35402557253837585,
	"learning_rate": 6.435359084779663e-06,
	"loss": 0.2882,
	"step": 5810
	},
	{
	"epoch": 1.4024581274852392,
	"grad_norm": 0.2726435363292694,
	"learning_rate": 6.4219248124687295e-06,
	"loss": 0.2952,
	"step": 5820
	},
	{
	"epoch": 1.4048680563923364,
	"grad_norm": 0.3000989556312561,
	"learning_rate": 6.408479362459791e-06,
	"loss": 0.2865,
	"step": 5830
	},
	{
	"epoch": 1.4072779852994337,
	"grad_norm": 0.3340711295604706,
	"learning_rate": 6.39502284044703e-06,
	"loss": 0.2897,
	"step": 5840
	},
	{
	"epoch": 1.4096879142065308,
	"grad_norm": 0.377590149641037,
	"learning_rate": 6.381555352211663e-06,
	"loss": 0.2873,
	"step": 5850
	},
	{
	"epoch": 1.4120978431136282,
	"grad_norm": 0.2937493622303009,
	"learning_rate": 6.368077003621116e-06,
	"loss": 0.2852,
	"step": 5860
	},
	{
	"epoch": 1.4145077720207253,
	"grad_norm": 0.3009055554866791,
	"learning_rate": 6.354587900628184e-06,
	"loss": 0.2927,
	"step": 5870
	},
	{
	"epoch": 1.4169177009278227,
	"grad_norm": 0.3263275623321533,
	"learning_rate": 6.341088149270204e-06,
	"loss": 0.2923,
	"step": 5880
	},
	{
	"epoch": 1.4193276298349198,
	"grad_norm": 0.2761916220188141,
	"learning_rate": 6.327577855668216e-06,
	"loss": 0.2901,
	"step": 5890
	},
	{
	"epoch": 1.4217375587420171,
	"grad_norm": 0.2661338448524475,
	"learning_rate": 6.3140571260261385e-06,
	"loss": 0.2928,
	"step": 5900
	},
	{
	"epoch": 1.4241474876491145,
	"grad_norm": 0.28643906116485596,
	"learning_rate": 6.300526066629923e-06,
	"loss": 0.2888,
	"step": 5910
	},
	{
	"epoch": 1.4265574165562116,
	"grad_norm": 0.29640182852745056,
	"learning_rate": 6.286984783846723e-06,
	"loss": 0.294,
	"step": 5920
	},
	{
	"epoch": 1.4289673454633087,
	"grad_norm": 0.3355025351047516,
	"learning_rate": 6.273433384124058e-06,
	"loss": 0.2915,
	"step": 5930
	},
	{
	"epoch": 1.431377274370406,
	"grad_norm": 0.34383130073547363,
	"learning_rate": 6.259871973988977e-06,
	"loss": 0.2921,
	"step": 5940
	},
	{
	"epoch": 1.4337872032775034,
	"grad_norm": 0.37121251225471497,
	"learning_rate": 6.24630066004722e-06,
	"loss": 0.2921,
	"step": 5950
	},
	{
	"epoch": 1.4361971321846005,
	"grad_norm": 0.317470520734787,
	"learning_rate": 6.232719548982381e-06,
	"loss": 0.2916,
	"step": 5960
	},
	{
	"epoch": 1.4386070610916977,
	"grad_norm": 0.38295572996139526,
	"learning_rate": 6.219128747555066e-06,
	"loss": 0.2879,
	"step": 5970
	},
	{
	"epoch": 1.441016989998795,
	"grad_norm": 0.29267948865890503,
	"learning_rate": 6.205528362602064e-06,
	"loss": 0.2866,
	"step": 5980
	},
	{
	"epoch": 1.4434269189058924,
	"grad_norm": 0.2835632264614105,
	"learning_rate": 6.19191850103549e-06,
	"loss": 0.2887,
	"step": 5990
	},
	{
	"epoch": 1.4458368478129895,
	"grad_norm": 0.30164459347724915,
	"learning_rate": 6.1782992698419605e-06,
	"loss": 0.2892,
	"step": 6000
	},
	{
	"epoch": 1.4482467767200868,
	"grad_norm": 0.28172457218170166,
	"learning_rate": 6.164670776081746e-06,
	"loss": 0.2891,
	"step": 6010
	},
	{
	"epoch": 1.450656705627184,
	"grad_norm": 0.30596497654914856,
	"learning_rate": 6.151033126887928e-06,
	"loss": 0.2903,
	"step": 6020
	},
	{
	"epoch": 1.4530666345342813,
	"grad_norm": 0.26026931405067444,
	"learning_rate": 6.137386429465557e-06,
	"loss": 0.29,
	"step": 6030
	},
	{
	"epoch": 1.4554765634413784,
	"grad_norm": 0.29254963994026184,
	"learning_rate": 6.123730791090814e-06,
	"loss": 0.2872,
	"step": 6040
	},
	{
	"epoch": 1.4578864923484758,
	"grad_norm": 0.3051566481590271,
	"learning_rate": 6.1100663191101664e-06,
	"loss": 0.2912,
	"step": 6050
	},
	{
	"epoch": 1.460296421255573,
	"grad_norm": 0.3242933750152588,
	"learning_rate": 6.0963931209395165e-06,
	"loss": 0.2888,
	"step": 6060
	},
	{
	"epoch": 1.4627063501626703,
	"grad_norm": 0.2694988250732422,
	"learning_rate": 6.082711304063369e-06,
	"loss": 0.2897,
	"step": 6070
	},
	{
	"epoch": 1.4651162790697674,
	"grad_norm": 0.25618046522140503,
	"learning_rate": 6.069020976033973e-06,
	"loss": 0.2886,
	"step": 6080
	},
	{
	"epoch": 1.4675262079768647,
	"grad_norm": 0.3403514623641968,
	"learning_rate": 6.055322244470492e-06,
	"loss": 0.2925,
	"step": 6090
	},
	{
	"epoch": 1.4699361368839619,
	"grad_norm": 0.33072629570961,
	"learning_rate": 6.041615217058141e-06,
	"loss": 0.2949,
	"step": 6100
	},
	{
	"epoch": 1.4723460657910592,
	"grad_norm": 0.31231069564819336,
	"learning_rate": 6.027900001547354e-06,
	"loss": 0.2868,
	"step": 6110
	},
	{
	"epoch": 1.4747559946981563,
	"grad_norm": 0.3082675635814667,
	"learning_rate": 6.014176705752928e-06,
	"loss": 0.2878,
	"step": 6120
	},
	{
	"epoch": 1.4771659236052537,
	"grad_norm": 0.31843477487564087,
	"learning_rate": 6.000445437553182e-06,
	"loss": 0.2934,
	"step": 6130
	},
	{
	"epoch": 1.479575852512351,
	"grad_norm": 0.26718366146087646,
	"learning_rate": 5.986706304889103e-06,
	"loss": 0.2895,
	"step": 6140
	},
	{
	"epoch": 1.4819857814194481,
	"grad_norm": 0.2540596127510071,
	"learning_rate": 5.9729594157635e-06,
	"loss": 0.2871,
	"step": 6150
	},
	{
	"epoch": 1.4843957103265453,
	"grad_norm": 0.29234349727630615,
	"learning_rate": 5.95920487824016e-06,
	"loss": 0.2883,
	"step": 6160
	},
	{
	"epoch": 1.4868056392336426,
	"grad_norm": 0.2895696759223938,
	"learning_rate": 5.945442800442989e-06,
	"loss": 0.2892,
	"step": 6170
	},
	{
	"epoch": 1.48921556814074,
	"grad_norm": 0.37780964374542236,
	"learning_rate": 5.9316732905551655e-06,
	"loss": 0.2901,
	"step": 6180
	},
	{
	"epoch": 1.491625497047837,
	"grad_norm": 0.30627432465553284,
	"learning_rate": 5.917896456818296e-06,
	"loss": 0.2842,
	"step": 6190
	},
	{
	"epoch": 1.4940354259549342,
	"grad_norm": 0.2828274369239807,
	"learning_rate": 5.904112407531558e-06,
	"loss": 0.29,
	"step": 6200
	},
	{
	"epoch": 1.4964453548620316,
	"grad_norm": 0.28347352147102356,
	"learning_rate": 5.89032125105085e-06,
	"loss": 0.2875,
	"step": 6210
	},
	{
	"epoch": 1.498855283769129,
	"grad_norm": 0.29037997126579285,
	"learning_rate": 5.876523095787938e-06,
	"loss": 0.2879,
	"step": 6220
	},
	{
	"epoch": 1.501265212676226,
	"grad_norm": 0.3196846842765808,
	"learning_rate": 5.862718050209608e-06,
	"loss": 0.287,
	"step": 6230
	},
	{
	"epoch": 1.5036751415833232,
	"grad_norm": 0.2754024267196655,
	"learning_rate": 5.848906222836808e-06,
	"loss": 0.2904,
	"step": 6240
	},
	{
	"epoch": 1.5060850704904205,
	"grad_norm": 0.2660787105560303,
	"learning_rate": 5.835087722243801e-06,
	"loss": 0.2866,
	"step": 6250
	},
	{
	"epoch": 1.5084949993975179,
	"grad_norm": 0.2918931543827057,
	"learning_rate": 5.821262657057303e-06,
	"loss": 0.2894,
	"step": 6260
	},
	{
	"epoch": 1.510904928304615,
	"grad_norm": 0.2554548978805542,
	"learning_rate": 5.807431135955637e-06,
	"loss": 0.2896,
	"step": 6270
	},
	{
	"epoch": 1.513314857211712,
	"grad_norm": 0.3155972361564636,
	"learning_rate": 5.793593267667876e-06,
	"loss": 0.2886,
	"step": 6280
	},
	{
	"epoch": 1.5157247861188095,
	"grad_norm": 0.31259092688560486,
	"learning_rate": 5.779749160972988e-06,
	"loss": 0.2906,
	"step": 6290
	},
	{
	"epoch": 1.5181347150259068,
	"grad_norm": 0.28909972310066223,
	"learning_rate": 5.76589892469898e-06,
	"loss": 0.2844,
	"step": 6300
	},
	{
	"epoch": 1.520544643933004,
	"grad_norm": 0.31519922614097595,
	"learning_rate": 5.752042667722044e-06,
	"loss": 0.2893,
	"step": 6310
	},
	{
	"epoch": 1.522954572840101,
	"grad_norm": 0.2903608977794647,
	"learning_rate": 5.7381804989656995e-06,
	"loss": 0.2895,
	"step": 6320
	},
	{
	"epoch": 1.5253645017471986,
	"grad_norm": 0.33300480246543884,
	"learning_rate": 5.724312527399939e-06,
	"loss": 0.2859,
	"step": 6330
	},
	{
	"epoch": 1.5277744306542957,
	"grad_norm": 0.2696857452392578,
	"learning_rate": 5.710438862040368e-06,
	"loss": 0.2841,
	"step": 6340
	},
	{
	"epoch": 1.5301843595613929,
	"grad_norm": 0.27712324261665344,
	"learning_rate": 5.696559611947359e-06,
	"loss": 0.2868,
	"step": 6350
	},
	{
	"epoch": 1.5325942884684902,
	"grad_norm": 0.2451460361480713,
	"learning_rate": 5.682674886225175e-06,
	"loss": 0.2856,
	"step": 6360
	},
	{
	"epoch": 1.5350042173755876,
	"grad_norm": 0.30377116799354553,
	"learning_rate": 5.6687847940211304e-06,
	"loss": 0.2878,
	"step": 6370
	},
	{
	"epoch": 1.5374141462826847,
	"grad_norm": 0.3379736542701721,
	"learning_rate": 5.654889444524723e-06,
	"loss": 0.2852,
	"step": 6380
	},
	{
	"epoch": 1.5398240751897818,
	"grad_norm": 0.32498353719711304,
	"learning_rate": 5.6409889469667765e-06,
	"loss": 0.2878,
	"step": 6390
	},
	{
	"epoch": 1.5422340040968792,
	"grad_norm": 0.25390711426734924,
	"learning_rate": 5.627083410618585e-06,
	"loss": 0.2865,
	"step": 6400
	},
	{
	"epoch": 1.5446439330039765,
	"grad_norm": 0.3484839200973511,
	"learning_rate": 5.613172944791053e-06,
	"loss": 0.2864,
	"step": 6410
	},
	{
	"epoch": 1.5470538619110736,
	"grad_norm": 0.2566584348678589,
	"learning_rate": 5.599257658833833e-06,
	"loss": 0.2862,
	"step": 6420
	},
	{
	"epoch": 1.5494637908181708,
	"grad_norm": 0.2994121313095093,
	"learning_rate": 5.585337662134471e-06,
	"loss": 0.2909,
	"step": 6430
	},
	{
	"epoch": 1.551873719725268,
	"grad_norm": 0.280696302652359,
	"learning_rate": 5.571413064117542e-06,
	"loss": 0.2901,
	"step": 6440
	},
	{
	"epoch": 1.5542836486323655,
	"grad_norm": 0.28371933102607727,
	"learning_rate": 5.5574839742437924e-06,
	"loss": 0.2877,
	"step": 6450
	},
	{
	"epoch": 1.5566935775394626,
	"grad_norm": 0.277034193277359,
	"learning_rate": 5.543550502009279e-06,
	"loss": 0.2912,
	"step": 6460
	},
	{
	"epoch": 1.5591035064465597,
	"grad_norm": 0.2791733145713806,
	"learning_rate": 5.529612756944509e-06,
	"loss": 0.2845,
	"step": 6470
	},
	{
	"epoch": 1.561513435353657,
	"grad_norm": 0.3161347806453705,
	"learning_rate": 5.515670848613577e-06,
	"loss": 0.2869,
	"step": 6480
	},
	{
	"epoch": 1.5639233642607544,
	"grad_norm": 0.2543027997016907,
	"learning_rate": 5.501724886613304e-06,
	"loss": 0.2905,
	"step": 6490
	},
	{
	"epoch": 1.5663332931678515,
	"grad_norm": 0.29067763686180115,
	"learning_rate": 5.4877749805723805e-06,
	"loss": 0.2888,
	"step": 6500
	},
	{
	"epoch": 1.5687432220749487,
	"grad_norm": 0.3507370054721832,
	"learning_rate": 5.4738212401504966e-06,
	"loss": 0.2927,
	"step": 6510
	},
	{
	"epoch": 1.571153150982046,
	"grad_norm": 0.29896023869514465,
	"learning_rate": 5.459863775037486e-06,
	"loss": 0.2922,
	"step": 6520
	},
	{
	"epoch": 1.5735630798891433,
	"grad_norm": 0.30378133058547974,
	"learning_rate": 5.445902694952464e-06,
	"loss": 0.2877,
	"step": 6530
	},
	{
	"epoch": 1.5759730087962405,
	"grad_norm": 0.2826097011566162,
	"learning_rate": 5.43193810964296e-06,
	"loss": 0.2882,
	"step": 6540
	},
	{
	"epoch": 1.5783829377033376,
	"grad_norm": 0.2978685200214386,
	"learning_rate": 5.417970128884061e-06,
	"loss": 0.2898,
	"step": 6550
	},
	{
	"epoch": 1.580792866610435,
	"grad_norm": 0.2806876599788666,
	"learning_rate": 5.403998862477538e-06,
	"loss": 0.2891,
	"step": 6560
	},
	{
	"epoch": 1.5832027955175323,
	"grad_norm": 0.2967870533466339,
	"learning_rate": 5.390024420251003e-06,
	"loss": 0.2838,
	"step": 6570
	},
	{
	"epoch": 1.5856127244246294,
	"grad_norm": 0.3780516982078552,
	"learning_rate": 5.376046912057022e-06,
	"loss": 0.2838,
	"step": 6580
	},
	{
	"epoch": 1.5880226533317268,
	"grad_norm": 0.30155616998672485,
	"learning_rate": 5.3620664477722686e-06,
	"loss": 0.2914,
	"step": 6590
	},
	{
	"epoch": 1.590432582238824,
	"grad_norm": 0.2814103960990906,
	"learning_rate": 5.34808313729665e-06,
	"loss": 0.2836,
	"step": 6600
	},
	{
	"epoch": 1.5928425111459212,
	"grad_norm": 0.3269602656364441,
	"learning_rate": 5.3340970905524515e-06,
	"loss": 0.2904,
	"step": 6610
	},
	{
	"epoch": 1.5952524400530184,
	"grad_norm": 0.3006516098976135,
	"learning_rate": 5.3201084174834615e-06,
	"loss": 0.2888,
	"step": 6620
	},
	{
	"epoch": 1.5976623689601157,
	"grad_norm": 0.26057636737823486,
	"learning_rate": 5.306117228054123e-06,
	"loss": 0.2842,
	"step": 6630
	},
	{
	"epoch": 1.600072297867213,
	"grad_norm": 0.2661631405353546,
	"learning_rate": 5.292123632248652e-06,
	"loss": 0.2887,
	"step": 6640
	},
	{
	"epoch": 1.6024822267743102,
	"grad_norm": 0.2950296401977539,
	"learning_rate": 5.278127740070187e-06,
	"loss": 0.2878,
	"step": 6650
	},
	{
	"epoch": 1.6048921556814073,
	"grad_norm": 0.28788238763809204,
	"learning_rate": 5.2641296615399116e-06,
	"loss": 0.2818,
	"step": 6660
	},
	{
	"epoch": 1.6073020845885047,
	"grad_norm": 0.2923791706562042,
	"learning_rate": 5.2501295066962035e-06,
	"loss": 0.289,
	"step": 6670
	},
	{
	"epoch": 1.609712013495602,
	"grad_norm": 0.2887912392616272,
	"learning_rate": 5.236127385593754e-06,
	"loss": 0.2893,
	"step": 6680
	},
	{
	"epoch": 1.6121219424026991,
	"grad_norm": 0.3292595446109772,
	"learning_rate": 5.222123408302722e-06,
	"loss": 0.2855,
	"step": 6690
	},
	{
	"epoch": 1.6145318713097963,
	"grad_norm": 0.3092789351940155,
	"learning_rate": 5.208117684907846e-06,
	"loss": 0.2903,
	"step": 6700
	},
	{
	"epoch": 1.6169418002168936,
	"grad_norm": 0.28815957903862,
	"learning_rate": 5.194110325507599e-06,
	"loss": 0.2911,
	"step": 6710
	},
	{
	"epoch": 1.619351729123991,
	"grad_norm": 0.2959368824958801,
	"learning_rate": 5.180101440213311e-06,
	"loss": 0.2867,
	"step": 6720
	},
	{
	"epoch": 1.621761658031088,
	"grad_norm": 0.2992251217365265,
	"learning_rate": 5.166091139148307e-06,
	"loss": 0.2901,
	"step": 6730
	},
	{
	"epoch": 1.6241715869381852,
	"grad_norm": 0.3023647964000702,
	"learning_rate": 5.152079532447042e-06,
	"loss": 0.285,
	"step": 6740
	},
	{
	"epoch": 1.6265815158452825,
	"grad_norm": 0.32864809036254883,
	"learning_rate": 5.138066730254236e-06,
	"loss": 0.2836,
	"step": 6750
	},
	{
	"epoch": 1.62899144475238,
	"grad_norm": 0.3559044599533081,
	"learning_rate": 5.124052842724005e-06,
	"loss": 0.2846,
	"step": 6760
	},
	{
	"epoch": 1.631401373659477,
	"grad_norm": 0.2914750277996063,
	"learning_rate": 5.110037980018996e-06,
	"loss": 0.2912,
	"step": 6770
	},
	{
	"epoch": 1.6338113025665741,
	"grad_norm": 0.2919662594795227,
	"learning_rate": 5.0960222523095235e-06,
	"loss": 0.2835,
	"step": 6780
	},
	{
	"epoch": 1.6362212314736715,
	"grad_norm": 0.2858108580112457,
	"learning_rate": 5.0820057697727e-06,
	"loss": 0.2932,
	"step": 6790
	},
	{
	"epoch": 1.6386311603807688,
	"grad_norm": 0.25571468472480774,
	"learning_rate": 5.067988642591575e-06,
	"loss": 0.2847,
	"step": 6800
	},
	{
	"epoch": 1.641041089287866,
	"grad_norm": 0.27323436737060547,
	"learning_rate": 5.053970980954263e-06,
	"loss": 0.2863,
	"step": 6810
	},
	{
	"epoch": 1.643451018194963,
	"grad_norm": 0.2845330536365509,
	"learning_rate": 5.0399528950530776e-06,
	"loss": 0.2848,
	"step": 6820
	},
	{
	"epoch": 1.6458609471020604,
	"grad_norm": 0.28838446736335754,
	"learning_rate": 5.0259344950836715e-06,
	"loss": 0.2899,
	"step": 6830
	},
	{
	"epoch": 1.6482708760091578,
	"grad_norm": 0.2680440843105316,
	"learning_rate": 5.011915891244167e-06,
	"loss": 0.286,
	"step": 6840
	},
	{
	"epoch": 1.650680804916255,
	"grad_norm": 0.29971665143966675,
	"learning_rate": 4.997897193734285e-06,
	"loss": 0.2876,
	"step": 6850
	},
	{
	"epoch": 1.6530907338233523,
	"grad_norm": 0.30018773674964905,
	"learning_rate": 4.9838785127544826e-06,
	"loss": 0.2899,
	"step": 6860
	},
	{
	"epoch": 1.6555006627304496,
	"grad_norm": 0.3145407438278198,
	"learning_rate": 4.969859958505094e-06,
	"loss": 0.2833,
	"step": 6870
	},
	{
	"epoch": 1.6579105916375467,
	"grad_norm": 0.29628652334213257,
	"learning_rate": 4.955841641185447e-06,
	"loss": 0.2914,
	"step": 6880
	},
	{
	"epoch": 1.6603205205446439,
	"grad_norm": 0.3049013316631317,
	"learning_rate": 4.941823670993016e-06,
	"loss": 0.2893,
	"step": 6890
	},
	{
	"epoch": 1.6627304494517412,
	"grad_norm": 0.270277202129364,
	"learning_rate": 4.92780615812254e-06,
	"loss": 0.2848,
	"step": 6900
	},
	{
	"epoch": 1.6651403783588385,
	"grad_norm": 0.2688223421573639,
	"learning_rate": 4.913789212765166e-06,
	"loss": 0.2854,
	"step": 6910
	},
	{
	"epoch": 1.6675503072659357,
	"grad_norm": 0.3164508640766144,
	"learning_rate": 4.899772945107583e-06,
	"loss": 0.286,
	"step": 6920
	},
	{
	"epoch": 1.6699602361730328,
	"grad_norm": 0.2662699520587921,
	"learning_rate": 4.885757465331144e-06,
	"loss": 0.2919,
	"step": 6930
	},
	{
	"epoch": 1.6723701650801301,
	"grad_norm": 0.29557350277900696,
	"learning_rate": 4.871742883611018e-06,
	"loss": 0.2848,
	"step": 6940
	},
	{
	"epoch": 1.6747800939872275,
	"grad_norm": 0.2653961181640625,
	"learning_rate": 4.857729310115307e-06,
	"loss": 0.2849,
	"step": 6950
	},
	{
	"epoch": 1.6771900228943246,
	"grad_norm": 0.30664023756980896,
	"learning_rate": 4.843716855004194e-06,
	"loss": 0.2877,
	"step": 6960
	},
	{
	"epoch": 1.6795999518014217,
	"grad_norm": 0.3328422009944916,
	"learning_rate": 4.829705628429061e-06,
	"loss": 0.2891,
	"step": 6970
	},
	{
	"epoch": 1.682009880708519,
	"grad_norm": 0.2528517544269562,
	"learning_rate": 4.815695740531643e-06,
	"loss": 0.2862,
	"step": 6980
	},
	{
	"epoch": 1.6844198096156164,
	"grad_norm": 0.2732505798339844,
	"learning_rate": 4.801687301443149e-06,
	"loss": 0.2879,
	"step": 6990
	},
	{
	"epoch": 1.6868297385227136,
	"grad_norm": 0.25614839792251587,
	"learning_rate": 4.787680421283391e-06,
	"loss": 0.2844,
	"step": 7000
	},
	{
	"epoch": 1.6892396674298107,
	"grad_norm": 0.2603789269924164,
	"learning_rate": 4.773675210159938e-06,
	"loss": 0.2851,
	"step": 7010
	},
	{
	"epoch": 1.691649596336908,
	"grad_norm": 0.26232412457466125,
	"learning_rate": 4.759671778167228e-06,
	"loss": 0.2846,
	"step": 7020
	},
	{
	"epoch": 1.6940595252440054,
	"grad_norm": 0.28193601965904236,
	"learning_rate": 4.745670235385723e-06,
	"loss": 0.2912,
	"step": 7030
	},
	{
	"epoch": 1.6964694541511025,
	"grad_norm": 0.27519914507865906,
	"learning_rate": 4.7316706918810265e-06,
	"loss": 0.2881,
	"step": 7040
	},
	{
	"epoch": 1.6988793830581996,
	"grad_norm": 0.27231931686401367,
	"learning_rate": 4.71767325770303e-06,
	"loss": 0.2861,
	"step": 7050
	},
	{
	"epoch": 1.701289311965297,
	"grad_norm": 0.2673308849334717,
	"learning_rate": 4.703678042885044e-06,
	"loss": 0.2863,
	"step": 7060
	},
	{
	"epoch": 1.7036992408723943,
	"grad_norm": 0.3219567537307739,
	"learning_rate": 4.689685157442927e-06,
	"loss": 0.2808,
	"step": 7070
	},
	{
	"epoch": 1.7061091697794915,
	"grad_norm": 0.25494682788848877,
	"learning_rate": 4.675694711374234e-06,
	"loss": 0.2835,
	"step": 7080
	},
	{
	"epoch": 1.7085190986865888,
	"grad_norm": 0.3348108232021332,
	"learning_rate": 4.661706814657338e-06,
	"loss": 0.2868,
	"step": 7090
	},
	{
	"epoch": 1.7109290275936861,
	"grad_norm": 0.2693289816379547,
	"learning_rate": 4.647721577250578e-06,
	"loss": 0.2848,
	"step": 7100
	},
	{
	"epoch": 1.7133389565007833,
	"grad_norm": 0.2827538847923279,
	"learning_rate": 4.633739109091379e-06,
	"loss": 0.2932,
	"step": 7110
	},
	{
	"epoch": 1.7157488854078804,
	"grad_norm": 0.28156983852386475,
	"learning_rate": 4.61975952009541e-06,
	"loss": 0.2843,
	"step": 7120
	},
	{
	"epoch": 1.7181588143149777,
	"grad_norm": 0.2699451446533203,
	"learning_rate": 4.6057829201556905e-06,
	"loss": 0.2867,
	"step": 7130
	},
	{
	"epoch": 1.720568743222075,
	"grad_norm": 0.23494642972946167,
	"learning_rate": 4.591809419141758e-06,
	"loss": 0.2861,
	"step": 7140
	},
	{
	"epoch": 1.7229786721291722,
	"grad_norm": 0.27182596921920776,
	"learning_rate": 4.577839126898784e-06,
	"loss": 0.2884,
	"step": 7150
	},
	{
	"epoch": 1.7253886010362693,
	"grad_norm": 0.266577810049057,
	"learning_rate": 4.5638721532467125e-06,
	"loss": 0.286,
	"step": 7160
	},
	{
	"epoch": 1.7277985299433667,
	"grad_norm": 0.25009679794311523,
	"learning_rate": 4.549908607979407e-06,
	"loss": 0.2859,
	"step": 7170
	},
	{
	"epoch": 1.730208458850464,
	"grad_norm": 0.291410893201828,
	"learning_rate": 4.535948600863774e-06,
	"loss": 0.2904,
	"step": 7180
	},
	{
	"epoch": 1.7326183877575612,
	"grad_norm": 0.26724138855934143,
	"learning_rate": 4.521992241638912e-06,
	"loss": 0.2834,
	"step": 7190
	},
	{
	"epoch": 1.7350283166646583,
	"grad_norm": 0.2657167613506317,
	"learning_rate": 4.508039640015237e-06,
	"loss": 0.2862,
	"step": 7200
	},
	{
	"epoch": 1.7374382455717556,
	"grad_norm": 0.2705713212490082,
	"learning_rate": 4.494090905673634e-06,
	"loss": 0.2899,
	"step": 7210
	},
	{
	"epoch": 1.739848174478853,
	"grad_norm": 0.27287557721138,
	"learning_rate": 4.480146148264586e-06,
	"loss": 0.286,
	"step": 7220
	},
	{
	"epoch": 1.74225810338595,
	"grad_norm": 0.28371626138687134,
	"learning_rate": 4.466205477407308e-06,
	"loss": 0.2862,
	"step": 7230
	},
	{
	"epoch": 1.7446680322930472,
	"grad_norm": 0.25202977657318115,
	"learning_rate": 4.452269002688897e-06,
	"loss": 0.2874,
	"step": 7240
	},
	{
	"epoch": 1.7470779612001446,
	"grad_norm": 0.270609587430954,
	"learning_rate": 4.438336833663459e-06,
	"loss": 0.2898,
	"step": 7250
	},
	{
	"epoch": 1.749487890107242,
	"grad_norm": 0.25321683287620544,
	"learning_rate": 4.424409079851262e-06,
	"loss": 0.2881,
	"step": 7260
	},
	{
	"epoch": 1.751897819014339,
	"grad_norm": 0.2746410071849823,
	"learning_rate": 4.410485850737853e-06,
	"loss": 0.2875,
	"step": 7270
	},
	{
	"epoch": 1.7543077479214362,
	"grad_norm": 0.2834981381893158,
	"learning_rate": 4.39656725577322e-06,
	"loss": 0.2864,
	"step": 7280
	},
	{
	"epoch": 1.7567176768285335,
	"grad_norm": 0.2667975425720215,
	"learning_rate": 4.382653404370922e-06,
	"loss": 0.2869,
	"step": 7290
	},
	{
	"epoch": 1.7591276057356309,
	"grad_norm": 0.2415338009595871,
	"learning_rate": 4.368744405907224e-06,
	"loss": 0.2886,
	"step": 7300
	},
	{
	"epoch": 1.761537534642728,
	"grad_norm": 0.2679169476032257,
	"learning_rate": 4.354840369720249e-06,
	"loss": 0.2885,
	"step": 7310
	},
	{
	"epoch": 1.7639474635498251,
	"grad_norm": 0.28450414538383484,
	"learning_rate": 4.340941405109102e-06,
	"loss": 0.29,
	"step": 7320
	},
	{
	"epoch": 1.7663573924569225,
	"grad_norm": 0.27103617787361145,
	"learning_rate": 4.327047621333031e-06,
	"loss": 0.2864,
	"step": 7330
	},
	{
	"epoch": 1.7687673213640198,
	"grad_norm": 0.26937100291252136,
	"learning_rate": 4.31315912761055e-06,
	"loss": 0.2833,
	"step": 7340
	},
	{
	"epoch": 1.771177250271117,
	"grad_norm": 0.2887953817844391,
	"learning_rate": 4.299276033118592e-06,
	"loss": 0.288,
	"step": 7350
	},
	{
	"epoch": 1.7735871791782143,
	"grad_norm": 0.266426682472229,
	"learning_rate": 4.285398446991648e-06,
	"loss": 0.2887,
	"step": 7360
	},
	{
	"epoch": 1.7759971080853116,
	"grad_norm": 0.25721701979637146,
	"learning_rate": 4.271526478320901e-06,
	"loss": 0.2852,
	"step": 7370
	},
	{
	"epoch": 1.7784070369924088,
	"grad_norm": 0.2671133577823639,
	"learning_rate": 4.257660236153387e-06,
	"loss": 0.282,
	"step": 7380
	},
	{
	"epoch": 1.7808169658995059,
	"grad_norm": 0.24971242249011993,
	"learning_rate": 4.2437998294911114e-06,
	"loss": 0.2869,
	"step": 7390
	},
	{
	"epoch": 1.7832268948066032,
	"grad_norm": 0.277211457490921,
	"learning_rate": 4.229945367290222e-06,
	"loss": 0.2868,
	"step": 7400
	},
	{
	"epoch": 1.7856368237137006,
	"grad_norm": 0.2534857392311096,
	"learning_rate": 4.216096958460126e-06,
	"loss": 0.2849,
	"step": 7410
	},
	{
	"epoch": 1.7880467526207977,
	"grad_norm": 0.2694603502750397,
	"learning_rate": 4.2022547118626515e-06,
	"loss": 0.2876,
	"step": 7420
	},
	{
	"epoch": 1.7904566815278948,
	"grad_norm": 0.2833469808101654,
	"learning_rate": 4.18841873631118e-06,
	"loss": 0.288,
	"step": 7430
	},
	{
	"epoch": 1.7928666104349922,
	"grad_norm": 0.25494858622550964,
	"learning_rate": 4.174589140569805e-06,
	"loss": 0.2869,
	"step": 7440
	},
	{
	"epoch": 1.7952765393420895,
	"grad_norm": 0.25166577100753784,
	"learning_rate": 4.160766033352462e-06,
	"loss": 0.2857,
	"step": 7450
	},
	{
	"epoch": 1.7976864682491867,
	"grad_norm": 0.2891492247581482,
	"learning_rate": 4.14694952332208e-06,
	"loss": 0.2832,
	"step": 7460
	},
	{
	"epoch": 1.8000963971562838,
	"grad_norm": 0.27150294184684753,
	"learning_rate": 4.133139719089735e-06,
	"loss": 0.2815,
	"step": 7470
	},
	{
	"epoch": 1.8025063260633811,
	"grad_norm": 0.25272929668426514,
	"learning_rate": 4.119336729213778e-06,
	"loss": 0.2902,
	"step": 7480
	},
	{
	"epoch": 1.8049162549704785,
	"grad_norm": 0.2977455258369446,
	"learning_rate": 4.105540662199002e-06,
	"loss": 0.2886,
	"step": 7490
	},
	{
	"epoch": 1.8073261838775756,
	"grad_norm": 0.28904902935028076,
	"learning_rate": 4.0917516264957735e-06,
	"loss": 0.2821,
	"step": 7500
	},
	{
	"epoch": 1.8097361127846727,
	"grad_norm": 0.28051844239234924,
	"learning_rate": 4.07796973049919e-06,
	"loss": 0.2861,
	"step": 7510
	},
	{
	"epoch": 1.81214604169177,
	"grad_norm": 0.27493828535079956,
	"learning_rate": 4.0641950825482265e-06,
	"loss": 0.2855,
	"step": 7520
	},
	{
	"epoch": 1.8145559705988674,
	"grad_norm": 0.2459917813539505,
	"learning_rate": 4.0504277909248715e-06,
	"loss": 0.2832,
	"step": 7530
	},
	{
	"epoch": 1.8169658995059645,
	"grad_norm": 0.3001043200492859,
	"learning_rate": 4.036667963853296e-06,
	"loss": 0.2885,
	"step": 7540
	},
	{
	"epoch": 1.8193758284130617,
	"grad_norm": 0.3007722795009613,
	"learning_rate": 4.022915709498985e-06,
	"loss": 0.2869,
	"step": 7550
	},
	{
	"epoch": 1.821785757320159,
	"grad_norm": 0.31773853302001953,
	"learning_rate": 4.009171135967902e-06,
	"loss": 0.2863,
	"step": 7560
	},
	{
	"epoch": 1.8241956862272564,
	"grad_norm": 0.24186250567436218,
	"learning_rate": 3.9954343513056236e-06,
	"loss": 0.2863,
	"step": 7570
	},
	{
	"epoch": 1.8266056151343535,
	"grad_norm": 0.2501089572906494,
	"learning_rate": 3.981705463496504e-06,
	"loss": 0.2826,
	"step": 7580
	},
	{
	"epoch": 1.8290155440414506,
	"grad_norm": 0.24977731704711914,
	"learning_rate": 3.967984580462821e-06,
	"loss": 0.2874,
	"step": 7590
	},
	{
	"epoch": 1.8314254729485482,
	"grad_norm": 0.2675504684448242,
	"learning_rate": 3.954271810063922e-06,
	"loss": 0.289,
	"step": 7600
	},
	{
	"epoch": 1.8338354018556453,
	"grad_norm": 0.28444167971611023,
	"learning_rate": 3.940567260095389e-06,
	"loss": 0.2872,
	"step": 7610
	},
	{
	"epoch": 1.8362453307627424,
	"grad_norm": 0.26455429196357727,
	"learning_rate": 3.926871038288173e-06,
	"loss": 0.2843,
	"step": 7620
	},
	{
	"epoch": 1.8386552596698398,
	"grad_norm": 0.2605203092098236,
	"learning_rate": 3.9131832523077685e-06,
	"loss": 0.2866,
	"step": 7630
	},
	{
	"epoch": 1.8410651885769371,
	"grad_norm": 0.2668202221393585,
	"learning_rate": 3.8995040097533495e-06,
	"loss": 0.287,
	"step": 7640
	},
	{
	"epoch": 1.8434751174840343,
	"grad_norm": 0.264511376619339,
	"learning_rate": 3.885833418156932e-06,
	"loss": 0.2879,
	"step": 7650
	},
	{
	"epoch": 1.8458850463911314,
	"grad_norm": 0.2654918134212494,
	"learning_rate": 3.8721715849825305e-06,
	"loss": 0.2855,
	"step": 7660
	},
	{
	"epoch": 1.8482949752982287,
	"grad_norm": 0.232497438788414,
	"learning_rate": 3.858518617625301e-06,
	"loss": 0.2848,
	"step": 7670
	},
	{
	"epoch": 1.850704904205326,
	"grad_norm": 0.24657873809337616,
	"learning_rate": 3.844874623410718e-06,
	"loss": 0.285,
	"step": 7680
	},
	{
	"epoch": 1.8531148331124232,
	"grad_norm": 0.28667452931404114,
	"learning_rate": 3.831239709593707e-06,
	"loss": 0.2849,
	"step": 7690
	},
	{
	"epoch": 1.8555247620195203,
	"grad_norm": 0.3212379813194275,
	"learning_rate": 3.8176139833578215e-06,
	"loss": 0.2843,
	"step": 7700
	},
	{
	"epoch": 1.8579346909266177,
	"grad_norm": 0.29150134325027466,
	"learning_rate": 3.8039975518143862e-06,
	"loss": 0.2848,
	"step": 7710
	},
	{
	"epoch": 1.860344619833715,
	"grad_norm": 0.29937228560447693,
	"learning_rate": 3.790390522001662e-06,
	"loss": 0.2867,
	"step": 7720
	},
	{
	"epoch": 1.8627545487408121,
	"grad_norm": 0.24459919333457947,
	"learning_rate": 3.7767930008840055e-06,
	"loss": 0.2848,
	"step": 7730
	},
	{
	"epoch": 1.8651644776479093,
	"grad_norm": 0.2656625807285309,
	"learning_rate": 3.763205095351021e-06,
	"loss": 0.2837,
	"step": 7740
	},
	{
	"epoch": 1.8675744065550066,
	"grad_norm": 0.26722806692123413,
	"learning_rate": 3.7496269122167306e-06,
	"loss": 0.2867,
	"step": 7750
	},
	{
	"epoch": 1.869984335462104,
	"grad_norm": 0.29480451345443726,
	"learning_rate": 3.7360585582187246e-06,
	"loss": 0.2887,
	"step": 7760
	},
	{
	"epoch": 1.872394264369201,
	"grad_norm": 0.279774010181427,
	"learning_rate": 3.7225001400173303e-06,
	"loss": 0.2843,
	"step": 7770
	},
	{
	"epoch": 1.8748041932762982,
	"grad_norm": 0.2663390636444092,
	"learning_rate": 3.708951764194767e-06,
	"loss": 0.284,
	"step": 7780
	},
	{
	"epoch": 1.8772141221833956,
	"grad_norm": 0.2443542182445526,
	"learning_rate": 3.6954135372543133e-06,
	"loss": 0.2851,
	"step": 7790
	},
	{
	"epoch": 1.879624051090493,
	"grad_norm": 0.27192696928977966,
	"learning_rate": 3.681885565619465e-06,
	"loss": 0.2852,
	"step": 7800
	},
	{
	"epoch": 1.88203397999759,
	"grad_norm": 0.27754443883895874,
	"learning_rate": 3.668367955633107e-06,
	"loss": 0.2861,
	"step": 7810
	},
	{
	"epoch": 1.8844439089046872,
	"grad_norm": 0.24490150809288025,
	"learning_rate": 3.654860813556666e-06,
	"loss": 0.2882,
	"step": 7820
	},
	{
	"epoch": 1.8868538378117845,
	"grad_norm": 0.2598813474178314,
	"learning_rate": 3.6413642455692826e-06,
	"loss": 0.2801,
	"step": 7830
	},
	{
	"epoch": 1.8892637667188819,
	"grad_norm": 0.2861774265766144,
	"learning_rate": 3.6278783577669762e-06,
	"loss": 0.2873,
	"step": 7840
	},
	{
	"epoch": 1.891673695625979,
	"grad_norm": 0.27754855155944824,
	"learning_rate": 3.614403256161807e-06,
	"loss": 0.2839,
	"step": 7850
	},
	{
	"epoch": 1.8940836245330763,
	"grad_norm": 0.25313782691955566,
	"learning_rate": 3.60093904668105e-06,
	"loss": 0.285,
	"step": 7860
	},
	{
	"epoch": 1.8964935534401737,
	"grad_norm": 0.26128053665161133,
	"learning_rate": 3.5874858351663513e-06,
	"loss": 0.2848,
	"step": 7870
	},
	{
	"epoch": 1.8989034823472708,
	"grad_norm": 0.24658171832561493,
	"learning_rate": 3.5740437273729074e-06,
	"loss": 0.2862,
	"step": 7880
	},
	{
	"epoch": 1.901313411254368,
	"grad_norm": 0.2530352473258972,
	"learning_rate": 3.560612828968627e-06,
	"loss": 0.2841,
	"step": 7890
	},
	{
	"epoch": 1.9037233401614653,
	"grad_norm": 0.2688226103782654,
	"learning_rate": 3.5471932455333013e-06,
	"loss": 0.2851,
	"step": 7900
	},
	{
	"epoch": 1.9061332690685626,
	"grad_norm": 0.289824903011322,
	"learning_rate": 3.533785082557779e-06,
	"loss": 0.2854,
	"step": 7910
	},
	{
	"epoch": 1.9085431979756597,
	"grad_norm": 0.2817147374153137,
	"learning_rate": 3.520388445443126e-06,
	"loss": 0.2862,
	"step": 7920
	},
	{
	"epoch": 1.9109531268827569,
	"grad_norm": 0.2668115496635437,
	"learning_rate": 3.5070034394998108e-06,
	"loss": 0.2826,
	"step": 7930
	},
	{
	"epoch": 1.9133630557898542,
	"grad_norm": 0.262044757604599,
	"learning_rate": 3.4936301699468646e-06,
	"loss": 0.2847,
	"step": 7940
	},
	{
	"epoch": 1.9157729846969516,
	"grad_norm": 0.25297319889068604,
	"learning_rate": 3.4802687419110635e-06,
	"loss": 0.2812,
	"step": 7950
	},
	{
	"epoch": 1.9181829136040487,
	"grad_norm": 0.2564113438129425,
	"learning_rate": 3.466919260426095e-06,
	"loss": 0.2863,
	"step": 7960
	},
	{
	"epoch": 1.9205928425111458,
	"grad_norm": 0.2774723172187805,
	"learning_rate": 3.4535818304317338e-06,
	"loss": 0.2823,
	"step": 7970
	},
	{
	"epoch": 1.9230027714182432,
	"grad_norm": 0.26373621821403503,
	"learning_rate": 3.440256556773025e-06,
	"loss": 0.2818,
	"step": 7980
	},
	{
	"epoch": 1.9254127003253405,
	"grad_norm": 0.25551316142082214,
	"learning_rate": 3.426943544199444e-06,
	"loss": 0.2855,
	"step": 7990
	},
	{
	"epoch": 1.9278226292324376,
	"grad_norm": 0.2643725275993347,
	"learning_rate": 3.413642897364091e-06,
	"loss": 0.2854,
	"step": 8000
	},
	{
	"epoch": 1.9302325581395348,
	"grad_norm": 0.24472209811210632,
	"learning_rate": 3.400354720822851e-06,
	"loss": 0.2877,
	"step": 8010
	},
	{
	"epoch": 1.932642487046632,
	"grad_norm": 0.2692047357559204,
	"learning_rate": 3.38707911903359e-06,
	"loss": 0.2891,
	"step": 8020
	},
	{
	"epoch": 1.9350524159537295,
	"grad_norm": 0.25623267889022827,
	"learning_rate": 3.373816196355315e-06,
	"loss": 0.283,
	"step": 8030
	},
	{
	"epoch": 1.9374623448608266,
	"grad_norm": 0.2563038766384125,
	"learning_rate": 3.3605660570473687e-06,
	"loss": 0.2845,
	"step": 8040
	},
	{
	"epoch": 1.9398722737679237,
	"grad_norm": 0.2525623142719269,
	"learning_rate": 3.3473288052686055e-06,
	"loss": 0.2858,
	"step": 8050
	},
	{
	"epoch": 1.942282202675021,
	"grad_norm": 0.262759804725647,
	"learning_rate": 3.334104545076564e-06,
	"loss": 0.2828,
	"step": 8060
	},
	{
	"epoch": 1.9446921315821184,
	"grad_norm": 0.25709277391433716,
	"learning_rate": 3.320893380426667e-06,
	"loss": 0.2868,
	"step": 8070
	},
	{
	"epoch": 1.9471020604892155,
	"grad_norm": 0.27661755681037903,
	"learning_rate": 3.3076954151713815e-06,
	"loss": 0.2873,
	"step": 8080
	},
	{
	"epoch": 1.9495119893963127,
	"grad_norm": 0.2615211606025696,
	"learning_rate": 3.294510753059427e-06,
	"loss": 0.2801,
	"step": 8090
	},
	{
	"epoch": 1.95192191830341,
	"grad_norm": 0.23330195248126984,
	"learning_rate": 3.2813394977349356e-06,
	"loss": 0.2814,
	"step": 8100
	},
	{
	"epoch": 1.9543318472105073,
	"grad_norm": 0.2560233175754547,
	"learning_rate": 3.2681817527366575e-06,
	"loss": 0.2825,
	"step": 8110
	},
	{
	"epoch": 1.9567417761176045,
	"grad_norm": 0.2532351613044739,
	"learning_rate": 3.2550376214971395e-06,
	"loss": 0.2866,
	"step": 8120
	},
	{
	"epoch": 1.9591517050247018,
	"grad_norm": 0.2512272596359253,
	"learning_rate": 3.241907207341902e-06,
	"loss": 0.2836,
	"step": 8130
	},
	{
	"epoch": 1.9615616339317992,
	"grad_norm": 0.22670798003673553,
	"learning_rate": 3.2287906134886483e-06,
	"loss": 0.2815,
	"step": 8140
	},
	{
	"epoch": 1.9639715628388963,
	"grad_norm": 0.2514531910419464,
	"learning_rate": 3.215687943046427e-06,
	"loss": 0.2824,
	"step": 8150
	},
	{
	"epoch": 1.9663814917459934,
	"grad_norm": 0.2728106379508972,
	"learning_rate": 3.202599299014849e-06,
	"loss": 0.2882,
	"step": 8160
	},
	{
	"epoch": 1.9687914206530908,
	"grad_norm": 0.27687183022499084,
	"learning_rate": 3.1895247842832523e-06,
	"loss": 0.285,
	"step": 8170
	},
	{
	"epoch": 1.971201349560188,
	"grad_norm": 0.2526043653488159,
	"learning_rate": 3.1764645016299133e-06,
	"loss": 0.2769,
	"step": 8180
	},
	{
	"epoch": 1.9736112784672852,
	"grad_norm": 0.24240359663963318,
	"learning_rate": 3.163418553721229e-06,
	"loss": 0.2841,
	"step": 8190
	},
	{
	"epoch": 1.9760212073743824,
	"grad_norm": 0.25546133518218994,
	"learning_rate": 3.1503870431109067e-06,
	"loss": 0.2886,
	"step": 8200
	},
	{
	"epoch": 1.9784311362814797,
	"grad_norm": 0.23999342322349548,
	"learning_rate": 3.1373700722391696e-06,
	"loss": 0.2819,
	"step": 8210
	},
	{
	"epoch": 1.980841065188577,
	"grad_norm": 0.2650808095932007,
	"learning_rate": 3.1243677434319373e-06,
	"loss": 0.2866,
	"step": 8220
	},
	{
	"epoch": 1.9832509940956742,
	"grad_norm": 0.26015257835388184,
	"learning_rate": 3.111380158900037e-06,
	"loss": 0.2825,
	"step": 8230
	},
	{
	"epoch": 1.9856609230027713,
	"grad_norm": 0.2612088918685913,
	"learning_rate": 3.098407420738382e-06,
	"loss": 0.2837,
	"step": 8240
	},
	{
	"epoch": 1.9880708519098687,
	"grad_norm": 0.2956829369068146,
	"learning_rate": 3.0854496309251857e-06,
	"loss": 0.2844,
	"step": 8250
	},
	{
	"epoch": 1.990480780816966,
	"grad_norm": 0.2584056854248047,
	"learning_rate": 3.0725068913211546e-06,
	"loss": 0.2826,
	"step": 8260
	},
	{
	"epoch": 1.9928907097240631,
	"grad_norm": 0.2607899010181427,
	"learning_rate": 3.059579303668678e-06,
	"loss": 0.2865,
	"step": 8270
	},
	{
	"epoch": 1.9953006386311603,
	"grad_norm": 0.27197593450546265,
	"learning_rate": 3.046666969591046e-06,
	"loss": 0.2848,
	"step": 8280
	},
	{
	"epoch": 1.9977105675382576,
	"grad_norm": 0.23277588188648224,
	"learning_rate": 3.0337699905916308e-06,
	"loss": 0.2858,
	"step": 8290
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.387172669172287,
	"learning_rate": 3.020888468053109e-06,
	"loss": 0.2811,
	"step": 8300
	},
	{
	"epoch": 2.002409928907097,
	"grad_norm": 0.2715030312538147,
	"learning_rate": 3.0080225032366443e-06,
	"loss": 0.282,
	"step": 8310
	},
	{
	"epoch": 2.0048198578141947,
	"grad_norm": 0.2960715591907501,
	"learning_rate": 2.9951721972811133e-06,
	"loss": 0.2804,
	"step": 8320
	},
	{
	"epoch": 2.007229786721292,
	"grad_norm": 0.24350425601005554,
	"learning_rate": 2.982337651202286e-06,
	"loss": 0.2769,
	"step": 8330
	},
	{
	"epoch": 2.009639715628389,
	"grad_norm": 0.23730815947055817,
	"learning_rate": 2.9695189658920555e-06,
	"loss": 0.2809,
	"step": 8340
	},
	{
	"epoch": 2.012049644535486,
	"grad_norm": 0.300300657749176,
	"learning_rate": 2.95671624211763e-06,
	"loss": 0.282,
	"step": 8350
	},
	{
	"epoch": 2.0144595734425836,
	"grad_norm": 0.2968407869338989,
	"learning_rate": 2.9439295805207415e-06,
	"loss": 0.2768,
	"step": 8360
	},
	{
	"epoch": 2.0168695023496808,
	"grad_norm": 0.2565847635269165,
	"learning_rate": 2.9311590816168646e-06,
	"loss": 0.2787,
	"step": 8370
	},
	{
	"epoch": 2.019279431256778,
	"grad_norm": 0.25447431206703186,
	"learning_rate": 2.918404845794411e-06,
	"loss": 0.2783,
	"step": 8380
	},
	{
	"epoch": 2.021689360163875,
	"grad_norm": 0.25527018308639526,
	"learning_rate": 2.905666973313957e-06,
	"loss": 0.2784,
	"step": 8390
	},
	{
	"epoch": 2.0240992890709726,
	"grad_norm": 0.23927630484104156,
	"learning_rate": 2.8929455643074433e-06,
	"loss": 0.2788,
	"step": 8400
	},
	{
	"epoch": 2.0265092179780697,
	"grad_norm": 0.22611407935619354,
	"learning_rate": 2.8802407187773917e-06,
	"loss": 0.2826,
	"step": 8410
	},
	{
	"epoch": 2.028919146885167,
	"grad_norm": 0.2710784077644348,
	"learning_rate": 2.86755253659612e-06,
	"loss": 0.2815,
	"step": 8420
	},
	{
	"epoch": 2.031329075792264,
	"grad_norm": 0.25028517842292786,
	"learning_rate": 2.854881117504954e-06,
	"loss": 0.2822,
	"step": 8430
	},
	{
	"epoch": 2.0337390046993615,
	"grad_norm": 0.23419739305973053,
	"learning_rate": 2.8422265611134535e-06,
	"loss": 0.2822,
	"step": 8440
	},
	{
	"epoch": 2.0361489336064587,
	"grad_norm": 0.23298171162605286,
	"learning_rate": 2.829588966898607e-06,
	"loss": 0.28,
	"step": 8450
	},
	{
	"epoch": 2.038558862513556,
	"grad_norm": 0.24704048037528992,
	"learning_rate": 2.8169684342040802e-06,
	"loss": 0.2813,
	"step": 8460
	},
	{
	"epoch": 2.040968791420653,
	"grad_norm": 0.25540071725845337,
	"learning_rate": 2.8043650622394023e-06,
	"loss": 0.281,
	"step": 8470
	},
	{
	"epoch": 2.0433787203277505,
	"grad_norm": 0.24557971954345703,
	"learning_rate": 2.791778950079217e-06,
	"loss": 0.2798,
	"step": 8480
	},
	{
	"epoch": 2.0457886492348476,
	"grad_norm": 0.23937660455703735,
	"learning_rate": 2.779210196662482e-06,
	"loss": 0.2789,
	"step": 8490
	},
	{
	"epoch": 2.0481985781419447,
	"grad_norm": 0.24609753489494324,
	"learning_rate": 2.766658900791699e-06,
	"loss": 0.2821,
	"step": 8500
	},
	{
	"epoch": 2.050608507049042,
	"grad_norm": 0.26149070262908936,
	"learning_rate": 2.7541251611321385e-06,
	"loss": 0.2834,
	"step": 8510
	},
	{
	"epoch": 2.0530184359561394,
	"grad_norm": 0.2611995339393616,
	"learning_rate": 2.7416090762110603e-06,
	"loss": 0.2798,
	"step": 8520
	},
	{
	"epoch": 2.0554283648632365,
	"grad_norm": 0.30407094955444336,
	"learning_rate": 2.729110744416943e-06,
	"loss": 0.2821,
	"step": 8530
	},
	{
	"epoch": 2.0578382937703337,
	"grad_norm": 0.25250375270843506,
	"learning_rate": 2.716630263998706e-06,
	"loss": 0.2795,
	"step": 8540
	},
	{
	"epoch": 2.060248222677431,
	"grad_norm": 0.2963114380836487,
	"learning_rate": 2.7041677330649408e-06,
	"loss": 0.2853,
	"step": 8550
	},
	{
	"epoch": 2.0626581515845284,
	"grad_norm": 0.2744787931442261,
	"learning_rate": 2.6917232495831436e-06,
	"loss": 0.2784,
	"step": 8560
	},
	{
	"epoch": 2.0650680804916255,
	"grad_norm": 0.2293006181716919,
	"learning_rate": 2.6792969113789285e-06,
	"loss": 0.284,
	"step": 8570
	},
	{
	"epoch": 2.0674780093987226,
	"grad_norm": 0.2301948219537735,
	"learning_rate": 2.666888816135285e-06,
	"loss": 0.2766,
	"step": 8580
	},
	{
	"epoch": 2.06988793830582,
	"grad_norm": 0.2431914508342743,
	"learning_rate": 2.6544990613917803e-06,
	"loss": 0.2802,
	"step": 8590
	},
	{
	"epoch": 2.0722978672129173,
	"grad_norm": 0.2409626543521881,
	"learning_rate": 2.642127744543823e-06,
	"loss": 0.2837,
	"step": 8600
	},
	{
	"epoch": 2.0747077961200144,
	"grad_norm": 0.2271670699119568,
	"learning_rate": 2.6297749628418654e-06,
	"loss": 0.2788,
	"step": 8610
	},
	{
	"epoch": 2.0771177250271116,
	"grad_norm": 0.25070375204086304,
	"learning_rate": 2.617440813390674e-06,
	"loss": 0.2814,
	"step": 8620
	},
	{
	"epoch": 2.079527653934209,
	"grad_norm": 0.2998311221599579,
	"learning_rate": 2.605125393148529e-06,
	"loss": 0.2784,
	"step": 8630
	},
	{
	"epoch": 2.0819375828413063,
	"grad_norm": 0.25838446617126465,
	"learning_rate": 2.592828798926496e-06,
	"loss": 0.2747,
	"step": 8640
	},
	{
	"epoch": 2.0843475117484034,
	"grad_norm": 0.33867505192756653,
	"learning_rate": 2.580551127387644e-06,
	"loss": 0.2818,
	"step": 8650
	},
	{
	"epoch": 2.0867574406555005,
	"grad_norm": 0.2731892168521881,
	"learning_rate": 2.5682924750462907e-06,
	"loss": 0.2793,
	"step": 8660
	},
	{
	"epoch": 2.089167369562598,
	"grad_norm": 0.2343621551990509,
	"learning_rate": 2.5560529382672462e-06,
	"loss": 0.2792,
	"step": 8670
	},
	{
	"epoch": 2.091577298469695,
	"grad_norm": 0.24770377576351166,
	"learning_rate": 2.5438326132650524e-06,
	"loss": 0.2813,
	"step": 8680
	},
	{
	"epoch": 2.0939872273767923,
	"grad_norm": 0.27652689814567566,
	"learning_rate": 2.531631596103231e-06,
	"loss": 0.2787,
	"step": 8690
	},
	{
	"epoch": 2.0963971562838895,
	"grad_norm": 0.2538281977176666,
	"learning_rate": 2.5194499826935216e-06,
	"loss": 0.2769,
	"step": 8700
	},
	{
	"epoch": 2.098807085190987,
	"grad_norm": 0.235815167427063,
	"learning_rate": 2.507287868795133e-06,
	"loss": 0.2801,
	"step": 8710
	},
	{
	"epoch": 2.101217014098084,
	"grad_norm": 0.2482118159532547,
	"learning_rate": 2.495145350013995e-06,
	"loss": 0.278,
	"step": 8720
	},
	{
	"epoch": 2.1036269430051813,
	"grad_norm": 0.24695634841918945,
	"learning_rate": 2.4830225218019878e-06,
	"loss": 0.2807,
	"step": 8730
	},
	{
	"epoch": 2.1060368719122784,
	"grad_norm": 0.2684977054595947,
	"learning_rate": 2.4709194794562204e-06,
	"loss": 0.28,
	"step": 8740
	},
	{
	"epoch": 2.108446800819376,
	"grad_norm": 0.2521422207355499,
	"learning_rate": 2.45883631811825e-06,
	"loss": 0.2802,
	"step": 8750
	},
	{
	"epoch": 2.110856729726473,
	"grad_norm": 0.26972898840904236,
	"learning_rate": 2.4467731327733665e-06,
	"loss": 0.2774,
	"step": 8760
	},
	{
	"epoch": 2.11326665863357,
	"grad_norm": 0.2409173846244812,
	"learning_rate": 2.4347300182498116e-06,
	"loss": 0.2803,
	"step": 8770
	},
	{
	"epoch": 2.1156765875406673,
	"grad_norm": 0.2347976118326187,
	"learning_rate": 2.422707069218068e-06,
	"loss": 0.2808,
	"step": 8780
	},
	{
	"epoch": 2.118086516447765,
	"grad_norm": 0.24575212597846985,
	"learning_rate": 2.4107043801900863e-06,
	"loss": 0.2781,
	"step": 8790
	},
	{
	"epoch": 2.120496445354862,
	"grad_norm": 0.2557240128517151,
	"learning_rate": 2.39872204551856e-06,
	"loss": 0.2793,
	"step": 8800
	},
	{
	"epoch": 2.122906374261959,
	"grad_norm": 0.28168028593063354,
	"learning_rate": 2.3867601593961744e-06,
	"loss": 0.2844,
	"step": 8810
	},
	{
	"epoch": 2.1253163031690567,
	"grad_norm": 0.2684621810913086,
	"learning_rate": 2.374818815854871e-06,
	"loss": 0.2776,
	"step": 8820
	},
	{
	"epoch": 2.127726232076154,
	"grad_norm": 0.24426181614398956,
	"learning_rate": 2.3628981087651073e-06,
	"loss": 0.2778,
	"step": 8830
	},
	{
	"epoch": 2.130136160983251,
	"grad_norm": 0.25688448548316956,
	"learning_rate": 2.350998131835117e-06,
	"loss": 0.2825,
	"step": 8840
	},
	{
	"epoch": 2.132546089890348,
	"grad_norm": 0.22721527516841888,
	"learning_rate": 2.339118978610175e-06,
	"loss": 0.2833,
	"step": 8850
	},
	{
	"epoch": 2.1349560187974457,
	"grad_norm": 0.22164686024188995,
	"learning_rate": 2.3272607424718675e-06,
	"loss": 0.2778,
	"step": 8860
	},
	{
	"epoch": 2.137365947704543,
	"grad_norm": 0.2531869113445282,
	"learning_rate": 2.315423516637339e-06,
	"loss": 0.281,
	"step": 8870
	},
	{
	"epoch": 2.13977587661164,
	"grad_norm": 0.2391565442085266,
	"learning_rate": 2.3036073941585898e-06,
	"loss": 0.2776,
	"step": 8880
	},
	{
	"epoch": 2.142185805518737,
	"grad_norm": 0.23546358942985535,
	"learning_rate": 2.2918124679217106e-06,
	"loss": 0.2748,
	"step": 8890
	},
	{
	"epoch": 2.1445957344258346,
	"grad_norm": 0.23881220817565918,
	"learning_rate": 2.2800388306461847e-06,
	"loss": 0.2788,
	"step": 8900
	},
	{
	"epoch": 2.1470056633329317,
	"grad_norm": 0.24680814146995544,
	"learning_rate": 2.2682865748841293e-06,
	"loss": 0.2781,
	"step": 8910
	},
	{
	"epoch": 2.149415592240029,
	"grad_norm": 0.2697165608406067,
	"learning_rate": 2.2565557930195963e-06,
	"loss": 0.2831,
	"step": 8920
	},
	{
	"epoch": 2.151825521147126,
	"grad_norm": 0.2454947978258133,
	"learning_rate": 2.244846577267818e-06,
	"loss": 0.2799,
	"step": 8930
	},
	{
	"epoch": 2.1542354500542236,
	"grad_norm": 0.2292177677154541,
	"learning_rate": 2.2331590196745094e-06,
	"loss": 0.2826,
	"step": 8940
	},
	{
	"epoch": 2.1566453789613207,
	"grad_norm": 0.23220190405845642,
	"learning_rate": 2.221493212115123e-06,
	"loss": 0.2822,
	"step": 8950
	},
	{
	"epoch": 2.159055307868418,
	"grad_norm": 0.24394239485263824,
	"learning_rate": 2.209849246294138e-06,
	"loss": 0.2806,
	"step": 8960
	},
	{
	"epoch": 2.161465236775515,
	"grad_norm": 0.2646790146827698,
	"learning_rate": 2.1982272137443356e-06,
	"loss": 0.2784,
	"step": 8970
	},
	{
	"epoch": 2.1638751656826125,
	"grad_norm": 0.2294166386127472,
	"learning_rate": 2.186627205826082e-06,
	"loss": 0.2802,
	"step": 8980
	},
	{
	"epoch": 2.1662850945897096,
	"grad_norm": 0.23543481528759003,
	"learning_rate": 2.1750493137266064e-06,
	"loss": 0.2847,
	"step": 8990
	},
	{
	"epoch": 2.1686950234968068,
	"grad_norm": 0.23800669610500336,
	"learning_rate": 2.1634936284592882e-06,
	"loss": 0.2818,
	"step": 9000
	},
	{
	"epoch": 2.171104952403904,
	"grad_norm": 0.22843964397907257,
	"learning_rate": 2.151960240862937e-06,
	"loss": 0.2832,
	"step": 9010
	},
	{
	"epoch": 2.1735148813110015,
	"grad_norm": 0.27309122681617737,
	"learning_rate": 2.1404492416010885e-06,
	"loss": 0.2787,
	"step": 9020
	},
	{
	"epoch": 2.1759248102180986,
	"grad_norm": 0.2551872730255127,
	"learning_rate": 2.128960721161273e-06,
	"loss": 0.282,
	"step": 9030
	},
	{
	"epoch": 2.1783347391251957,
	"grad_norm": 0.2550753355026245,
	"learning_rate": 2.1174947698543276e-06,
	"loss": 0.2785,
	"step": 9040
	},
	{
	"epoch": 2.1807446680322933,
	"grad_norm": 0.26341840624809265,
	"learning_rate": 2.106051477813662e-06,
	"loss": 0.2823,
	"step": 9050
	},
	{
	"epoch": 2.1831545969393904,
	"grad_norm": 0.24212723970413208,
	"learning_rate": 2.0946309349945764e-06,
	"loss": 0.281,
	"step": 9060
	},
	{
	"epoch": 2.1855645258464875,
	"grad_norm": 0.274929404258728,
	"learning_rate": 2.0832332311735255e-06,
	"loss": 0.2781,
	"step": 9070
	},
	{
	"epoch": 2.1879744547535847,
	"grad_norm": 0.26439499855041504,
	"learning_rate": 2.071858455947439e-06,
	"loss": 0.2823,
	"step": 9080
	},
	{
	"epoch": 2.1903843836606818,
	"grad_norm": 0.25086936354637146,
	"learning_rate": 2.0605066987330015e-06,
	"loss": 0.2858,
	"step": 9090
	},
	{
	"epoch": 2.1927943125677793,
	"grad_norm": 0.24437405169010162,
	"learning_rate": 2.0491780487659518e-06,
	"loss": 0.2824,
	"step": 9100
	},
	{
	"epoch": 2.1952042414748765,
	"grad_norm": 0.2301730066537857,
	"learning_rate": 2.0378725951003863e-06,
	"loss": 0.2829,
	"step": 9110
	},
	{
	"epoch": 2.1976141703819736,
	"grad_norm": 0.22944273054599762,
	"learning_rate": 2.0265904266080553e-06,
	"loss": 0.2794,
	"step": 9120
	},
	{
	"epoch": 2.200024099289071,
	"grad_norm": 0.23374216258525848,
	"learning_rate": 2.0153316319776663e-06,
	"loss": 0.2773,
	"step": 9130
	},
	{
	"epoch": 2.2024340281961683,
	"grad_norm": 0.2400023192167282,
	"learning_rate": 2.004096299714182e-06,
	"loss": 0.2762,
	"step": 9140
	},
	{
	"epoch": 2.2048439571032654,
	"grad_norm": 0.24340155720710754,
	"learning_rate": 1.992884518138132e-06,
	"loss": 0.2795,
	"step": 9150
	},
	{
	"epoch": 2.2072538860103625,
	"grad_norm": 0.23810209333896637,
	"learning_rate": 1.9816963753849173e-06,
	"loss": 0.2781,
	"step": 9160
	},
	{
	"epoch": 2.20966381491746,
	"grad_norm": 0.2348943054676056,
	"learning_rate": 1.9705319594041055e-06,
	"loss": 0.2824,
	"step": 9170
	},
	{
	"epoch": 2.2120737438245572,
	"grad_norm": 0.27219775319099426,
	"learning_rate": 1.959391357958761e-06,
	"loss": 0.2799,
	"step": 9180
	},
	{
	"epoch": 2.2144836727316544,
	"grad_norm": 0.25142982602119446,
	"learning_rate": 1.9482746586247307e-06,
	"loss": 0.2808,
	"step": 9190
	},
	{
	"epoch": 2.2168936016387515,
	"grad_norm": 0.26077479124069214,
	"learning_rate": 1.937181948789979e-06,
	"loss": 0.2811,
	"step": 9200
	},
	{
	"epoch": 2.219303530545849,
	"grad_norm": 0.2478947937488556,
	"learning_rate": 1.926113315653883e-06,
	"loss": 0.2788,
	"step": 9210
	},
	{
	"epoch": 2.221713459452946,
	"grad_norm": 0.22575318813323975,
	"learning_rate": 1.9150688462265567e-06,
	"loss": 0.2769,
	"step": 9220
	},
	{
	"epoch": 2.2241233883600433,
	"grad_norm": 0.22892379760742188,
	"learning_rate": 1.9040486273281611e-06,
	"loss": 0.2787,
	"step": 9230
	},
	{
	"epoch": 2.2265333172671404,
	"grad_norm": 0.2895922064781189,
	"learning_rate": 1.8930527455882285e-06,
	"loss": 0.281,
	"step": 9240
	},
	{
	"epoch": 2.228943246174238,
	"grad_norm": 0.22733063995838165,
	"learning_rate": 1.8820812874449745e-06,
	"loss": 0.2828,
	"step": 9250
	},
	{
	"epoch": 2.231353175081335,
	"grad_norm": 0.2553955912590027,
	"learning_rate": 1.871134339144624e-06,
	"loss": 0.2809,
	"step": 9260
	},
	{
	"epoch": 2.2337631039884323,
	"grad_norm": 0.2272077053785324,
	"learning_rate": 1.8602119867407293e-06,
	"loss": 0.2813,
	"step": 9270
	},
	{
	"epoch": 2.2361730328955294,
	"grad_norm": 0.2504231333732605,
	"learning_rate": 1.8493143160934962e-06,
	"loss": 0.278,
	"step": 9280
	},
	{
	"epoch": 2.238582961802627,
	"grad_norm": 0.25541988015174866,
	"learning_rate": 1.838441412869108e-06,
	"loss": 0.2802,
	"step": 9290
	},
	{
	"epoch": 2.240992890709724,
	"grad_norm": 0.2468220293521881,
	"learning_rate": 1.827593362539052e-06,
	"loss": 0.2808,
	"step": 9300
	},
	{
	"epoch": 2.243402819616821,
	"grad_norm": 0.25006526708602905,
	"learning_rate": 1.816770250379446e-06,
	"loss": 0.278,
	"step": 9310
	},
	{
	"epoch": 2.2458127485239183,
	"grad_norm": 0.22816233336925507,
	"learning_rate": 1.8059721614703757e-06,
	"loss": 0.282,
	"step": 9320
	},
	{
	"epoch": 2.248222677431016,
	"grad_norm": 0.24291087687015533,
	"learning_rate": 1.7951991806952135e-06,
	"loss": 0.2819,
	"step": 9330
	},
	{
	"epoch": 2.250632606338113,
	"grad_norm": 0.24364741146564484,
	"learning_rate": 1.7844513927399605e-06,
	"loss": 0.278,
	"step": 9340
	},
	{
	"epoch": 2.25304253524521,
	"grad_norm": 0.237748384475708,
	"learning_rate": 1.7737288820925775e-06,
	"loss": 0.2801,
	"step": 9350
	},
	{
	"epoch": 2.2554524641523077,
	"grad_norm": 0.2570978105068207,
	"learning_rate": 1.7630317330423213e-06,
	"loss": 0.2781,
	"step": 9360
	},
	{
	"epoch": 2.257862393059405,
	"grad_norm": 0.2615073621273041,
	"learning_rate": 1.7523600296790827e-06,
	"loss": 0.2793,
	"step": 9370
	},
	{
	"epoch": 2.260272321966502,
	"grad_norm": 0.23793305456638336,
	"learning_rate": 1.7417138558927244e-06,
	"loss": 0.2825,
	"step": 9380
	},
	{
	"epoch": 2.262682250873599,
	"grad_norm": 0.2916860282421112,
	"learning_rate": 1.731093295372422e-06,
	"loss": 0.2797,
	"step": 9390
	},
	{
	"epoch": 2.2650921797806967,
	"grad_norm": 0.22545412182807922,
	"learning_rate": 1.7204984316060063e-06,
	"loss": 0.2776,
	"step": 9400
	},
	{
	"epoch": 2.267502108687794,
	"grad_norm": 0.24781396985054016,
	"learning_rate": 1.7099293478793066e-06,
	"loss": 0.2818,
	"step": 9410
	},
	{
	"epoch": 2.269912037594891,
	"grad_norm": 0.23348771035671234,
	"learning_rate": 1.699386127275497e-06,
	"loss": 0.2813,
	"step": 9420
	},
	{
	"epoch": 2.272321966501988,
	"grad_norm": 0.2622302770614624,
	"learning_rate": 1.6888688526744419e-06,
	"loss": 0.2811,
	"step": 9430
	},
	{
	"epoch": 2.2747318954090856,
	"grad_norm": 0.2563973367214203,
	"learning_rate": 1.6783776067520435e-06,
	"loss": 0.2795,
	"step": 9440
	},
	{
	"epoch": 2.2771418243161827,
	"grad_norm": 0.24868488311767578,
	"learning_rate": 1.667912471979599e-06,
	"loss": 0.2809,
	"step": 9450
	},
	{
	"epoch": 2.27955175322328,
	"grad_norm": 0.2406303733587265,
	"learning_rate": 1.6574735306231415e-06,
	"loss": 0.2788,
	"step": 9460
	},
	{
	"epoch": 2.281961682130377,
	"grad_norm": 0.24330711364746094,
	"learning_rate": 1.6470608647427994e-06,
	"loss": 0.2822,
	"step": 9470
	},
	{
	"epoch": 2.2843716110374745,
	"grad_norm": 0.24132861196994781,
	"learning_rate": 1.6366745561921526e-06,
	"loss": 0.2832,
	"step": 9480
	},
	{
	"epoch": 2.2867815399445717,
	"grad_norm": 0.2478172332048416,
	"learning_rate": 1.626314686617586e-06,
	"loss": 0.284,
	"step": 9490
	},
	{
	"epoch": 2.289191468851669,
	"grad_norm": 0.2368839830160141,
	"learning_rate": 1.6159813374576473e-06,
	"loss": 0.2793,
	"step": 9500
	},
	{
	"epoch": 2.291601397758766,
	"grad_norm": 0.2336069941520691,
	"learning_rate": 1.605674589942411e-06,
	"loss": 0.279,
	"step": 9510
	},
	{
	"epoch": 2.2940113266658635,
	"grad_norm": 0.2496882677078247,
	"learning_rate": 1.5953945250928337e-06,
	"loss": 0.2811,
	"step": 9520
	},
	{
	"epoch": 2.2964212555729606,
	"grad_norm": 0.2319141924381256,
	"learning_rate": 1.5851412237201241e-06,
	"loss": 0.2833,
	"step": 9530
	},
	{
	"epoch": 2.2988311844800577,
	"grad_norm": 0.23559683561325073,
	"learning_rate": 1.5749147664251008e-06,
	"loss": 0.2772,
	"step": 9540
	},
	{
	"epoch": 2.301241113387155,
	"grad_norm": 0.2435014694929123,
	"learning_rate": 1.5647152335975675e-06,
	"loss": 0.2819,
	"step": 9550
	},
	{
	"epoch": 2.3036510422942524,
	"grad_norm": 0.22605091333389282,
	"learning_rate": 1.5545427054156659e-06,
	"loss": 0.2779,
	"step": 9560
	},
	{
	"epoch": 2.3060609712013496,
	"grad_norm": 0.23911075294017792,
	"learning_rate": 1.5443972618452685e-06,
	"loss": 0.2757,
	"step": 9570
	},
	{
	"epoch": 2.3084709001084467,
	"grad_norm": 0.22637368738651276,
	"learning_rate": 1.5342789826393223e-06,
	"loss": 0.2804,
	"step": 9580
	},
	{
	"epoch": 2.3108808290155443,
	"grad_norm": 0.27431362867355347,
	"learning_rate": 1.5241879473372501e-06,
	"loss": 0.2783,
	"step": 9590
	},
	{
	"epoch": 2.3132907579226414,
	"grad_norm": 0.26623448729515076,
	"learning_rate": 1.5141242352642975e-06,
	"loss": 0.2777,
	"step": 9600
	},
	{
	"epoch": 2.3157006868297385,
	"grad_norm": 0.2725711166858673,
	"learning_rate": 1.5040879255309366e-06,
	"loss": 0.2769,
	"step": 9610
	},
	{
	"epoch": 2.3181106157368356,
	"grad_norm": 0.23668049275875092,
	"learning_rate": 1.4940790970322217e-06,
	"loss": 0.2785,
	"step": 9620
	},
	{
	"epoch": 2.3205205446439328,
	"grad_norm": 0.25580349564552307,
	"learning_rate": 1.4840978284471818e-06,
	"loss": 0.2754,
	"step": 9630
	},
	{
	"epoch": 2.3229304735510303,
	"grad_norm": 0.24576835334300995,
	"learning_rate": 1.4741441982381965e-06,
	"loss": 0.2801,
	"step": 9640
	},
	{
	"epoch": 2.3253404024581275,
	"grad_norm": 0.22549733519554138,
	"learning_rate": 1.4642182846503834e-06,
	"loss": 0.2787,
	"step": 9650
	},
	{
	"epoch": 2.3277503313652246,
	"grad_norm": 0.2287834733724594,
	"learning_rate": 1.454320165710979e-06,
	"loss": 0.2825,
	"step": 9660
	},
	{
	"epoch": 2.330160260272322,
	"grad_norm": 0.23882044851779938,
	"learning_rate": 1.4444499192287275e-06,
	"loss": 0.2789,
	"step": 9670
	},
	{
	"epoch": 2.3325701891794193,
	"grad_norm": 0.23486128449440002,
	"learning_rate": 1.434607622793268e-06,
	"loss": 0.283,
	"step": 9680
	},
	{
	"epoch": 2.3349801180865164,
	"grad_norm": 0.21553735435009003,
	"learning_rate": 1.4247933537745312e-06,
	"loss": 0.2798,
	"step": 9690
	},
	{
	"epoch": 2.3373900469936135,
	"grad_norm": 0.21254783868789673,
	"learning_rate": 1.4150071893221134e-06,
	"loss": 0.2799,
	"step": 9700
	},
	{
	"epoch": 2.339799975900711,
	"grad_norm": 0.2571474313735962,
	"learning_rate": 1.4052492063646954e-06,
	"loss": 0.2789,
	"step": 9710
	},
	{
	"epoch": 2.342209904807808,
	"grad_norm": 0.23650209605693817,
	"learning_rate": 1.395519481609412e-06,
	"loss": 0.2779,
	"step": 9720
	},
	{
	"epoch": 2.3446198337149053,
	"grad_norm": 0.2629302442073822,
	"learning_rate": 1.3858180915412733e-06,
	"loss": 0.2772,
	"step": 9730
	},
	{
	"epoch": 2.3470297626220025,
	"grad_norm": 0.2664468288421631,
	"learning_rate": 1.376145112422539e-06,
	"loss": 0.284,
	"step": 9740
	},
	{
	"epoch": 2.3494396915291,
	"grad_norm": 0.2721656560897827,
	"learning_rate": 1.3665006202921422e-06,
	"loss": 0.2797,
	"step": 9750
	},
	{
	"epoch": 2.351849620436197,
	"grad_norm": 0.2556258738040924,
	"learning_rate": 1.3568846909650757e-06,
	"loss": 0.2781,
	"step": 9760
	},
	{
	"epoch": 2.3542595493432943,
	"grad_norm": 0.22604934871196747,
	"learning_rate": 1.347297400031801e-06,
	"loss": 0.2802,
	"step": 9770
	},
	{
	"epoch": 2.3566694782503914,
	"grad_norm": 0.263422429561615,
	"learning_rate": 1.337738822857656e-06,
	"loss": 0.2777,
	"step": 9780
	},
	{
	"epoch": 2.359079407157489,
	"grad_norm": 0.23786978423595428,
	"learning_rate": 1.3282090345822591e-06,
	"loss": 0.2808,
	"step": 9790
	},
	{
	"epoch": 2.361489336064586,
	"grad_norm": 0.2549162805080414,
	"learning_rate": 1.3187081101189215e-06,
	"loss": 0.2785,
	"step": 9800
	},
	{
	"epoch": 2.3638992649716832,
	"grad_norm": 0.24302366375923157,
	"learning_rate": 1.309236124154057e-06,
	"loss": 0.2845,
	"step": 9810
	},
	{
	"epoch": 2.366309193878781,
	"grad_norm": 0.22927412390708923,
	"learning_rate": 1.299793151146594e-06,
	"loss": 0.2777,
	"step": 9820
	},
	{
	"epoch": 2.368719122785878,
	"grad_norm": 0.2658884525299072,
	"learning_rate": 1.2903792653273916e-06,
	"loss": 0.2797,
	"step": 9830
	},
	{
	"epoch": 2.371129051692975,
	"grad_norm": 0.3069201707839966,
	"learning_rate": 1.2809945406986546e-06,
	"loss": 0.2816,
	"step": 9840
	},
	{
	"epoch": 2.373538980600072,
	"grad_norm": 0.22433501482009888,
	"learning_rate": 1.2716390510333586e-06,
	"loss": 0.2818,
	"step": 9850
	},
	{
	"epoch": 2.3759489095071693,
	"grad_norm": 0.24328960478305817,
	"learning_rate": 1.2623128698746527e-06,
	"loss": 0.2824,
	"step": 9860
	},
	{
	"epoch": 2.378358838414267,
	"grad_norm": 0.2371092438697815,
	"learning_rate": 1.2530160705353068e-06,
	"loss": 0.275,
	"step": 9870
	},
	{
	"epoch": 2.380768767321364,
	"grad_norm": 0.23084323108196259,
	"learning_rate": 1.243748726097107e-06,
	"loss": 0.276,
	"step": 9880
	},
	{
	"epoch": 2.383178696228461,
	"grad_norm": 0.2365288883447647,
	"learning_rate": 1.2345109094103102e-06,
	"loss": 0.2778,
	"step": 9890
	},
	{
	"epoch": 2.3855886251355587,
	"grad_norm": 0.23513543605804443,
	"learning_rate": 1.2253026930930422e-06,
	"loss": 0.2817,
	"step": 9900
	},
	{
	"epoch": 2.387998554042656,
	"grad_norm": 0.24230551719665527,
	"learning_rate": 1.2161241495307546e-06,
	"loss": 0.2822,
	"step": 9910
	},
	{
	"epoch": 2.390408482949753,
	"grad_norm": 0.2191249579191208,
	"learning_rate": 1.2069753508756332e-06,
	"loss": 0.2828,
	"step": 9920
	},
	{
	"epoch": 2.39281841185685,
	"grad_norm": 0.22290931642055511,
	"learning_rate": 1.1978563690460454e-06,
	"loss": 0.2786,
	"step": 9930
	},
	{
	"epoch": 2.3952283407639476,
	"grad_norm": 0.23835894465446472,
	"learning_rate": 1.188767275725966e-06,
	"loss": 0.278,
	"step": 9940
	},
	{
	"epoch": 2.3976382696710448,
	"grad_norm": 0.2676974833011627,
	"learning_rate": 1.1797081423644207e-06,
	"loss": 0.2811,
	"step": 9950
	},
	{
	"epoch": 2.400048198578142,
	"grad_norm": 0.2476268708705902,
	"learning_rate": 1.1706790401749191e-06,
	"loss": 0.2775,
	"step": 9960
	},
	{
	"epoch": 2.402458127485239,
	"grad_norm": 0.24710658192634583,
	"learning_rate": 1.161680040134897e-06,
	"loss": 0.2817,
	"step": 9970
	},
	{
	"epoch": 2.4048680563923366,
	"grad_norm": 0.2693715989589691,
	"learning_rate": 1.152711212985157e-06,
	"loss": 0.2831,
	"step": 9980
	},
	{
	"epoch": 2.4072779852994337,
	"grad_norm": 0.279060035943985,
	"learning_rate": 1.1437726292293205e-06,
	"loss": 0.2835,
	"step": 9990
	},
	{
	"epoch": 2.409687914206531,
	"grad_norm": 0.25410890579223633,
	"learning_rate": 1.1348643591332554e-06,
	"loss": 0.279,
	"step": 10000
	},
	{
	"epoch": 2.412097843113628,
	"grad_norm": 0.2640509605407715,
	"learning_rate": 1.1259864727245462e-06,
	"loss": 0.2835,
	"step": 10010
	},
	{
	"epoch": 2.4145077720207255,
	"grad_norm": 0.23680780827999115,
	"learning_rate": 1.117139039791923e-06,
	"loss": 0.2824,
	"step": 10020
	},
	{
	"epoch": 2.4169177009278227,
	"grad_norm": 0.22755064070224762,
	"learning_rate": 1.1083221298847318e-06,
	"loss": 0.2807,
	"step": 10030
	},
	{
	"epoch": 2.41932762983492,
	"grad_norm": 0.24403348565101624,
	"learning_rate": 1.0995358123123672e-06,
	"loss": 0.2793,
	"step": 10040
	},
	{
	"epoch": 2.4217375587420173,
	"grad_norm": 0.2465885430574417,
	"learning_rate": 1.0907801561437487e-06,
	"loss": 0.2786,
	"step": 10050
	},
	{
	"epoch": 2.4241474876491145,
	"grad_norm": 0.22882623970508575,
	"learning_rate": 1.0820552302067626e-06,
	"loss": 0.2823,
	"step": 10060
	},
	{
	"epoch": 2.4265574165562116,
	"grad_norm": 0.21512708067893982,
	"learning_rate": 1.0733611030877261e-06,
	"loss": 0.2778,
	"step": 10070
	},
	{
	"epoch": 2.4289673454633087,
	"grad_norm": 0.22142252326011658,
	"learning_rate": 1.064697843130849e-06,
	"loss": 0.282,
	"step": 10080
	},
	{
	"epoch": 2.431377274370406,
	"grad_norm": 0.244871124625206,
	"learning_rate": 1.0560655184376956e-06,
	"loss": 0.2785,
	"step": 10090
	},
	{
	"epoch": 2.4337872032775034,
	"grad_norm": 0.23042111098766327,
	"learning_rate": 1.0474641968666482e-06,
	"loss": 0.2778,
	"step": 10100
	},
	{
	"epoch": 2.4361971321846005,
	"grad_norm": 0.25397634506225586,
	"learning_rate": 1.0388939460323761e-06,
	"loss": 0.2824,
	"step": 10110
	},
	{
	"epoch": 2.4386070610916977,
	"grad_norm": 0.22270150482654572,
	"learning_rate": 1.030354833305301e-06,
	"loss": 0.2828,
	"step": 10120
	},
	{
	"epoch": 2.4410169899987952,
	"grad_norm": 0.2359340637922287,
	"learning_rate": 1.0218469258110713e-06,
	"loss": 0.286,
	"step": 10130
	},
	{
	"epoch": 2.4434269189058924,
	"grad_norm": 0.2126341611146927,
	"learning_rate": 1.013370290430029e-06,
	"loss": 0.2801,
	"step": 10140
	},
	{
	"epoch": 2.4458368478129895,
	"grad_norm": 0.24516190588474274,
	"learning_rate": 1.0049249937966938e-06,
	"loss": 0.2856,
	"step": 10150
	},
	{
	"epoch": 2.4482467767200866,
	"grad_norm": 0.24388213455677032,
	"learning_rate": 9.96511102299222e-07,
	"loss": 0.2801,
	"step": 10160
	},
	{
	"epoch": 2.450656705627184,
	"grad_norm": 0.24826572835445404,
	"learning_rate": 9.881286820789066e-07,
	"loss": 0.2775,
	"step": 10170
	},
	{
	"epoch": 2.4530666345342813,
	"grad_norm": 0.22779034078121185,
	"learning_rate": 9.797777990296364e-07,
	"loss": 0.2786,
	"step": 10180
	},
	{
	"epoch": 2.4554765634413784,
	"grad_norm": 0.24443458020687103,
	"learning_rate": 9.714585187973962e-07,
	"loss": 0.2813,
	"step": 10190
	},
	{
	"epoch": 2.4578864923484756,
	"grad_norm": 0.22016146779060364,
	"learning_rate": 9.631709067797346e-07,
	"loss": 0.2797,
	"step": 10200
	},
	{
	"epoch": 2.460296421255573,
	"grad_norm": 0.24256734549999237,
	"learning_rate": 9.549150281252633e-07,
	"loss": 0.2765,
	"step": 10210
	},
	{
	"epoch": 2.4627063501626703,
	"grad_norm": 0.21513506770133972,
	"learning_rate": 9.466909477331365e-07,
	"loss": 0.2758,
	"step": 10220
	},
	{
	"epoch": 2.4651162790697674,
	"grad_norm": 0.23314908146858215,
	"learning_rate": 9.384987302525439e-07,
	"loss": 0.2784,
	"step": 10230
	},
	{
	"epoch": 2.4675262079768645,
	"grad_norm": 0.2266678363084793,
	"learning_rate": 9.303384400822019e-07,
	"loss": 0.2791,
	"step": 10240
	},
	{
	"epoch": 2.469936136883962,
	"grad_norm": 0.2611759901046753,
	"learning_rate": 9.222101413698475e-07,
	"loss": 0.2811,
	"step": 10250
	},
	{
	"epoch": 2.472346065791059,
	"grad_norm": 0.22413872182369232,
	"learning_rate": 9.141138980117348e-07,
	"loss": 0.2768,
	"step": 10260
	},
	{
	"epoch": 2.4747559946981563,
	"grad_norm": 0.2154080718755722,
	"learning_rate": 9.060497736521312e-07,
	"loss": 0.2811,
	"step": 10270
	},
	{
	"epoch": 2.477165923605254,
	"grad_norm": 0.23138175904750824,
	"learning_rate": 8.980178316828158e-07,
	"loss": 0.2765,
	"step": 10280
	},
	{
	"epoch": 2.479575852512351,
	"grad_norm": 0.22400695085525513,
	"learning_rate": 8.900181352425907e-07,
	"loss": 0.2797,
	"step": 10290
	},
	{
	"epoch": 2.481985781419448,
	"grad_norm": 0.22533853352069855,
	"learning_rate": 8.82050747216766e-07,
	"loss": 0.2778,
	"step": 10300
	},
	{
	"epoch": 2.4843957103265453,
	"grad_norm": 0.2264128476381302,
	"learning_rate": 8.741157302366859e-07,
	"loss": 0.2768,
	"step": 10310
	},
	{
	"epoch": 2.4868056392336424,
	"grad_norm": 0.24724815785884857,
	"learning_rate": 8.662131466792217e-07,
	"loss": 0.2788,
	"step": 10320
	},
	{
	"epoch": 2.48921556814074,
	"grad_norm": 0.2112177461385727,
	"learning_rate": 8.5834305866629e-07,
	"loss": 0.2819,
	"step": 10330
	},
	{
	"epoch": 2.491625497047837,
	"grad_norm": 0.224305659532547,
	"learning_rate": 8.505055280643582e-07,
	"loss": 0.2768,
	"step": 10340
	},
	{
	"epoch": 2.494035425954934,
	"grad_norm": 0.2342444360256195,
	"learning_rate": 8.42700616483963e-07,
	"loss": 0.2789,
	"step": 10350
	},
	{
	"epoch": 2.496445354862032,
	"grad_norm": 0.25045448541641235,
	"learning_rate": 8.34928385279224e-07,
	"loss": 0.2796,
	"step": 10360
	},
	{
	"epoch": 2.498855283769129,
	"grad_norm": 0.21539704501628876,
	"learning_rate": 8.271888955473606e-07,
	"loss": 0.2796,
	"step": 10370
	},
	{
	"epoch": 2.501265212676226,
	"grad_norm": 0.220731720328331,
	"learning_rate": 8.194822081282144e-07,
	"loss": 0.2817,
	"step": 10380
	},
	{
	"epoch": 2.503675141583323,
	"grad_norm": 0.2215479016304016,
	"learning_rate": 8.118083836037677e-07,
	"loss": 0.2789,
	"step": 10390
	},
	{
	"epoch": 2.5060850704904203,
	"grad_norm": 0.23470233380794525,
	"learning_rate": 8.041674822976686e-07,
	"loss": 0.2809,
	"step": 10400
	},
	{
	"epoch": 2.508494999397518,
	"grad_norm": 0.22246357798576355,
	"learning_rate": 7.965595642747593e-07,
	"loss": 0.2838,
	"step": 10410
	},
	{
	"epoch": 2.510904928304615,
	"grad_norm": 0.23927010595798492,
	"learning_rate": 7.889846893405978e-07,
	"loss": 0.2776,
	"step": 10420
	},
	{
	"epoch": 2.513314857211712,
	"grad_norm": 0.226680725812912,
	"learning_rate": 7.814429170409965e-07,
	"loss": 0.2808,
	"step": 10430
	},
	{
	"epoch": 2.5157247861188097,
	"grad_norm": 0.20930366218090057,
	"learning_rate": 7.739343066615457e-07,
	"loss": 0.2783,
	"step": 10440
	},
	{
	"epoch": 2.518134715025907,
	"grad_norm": 0.22104759514331818,
	"learning_rate": 7.664589172271519e-07,
	"loss": 0.2791,
	"step": 10450
	},
	{
	"epoch": 2.520544643933004,
	"grad_norm": 0.22938519716262817,
	"learning_rate": 7.590168075015725e-07,
	"loss": 0.2768,
	"step": 10460
	},
	{
	"epoch": 2.522954572840101,
	"grad_norm": 0.22971375286579132,
	"learning_rate": 7.51608035986956e-07,
	"loss": 0.2774,
	"step": 10470
	},
	{
	"epoch": 2.5253645017471986,
	"grad_norm": 0.21640855073928833,
	"learning_rate": 7.442326609233786e-07,
	"loss": 0.2785,
	"step": 10480
	},
	{
	"epoch": 2.5277744306542957,
	"grad_norm": 0.22796866297721863,
	"learning_rate": 7.368907402883896e-07,
	"loss": 0.2798,
	"step": 10490
	},
	{
	"epoch": 2.530184359561393,
	"grad_norm": 0.24750785529613495,
	"learning_rate": 7.295823317965533e-07,
	"loss": 0.2854,
	"step": 10500
	},
	{
	"epoch": 2.5325942884684904,
	"grad_norm": 0.23102925717830658,
	"learning_rate": 7.223074928989971e-07,
	"loss": 0.2794,
	"step": 10510
	},
	{
	"epoch": 2.5350042173755876,
	"grad_norm": 0.2250024974346161,
	"learning_rate": 7.150662807829584e-07,
	"loss": 0.2805,
	"step": 10520
	},
	{
	"epoch": 2.5374141462826847,
	"grad_norm": 0.21351070702075958,
	"learning_rate": 7.07858752371336e-07,
	"loss": 0.2803,
	"step": 10530
	},
	{
	"epoch": 2.539824075189782,
	"grad_norm": 0.22808626294136047,
	"learning_rate": 7.006849643222425e-07,
	"loss": 0.2761,
	"step": 10540
	},
	{
	"epoch": 2.542234004096879,
	"grad_norm": 0.24644486606121063,
	"learning_rate": 6.935449730285576e-07,
	"loss": 0.2818,
	"step": 10550
	},
	{
	"epoch": 2.5446439330039765,
	"grad_norm": 0.22460822761058807,
	"learning_rate": 6.864388346174899e-07,
	"loss": 0.2769,
	"step": 10560
	},
	{
	"epoch": 2.5470538619110736,
	"grad_norm": 0.22044941782951355,
	"learning_rate": 6.793666049501252e-07,
	"loss": 0.2795,
	"step": 10570
	},
	{
	"epoch": 2.5494637908181708,
	"grad_norm": 0.21781772375106812,
	"learning_rate": 6.723283396210006e-07,
	"loss": 0.2806,
	"step": 10580
	},
	{
	"epoch": 2.5518737197252683,
	"grad_norm": 0.2225368618965149,
	"learning_rate": 6.65324093957656e-07,
	"loss": 0.2809,
	"step": 10590
	},
	{
	"epoch": 2.5542836486323655,
	"grad_norm": 0.23594419658184052,
	"learning_rate": 6.583539230202062e-07,
	"loss": 0.2808,
	"step": 10600
	},
	{
	"epoch": 2.5566935775394626,
	"grad_norm": 0.2327783703804016,
	"learning_rate": 6.514178816009059e-07,
	"loss": 0.2786,
	"step": 10610
	},
	{
	"epoch": 2.5591035064465597,
	"grad_norm": 0.24728356301784515,
	"learning_rate": 6.445160242237181e-07,
	"loss": 0.2771,
	"step": 10620
	},
	{
	"epoch": 2.561513435353657,
	"grad_norm": 0.22643262147903442,
	"learning_rate": 6.376484051438864e-07,
	"loss": 0.2778,
	"step": 10630
	},
	{
	"epoch": 2.5639233642607544,
	"grad_norm": 0.2516622841358185,
	"learning_rate": 6.308150783475086e-07,
	"loss": 0.2822,
	"step": 10640
	},
	{
	"epoch": 2.5663332931678515,
	"grad_norm": 0.20847560465335846,
	"learning_rate": 6.240160975511117e-07,
	"loss": 0.2791,
	"step": 10650
	},
	{
	"epoch": 2.5687432220749487,
	"grad_norm": 0.2476452887058258,
	"learning_rate": 6.172515162012332e-07,
	"loss": 0.2788,
	"step": 10660
	},
	{
	"epoch": 2.571153150982046,
	"grad_norm": 0.21977245807647705,
	"learning_rate": 6.105213874739913e-07,
	"loss": 0.2831,
	"step": 10670
	},
	{
	"epoch": 2.5735630798891433,
	"grad_norm": 0.23342415690422058,
	"learning_rate": 6.038257642746815e-07,
	"loss": 0.2804,
	"step": 10680
	},
	{
	"epoch": 2.5759730087962405,
	"grad_norm": 0.22444045543670654,
	"learning_rate": 5.971646992373442e-07,
	"loss": 0.2832,
	"step": 10690
	},
	{
	"epoch": 2.5783829377033376,
	"grad_norm": 0.2259417027235031,
	"learning_rate": 5.905382447243679e-07,
	"loss": 0.278,
	"step": 10700
	},
	{
	"epoch": 2.5807928666104347,
	"grad_norm": 0.23733128607273102,
	"learning_rate": 5.839464528260602e-07,
	"loss": 0.2757,
	"step": 10710
	},
	{
	"epoch": 2.5832027955175323,
	"grad_norm": 0.21630772948265076,
	"learning_rate": 5.773893753602556e-07,
	"loss": 0.2795,
	"step": 10720
	},
	{
	"epoch": 2.5856127244246294,
	"grad_norm": 0.2194875180721283,
	"learning_rate": 5.708670638718944e-07,
	"loss": 0.2786,
	"step": 10730
	},
	{
	"epoch": 2.588022653331727,
	"grad_norm": 0.2325390726327896,
	"learning_rate": 5.643795696326248e-07,
	"loss": 0.2798,
	"step": 10740
	},
	{
	"epoch": 2.590432582238824,
	"grad_norm": 0.22401738166809082,
	"learning_rate": 5.579269436403967e-07,
	"loss": 0.2857,
	"step": 10750
	},
	{
	"epoch": 2.5928425111459212,
	"grad_norm": 0.23521198332309723,
	"learning_rate": 5.515092366190633e-07,
	"loss": 0.2801,
	"step": 10760
	},
	{
	"epoch": 2.5952524400530184,
	"grad_norm": 0.22582539916038513,
	"learning_rate": 5.451264990179806e-07,
	"loss": 0.2822,
	"step": 10770
	},
	{
	"epoch": 2.5976623689601155,
	"grad_norm": 0.21589092910289764,
	"learning_rate": 5.387787810116107e-07,
	"loss": 0.2785,
	"step": 10780
	},
	{
	"epoch": 2.600072297867213,
	"grad_norm": 0.22033199667930603,
	"learning_rate": 5.324661324991287e-07,
	"loss": 0.2781,
	"step": 10790
	},
	{
	"epoch": 2.60248222677431,
	"grad_norm": 0.22837083041667938,
	"learning_rate": 5.261886031040297e-07,
	"loss": 0.2754,
	"step": 10800
	},
	{
	"epoch": 2.6048921556814073,
	"grad_norm": 0.20709316432476044,
	"learning_rate": 5.199462421737378e-07,
	"loss": 0.2791,
	"step": 10810
	},
	{
	"epoch": 2.607302084588505,
	"grad_norm": 0.22260834276676178,
	"learning_rate": 5.137390987792224e-07,
	"loss": 0.2786,
	"step": 10820
	},
	{
	"epoch": 2.609712013495602,
	"grad_norm": 0.21472789347171783,
	"learning_rate": 5.075672217146021e-07,
	"loss": 0.2771,
	"step": 10830
	},
	{
	"epoch": 2.612121942402699,
	"grad_norm": 0.21938268840312958,
	"learning_rate": 5.014306594967777e-07,
	"loss": 0.2778,
	"step": 10840
	},
	{
	"epoch": 2.6145318713097963,
	"grad_norm": 0.22291871905326843,
	"learning_rate": 4.953294603650321e-07,
	"loss": 0.2774,
	"step": 10850
	},
	{
	"epoch": 2.6169418002168934,
	"grad_norm": 0.20951221883296967,
	"learning_rate": 4.892636722806681e-07,
	"loss": 0.2808,
	"step": 10860
	},
	{
	"epoch": 2.619351729123991,
	"grad_norm": 0.21539126336574554,
	"learning_rate": 4.832333429266162e-07,
	"loss": 0.2798,
	"step": 10870
	},
	{
	"epoch": 2.621761658031088,
	"grad_norm": 0.2493276745080948,
	"learning_rate": 4.772385197070734e-07,
	"loss": 0.2822,
	"step": 10880
	},
	{
	"epoch": 2.624171586938185,
	"grad_norm": 0.23317745327949524,
	"learning_rate": 4.712792497471219e-07,
	"loss": 0.2806,
	"step": 10890
	},
	{
	"epoch": 2.6265815158452828,
	"grad_norm": 0.22015219926834106,
	"learning_rate": 4.653555798923598e-07,
	"loss": 0.2775,
	"step": 10900
	},
	{
	"epoch": 2.62899144475238,
	"grad_norm": 0.21339353919029236,
	"learning_rate": 4.59467556708536e-07,
	"loss": 0.2783,
	"step": 10910
	},
	{
	"epoch": 2.631401373659477,
	"grad_norm": 0.2914273142814636,
	"learning_rate": 4.5361522648118163e-07,
	"loss": 0.2813,
	"step": 10920
	},
	{
	"epoch": 2.633811302566574,
	"grad_norm": 0.24041880667209625,
	"learning_rate": 4.477986352152458e-07,
	"loss": 0.2811,
	"step": 10930
	},
	{
	"epoch": 2.6362212314736713,
	"grad_norm": 0.23392677307128906,
	"learning_rate": 4.420178286347365e-07,
	"loss": 0.2767,
	"step": 10940
	},
	{
	"epoch": 2.638631160380769,
	"grad_norm": 0.2182975858449936,
	"learning_rate": 4.3627285218235836e-07,
	"loss": 0.2789,
	"step": 10950
	},
	{
	"epoch": 2.641041089287866,
	"grad_norm": 0.22190409898757935,
	"learning_rate": 4.305637510191596e-07,
	"loss": 0.283,
	"step": 10960
	},
	{
	"epoch": 2.643451018194963,
	"grad_norm": 0.22455023229122162,
	"learning_rate": 4.248905700241679e-07,
	"loss": 0.2822,
	"step": 10970
	},
	{
	"epoch": 2.6458609471020607,
	"grad_norm": 0.21721509099006653,
	"learning_rate": 4.192533537940524e-07,
	"loss": 0.2808,
	"step": 10980
	},
	{
	"epoch": 2.648270876009158,
	"grad_norm": 0.21401084959506989,
	"learning_rate": 4.1365214664275624e-07,
	"loss": 0.2808,
	"step": 10990
	},
	{
	"epoch": 2.650680804916255,
	"grad_norm": 0.22853703796863556,
	"learning_rate": 4.0808699260116267e-07,
	"loss": 0.2812,
	"step": 11000
	},
	{
	"epoch": 2.653090733823352,
	"grad_norm": 0.21694153547286987,
	"learning_rate": 4.025579354167386e-07,
	"loss": 0.2798,
	"step": 11010
	},
	{
	"epoch": 2.6555006627304496,
	"grad_norm": 0.23555360734462738,
	"learning_rate": 3.9706501855319767e-07,
	"loss": 0.2795,
	"step": 11020
	},
	{
	"epoch": 2.6579105916375467,
	"grad_norm": 0.2250490039587021,
	"learning_rate": 3.9160828519015537e-07,
	"loss": 0.2771,
	"step": 11030
	},
	{
	"epoch": 2.660320520544644,
	"grad_norm": 0.22380265593528748,
	"learning_rate": 3.8618777822278854e-07,
	"loss": 0.2833,
	"step": 11040
	},
	{
	"epoch": 2.6627304494517414,
	"grad_norm": 0.21533909440040588,
	"learning_rate": 3.8080354026150067e-07,
	"loss": 0.2779,
	"step": 11050
	},
	{
	"epoch": 2.6651403783588385,
	"grad_norm": 0.22487014532089233,
	"learning_rate": 3.754556136315862e-07,
	"loss": 0.2785,
	"step": 11060
	},
	{
	"epoch": 2.6675503072659357,
	"grad_norm": 0.21561825275421143,
	"learning_rate": 3.701440403728973e-07,
	"loss": 0.2774,
	"step": 11070
	},
	{
	"epoch": 2.669960236173033,
	"grad_norm": 0.22234675288200378,
	"learning_rate": 3.6486886223951356e-07,
	"loss": 0.2774,
	"step": 11080
	},
	{
	"epoch": 2.67237016508013,
	"grad_norm": 0.21657794713974,
	"learning_rate": 3.596301206994135e-07,
	"loss": 0.2756,
	"step": 11090
	},
	{
	"epoch": 2.6747800939872275,
	"grad_norm": 0.22639340162277222,
	"learning_rate": 3.5442785693414916e-07,
	"loss": 0.2782,
	"step": 11100
	},
	{
	"epoch": 2.6771900228943246,
	"grad_norm": 0.20997634530067444,
	"learning_rate": 3.4926211183852257e-07,
	"loss": 0.2758,
	"step": 11110
	},
	{
	"epoch": 2.6795999518014217,
	"grad_norm": 0.21735352277755737,
	"learning_rate": 3.441329260202647e-07,
	"loss": 0.2761,
	"step": 11120
	},
	{
	"epoch": 2.6820098807085193,
	"grad_norm": 0.219352126121521,
	"learning_rate": 3.390403397997116e-07,
	"loss": 0.2811,
	"step": 11130
	},
	{
	"epoch": 2.6844198096156164,
	"grad_norm": 0.21753524243831635,
	"learning_rate": 3.339843932094977e-07,
	"loss": 0.2781,
	"step": 11140
	},
	{
	"epoch": 2.6868297385227136,
	"grad_norm": 0.20921345055103302,
	"learning_rate": 3.289651259942267e-07,
	"loss": 0.2743,
	"step": 11150
	},
	{
	"epoch": 2.6892396674298107,
	"grad_norm": 0.25048771500587463,
	"learning_rate": 3.2398257761017516e-07,
	"loss": 0.2747,
	"step": 11160
	},
	{
	"epoch": 2.691649596336908,
	"grad_norm": 0.24073223769664764,
	"learning_rate": 3.190367872249672e-07,
	"loss": 0.2798,
	"step": 11170
	},
	{
	"epoch": 2.6940595252440054,
	"grad_norm": 0.23007288575172424,
	"learning_rate": 3.1412779371727873e-07,
	"loss": 0.275,
	"step": 11180
	},
	{
	"epoch": 2.6964694541511025,
	"grad_norm": 0.21283234655857086,
	"learning_rate": 3.0925563567652474e-07,
	"loss": 0.2798,
	"step": 11190
	},
	{
	"epoch": 2.6988793830581996,
	"grad_norm": 0.23061342537403107,
	"learning_rate": 3.044203514025579e-07,
	"loss": 0.2774,
	"step": 11200
	},
	{
	"epoch": 2.701289311965297,
	"grad_norm": 0.23484079539775848,
	"learning_rate": 2.996219789053678e-07,
	"loss": 0.2791,
	"step": 11210
	},
	{
	"epoch": 2.7036992408723943,
	"grad_norm": 0.2102525234222412,
	"learning_rate": 2.948605559047818e-07,
	"loss": 0.2803,
	"step": 11220
	},
	{
	"epoch": 2.7061091697794915,
	"grad_norm": 0.2061406821012497,
	"learning_rate": 2.9013611983016887e-07,
	"loss": 0.2794,
	"step": 11230
	},
	{
	"epoch": 2.7085190986865886,
	"grad_norm": 0.22868786752223969,
	"learning_rate": 2.8544870782014566e-07,
	"loss": 0.281,
	"step": 11240
	},
	{
	"epoch": 2.710929027593686,
	"grad_norm": 0.21406501531600952,
	"learning_rate": 2.807983567222822e-07,
	"loss": 0.2789,
	"step": 11250
	},
	{
	"epoch": 2.7133389565007833,
	"grad_norm": 0.20212717354297638,
	"learning_rate": 2.7618510309281756e-07,
	"loss": 0.2789,
	"step": 11260
	},
	{
	"epoch": 2.7157488854078804,
	"grad_norm": 0.21949447691440582,
	"learning_rate": 2.716089831963636e-07,
	"loss": 0.2773,
	"step": 11270
	},
	{
	"epoch": 2.718158814314978,
	"grad_norm": 0.2337270975112915,
	"learning_rate": 2.6707003300563196e-07,
	"loss": 0.2842,
	"step": 11280
	},
	{
	"epoch": 2.720568743222075,
	"grad_norm": 0.2047426700592041,
	"learning_rate": 2.6256828820113765e-07,
	"loss": 0.2795,
	"step": 11290
	},
	{
	"epoch": 2.722978672129172,
	"grad_norm": 0.22296936810016632,
	"learning_rate": 2.581037841709322e-07,
	"loss": 0.2788,
	"step": 11300
	},
	{
	"epoch": 2.7253886010362693,
	"grad_norm": 0.21972641348838806,
	"learning_rate": 2.536765560103122e-07,
	"loss": 0.2803,
	"step": 11310
	},
	{
	"epoch": 2.7277985299433665,
	"grad_norm": 0.23658718168735504,
	"learning_rate": 2.492866385215559e-07,
	"loss": 0.2791,
	"step": 11320
	},
	{
	"epoch": 2.730208458850464,
	"grad_norm": 0.205313578248024,
	"learning_rate": 2.449340662136407e-07,
	"loss": 0.275,
	"step": 11330
	},
	{
	"epoch": 2.732618387757561,
	"grad_norm": 0.2248641401529312,
	"learning_rate": 2.4061887330197485e-07,
	"loss": 0.2787,
	"step": 11340
	},
	{
	"epoch": 2.7350283166646583,
	"grad_norm": 0.21100834012031555,
	"learning_rate": 2.3634109370813008e-07,
	"loss": 0.2799,
	"step": 11350
	},
	{
	"epoch": 2.737438245571756,
	"grad_norm": 0.22437573969364166,
	"learning_rate": 2.3210076105957103e-07,
	"loss": 0.2817,
	"step": 11360
	},
	{
	"epoch": 2.739848174478853,
	"grad_norm": 0.22785739600658417,
	"learning_rate": 2.278979086893962e-07,
	"loss": 0.2819,
	"step": 11370
	},
	{
	"epoch": 2.74225810338595,
	"grad_norm": 0.21774955093860626,
	"learning_rate": 2.2373256963607093e-07,
	"loss": 0.2808,
	"step": 11380
	},
	{
	"epoch": 2.7446680322930472,
	"grad_norm": 0.21113403141498566,
	"learning_rate": 2.1960477664317027e-07,
	"loss": 0.2805,
	"step": 11390
	},
	{
	"epoch": 2.7470779612001444,
	"grad_norm": 0.20757479965686798,
	"learning_rate": 2.1551456215912147e-07,
	"loss": 0.2779,
	"step": 11400
	},
	{
	"epoch": 2.749487890107242,
	"grad_norm": 0.20025287568569183,
	"learning_rate": 2.114619583369476e-07,
	"loss": 0.2821,
	"step": 11410
	},
	{
	"epoch": 2.751897819014339,
	"grad_norm": 0.21974754333496094,
	"learning_rate": 2.0744699703401817e-07,
	"loss": 0.277,
	"step": 11420
	},
	{
	"epoch": 2.754307747921436,
	"grad_norm": 0.21834228932857513,
	"learning_rate": 2.034697098117927e-07,
	"loss": 0.2782,
	"step": 11430
	},
	{
	"epoch": 2.7567176768285337,
	"grad_norm": 0.21652831137180328,
	"learning_rate": 1.995301279355788e-07,
	"loss": 0.2778,
	"step": 11440
	},
	{
	"epoch": 2.759127605735631,
	"grad_norm": 0.22111645340919495,
	"learning_rate": 1.9562828237428332e-07,
	"loss": 0.2804,
	"step": 11450
	},
	{
	"epoch": 2.761537534642728,
	"grad_norm": 0.20760564506053925,
	"learning_rate": 1.917642038001677e-07,
	"loss": 0.2833,
	"step": 11460
	},
	{
	"epoch": 2.763947463549825,
	"grad_norm": 0.2068658322095871,
	"learning_rate": 1.8793792258861077e-07,
	"loss": 0.278,
	"step": 11470
	},
	{
	"epoch": 2.7663573924569222,
	"grad_norm": 0.21775546669960022,
	"learning_rate": 1.8414946881786634e-07,
	"loss": 0.2826,
	"step": 11480
	},
	{
	"epoch": 2.76876732136402,
	"grad_norm": 0.21031032502651215,
	"learning_rate": 1.8039887226882823e-07,
	"loss": 0.2774,
	"step": 11490
	},
	{
	"epoch": 2.771177250271117,
	"grad_norm": 0.21648050844669342,
	"learning_rate": 1.7668616242479618e-07,
	"loss": 0.2815,
	"step": 11500
	},
	{
	"epoch": 2.7735871791782145,
	"grad_norm": 0.231080561876297,
	"learning_rate": 1.7301136847124477e-07,
	"loss": 0.2775,
	"step": 11510
	},
	{
	"epoch": 2.7759971080853116,
	"grad_norm": 0.23016923666000366,
	"learning_rate": 1.6937451929559147e-07,
	"loss": 0.2803,
	"step": 11520
	},
	{
	"epoch": 2.7784070369924088,
	"grad_norm": 0.23469191789627075,
	"learning_rate": 1.6577564348697284e-07,
	"loss": 0.2807,
	"step": 11530
	},
	{
	"epoch": 2.780816965899506,
	"grad_norm": 0.2128429114818573,
	"learning_rate": 1.622147693360171e-07,
	"loss": 0.2791,
	"step": 11540
	},
	{
	"epoch": 2.783226894806603,
	"grad_norm": 0.20690526068210602,
	"learning_rate": 1.586919248346236e-07,
	"loss": 0.2802,
	"step": 11550
	},
	{
	"epoch": 2.7856368237137006,
	"grad_norm": 0.2274414598941803,
	"learning_rate": 1.5520713767574247e-07,
	"loss": 0.2805,
	"step": 11560
	},
	{
	"epoch": 2.7880467526207977,
	"grad_norm": 0.2216014266014099,
	"learning_rate": 1.5176043525315543e-07,
	"loss": 0.2796,
	"step": 11570
	},
	{
	"epoch": 2.790456681527895,
	"grad_norm": 0.21051554381847382,
	"learning_rate": 1.483518446612614e-07,
	"loss": 0.2777,
	"step": 11580
	},
	{
	"epoch": 2.7928666104349924,
	"grad_norm": 0.2569997310638428,
	"learning_rate": 1.4498139269486455e-07,
	"loss": 0.2817,
	"step": 11590
	},
	{
	"epoch": 2.7952765393420895,
	"grad_norm": 0.22340749204158783,
	"learning_rate": 1.4164910584896163e-07,
	"loss": 0.2793,
	"step": 11600
	},
	{
	"epoch": 2.7976864682491867,
	"grad_norm": 0.21418623626232147,
	"learning_rate": 1.383550103185366e-07,
	"loss": 0.2769,
	"step": 11610
	},
	{
	"epoch": 2.800096397156284,
	"grad_norm": 0.2054596096277237,
	"learning_rate": 1.350991319983508e-07,
	"loss": 0.2793,
	"step": 11620
	},
	{
	"epoch": 2.802506326063381,
	"grad_norm": 0.2143249362707138,
	"learning_rate": 1.3188149648274307e-07,
	"loss": 0.2816,
	"step": 11630
	},
	{
	"epoch": 2.8049162549704785,
	"grad_norm": 0.20595218241214752,
	"learning_rate": 1.2870212906542612e-07,
	"loss": 0.2782,
	"step": 11640
	},
	{
	"epoch": 2.8073261838775756,
	"grad_norm": 0.2100745290517807,
	"learning_rate": 1.2556105473928824e-07,
	"loss": 0.2804,
	"step": 11650
	},
	{
	"epoch": 2.8097361127846727,
	"grad_norm": 0.20853552222251892,
	"learning_rate": 1.2245829819619858e-07,
	"loss": 0.2796,
	"step": 11660
	},
	{
	"epoch": 2.8121460416917703,
	"grad_norm": 0.23161408305168152,
	"learning_rate": 1.1939388382681106e-07,
	"loss": 0.2804,
	"step": 11670
	},
	{
	"epoch": 2.8145559705988674,
	"grad_norm": 0.23912835121154785,
	"learning_rate": 1.163678357203718e-07,
	"loss": 0.2799,
	"step": 11680
	},
	{
	"epoch": 2.8169658995059645,
	"grad_norm": 0.23017705976963043,
	"learning_rate": 1.133801776645338e-07,
	"loss": 0.2819,
	"step": 11690
	},
	{
	"epoch": 2.8193758284130617,
	"grad_norm": 0.20810681581497192,
	"learning_rate": 1.1043093314516418e-07,
	"loss": 0.2791,
	"step": 11700
	},
	{
	"epoch": 2.821785757320159,
	"grad_norm": 0.2116118222475052,
	"learning_rate": 1.0752012534616496e-07,
	"loss": 0.2779,
	"step": 11710
	},
	{
	"epoch": 2.8241956862272564,
	"grad_norm": 0.2135167121887207,
	"learning_rate": 1.046477771492882e-07,
	"loss": 0.2773,
	"step": 11720
	},
	{
	"epoch": 2.8266056151343535,
	"grad_norm": 0.21532116830348969,
	"learning_rate": 1.0181391113395611e-07,
	"loss": 0.2813,
	"step": 11730
	},
	{
	"epoch": 2.8290155440414506,
	"grad_norm": 0.21494585275650024,
	"learning_rate": 9.901854957708345e-08,
	"loss": 0.2794,
	"step": 11740
	},
	{
	"epoch": 2.831425472948548,
	"grad_norm": 0.19757752120494843,
	"learning_rate": 9.626171445290378e-08,
	"loss": 0.2757,
	"step": 11750
	},
	{
	"epoch": 2.8338354018556453,
	"grad_norm": 0.1989773064851761,
	"learning_rate": 9.354342743279455e-08,
	"loss": 0.2816,
	"step": 11760
	},
	{
	"epoch": 2.8362453307627424,
	"grad_norm": 0.22005504369735718,
	"learning_rate": 9.086370988511006e-08,
	"loss": 0.2783,
	"step": 11770
	},
	{
	"epoch": 2.8386552596698396,
	"grad_norm": 0.21186135709285736,
	"learning_rate": 8.822258287500829e-08,
	"loss": 0.2798,
	"step": 11780
	},
	{
	"epoch": 2.841065188576937,
	"grad_norm": 0.21358412504196167,
	"learning_rate": 8.562006716429316e-08,
	"loss": 0.2797,
	"step": 11790
	},
	{
	"epoch": 2.8434751174840343,
	"grad_norm": 0.22604596614837646,
	"learning_rate": 8.305618321124087e-08,
	"loss": 0.2788,
	"step": 11800
	},
	{
	"epoch": 2.8458850463911314,
	"grad_norm": 0.2292734533548355,
	"learning_rate": 8.053095117044995e-08,
	"loss": 0.2809,
	"step": 11810
	},
	{
	"epoch": 2.848294975298229,
	"grad_norm": 0.22452694177627563,
	"learning_rate": 7.804439089267368e-08,
	"loss": 0.2831,
	"step": 11820
	},
	{
	"epoch": 2.850704904205326,
	"grad_norm": 0.20080284774303436,
	"learning_rate": 7.559652192467127e-08,
	"loss": 0.2797,
	"step": 11830
	},
	{
	"epoch": 2.853114833112423,
	"grad_norm": 0.2056536227464676,
	"learning_rate": 7.318736350904798e-08,
	"loss": 0.2795,
	"step": 11840
	},
	{
	"epoch": 2.8555247620195203,
	"grad_norm": 0.23172076046466827,
	"learning_rate": 7.081693458410977e-08,
	"loss": 0.2817,
	"step": 11850
	},
	{
	"epoch": 2.8579346909266174,
	"grad_norm": 0.21115311980247498,
	"learning_rate": 6.848525378370995e-08,
	"loss": 0.277,
	"step": 11860
	},
	{
	"epoch": 2.860344619833715,
	"grad_norm": 0.22333264350891113,
	"learning_rate": 6.61923394371039e-08,
	"loss": 0.2777,
	"step": 11870
	},
	{
	"epoch": 2.862754548740812,
	"grad_norm": 0.2060793936252594,
	"learning_rate": 6.393820956880681e-08,
	"loss": 0.2796,
	"step": 11880
	},
	{
	"epoch": 2.8651644776479093,
	"grad_norm": 0.2063363790512085,
	"learning_rate": 6.172288189844833e-08,
	"loss": 0.2812,
	"step": 11890
	},
	{
	"epoch": 2.867574406555007,
	"grad_norm": 0.21264159679412842,
	"learning_rate": 5.954637384063766e-08,
	"loss": 0.2833,
	"step": 11900
	},
	{
	"epoch": 2.869984335462104,
	"grad_norm": 0.2114320993423462,
	"learning_rate": 5.740870250482367e-08,
	"loss": 0.2805,
	"step": 11910
	},
	{
	"epoch": 2.872394264369201,
	"grad_norm": 0.21590712666511536,
	"learning_rate": 5.530988469516052e-08,
	"loss": 0.2808,
	"step": 11920
	},
	{
	"epoch": 2.874804193276298,
	"grad_norm": 0.22174324095249176,
	"learning_rate": 5.324993691037783e-08,
	"loss": 0.2795,
	"step": 11930
	},
	{
	"epoch": 2.8772141221833953,
	"grad_norm": 0.2031482756137848,
	"learning_rate": 5.12288753436474e-08,
	"loss": 0.2781,
	"step": 11940
	},
	{
	"epoch": 2.879624051090493,
	"grad_norm": 0.21535705029964447,
	"learning_rate": 4.924671588246e-08,
	"loss": 0.2826,
	"step": 11950
	},
	{
	"epoch": 2.88203397999759,
	"grad_norm": 0.21580399572849274,
	"learning_rate": 4.7303474108496e-08,
	"loss": 0.28,
	"step": 11960
	},
	{
	"epoch": 2.884443908904687,
	"grad_norm": 0.20807425677776337,
	"learning_rate": 4.539916529750832e-08,
	"loss": 0.273,
	"step": 11970
	},
	{
	"epoch": 2.8868538378117847,
	"grad_norm": 0.2159041166305542,
	"learning_rate": 4.353380441919575e-08,
	"loss": 0.2772,
	"step": 11980
	},
	{
	"epoch": 2.889263766718882,
	"grad_norm": 0.203306645154953,
	"learning_rate": 4.170740613709201e-08,
	"loss": 0.2799,
	"step": 11990
	},
	{
	"epoch": 2.891673695625979,
	"grad_norm": 0.2085571140050888,
	"learning_rate": 3.9919984808445836e-08,
	"loss": 0.2787,
	"step": 12000
	},
	{
	"epoch": 2.894083624533076,
	"grad_norm": 0.22006815671920776,
	"learning_rate": 3.817155448410936e-08,
	"loss": 0.2774,
	"step": 12010
	},
	{
	"epoch": 2.8964935534401737,
	"grad_norm": 0.20777152478694916,
	"learning_rate": 3.6462128908428265e-08,
	"loss": 0.2795,
	"step": 12020
	},
	{
	"epoch": 2.898903482347271,
	"grad_norm": 0.2284579873085022,
	"learning_rate": 3.479172151913346e-08,
	"loss": 0.2791,
	"step": 12030
	},
	{
	"epoch": 2.901313411254368,
	"grad_norm": 0.19985182583332062,
	"learning_rate": 3.3160345447235674e-08,
	"loss": 0.2739,
	"step": 12040
	},
	{
	"epoch": 2.9037233401614655,
	"grad_norm": 0.20958954095840454,
	"learning_rate": 3.156801351692051e-08,
	"loss": 0.2751,
	"step": 12050
	},
	{
	"epoch": 2.9061332690685626,
	"grad_norm": 0.2138223499059677,
	"learning_rate": 3.0014738245450756e-08,
	"loss": 0.2805,
	"step": 12060
	},
	{
	"epoch": 2.9085431979756597,
	"grad_norm": 0.2051713615655899,
	"learning_rate": 2.8500531843065893e-08,
	"loss": 0.2764,
	"step": 12070
	},
	{
	"epoch": 2.910953126882757,
	"grad_norm": 0.2104288637638092,
	"learning_rate": 2.702540621288441e-08,
	"loss": 0.2754,
	"step": 12080
	},
	{
	"epoch": 2.913363055789854,
	"grad_norm": 0.20084409415721893,
	"learning_rate": 2.5589372950815538e-08,
	"loss": 0.2784,
	"step": 12090
	},
	{
	"epoch": 2.9157729846969516,
	"grad_norm": 0.20526035130023956,
	"learning_rate": 2.4192443345462667e-08,
	"loss": 0.2811,
	"step": 12100
	},
	{
	"epoch": 2.9181829136040487,
	"grad_norm": 0.2047935128211975,
	"learning_rate": 2.2834628378037848e-08,
	"loss": 0.2804,
	"step": 12110
	},
	{
	"epoch": 2.920592842511146,
	"grad_norm": 0.20336604118347168,
	"learning_rate": 2.1515938722272977e-08,
	"loss": 0.2769,
	"step": 12120
	},
	{
	"epoch": 2.9230027714182434,
	"grad_norm": 0.20714308321475983,
	"learning_rate": 2.023638474433931e-08,
	"loss": 0.2849,
	"step": 12130
	},
	{
	"epoch": 2.9254127003253405,
	"grad_norm": 0.23401431739330292,
	"learning_rate": 1.8995976502762526e-08,
	"loss": 0.2774,
	"step": 12140
	},
	{
	"epoch": 2.9278226292324376,
	"grad_norm": 0.22609463334083557,
	"learning_rate": 1.779472374834612e-08,
	"loss": 0.279,
	"step": 12150
	},
	{
	"epoch": 2.9302325581395348,
	"grad_norm": 0.207259401679039,
	"learning_rate": 1.6632635924092587e-08,
	"loss": 0.2798,
	"step": 12160
	},
	{
	"epoch": 2.932642487046632,
	"grad_norm": 0.2058272659778595,
	"learning_rate": 1.5509722165131246e-08,
	"loss": 0.2789,
	"step": 12170
	},
	{
	"epoch": 2.9350524159537295,
	"grad_norm": 0.21924631297588348,
	"learning_rate": 1.4425991298645525e-08,
	"loss": 0.2839,
	"step": 12180
	},
	{
	"epoch": 2.9374623448608266,
	"grad_norm": 0.20754733681678772,
	"learning_rate": 1.3381451843803572e-08,
	"loss": 0.278,
	"step": 12190
	},
	{
	"epoch": 2.9398722737679237,
	"grad_norm": 0.2181021273136139,
	"learning_rate": 1.2376112011691088e-08,
	"loss": 0.2812,
	"step": 12200
	},
	{
	"epoch": 2.9422822026750213,
	"grad_norm": 0.21440595388412476,
	"learning_rate": 1.1409979705246932e-08,
	"loss": 0.2803,
	"step": 12210
	},
	{
	"epoch": 2.9446921315821184,
	"grad_norm": 0.20581397414207458,
	"learning_rate": 1.0483062519200949e-08,
	"loss": 0.2772,
	"step": 12220
	},
	{
	"epoch": 2.9471020604892155,
	"grad_norm": 0.20993457734584808,
	"learning_rate": 9.595367740014572e-09,
	"loss": 0.2804,
	"step": 12230
	},
	{
	"epoch": 2.9495119893963127,
	"grad_norm": 0.21549396216869354,
	"learning_rate": 8.746902345824204e-09,
	"loss": 0.2795,
	"step": 12240
	},
	{
	"epoch": 2.9519219183034098,
	"grad_norm": 0.20338089764118195,
	"learning_rate": 7.937673006384039e-09,
	"loss": 0.2818,
	"step": 12250
	},
	{
	"epoch": 2.9543318472105073,
	"grad_norm": 0.21155881881713867,
	"learning_rate": 7.167686083015546e-09,
	"loss": 0.2767,
	"step": 12260
	},
	{
	"epoch": 2.9567417761176045,
	"grad_norm": 0.2318677455186844,
	"learning_rate": 6.4369476285580656e-09,
	"loss": 0.278,
	"step": 12270
	},
	{
	"epoch": 2.959151705024702,
	"grad_norm": 0.2094941884279251,
	"learning_rate": 5.7454633873188505e-09,
	"loss": 0.2798,
	"step": 12280
	},
	{
	"epoch": 2.961561633931799,
	"grad_norm": 0.20073027908802032,
	"learning_rate": 5.09323879503032e-09,
	"loss": 0.2817,
	"step": 12290
	},
	{
	"epoch": 2.9639715628388963,
	"grad_norm": 0.21260711550712585,
	"learning_rate": 4.480278978804542e-09,
	"loss": 0.2856,
	"step": 12300
	},
	{
	"epoch": 2.9663814917459934,
	"grad_norm": 0.20531398057937622,
	"learning_rate": 3.906588757097152e-09,
	"loss": 0.2774,
	"step": 12310
	},
	{
	"epoch": 2.9687914206530905,
	"grad_norm": 0.21011656522750854,
	"learning_rate": 3.372172639664606e-09,
	"loss": 0.2787,
	"step": 12320
	},
	{
	"epoch": 2.971201349560188,
	"grad_norm": 0.21284441649913788,
	"learning_rate": 2.877034827532543e-09,
	"loss": 0.2791,
	"step": 12330
	},
	{
	"epoch": 2.9736112784672852,
	"grad_norm": 0.2072736620903015,
	"learning_rate": 2.4211792129608112e-09,
	"loss": 0.2768,
	"step": 12340
	},
	{
	"epoch": 2.9760212073743824,
	"grad_norm": 0.2038768231868744,
	"learning_rate": 2.004609379413491e-09,
	"loss": 0.2804,
	"step": 12350
	},
	{
	"epoch": 2.97843113628148,
	"grad_norm": 0.21304082870483398,
	"learning_rate": 1.6273286015305866e-09,
	"loss": 0.277,
	"step": 12360
	},
	{
	"epoch": 2.980841065188577,
	"grad_norm": 0.2041448950767517,
	"learning_rate": 1.2893398451024886e-09,
	"loss": 0.2829,
	"step": 12370
	},
	{
	"epoch": 2.983250994095674,
	"grad_norm": 0.20517560839653015,
	"learning_rate": 9.906457670449953e-10,
	"loss": 0.2729,
	"step": 12380
	},
	{
	"epoch": 2.9856609230027713,
	"grad_norm": 0.20326991379261017,
	"learning_rate": 7.312487153826597e-10,
	"loss": 0.2788,
	"step": 12390
	},
	{
	"epoch": 2.9880708519098684,
	"grad_norm": 0.2058713436126709,
	"learning_rate": 5.111507292254736e-10,
	"loss": 0.2798,
	"step": 12400
	},
	{
	"epoch": 2.990480780816966,
	"grad_norm": 0.208069309592247,
	"learning_rate": 3.3035353875499056e-10,
	"loss": 0.2748,
	"step": 12410
	},
	{
	"epoch": 2.992890709724063,
	"grad_norm": 0.20593762397766113,
	"learning_rate": 1.8885856521211333e-10,
	"loss": 0.279,
	"step": 12420
	},
	{
	"epoch": 2.9953006386311603,
	"grad_norm": 0.2191898077726364,
	"learning_rate": 8.666692088266094e-11,
	"loss": 0.2814,
	"step": 12430
	},
	{
	"epoch": 2.997710567538258,
	"grad_norm": 0.21619409322738647,
	"learning_rate": 2.377940909237264e-11,
	"loss": 0.2817,
	"step": 12440
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.299235999584198,
	"learning_rate": 1.9652419636084773e-13,
	"loss": 0.2831,
	"step": 12450
	}
	],
	"logging_steps": 10,
	"max_steps": 12450,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 10000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.8436613860170295e+20,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}