korean_syllable_roberta_256 / trainer_state.json

Upload 10 files

571fb77 verified over 1 year ago

250 kB

	{
	"best_metric": 1.1103906631469727,
	"best_model_checkpoint": "/home/wani/Desktop/roberta-pretrain/ckpt/roberta/pretrain/medium/256/checkpoint-12330",
	"epoch": 10.386703853378108,
	"eval_steps": 90,
	"global_step": 12330,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008423928510444533,
	"grad_norm": 5.073121070861816,
	"learning_rate": 4.166666666666667e-06,
	"loss": 7.2395,
	"step": 10
	},
	{
	"epoch": 0.016847857020889066,
	"grad_norm": 4.587955474853516,
	"learning_rate": 8.333333333333334e-06,
	"loss": 7.0836,
	"step": 20
	},
	{
	"epoch": 0.0252717855313336,
	"grad_norm": 3.8589327335357666,
	"learning_rate": 1.25e-05,
	"loss": 6.8156,
	"step": 30
	},
	{
	"epoch": 0.03369571404177813,
	"grad_norm": 3.4427683353424072,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 6.5549,
	"step": 40
	},
	{
	"epoch": 0.04211964255222266,
	"grad_norm": 3.109060525894165,
	"learning_rate": 2.0833333333333333e-05,
	"loss": 6.3522,
	"step": 50
	},
	{
	"epoch": 0.0505435710626672,
	"grad_norm": 2.86232590675354,
	"learning_rate": 2.5e-05,
	"loss": 6.1983,
	"step": 60
	},
	{
	"epoch": 0.05896749957311173,
	"grad_norm": 2.6880924701690674,
	"learning_rate": 2.9166666666666666e-05,
	"loss": 6.0796,
	"step": 70
	},
	{
	"epoch": 0.06739142808355626,
	"grad_norm": 2.490527629852295,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 5.9754,
	"step": 80
	},
	{
	"epoch": 0.0758153565940008,
	"grad_norm": 2.3156356811523438,
	"learning_rate": 3.75e-05,
	"loss": 5.8736,
	"step": 90
	},
	{
	"epoch": 0.0758153565940008,
	"eval_accuracy": 0.22415329938580753,
	"eval_loss": 5.8054423332214355,
	"eval_runtime": 910.9652,
	"eval_samples_per_second": 548.183,
	"eval_steps_per_second": 5.076,
	"step": 90
	},
	{
	"epoch": 0.08423928510444532,
	"grad_norm": 2.1557302474975586,
	"learning_rate": 4.1666666666666665e-05,
	"loss": 5.7691,
	"step": 100
	},
	{
	"epoch": 0.09266321361488987,
	"grad_norm": 1.9360383749008179,
	"learning_rate": 4.5833333333333334e-05,
	"loss": 5.6653,
	"step": 110
	},
	{
	"epoch": 0.1010871421253344,
	"grad_norm": 1.731399655342102,
	"learning_rate": 5e-05,
	"loss": 5.5598,
	"step": 120
	},
	{
	"epoch": 0.10951107063577893,
	"grad_norm": 1.508693814277649,
	"learning_rate": 5.416666666666667e-05,
	"loss": 5.4574,
	"step": 130
	},
	{
	"epoch": 0.11793499914622346,
	"grad_norm": 1.2835007905960083,
	"learning_rate": 5.833333333333333e-05,
	"loss": 5.3585,
	"step": 140
	},
	{
	"epoch": 0.126358927656668,
	"grad_norm": 1.0747231245040894,
	"learning_rate": 6.25e-05,
	"loss": 5.2667,
	"step": 150
	},
	{
	"epoch": 0.13478285616711252,
	"grad_norm": 0.852271318435669,
	"learning_rate": 6.666666666666667e-05,
	"loss": 5.1779,
	"step": 160
	},
	{
	"epoch": 0.14320678467755707,
	"grad_norm": 0.7001814842224121,
	"learning_rate": 7.083333333333334e-05,
	"loss": 5.0965,
	"step": 170
	},
	{
	"epoch": 0.1516307131880016,
	"grad_norm": 0.5657457709312439,
	"learning_rate": 7.5e-05,
	"loss": 5.0237,
	"step": 180
	},
	{
	"epoch": 0.1516307131880016,
	"eval_accuracy": 0.23888299376264316,
	"eval_loss": 4.981535911560059,
	"eval_runtime": 882.341,
	"eval_samples_per_second": 565.967,
	"eval_steps_per_second": 5.241,
	"step": 180
	},
	{
	"epoch": 0.16005464169844613,
	"grad_norm": 0.4981703758239746,
	"learning_rate": 7.916666666666666e-05,
	"loss": 4.9662,
	"step": 190
	},
	{
	"epoch": 0.16847857020889065,
	"grad_norm": 0.40254291892051697,
	"learning_rate": 8.333333333333333e-05,
	"loss": 4.9195,
	"step": 200
	},
	{
	"epoch": 0.1769024987193352,
	"grad_norm": 0.32726043462753296,
	"learning_rate": 8.75e-05,
	"loss": 4.8766,
	"step": 210
	},
	{
	"epoch": 0.18532642722977974,
	"grad_norm": 0.2471727877855301,
	"learning_rate": 9.166666666666667e-05,
	"loss": 4.8458,
	"step": 220
	},
	{
	"epoch": 0.19375035574022426,
	"grad_norm": 0.2568261921405792,
	"learning_rate": 9.583333333333334e-05,
	"loss": 4.8169,
	"step": 230
	},
	{
	"epoch": 0.2021742842506688,
	"grad_norm": 0.19310955703258514,
	"learning_rate": 0.0001,
	"loss": 4.7926,
	"step": 240
	},
	{
	"epoch": 0.21059821276111332,
	"grad_norm": 0.20584674179553986,
	"learning_rate": 0.00010416666666666667,
	"loss": 4.7714,
	"step": 250
	},
	{
	"epoch": 0.21902214127155786,
	"grad_norm": 0.26360729336738586,
	"learning_rate": 0.00010833333333333334,
	"loss": 4.7511,
	"step": 260
	},
	{
	"epoch": 0.22744606978200238,
	"grad_norm": 0.1681978851556778,
	"learning_rate": 0.00011250000000000001,
	"loss": 4.7309,
	"step": 270
	},
	{
	"epoch": 0.22744606978200238,
	"eval_accuracy": 0.28488370423336357,
	"eval_loss": 4.706047534942627,
	"eval_runtime": 889.3977,
	"eval_samples_per_second": 561.477,
	"eval_steps_per_second": 5.199,
	"step": 270
	},
	{
	"epoch": 0.23586999829244693,
	"grad_norm": 0.17959143221378326,
	"learning_rate": 0.00011666666666666667,
	"loss": 4.7148,
	"step": 280
	},
	{
	"epoch": 0.24429392680289147,
	"grad_norm": 0.27109047770500183,
	"learning_rate": 0.00012083333333333333,
	"loss": 4.6989,
	"step": 290
	},
	{
	"epoch": 0.252717855313336,
	"grad_norm": 0.2674080431461334,
	"learning_rate": 0.000125,
	"loss": 4.6826,
	"step": 300
	},
	{
	"epoch": 0.2611417838237805,
	"grad_norm": 0.24386395514011383,
	"learning_rate": 0.00012916666666666667,
	"loss": 4.6707,
	"step": 310
	},
	{
	"epoch": 0.26956571233422505,
	"grad_norm": 0.5274083614349365,
	"learning_rate": 0.00013333333333333334,
	"loss": 4.6553,
	"step": 320
	},
	{
	"epoch": 0.2779896408446696,
	"grad_norm": 0.4005141258239746,
	"learning_rate": 0.0001375,
	"loss": 4.6446,
	"step": 330
	},
	{
	"epoch": 0.28641356935511414,
	"grad_norm": 0.3732853829860687,
	"learning_rate": 0.00014166666666666668,
	"loss": 4.6315,
	"step": 340
	},
	{
	"epoch": 0.29483749786555863,
	"grad_norm": 0.2742752730846405,
	"learning_rate": 0.00014583333333333335,
	"loss": 4.6221,
	"step": 350
	},
	{
	"epoch": 0.3032614263760032,
	"grad_norm": 0.20482462644577026,
	"learning_rate": 0.00015,
	"loss": 4.6138,
	"step": 360
	},
	{
	"epoch": 0.3032614263760032,
	"eval_accuracy": 0.28836420126551926,
	"eval_loss": 4.5933918952941895,
	"eval_runtime": 880.4452,
	"eval_samples_per_second": 567.186,
	"eval_steps_per_second": 5.252,
	"step": 360
	},
	{
	"epoch": 0.3116853548864477,
	"grad_norm": 0.26613757014274597,
	"learning_rate": 0.00015416666666666668,
	"loss": 4.5983,
	"step": 370
	},
	{
	"epoch": 0.32010928339689226,
	"grad_norm": 0.20205098390579224,
	"learning_rate": 0.00015833333333333332,
	"loss": 4.5922,
	"step": 380
	},
	{
	"epoch": 0.3285332119073368,
	"grad_norm": 0.5084218978881836,
	"learning_rate": 0.00016250000000000002,
	"loss": 4.5826,
	"step": 390
	},
	{
	"epoch": 0.3369571404177813,
	"grad_norm": 0.2835780084133148,
	"learning_rate": 0.00016666666666666666,
	"loss": 4.5771,
	"step": 400
	},
	{
	"epoch": 0.34538106892822584,
	"grad_norm": 0.23976200819015503,
	"learning_rate": 0.00017083333333333333,
	"loss": 4.5726,
	"step": 410
	},
	{
	"epoch": 0.3538049974386704,
	"grad_norm": 0.2275087982416153,
	"learning_rate": 0.000175,
	"loss": 4.5666,
	"step": 420
	},
	{
	"epoch": 0.36222892594911493,
	"grad_norm": 0.27758899331092834,
	"learning_rate": 0.00017916666666666667,
	"loss": 4.5654,
	"step": 430
	},
	{
	"epoch": 0.3706528544595595,
	"grad_norm": 0.18581350147724152,
	"learning_rate": 0.00018333333333333334,
	"loss": 4.5593,
	"step": 440
	},
	{
	"epoch": 0.37907678297000397,
	"grad_norm": 0.1667676419019699,
	"learning_rate": 0.0001875,
	"loss": 4.5538,
	"step": 450
	},
	{
	"epoch": 0.37907678297000397,
	"eval_accuracy": 0.28966679521500804,
	"eval_loss": 4.547606468200684,
	"eval_runtime": 890.3979,
	"eval_samples_per_second": 560.846,
	"eval_steps_per_second": 5.193,
	"step": 450
	},
	{
	"epoch": 0.3875007114804485,
	"grad_norm": 0.32489290833473206,
	"learning_rate": 0.00019166666666666667,
	"loss": 4.5532,
	"step": 460
	},
	{
	"epoch": 0.39592463999089306,
	"grad_norm": 0.7000045776367188,
	"learning_rate": 0.00019583333333333334,
	"loss": 4.5484,
	"step": 470
	},
	{
	"epoch": 0.4043485685013376,
	"grad_norm": 0.43668240308761597,
	"learning_rate": 0.0002,
	"loss": 4.5489,
	"step": 480
	},
	{
	"epoch": 0.4127724970117821,
	"grad_norm": 0.36716368794441223,
	"learning_rate": 0.00020416666666666668,
	"loss": 4.5459,
	"step": 490
	},
	{
	"epoch": 0.42119642552222664,
	"grad_norm": 0.30332931876182556,
	"learning_rate": 0.00020833333333333335,
	"loss": 4.5418,
	"step": 500
	},
	{
	"epoch": 0.4296203540326712,
	"grad_norm": 0.5920347571372986,
	"learning_rate": 0.0002125,
	"loss": 4.5406,
	"step": 510
	},
	{
	"epoch": 0.4380442825431157,
	"grad_norm": 0.45020386576652527,
	"learning_rate": 0.00021666666666666668,
	"loss": 4.5372,
	"step": 520
	},
	{
	"epoch": 0.44646821105356027,
	"grad_norm": 0.33357909321784973,
	"learning_rate": 0.00022083333333333333,
	"loss": 4.5367,
	"step": 530
	},
	{
	"epoch": 0.45489213956400476,
	"grad_norm": 0.45888572931289673,
	"learning_rate": 0.00022500000000000002,
	"loss": 4.5344,
	"step": 540
	},
	{
	"epoch": 0.45489213956400476,
	"eval_accuracy": 0.2902362393111046,
	"eval_loss": 4.531790256500244,
	"eval_runtime": 882.2427,
	"eval_samples_per_second": 566.03,
	"eval_steps_per_second": 5.241,
	"step": 540
	},
	{
	"epoch": 0.4633160680744493,
	"grad_norm": 0.4458440840244293,
	"learning_rate": 0.00022916666666666666,
	"loss": 4.5328,
	"step": 550
	},
	{
	"epoch": 0.47173999658489385,
	"grad_norm": 0.1917838305234909,
	"learning_rate": 0.00023333333333333333,
	"loss": 4.5296,
	"step": 560
	},
	{
	"epoch": 0.4801639250953384,
	"grad_norm": 0.8310424089431763,
	"learning_rate": 0.0002375,
	"loss": 4.5275,
	"step": 570
	},
	{
	"epoch": 0.48858785360578294,
	"grad_norm": 0.4216615855693817,
	"learning_rate": 0.00024166666666666667,
	"loss": 4.531,
	"step": 580
	},
	{
	"epoch": 0.49701178211622743,
	"grad_norm": 0.2320231944322586,
	"learning_rate": 0.0002458333333333333,
	"loss": 4.5276,
	"step": 590
	},
	{
	"epoch": 0.505435710626672,
	"grad_norm": 0.3115006983280182,
	"learning_rate": 0.00025,
	"loss": 4.5252,
	"step": 600
	},
	{
	"epoch": 0.5138596391371165,
	"grad_norm": 0.13032270967960358,
	"learning_rate": 0.00025416666666666665,
	"loss": 4.5227,
	"step": 610
	},
	{
	"epoch": 0.522283567647561,
	"grad_norm": 0.5333927273750305,
	"learning_rate": 0.00025833333333333334,
	"loss": 4.5214,
	"step": 620
	},
	{
	"epoch": 0.5307074961580056,
	"grad_norm": 0.8976441025733948,
	"learning_rate": 0.00026250000000000004,
	"loss": 4.5218,
	"step": 630
	},
	{
	"epoch": 0.5307074961580056,
	"eval_accuracy": 0.290083406000685,
	"eval_loss": 4.522771835327148,
	"eval_runtime": 892.1941,
	"eval_samples_per_second": 559.717,
	"eval_steps_per_second": 5.183,
	"step": 630
	},
	{
	"epoch": 0.5391314246684501,
	"grad_norm": 0.1657322496175766,
	"learning_rate": 0.0002666666666666667,
	"loss": 4.523,
	"step": 640
	},
	{
	"epoch": 0.5475553531788947,
	"grad_norm": 0.1890048235654831,
	"learning_rate": 0.0002708333333333333,
	"loss": 4.5185,
	"step": 650
	},
	{
	"epoch": 0.5559792816893392,
	"grad_norm": 0.8254080414772034,
	"learning_rate": 0.000275,
	"loss": 4.5196,
	"step": 660
	},
	{
	"epoch": 0.5644032101997837,
	"grad_norm": 0.1703944355249405,
	"learning_rate": 0.00027916666666666666,
	"loss": 4.52,
	"step": 670
	},
	{
	"epoch": 0.5728271387102283,
	"grad_norm": 0.33486783504486084,
	"learning_rate": 0.00028333333333333335,
	"loss": 4.5139,
	"step": 680
	},
	{
	"epoch": 0.5812510672206728,
	"grad_norm": 0.4759036600589752,
	"learning_rate": 0.0002875,
	"loss": 4.5158,
	"step": 690
	},
	{
	"epoch": 0.5896749957311173,
	"grad_norm": 0.26314422488212585,
	"learning_rate": 0.0002916666666666667,
	"loss": 4.5135,
	"step": 700
	},
	{
	"epoch": 0.5980989242415619,
	"grad_norm": 0.39898937940597534,
	"learning_rate": 0.00029583333333333333,
	"loss": 4.5114,
	"step": 710
	},
	{
	"epoch": 0.6065228527520063,
	"grad_norm": 0.5003794431686401,
	"learning_rate": 0.0003,
	"loss": 4.5148,
	"step": 720
	},
	{
	"epoch": 0.6065228527520063,
	"eval_accuracy": 0.2903979539286128,
	"eval_loss": 4.508981704711914,
	"eval_runtime": 878.8487,
	"eval_samples_per_second": 568.216,
	"eval_steps_per_second": 5.261,
	"step": 720
	},
	{
	"epoch": 0.614946781262451,
	"grad_norm": 0.2276950627565384,
	"learning_rate": 0.00030416666666666667,
	"loss": 4.5111,
	"step": 730
	},
	{
	"epoch": 0.6233707097728954,
	"grad_norm": 0.21725377440452576,
	"learning_rate": 0.00030833333333333337,
	"loss": 4.5088,
	"step": 740
	},
	{
	"epoch": 0.6317946382833399,
	"grad_norm": 0.8084585666656494,
	"learning_rate": 0.0003125,
	"loss": 4.5074,
	"step": 750
	},
	{
	"epoch": 0.6402185667937845,
	"grad_norm": 0.46915069222450256,
	"learning_rate": 0.00031666666666666665,
	"loss": 4.5072,
	"step": 760
	},
	{
	"epoch": 0.648642495304229,
	"grad_norm": 0.15649260580539703,
	"learning_rate": 0.00032083333333333334,
	"loss": 4.5039,
	"step": 770
	},
	{
	"epoch": 0.6570664238146736,
	"grad_norm": 0.42916274070739746,
	"learning_rate": 0.00032500000000000004,
	"loss": 4.5056,
	"step": 780
	},
	{
	"epoch": 0.6654903523251181,
	"grad_norm": 0.287572979927063,
	"learning_rate": 0.0003291666666666667,
	"loss": 4.5045,
	"step": 790
	},
	{
	"epoch": 0.6739142808355626,
	"grad_norm": 0.6869699358940125,
	"learning_rate": 0.0003333333333333333,
	"loss": 4.5029,
	"step": 800
	},
	{
	"epoch": 0.6823382093460072,
	"grad_norm": 0.2973476052284241,
	"learning_rate": 0.0003375,
	"loss": 4.5009,
	"step": 810
	},
	{
	"epoch": 0.6823382093460072,
	"eval_accuracy": 0.29041409279207236,
	"eval_loss": 4.497637748718262,
	"eval_runtime": 872.3603,
	"eval_samples_per_second": 572.442,
	"eval_steps_per_second": 5.301,
	"step": 810
	},
	{
	"epoch": 0.6907621378564517,
	"grad_norm": 0.5773557424545288,
	"learning_rate": 0.00034166666666666666,
	"loss": 4.5024,
	"step": 820
	},
	{
	"epoch": 0.6991860663668963,
	"grad_norm": 0.31921157240867615,
	"learning_rate": 0.00034583333333333335,
	"loss": 4.5006,
	"step": 830
	},
	{
	"epoch": 0.7076099948773408,
	"grad_norm": 0.4232361912727356,
	"learning_rate": 0.00035,
	"loss": 4.5001,
	"step": 840
	},
	{
	"epoch": 0.7160339233877853,
	"grad_norm": 0.30865538120269775,
	"learning_rate": 0.0003541666666666667,
	"loss": 4.4998,
	"step": 850
	},
	{
	"epoch": 0.7244578518982299,
	"grad_norm": 0.6191368699073792,
	"learning_rate": 0.00035833333333333333,
	"loss": 4.4967,
	"step": 860
	},
	{
	"epoch": 0.7328817804086744,
	"grad_norm": 0.3202773630619049,
	"learning_rate": 0.0003625,
	"loss": 4.499,
	"step": 870
	},
	{
	"epoch": 0.741305708919119,
	"grad_norm": 0.3090028464794159,
	"learning_rate": 0.00036666666666666667,
	"loss": 4.4967,
	"step": 880
	},
	{
	"epoch": 0.7497296374295634,
	"grad_norm": 0.9248805046081543,
	"learning_rate": 0.00037083333333333337,
	"loss": 4.4962,
	"step": 890
	},
	{
	"epoch": 0.7581535659400079,
	"grad_norm": 0.27745822072029114,
	"learning_rate": 0.000375,
	"loss": 4.4956,
	"step": 900
	},
	{
	"epoch": 0.7581535659400079,
	"eval_accuracy": 0.29047371761644103,
	"eval_loss": 4.492140293121338,
	"eval_runtime": 888.1144,
	"eval_samples_per_second": 562.288,
	"eval_steps_per_second": 5.207,
	"step": 900
	},
	{
	"epoch": 0.7665774944504525,
	"grad_norm": 0.2972380518913269,
	"learning_rate": 0.00037916666666666665,
	"loss": 4.4936,
	"step": 910
	},
	{
	"epoch": 0.775001422960897,
	"grad_norm": 1.4440104961395264,
	"learning_rate": 0.00038333333333333334,
	"loss": 4.4956,
	"step": 920
	},
	{
	"epoch": 0.7834253514713415,
	"grad_norm": 0.2894129455089569,
	"learning_rate": 0.00038750000000000004,
	"loss": 4.4961,
	"step": 930
	},
	{
	"epoch": 0.7918492799817861,
	"grad_norm": 0.22757315635681152,
	"learning_rate": 0.0003916666666666667,
	"loss": 4.495,
	"step": 940
	},
	{
	"epoch": 0.8002732084922306,
	"grad_norm": 0.2084762305021286,
	"learning_rate": 0.0003958333333333333,
	"loss": 4.4921,
	"step": 950
	},
	{
	"epoch": 0.8086971370026752,
	"grad_norm": 0.4823535084724426,
	"learning_rate": 0.0004,
	"loss": 4.4928,
	"step": 960
	},
	{
	"epoch": 0.8171210655131197,
	"grad_norm": 0.22939594089984894,
	"learning_rate": 0.00040416666666666666,
	"loss": 4.4889,
	"step": 970
	},
	{
	"epoch": 0.8255449940235642,
	"grad_norm": 0.4983462989330292,
	"learning_rate": 0.00040833333333333336,
	"loss": 4.4888,
	"step": 980
	},
	{
	"epoch": 0.8339689225340088,
	"grad_norm": 0.7445792555809021,
	"learning_rate": 0.0004125,
	"loss": 4.4899,
	"step": 990
	},
	{
	"epoch": 0.8339689225340088,
	"eval_accuracy": 0.2903607895100575,
	"eval_loss": 4.490144729614258,
	"eval_runtime": 872.9885,
	"eval_samples_per_second": 572.03,
	"eval_steps_per_second": 5.297,
	"step": 990
	},
	{
	"epoch": 0.8423928510444533,
	"grad_norm": 0.3264559805393219,
	"learning_rate": 0.0004166666666666667,
	"loss": 4.4879,
	"step": 1000
	},
	{
	"epoch": 0.8508167795548979,
	"grad_norm": 0.5130082964897156,
	"learning_rate": 0.00042083333333333333,
	"loss": 4.4881,
	"step": 1010
	},
	{
	"epoch": 0.8592407080653424,
	"grad_norm": 0.2776341736316681,
	"learning_rate": 0.000425,
	"loss": 4.4872,
	"step": 1020
	},
	{
	"epoch": 0.8676646365757869,
	"grad_norm": 0.9157618880271912,
	"learning_rate": 0.00042916666666666667,
	"loss": 4.4868,
	"step": 1030
	},
	{
	"epoch": 0.8760885650862315,
	"grad_norm": 0.22099615633487701,
	"learning_rate": 0.00043333333333333337,
	"loss": 4.4877,
	"step": 1040
	},
	{
	"epoch": 0.8845124935966759,
	"grad_norm": 0.2313142567873001,
	"learning_rate": 0.0004375,
	"loss": 4.4845,
	"step": 1050
	},
	{
	"epoch": 0.8929364221071205,
	"grad_norm": 0.4353635907173157,
	"learning_rate": 0.00044166666666666665,
	"loss": 4.4888,
	"step": 1060
	},
	{
	"epoch": 0.901360350617565,
	"grad_norm": 0.2390984743833542,
	"learning_rate": 0.00044583333333333335,
	"loss": 4.4827,
	"step": 1070
	},
	{
	"epoch": 0.9097842791280095,
	"grad_norm": 0.31369632482528687,
	"learning_rate": 0.00045000000000000004,
	"loss": 4.4832,
	"step": 1080
	},
	{
	"epoch": 0.9097842791280095,
	"eval_accuracy": 0.2904605834264481,
	"eval_loss": 4.480494499206543,
	"eval_runtime": 880.1337,
	"eval_samples_per_second": 567.386,
	"eval_steps_per_second": 5.254,
	"step": 1080
	},
	{
	"epoch": 0.9182082076384541,
	"grad_norm": 0.6700971722602844,
	"learning_rate": 0.0004541666666666667,
	"loss": 4.483,
	"step": 1090
	},
	{
	"epoch": 0.9266321361488986,
	"grad_norm": 0.25950998067855835,
	"learning_rate": 0.0004583333333333333,
	"loss": 4.4832,
	"step": 1100
	},
	{
	"epoch": 0.9350560646593432,
	"grad_norm": 0.2840316593647003,
	"learning_rate": 0.0004625,
	"loss": 4.4819,
	"step": 1110
	},
	{
	"epoch": 0.9434799931697877,
	"grad_norm": 0.6859279274940491,
	"learning_rate": 0.00046666666666666666,
	"loss": 4.4819,
	"step": 1120
	},
	{
	"epoch": 0.9519039216802322,
	"grad_norm": 0.2865343391895294,
	"learning_rate": 0.00047083333333333336,
	"loss": 4.48,
	"step": 1130
	},
	{
	"epoch": 0.9603278501906768,
	"grad_norm": 1.179539442062378,
	"learning_rate": 0.000475,
	"loss": 4.4762,
	"step": 1140
	},
	{
	"epoch": 0.9687517787011213,
	"grad_norm": 0.4731704294681549,
	"learning_rate": 0.0004791666666666667,
	"loss": 4.4831,
	"step": 1150
	},
	{
	"epoch": 0.9771757072115659,
	"grad_norm": 0.298757404088974,
	"learning_rate": 0.00048333333333333334,
	"loss": 4.4742,
	"step": 1160
	},
	{
	"epoch": 0.9855996357220104,
	"grad_norm": 1.0954639911651611,
	"learning_rate": 0.0004875,
	"loss": 4.46,
	"step": 1170
	},
	{
	"epoch": 0.9855996357220104,
	"eval_accuracy": 0.29021425691327735,
	"eval_loss": 4.458162784576416,
	"eval_runtime": 887.8161,
	"eval_samples_per_second": 562.477,
	"eval_steps_per_second": 5.208,
	"step": 1170
	},
	{
	"epoch": 0.9940235642324549,
	"grad_norm": 0.441949725151062,
	"learning_rate": 0.0004916666666666666,
	"loss": 4.4549,
	"step": 1180
	},
	{
	"epoch": 1.0024474927428995,
	"grad_norm": 0.5917736887931824,
	"learning_rate": 0.0004958333333333334,
	"loss": 4.4425,
	"step": 1190
	},
	{
	"epoch": 1.010871421253344,
	"grad_norm": 0.3910304307937622,
	"learning_rate": 0.0005,
	"loss": 4.4376,
	"step": 1200
	},
	{
	"epoch": 1.0192953497637884,
	"grad_norm": 0.446277916431427,
	"learning_rate": 0.0005041666666666667,
	"loss": 4.4284,
	"step": 1210
	},
	{
	"epoch": 1.027719278274233,
	"grad_norm": 0.7843539118766785,
	"learning_rate": 0.0005083333333333333,
	"loss": 4.4216,
	"step": 1220
	},
	{
	"epoch": 1.0361432067846776,
	"grad_norm": 0.5028587579727173,
	"learning_rate": 0.0005124999999999999,
	"loss": 4.418,
	"step": 1230
	},
	{
	"epoch": 1.044567135295122,
	"grad_norm": 0.5062530636787415,
	"learning_rate": 0.0005166666666666667,
	"loss": 4.4099,
	"step": 1240
	},
	{
	"epoch": 1.0529910638055666,
	"grad_norm": 0.4109475016593933,
	"learning_rate": 0.0005208333333333334,
	"loss": 4.4005,
	"step": 1250
	},
	{
	"epoch": 1.0614149923160112,
	"grad_norm": 0.494357705116272,
	"learning_rate": 0.0005250000000000001,
	"loss": 4.3924,
	"step": 1260
	},
	{
	"epoch": 1.0614149923160112,
	"eval_accuracy": 0.29121270831959656,
	"eval_loss": 4.368500232696533,
	"eval_runtime": 885.6194,
	"eval_samples_per_second": 563.872,
	"eval_steps_per_second": 5.221,
	"step": 1260
	},
	{
	"epoch": 1.0698389208264556,
	"grad_norm": 0.4964124858379364,
	"learning_rate": 0.0005291666666666667,
	"loss": 4.3843,
	"step": 1270
	},
	{
	"epoch": 1.0782628493369002,
	"grad_norm": 0.6328290700912476,
	"learning_rate": 0.0005333333333333334,
	"loss": 4.3756,
	"step": 1280
	},
	{
	"epoch": 1.0866867778473448,
	"grad_norm": 0.8674759268760681,
	"learning_rate": 0.0005375,
	"loss": 4.3697,
	"step": 1290
	},
	{
	"epoch": 1.0951107063577892,
	"grad_norm": 0.4631132185459137,
	"learning_rate": 0.0005416666666666666,
	"loss": 4.3676,
	"step": 1300
	},
	{
	"epoch": 1.1035346348682338,
	"grad_norm": 0.5043870210647583,
	"learning_rate": 0.0005458333333333333,
	"loss": 4.3582,
	"step": 1310
	},
	{
	"epoch": 1.1119585633786784,
	"grad_norm": 0.5791853666305542,
	"learning_rate": 0.00055,
	"loss": 4.3529,
	"step": 1320
	},
	{
	"epoch": 1.120382491889123,
	"grad_norm": 0.6443321108818054,
	"learning_rate": 0.0005541666666666667,
	"loss": 4.3471,
	"step": 1330
	},
	{
	"epoch": 1.1288064203995674,
	"grad_norm": 0.6193282008171082,
	"learning_rate": 0.0005583333333333333,
	"loss": 4.338,
	"step": 1340
	},
	{
	"epoch": 1.137230348910012,
	"grad_norm": 0.6169930696487427,
	"learning_rate": 0.0005625000000000001,
	"loss": 4.3365,
	"step": 1350
	},
	{
	"epoch": 1.137230348910012,
	"eval_accuracy": 0.2912005471998471,
	"eval_loss": 4.2970428466796875,
	"eval_runtime": 875.1704,
	"eval_samples_per_second": 570.604,
	"eval_steps_per_second": 5.284,
	"step": 1350
	},
	{
	"epoch": 1.1456542774204566,
	"grad_norm": 0.8051270246505737,
	"learning_rate": 0.0005666666666666667,
	"loss": 4.3252,
	"step": 1360
	},
	{
	"epoch": 1.154078205930901,
	"grad_norm": 0.7985979914665222,
	"learning_rate": 0.0005708333333333333,
	"loss": 4.3185,
	"step": 1370
	},
	{
	"epoch": 1.1625021344413455,
	"grad_norm": 0.7459626793861389,
	"learning_rate": 0.000575,
	"loss": 4.3119,
	"step": 1380
	},
	{
	"epoch": 1.1709260629517901,
	"grad_norm": 0.572289228439331,
	"learning_rate": 0.0005791666666666667,
	"loss": 4.3066,
	"step": 1390
	},
	{
	"epoch": 1.1793499914622347,
	"grad_norm": 0.5565480589866638,
	"learning_rate": 0.0005833333333333334,
	"loss": 4.2973,
	"step": 1400
	},
	{
	"epoch": 1.1877739199726791,
	"grad_norm": 0.789574384689331,
	"learning_rate": 0.0005875,
	"loss": 4.2922,
	"step": 1410
	},
	{
	"epoch": 1.1961978484831237,
	"grad_norm": 1.0027601718902588,
	"learning_rate": 0.0005916666666666667,
	"loss": 4.2824,
	"step": 1420
	},
	{
	"epoch": 1.204621776993568,
	"grad_norm": 0.8137519359588623,
	"learning_rate": 0.0005958333333333333,
	"loss": 4.2808,
	"step": 1430
	},
	{
	"epoch": 1.2130457055040127,
	"grad_norm": 0.8705686330795288,
	"learning_rate": 0.0006,
	"loss": 4.2685,
	"step": 1440
	},
	{
	"epoch": 1.2130457055040127,
	"eval_accuracy": 0.2922224943254529,
	"eval_loss": 4.225285053253174,
	"eval_runtime": 885.6768,
	"eval_samples_per_second": 563.835,
	"eval_steps_per_second": 5.221,
	"step": 1440
	},
	{
	"epoch": 1.2214696340144573,
	"grad_norm": 1.0055943727493286,
	"learning_rate": 0.0006041666666666666,
	"loss": 4.2639,
	"step": 1450
	},
	{
	"epoch": 1.229893562524902,
	"grad_norm": 0.9747255444526672,
	"learning_rate": 0.0006083333333333333,
	"loss": 4.2622,
	"step": 1460
	},
	{
	"epoch": 1.2383174910353463,
	"grad_norm": 0.6799793243408203,
	"learning_rate": 0.0006125000000000001,
	"loss": 4.251,
	"step": 1470
	},
	{
	"epoch": 1.2467414195457909,
	"grad_norm": 0.8863984942436218,
	"learning_rate": 0.0006166666666666667,
	"loss": 4.2476,
	"step": 1480
	},
	{
	"epoch": 1.2551653480562355,
	"grad_norm": 0.891790509223938,
	"learning_rate": 0.0006208333333333334,
	"loss": 4.2434,
	"step": 1490
	},
	{
	"epoch": 1.2635892765666799,
	"grad_norm": 0.731626033782959,
	"learning_rate": 0.000625,
	"loss": 4.233,
	"step": 1500
	},
	{
	"epoch": 1.2720132050771245,
	"grad_norm": 0.7038396000862122,
	"learning_rate": 0.0006291666666666667,
	"loss": 4.2264,
	"step": 1510
	},
	{
	"epoch": 1.280437133587569,
	"grad_norm": 1.0247654914855957,
	"learning_rate": 0.0006333333333333333,
	"loss": 4.2198,
	"step": 1520
	},
	{
	"epoch": 1.2888610620980137,
	"grad_norm": 1.0854212045669556,
	"learning_rate": 0.0006374999999999999,
	"loss": 4.2126,
	"step": 1530
	},
	{
	"epoch": 1.2888610620980137,
	"eval_accuracy": 0.2953678601775117,
	"eval_loss": 4.152132034301758,
	"eval_runtime": 880.7951,
	"eval_samples_per_second": 566.96,
	"eval_steps_per_second": 5.25,
	"step": 1530
	},
	{
	"epoch": 1.297284990608458,
	"grad_norm": 0.8179611563682556,
	"learning_rate": 0.0006416666666666667,
	"loss": 4.2081,
	"step": 1540
	},
	{
	"epoch": 1.3057089191189026,
	"grad_norm": 1.4174506664276123,
	"learning_rate": 0.0006458333333333334,
	"loss": 4.2027,
	"step": 1550
	},
	{
	"epoch": 1.314132847629347,
	"grad_norm": 1.1611113548278809,
	"learning_rate": 0.0006500000000000001,
	"loss": 4.1992,
	"step": 1560
	},
	{
	"epoch": 1.3225567761397916,
	"grad_norm": 1.1475598812103271,
	"learning_rate": 0.0006541666666666667,
	"loss": 4.1875,
	"step": 1570
	},
	{
	"epoch": 1.3309807046502362,
	"grad_norm": 1.158115267753601,
	"learning_rate": 0.0006583333333333334,
	"loss": 4.1883,
	"step": 1580
	},
	{
	"epoch": 1.3394046331606808,
	"grad_norm": 1.325655221939087,
	"learning_rate": 0.0006625,
	"loss": 4.181,
	"step": 1590
	},
	{
	"epoch": 1.3478285616711254,
	"grad_norm": 1.077793836593628,
	"learning_rate": 0.0006666666666666666,
	"loss": 4.1727,
	"step": 1600
	},
	{
	"epoch": 1.3562524901815698,
	"grad_norm": 1.2139134407043457,
	"learning_rate": 0.0006708333333333333,
	"loss": 4.1691,
	"step": 1610
	},
	{
	"epoch": 1.3646764186920144,
	"grad_norm": 1.075778603553772,
	"learning_rate": 0.000675,
	"loss": 4.1563,
	"step": 1620
	},
	{
	"epoch": 1.3646764186920144,
	"eval_accuracy": 0.2982954422675167,
	"eval_loss": 4.0783562660217285,
	"eval_runtime": 880.4076,
	"eval_samples_per_second": 567.21,
	"eval_steps_per_second": 5.252,
	"step": 1620
	},
	{
	"epoch": 1.3731003472024588,
	"grad_norm": 1.8017152547836304,
	"learning_rate": 0.0006791666666666667,
	"loss": 4.1523,
	"step": 1630
	},
	{
	"epoch": 1.3815242757129034,
	"grad_norm": 1.2614473104476929,
	"learning_rate": 0.0006833333333333333,
	"loss": 4.1481,
	"step": 1640
	},
	{
	"epoch": 1.389948204223348,
	"grad_norm": 1.179167628288269,
	"learning_rate": 0.0006875,
	"loss": 4.1421,
	"step": 1650
	},
	{
	"epoch": 1.3983721327337926,
	"grad_norm": 1.463998794555664,
	"learning_rate": 0.0006916666666666667,
	"loss": 4.1331,
	"step": 1660
	},
	{
	"epoch": 1.406796061244237,
	"grad_norm": 1.086358666419983,
	"learning_rate": 0.0006958333333333334,
	"loss": 4.1276,
	"step": 1670
	},
	{
	"epoch": 1.4152199897546816,
	"grad_norm": 1.3272647857666016,
	"learning_rate": 0.0007,
	"loss": 4.1357,
	"step": 1680
	},
	{
	"epoch": 1.4236439182651262,
	"grad_norm": 1.4760971069335938,
	"learning_rate": 0.0007041666666666667,
	"loss": 4.1299,
	"step": 1690
	},
	{
	"epoch": 1.4320678467755705,
	"grad_norm": 1.7591749429702759,
	"learning_rate": 0.0007083333333333334,
	"loss": 4.129,
	"step": 1700
	},
	{
	"epoch": 1.4404917752860151,
	"grad_norm": 1.7945603132247925,
	"learning_rate": 0.0007125,
	"loss": 4.1221,
	"step": 1710
	},
	{
	"epoch": 1.4404917752860151,
	"eval_accuracy": 0.3010639405026742,
	"eval_loss": 4.012106895446777,
	"eval_runtime": 881.7425,
	"eval_samples_per_second": 566.351,
	"eval_steps_per_second": 5.244,
	"step": 1710
	},
	{
	"epoch": 1.4489157037964597,
	"grad_norm": 1.7016360759735107,
	"learning_rate": 0.0007166666666666667,
	"loss": 4.1043,
	"step": 1720
	},
	{
	"epoch": 1.4573396323069043,
	"grad_norm": 1.8240207433700562,
	"learning_rate": 0.0007208333333333333,
	"loss": 4.1034,
	"step": 1730
	},
	{
	"epoch": 1.4657635608173487,
	"grad_norm": 2.4510786533355713,
	"learning_rate": 0.000725,
	"loss": 4.0924,
	"step": 1740
	},
	{
	"epoch": 1.4741874893277933,
	"grad_norm": 1.7411324977874756,
	"learning_rate": 0.0007291666666666666,
	"loss": 4.1041,
	"step": 1750
	},
	{
	"epoch": 1.4826114178382377,
	"grad_norm": 1.1133612394332886,
	"learning_rate": 0.0007333333333333333,
	"loss": 4.1064,
	"step": 1760
	},
	{
	"epoch": 1.4910353463486823,
	"grad_norm": 1.3936740159988403,
	"learning_rate": 0.0007375000000000001,
	"loss": 4.0954,
	"step": 1770
	},
	{
	"epoch": 1.499459274859127,
	"grad_norm": 2.3855819702148438,
	"learning_rate": 0.0007416666666666667,
	"loss": 4.0836,
	"step": 1780
	},
	{
	"epoch": 1.5078832033695715,
	"grad_norm": 1.2734453678131104,
	"learning_rate": 0.0007458333333333334,
	"loss": 4.0834,
	"step": 1790
	},
	{
	"epoch": 1.516307131880016,
	"grad_norm": 1.432719349861145,
	"learning_rate": 0.00075,
	"loss": 4.0711,
	"step": 1800
	},
	{
	"epoch": 1.516307131880016,
	"eval_accuracy": 0.3055703004736556,
	"eval_loss": 3.976287841796875,
	"eval_runtime": 881.3595,
	"eval_samples_per_second": 566.597,
	"eval_steps_per_second": 5.246,
	"step": 1800
	},
	{
	"epoch": 1.5247310603904605,
	"grad_norm": 1.5839996337890625,
	"learning_rate": 0.0007541666666666667,
	"loss": 4.0712,
	"step": 1810
	},
	{
	"epoch": 1.5331549889009048,
	"grad_norm": 3.0461270809173584,
	"learning_rate": 0.0007583333333333333,
	"loss": 4.0617,
	"step": 1820
	},
	{
	"epoch": 1.5415789174113494,
	"grad_norm": 1.760568380355835,
	"learning_rate": 0.0007624999999999999,
	"loss": 4.0486,
	"step": 1830
	},
	{
	"epoch": 1.550002845921794,
	"grad_norm": 1.6682184934616089,
	"learning_rate": 0.0007666666666666667,
	"loss": 4.0034,
	"step": 1840
	},
	{
	"epoch": 1.5584267744322386,
	"grad_norm": 1.4350653886795044,
	"learning_rate": 0.0007708333333333334,
	"loss": 3.9644,
	"step": 1850
	},
	{
	"epoch": 1.5668507029426832,
	"grad_norm": 1.4870712757110596,
	"learning_rate": 0.0007750000000000001,
	"loss": 3.9314,
	"step": 1860
	},
	{
	"epoch": 1.5752746314531276,
	"grad_norm": 1.7954463958740234,
	"learning_rate": 0.0007791666666666667,
	"loss": 3.8939,
	"step": 1870
	},
	{
	"epoch": 1.5836985599635722,
	"grad_norm": 2.1485602855682373,
	"learning_rate": 0.0007833333333333334,
	"loss": 3.8576,
	"step": 1880
	},
	{
	"epoch": 1.5921224884740166,
	"grad_norm": 1.647570252418518,
	"learning_rate": 0.0007875,
	"loss": 3.8159,
	"step": 1890
	},
	{
	"epoch": 1.5921224884740166,
	"eval_accuracy": 0.3353472770952767,
	"eval_loss": 3.6341910362243652,
	"eval_runtime": 881.1424,
	"eval_samples_per_second": 566.737,
	"eval_steps_per_second": 5.248,
	"step": 1890
	},
	{
	"epoch": 1.6005464169844612,
	"grad_norm": 1.7171742916107178,
	"learning_rate": 0.0007916666666666666,
	"loss": 3.7812,
	"step": 1900
	},
	{
	"epoch": 1.6089703454949058,
	"grad_norm": 2.12190580368042,
	"learning_rate": 0.0007958333333333333,
	"loss": 3.7402,
	"step": 1910
	},
	{
	"epoch": 1.6173942740053504,
	"grad_norm": 1.7334414720535278,
	"learning_rate": 0.0008,
	"loss": 3.7025,
	"step": 1920
	},
	{
	"epoch": 1.625818202515795,
	"grad_norm": 1.8880668878555298,
	"learning_rate": 0.0008041666666666667,
	"loss": 3.6808,
	"step": 1930
	},
	{
	"epoch": 1.6342421310262394,
	"grad_norm": 2.3294591903686523,
	"learning_rate": 0.0008083333333333333,
	"loss": 3.6419,
	"step": 1940
	},
	{
	"epoch": 1.642666059536684,
	"grad_norm": 2.4122796058654785,
	"learning_rate": 0.0008125000000000001,
	"loss": 3.6114,
	"step": 1950
	},
	{
	"epoch": 1.6510899880471284,
	"grad_norm": 2.090388774871826,
	"learning_rate": 0.0008166666666666667,
	"loss": 3.5867,
	"step": 1960
	},
	{
	"epoch": 1.659513916557573,
	"grad_norm": 2.267676830291748,
	"learning_rate": 0.0008208333333333334,
	"loss": 3.5501,
	"step": 1970
	},
	{
	"epoch": 1.6679378450680176,
	"grad_norm": 2.253739833831787,
	"learning_rate": 0.000825,
	"loss": 3.5114,
	"step": 1980
	},
	{
	"epoch": 1.6679378450680176,
	"eval_accuracy": 0.38861593633258434,
	"eval_loss": 3.2597665786743164,
	"eval_runtime": 889.3264,
	"eval_samples_per_second": 561.522,
	"eval_steps_per_second": 5.199,
	"step": 1980
	},
	{
	"epoch": 1.6763617735784622,
	"grad_norm": 2.269505739212036,
	"learning_rate": 0.0008291666666666667,
	"loss": 3.4854,
	"step": 1990
	},
	{
	"epoch": 1.6847857020889065,
	"grad_norm": 1.7237802743911743,
	"learning_rate": 0.0008333333333333334,
	"loss": 3.4651,
	"step": 2000
	},
	{
	"epoch": 1.6932096305993511,
	"grad_norm": 2.1117663383483887,
	"learning_rate": 0.0008375,
	"loss": 3.4558,
	"step": 2010
	},
	{
	"epoch": 1.7016335591097955,
	"grad_norm": 2.1351046562194824,
	"learning_rate": 0.0008416666666666667,
	"loss": 3.4256,
	"step": 2020
	},
	{
	"epoch": 1.7100574876202401,
	"grad_norm": 2.326232671737671,
	"learning_rate": 0.0008458333333333333,
	"loss": 3.3998,
	"step": 2030
	},
	{
	"epoch": 1.7184814161306847,
	"grad_norm": 2.1802730560302734,
	"learning_rate": 0.00085,
	"loss": 3.3865,
	"step": 2040
	},
	{
	"epoch": 1.7269053446411293,
	"grad_norm": 2.042966604232788,
	"learning_rate": 0.0008541666666666666,
	"loss": 3.3539,
	"step": 2050
	},
	{
	"epoch": 1.735329273151574,
	"grad_norm": 2.052464008331299,
	"learning_rate": 0.0008583333333333333,
	"loss": 3.3308,
	"step": 2060
	},
	{
	"epoch": 1.7437532016620183,
	"grad_norm": 1.5790934562683105,
	"learning_rate": 0.0008625000000000001,
	"loss": 3.3122,
	"step": 2070
	},
	{
	"epoch": 1.7437532016620183,
	"eval_accuracy": 0.41178756961484836,
	"eval_loss": 3.0882680416107178,
	"eval_runtime": 878.4742,
	"eval_samples_per_second": 568.458,
	"eval_steps_per_second": 5.264,
	"step": 2070
	},
	{
	"epoch": 1.752177130172463,
	"grad_norm": 2.2859761714935303,
	"learning_rate": 0.0008666666666666667,
	"loss": 3.3034,
	"step": 2080
	},
	{
	"epoch": 1.7606010586829073,
	"grad_norm": 2.912191867828369,
	"learning_rate": 0.0008708333333333334,
	"loss": 3.289,
	"step": 2090
	},
	{
	"epoch": 1.7690249871933519,
	"grad_norm": 2.143118143081665,
	"learning_rate": 0.000875,
	"loss": 3.2547,
	"step": 2100
	},
	{
	"epoch": 1.7774489157037965,
	"grad_norm": 1.8577404022216797,
	"learning_rate": 0.0008791666666666667,
	"loss": 3.2383,
	"step": 2110
	},
	{
	"epoch": 1.785872844214241,
	"grad_norm": 1.9692562818527222,
	"learning_rate": 0.0008833333333333333,
	"loss": 3.2137,
	"step": 2120
	},
	{
	"epoch": 1.7942967727246857,
	"grad_norm": 1.938915729522705,
	"learning_rate": 0.0008874999999999999,
	"loss": 3.1909,
	"step": 2130
	},
	{
	"epoch": 1.80272070123513,
	"grad_norm": 1.395321011543274,
	"learning_rate": 0.0008916666666666667,
	"loss": 3.1346,
	"step": 2140
	},
	{
	"epoch": 1.8111446297455744,
	"grad_norm": 1.8771544694900513,
	"learning_rate": 0.0008958333333333334,
	"loss": 3.1035,
	"step": 2150
	},
	{
	"epoch": 1.819568558256019,
	"grad_norm": 1.5829336643218994,
	"learning_rate": 0.0009000000000000001,
	"loss": 3.0328,
	"step": 2160
	},
	{
	"epoch": 1.819568558256019,
	"eval_accuracy": 0.45304088376136725,
	"eval_loss": 2.8062996864318848,
	"eval_runtime": 886.0675,
	"eval_samples_per_second": 563.587,
	"eval_steps_per_second": 5.219,
	"step": 2160
	},
	{
	"epoch": 1.8279924867664636,
	"grad_norm": 1.5085866451263428,
	"learning_rate": 0.0009041666666666667,
	"loss": 3.0089,
	"step": 2170
	},
	{
	"epoch": 1.8364164152769082,
	"grad_norm": 1.4988549947738647,
	"learning_rate": 0.0009083333333333334,
	"loss": 2.9786,
	"step": 2180
	},
	{
	"epoch": 1.8448403437873528,
	"grad_norm": 1.5726799964904785,
	"learning_rate": 0.0009125,
	"loss": 2.936,
	"step": 2190
	},
	{
	"epoch": 1.8532642722977972,
	"grad_norm": 1.2175358533859253,
	"learning_rate": 0.0009166666666666666,
	"loss": 2.8996,
	"step": 2200
	},
	{
	"epoch": 1.8616882008082418,
	"grad_norm": 1.4195218086242676,
	"learning_rate": 0.0009208333333333333,
	"loss": 2.8664,
	"step": 2210
	},
	{
	"epoch": 1.8701121293186862,
	"grad_norm": 1.1213312149047852,
	"learning_rate": 0.000925,
	"loss": 2.8382,
	"step": 2220
	},
	{
	"epoch": 1.8785360578291308,
	"grad_norm": 1.169554591178894,
	"learning_rate": 0.0009291666666666667,
	"loss": 2.8026,
	"step": 2230
	},
	{
	"epoch": 1.8869599863395754,
	"grad_norm": 1.4759305715560913,
	"learning_rate": 0.0009333333333333333,
	"loss": 2.7654,
	"step": 2240
	},
	{
	"epoch": 1.89538391485002,
	"grad_norm": 1.3071763515472412,
	"learning_rate": 0.0009375,
	"loss": 2.7311,
	"step": 2250
	},
	{
	"epoch": 1.89538391485002,
	"eval_accuracy": 0.4917409385648686,
	"eval_loss": 2.5433878898620605,
	"eval_runtime": 879.3794,
	"eval_samples_per_second": 567.873,
	"eval_steps_per_second": 5.258,
	"step": 2250
	},
	{
	"epoch": 1.9038078433604646,
	"grad_norm": 0.9968194961547852,
	"learning_rate": 0.0009416666666666667,
	"loss": 2.7044,
	"step": 2260
	},
	{
	"epoch": 1.912231771870909,
	"grad_norm": 1.1783692836761475,
	"learning_rate": 0.0009458333333333334,
	"loss": 2.6819,
	"step": 2270
	},
	{
	"epoch": 1.9206557003813534,
	"grad_norm": 0.9856918454170227,
	"learning_rate": 0.00095,
	"loss": 2.6528,
	"step": 2280
	},
	{
	"epoch": 1.929079628891798,
	"grad_norm": 1.0605028867721558,
	"learning_rate": 0.0009541666666666667,
	"loss": 2.6226,
	"step": 2290
	},
	{
	"epoch": 1.9375035574022426,
	"grad_norm": 0.8553977608680725,
	"learning_rate": 0.0009583333333333334,
	"loss": 2.608,
	"step": 2300
	},
	{
	"epoch": 1.9459274859126872,
	"grad_norm": 0.9543612599372864,
	"learning_rate": 0.0009625,
	"loss": 2.5865,
	"step": 2310
	},
	{
	"epoch": 1.9543514144231318,
	"grad_norm": 1.1085282564163208,
	"learning_rate": 0.0009666666666666667,
	"loss": 2.5586,
	"step": 2320
	},
	{
	"epoch": 1.9627753429335761,
	"grad_norm": 0.8689624667167664,
	"learning_rate": 0.0009708333333333333,
	"loss": 2.541,
	"step": 2330
	},
	{
	"epoch": 1.9711992714440207,
	"grad_norm": 0.6790447235107422,
	"learning_rate": 0.000975,
	"loss": 2.5214,
	"step": 2340
	},
	{
	"epoch": 1.9711992714440207,
	"eval_accuracy": 0.5198810557311793,
	"eval_loss": 2.3582663536071777,
	"eval_runtime": 891.4654,
	"eval_samples_per_second": 560.174,
	"eval_steps_per_second": 5.187,
	"step": 2340
	},
	{
	"epoch": 1.9796231999544651,
	"grad_norm": 1.1572414636611938,
	"learning_rate": 0.0009791666666666666,
	"loss": 2.5126,
	"step": 2350
	},
	{
	"epoch": 1.9880471284649097,
	"grad_norm": 0.8218650221824646,
	"learning_rate": 0.0009833333333333332,
	"loss": 2.4903,
	"step": 2360
	},
	{
	"epoch": 1.9964710569753543,
	"grad_norm": 0.9195880889892578,
	"learning_rate": 0.0009875,
	"loss": 2.479,
	"step": 2370
	},
	{
	"epoch": 2.004894985485799,
	"grad_norm": 0.6436383724212646,
	"learning_rate": 0.0009916666666666667,
	"loss": 2.4509,
	"step": 2380
	},
	{
	"epoch": 2.0133189139962435,
	"grad_norm": 0.9757860898971558,
	"learning_rate": 0.0009958333333333334,
	"loss": 2.453,
	"step": 2390
	},
	{
	"epoch": 2.021742842506688,
	"grad_norm": 0.8884423971176147,
	"learning_rate": 0.001,
	"loss": 2.428,
	"step": 2400
	},
	{
	"epoch": 2.0301667710171323,
	"grad_norm": 1.097330093383789,
	"learning_rate": 0.000999009900990099,
	"loss": 2.4139,
	"step": 2410
	},
	{
	"epoch": 2.038590699527577,
	"grad_norm": 1.095337152481079,
	"learning_rate": 0.0009980198019801981,
	"loss": 2.4024,
	"step": 2420
	},
	{
	"epoch": 2.0470146280380215,
	"grad_norm": 1.0757551193237305,
	"learning_rate": 0.000997029702970297,
	"loss": 2.3853,
	"step": 2430
	},
	{
	"epoch": 2.0470146280380215,
	"eval_accuracy": 0.538133837771306,
	"eval_loss": 2.2352097034454346,
	"eval_runtime": 883.4374,
	"eval_samples_per_second": 565.265,
	"eval_steps_per_second": 5.234,
	"step": 2430
	},
	{
	"epoch": 2.055438556548466,
	"grad_norm": 0.9356153011322021,
	"learning_rate": 0.000996039603960396,
	"loss": 2.3669,
	"step": 2440
	},
	{
	"epoch": 2.0638624850589107,
	"grad_norm": 0.8463107347488403,
	"learning_rate": 0.000995049504950495,
	"loss": 2.3604,
	"step": 2450
	},
	{
	"epoch": 2.0722864135693553,
	"grad_norm": 0.8833483457565308,
	"learning_rate": 0.0009940594059405941,
	"loss": 2.3574,
	"step": 2460
	},
	{
	"epoch": 2.0807103420797994,
	"grad_norm": 0.7081923484802246,
	"learning_rate": 0.0009930693069306932,
	"loss": 2.3338,
	"step": 2470
	},
	{
	"epoch": 2.089134270590244,
	"grad_norm": 0.5993143916130066,
	"learning_rate": 0.000992079207920792,
	"loss": 2.3219,
	"step": 2480
	},
	{
	"epoch": 2.0975581991006886,
	"grad_norm": 0.8431512117385864,
	"learning_rate": 0.000991089108910891,
	"loss": 2.3108,
	"step": 2490
	},
	{
	"epoch": 2.1059821276111332,
	"grad_norm": 0.9983824491500854,
	"learning_rate": 0.0009900990099009901,
	"loss": 2.305,
	"step": 2500
	},
	{
	"epoch": 2.114406056121578,
	"grad_norm": 0.6354156732559204,
	"learning_rate": 0.0009891089108910892,
	"loss": 2.2965,
	"step": 2510
	},
	{
	"epoch": 2.1228299846320224,
	"grad_norm": 0.8491016626358032,
	"learning_rate": 0.0009881188118811882,
	"loss": 2.2763,
	"step": 2520
	},
	{
	"epoch": 2.1228299846320224,
	"eval_accuracy": 0.5540495533549666,
	"eval_loss": 2.135758399963379,
	"eval_runtime": 895.5557,
	"eval_samples_per_second": 557.616,
	"eval_steps_per_second": 5.163,
	"step": 2520
	},
	{
	"epoch": 2.131253913142467,
	"grad_norm": 0.6909253001213074,
	"learning_rate": 0.000987128712871287,
	"loss": 2.2696,
	"step": 2530
	},
	{
	"epoch": 2.139677841652911,
	"grad_norm": 0.5072851181030273,
	"learning_rate": 0.000986138613861386,
	"loss": 2.2555,
	"step": 2540
	},
	{
	"epoch": 2.148101770163356,
	"grad_norm": 0.7575969696044922,
	"learning_rate": 0.0009851485148514852,
	"loss": 2.2552,
	"step": 2550
	},
	{
	"epoch": 2.1565256986738004,
	"grad_norm": 0.7418563365936279,
	"learning_rate": 0.0009841584158415842,
	"loss": 2.2439,
	"step": 2560
	},
	{
	"epoch": 2.164949627184245,
	"grad_norm": 0.5893211960792542,
	"learning_rate": 0.0009831683168316833,
	"loss": 2.2282,
	"step": 2570
	},
	{
	"epoch": 2.1733735556946896,
	"grad_norm": 0.892035186290741,
	"learning_rate": 0.000982178217821782,
	"loss": 2.2201,
	"step": 2580
	},
	{
	"epoch": 2.181797484205134,
	"grad_norm": 0.688275933265686,
	"learning_rate": 0.0009811881188118811,
	"loss": 2.2174,
	"step": 2590
	},
	{
	"epoch": 2.1902214127155784,
	"grad_norm": 0.5092687010765076,
	"learning_rate": 0.0009801980198019802,
	"loss": 2.2032,
	"step": 2600
	},
	{
	"epoch": 2.198645341226023,
	"grad_norm": 0.6715185642242432,
	"learning_rate": 0.0009792079207920793,
	"loss": 2.189,
	"step": 2610
	},
	{
	"epoch": 2.198645341226023,
	"eval_accuracy": 0.5674450081410035,
	"eval_loss": 2.053079605102539,
	"eval_runtime": 876.7453,
	"eval_samples_per_second": 569.579,
	"eval_steps_per_second": 5.274,
	"step": 2610
	},
	{
	"epoch": 2.2070692697364676,
	"grad_norm": 0.5717750191688538,
	"learning_rate": 0.0009782178217821783,
	"loss": 2.1894,
	"step": 2620
	},
	{
	"epoch": 2.215493198246912,
	"grad_norm": 0.7002500295639038,
	"learning_rate": 0.0009772277227722771,
	"loss": 2.1851,
	"step": 2630
	},
	{
	"epoch": 2.2239171267573568,
	"grad_norm": 0.6041799783706665,
	"learning_rate": 0.0009762376237623762,
	"loss": 2.1899,
	"step": 2640
	},
	{
	"epoch": 2.2323410552678014,
	"grad_norm": 0.40263745188713074,
	"learning_rate": 0.0009752475247524752,
	"loss": 2.1633,
	"step": 2650
	},
	{
	"epoch": 2.240764983778246,
	"grad_norm": 0.47779303789138794,
	"learning_rate": 0.0009742574257425743,
	"loss": 2.1478,
	"step": 2660
	},
	{
	"epoch": 2.24918891228869,
	"grad_norm": 0.8906975984573364,
	"learning_rate": 0.0009732673267326732,
	"loss": 2.1508,
	"step": 2670
	},
	{
	"epoch": 2.2576128407991347,
	"grad_norm": 0.4588846266269684,
	"learning_rate": 0.0009722772277227723,
	"loss": 2.1422,
	"step": 2680
	},
	{
	"epoch": 2.2660367693095793,
	"grad_norm": 0.6038916707038879,
	"learning_rate": 0.0009712871287128712,
	"loss": 2.1229,
	"step": 2690
	},
	{
	"epoch": 2.274460697820024,
	"grad_norm": 0.792378842830658,
	"learning_rate": 0.0009702970297029703,
	"loss": 2.1262,
	"step": 2700
	},
	{
	"epoch": 2.274460697820024,
	"eval_accuracy": 0.5767164906847645,
	"eval_loss": 1.9968212842941284,
	"eval_runtime": 890.0794,
	"eval_samples_per_second": 561.047,
	"eval_steps_per_second": 5.195,
	"step": 2700
	},
	{
	"epoch": 2.2828846263304685,
	"grad_norm": 0.5215600728988647,
	"learning_rate": 0.0009693069306930693,
	"loss": 2.1315,
	"step": 2710
	},
	{
	"epoch": 2.291308554840913,
	"grad_norm": 0.42443060874938965,
	"learning_rate": 0.0009683168316831683,
	"loss": 2.1075,
	"step": 2720
	},
	{
	"epoch": 2.2997324833513577,
	"grad_norm": 0.7379765510559082,
	"learning_rate": 0.0009673267326732673,
	"loss": 2.0997,
	"step": 2730
	},
	{
	"epoch": 2.308156411861802,
	"grad_norm": 0.532883882522583,
	"learning_rate": 0.0009663366336633663,
	"loss": 2.1009,
	"step": 2740
	},
	{
	"epoch": 2.3165803403722465,
	"grad_norm": 0.4312550127506256,
	"learning_rate": 0.0009653465346534653,
	"loss": 2.0836,
	"step": 2750
	},
	{
	"epoch": 2.325004268882691,
	"grad_norm": 0.42506101727485657,
	"learning_rate": 0.0009643564356435644,
	"loss": 2.0751,
	"step": 2760
	},
	{
	"epoch": 2.3334281973931357,
	"grad_norm": 0.9728929400444031,
	"learning_rate": 0.0009633663366336633,
	"loss": 2.0755,
	"step": 2770
	},
	{
	"epoch": 2.3418521259035803,
	"grad_norm": 0.4502295255661011,
	"learning_rate": 0.0009623762376237624,
	"loss": 2.0757,
	"step": 2780
	},
	{
	"epoch": 2.350276054414025,
	"grad_norm": 0.6825786232948303,
	"learning_rate": 0.0009613861386138613,
	"loss": 2.0593,
	"step": 2790
	},
	{
	"epoch": 2.350276054414025,
	"eval_accuracy": 0.5877788692302428,
	"eval_loss": 1.932070255279541,
	"eval_runtime": 877.2049,
	"eval_samples_per_second": 569.281,
	"eval_steps_per_second": 5.271,
	"step": 2790
	},
	{
	"epoch": 2.3586999829244695,
	"grad_norm": 0.5142760276794434,
	"learning_rate": 0.0009603960396039604,
	"loss": 2.0529,
	"step": 2800
	},
	{
	"epoch": 2.3671239114349136,
	"grad_norm": 0.613132119178772,
	"learning_rate": 0.0009594059405940594,
	"loss": 2.0423,
	"step": 2810
	},
	{
	"epoch": 2.3755478399453582,
	"grad_norm": 0.7282253503799438,
	"learning_rate": 0.0009584158415841584,
	"loss": 2.0522,
	"step": 2820
	},
	{
	"epoch": 2.383971768455803,
	"grad_norm": 0.37959426641464233,
	"learning_rate": 0.0009574257425742574,
	"loss": 2.0367,
	"step": 2830
	},
	{
	"epoch": 2.3923956969662474,
	"grad_norm": 0.35326164960861206,
	"learning_rate": 0.0009564356435643564,
	"loss": 2.0233,
	"step": 2840
	},
	{
	"epoch": 2.400819625476692,
	"grad_norm": 0.8196151256561279,
	"learning_rate": 0.0009554455445544554,
	"loss": 2.0264,
	"step": 2850
	},
	{
	"epoch": 2.409243553987136,
	"grad_norm": 0.7122208476066589,
	"learning_rate": 0.0009544554455445545,
	"loss": 2.0308,
	"step": 2860
	},
	{
	"epoch": 2.417667482497581,
	"grad_norm": 0.35665011405944824,
	"learning_rate": 0.0009534653465346534,
	"loss": 2.0133,
	"step": 2870
	},
	{
	"epoch": 2.4260914110080254,
	"grad_norm": 0.3755228519439697,
	"learning_rate": 0.0009524752475247525,
	"loss": 1.9992,
	"step": 2880
	},
	{
	"epoch": 2.4260914110080254,
	"eval_accuracy": 0.596780331496744,
	"eval_loss": 1.8819479942321777,
	"eval_runtime": 890.4504,
	"eval_samples_per_second": 560.813,
	"eval_steps_per_second": 5.193,
	"step": 2880
	},
	{
	"epoch": 2.43451533951847,
	"grad_norm": 0.7018378376960754,
	"learning_rate": 0.0009514851485148514,
	"loss": 2.0013,
	"step": 2890
	},
	{
	"epoch": 2.4429392680289146,
	"grad_norm": 0.4874301850795746,
	"learning_rate": 0.0009504950495049505,
	"loss": 1.9971,
	"step": 2900
	},
	{
	"epoch": 2.451363196539359,
	"grad_norm": 0.45909377932548523,
	"learning_rate": 0.0009495049504950495,
	"loss": 1.9881,
	"step": 2910
	},
	{
	"epoch": 2.459787125049804,
	"grad_norm": 0.4965904951095581,
	"learning_rate": 0.0009485148514851485,
	"loss": 1.989,
	"step": 2920
	},
	{
	"epoch": 2.468211053560248,
	"grad_norm": 0.4780527949333191,
	"learning_rate": 0.0009475247524752475,
	"loss": 1.9795,
	"step": 2930
	},
	{
	"epoch": 2.4766349820706925,
	"grad_norm": 0.5145118236541748,
	"learning_rate": 0.0009465346534653465,
	"loss": 1.973,
	"step": 2940
	},
	{
	"epoch": 2.485058910581137,
	"grad_norm": 0.5469622015953064,
	"learning_rate": 0.0009455445544554455,
	"loss": 1.9692,
	"step": 2950
	},
	{
	"epoch": 2.4934828390915817,
	"grad_norm": 0.5788788199424744,
	"learning_rate": 0.0009445544554455446,
	"loss": 1.9627,
	"step": 2960
	},
	{
	"epoch": 2.5019067676020263,
	"grad_norm": 0.5380696654319763,
	"learning_rate": 0.0009435643564356435,
	"loss": 1.9624,
	"step": 2970
	},
	{
	"epoch": 2.5019067676020263,
	"eval_accuracy": 0.6028271764812113,
	"eval_loss": 1.8441975116729736,
	"eval_runtime": 877.1334,
	"eval_samples_per_second": 569.327,
	"eval_steps_per_second": 5.272,
	"step": 2970
	},
	{
	"epoch": 2.510330696112471,
	"grad_norm": 0.4939862787723541,
	"learning_rate": 0.0009425742574257426,
	"loss": 1.9576,
	"step": 2980
	},
	{
	"epoch": 2.5187546246229155,
	"grad_norm": 0.4804815649986267,
	"learning_rate": 0.0009415841584158415,
	"loss": 1.948,
	"step": 2990
	},
	{
	"epoch": 2.5271785531333597,
	"grad_norm": 0.529515266418457,
	"learning_rate": 0.0009405940594059406,
	"loss": 1.9414,
	"step": 3000
	},
	{
	"epoch": 2.5356024816438043,
	"grad_norm": 0.5104151964187622,
	"learning_rate": 0.0009396039603960396,
	"loss": 1.9472,
	"step": 3010
	},
	{
	"epoch": 2.544026410154249,
	"grad_norm": 0.36934202909469604,
	"learning_rate": 0.0009386138613861386,
	"loss": 1.9358,
	"step": 3020
	},
	{
	"epoch": 2.5524503386646935,
	"grad_norm": 0.5956403017044067,
	"learning_rate": 0.0009376237623762376,
	"loss": 1.9272,
	"step": 3030
	},
	{
	"epoch": 2.560874267175138,
	"grad_norm": 0.5035738348960876,
	"learning_rate": 0.0009366336633663367,
	"loss": 1.934,
	"step": 3040
	},
	{
	"epoch": 2.5692981956855827,
	"grad_norm": 0.44133296608924866,
	"learning_rate": 0.0009356435643564357,
	"loss": 1.9192,
	"step": 3050
	},
	{
	"epoch": 2.5777221241960273,
	"grad_norm": 0.617588996887207,
	"learning_rate": 0.0009346534653465348,
	"loss": 1.9189,
	"step": 3060
	},
	{
	"epoch": 2.5777221241960273,
	"eval_accuracy": 0.6097417836200192,
	"eval_loss": 1.806692123413086,
	"eval_runtime": 890.173,
	"eval_samples_per_second": 560.988,
	"eval_steps_per_second": 5.194,
	"step": 3060
	},
	{
	"epoch": 2.5861460527064715,
	"grad_norm": 0.4702962338924408,
	"learning_rate": 0.0009336633663366337,
	"loss": 1.9145,
	"step": 3070
	},
	{
	"epoch": 2.594569981216916,
	"grad_norm": 0.37163108587265015,
	"learning_rate": 0.0009326732673267328,
	"loss": 1.907,
	"step": 3080
	},
	{
	"epoch": 2.6029939097273607,
	"grad_norm": 0.8039525151252747,
	"learning_rate": 0.0009316831683168317,
	"loss": 1.9071,
	"step": 3090
	},
	{
	"epoch": 2.6114178382378053,
	"grad_norm": 0.3594844341278076,
	"learning_rate": 0.0009306930693069308,
	"loss": 1.9109,
	"step": 3100
	},
	{
	"epoch": 2.61984176674825,
	"grad_norm": 0.44677871465682983,
	"learning_rate": 0.0009297029702970298,
	"loss": 1.8948,
	"step": 3110
	},
	{
	"epoch": 2.628265695258694,
	"grad_norm": 0.4496874511241913,
	"learning_rate": 0.0009287128712871288,
	"loss": 1.893,
	"step": 3120
	},
	{
	"epoch": 2.636689623769139,
	"grad_norm": 0.44437769055366516,
	"learning_rate": 0.0009277227722772278,
	"loss": 1.8891,
	"step": 3130
	},
	{
	"epoch": 2.6451135522795832,
	"grad_norm": 0.47511276602745056,
	"learning_rate": 0.0009267326732673268,
	"loss": 1.8828,
	"step": 3140
	},
	{
	"epoch": 2.653537480790028,
	"grad_norm": 0.5357436537742615,
	"learning_rate": 0.0009257425742574258,
	"loss": 1.8802,
	"step": 3150
	},
	{
	"epoch": 2.653537480790028,
	"eval_accuracy": 0.6167399590165771,
	"eval_loss": 1.7698620557785034,
	"eval_runtime": 887.5592,
	"eval_samples_per_second": 562.64,
	"eval_steps_per_second": 5.21,
	"step": 3150
	},
	{
	"epoch": 2.6619614093004724,
	"grad_norm": 0.5014392137527466,
	"learning_rate": 0.0009247524752475249,
	"loss": 1.8819,
	"step": 3160
	},
	{
	"epoch": 2.670385337810917,
	"grad_norm": 0.41872531175613403,
	"learning_rate": 0.0009237623762376238,
	"loss": 1.8736,
	"step": 3170
	},
	{
	"epoch": 2.6788092663213616,
	"grad_norm": 0.4343492388725281,
	"learning_rate": 0.0009227722772277229,
	"loss": 1.8659,
	"step": 3180
	},
	{
	"epoch": 2.687233194831806,
	"grad_norm": 0.45470404624938965,
	"learning_rate": 0.0009217821782178218,
	"loss": 1.8689,
	"step": 3190
	},
	{
	"epoch": 2.695657123342251,
	"grad_norm": 0.4626518487930298,
	"learning_rate": 0.0009207920792079209,
	"loss": 1.8606,
	"step": 3200
	},
	{
	"epoch": 2.704081051852695,
	"grad_norm": 0.4213305711746216,
	"learning_rate": 0.0009198019801980199,
	"loss": 1.8587,
	"step": 3210
	},
	{
	"epoch": 2.7125049803631396,
	"grad_norm": 0.5036765336990356,
	"learning_rate": 0.0009188118811881188,
	"loss": 1.8514,
	"step": 3220
	},
	{
	"epoch": 2.720928908873584,
	"grad_norm": 0.4738876223564148,
	"learning_rate": 0.0009178217821782179,
	"loss": 1.8506,
	"step": 3230
	},
	{
	"epoch": 2.729352837384029,
	"grad_norm": 0.3712784945964813,
	"learning_rate": 0.0009168316831683168,
	"loss": 1.8461,
	"step": 3240
	},
	{
	"epoch": 2.729352837384029,
	"eval_accuracy": 0.6231111347423419,
	"eval_loss": 1.7313838005065918,
	"eval_runtime": 889.784,
	"eval_samples_per_second": 561.233,
	"eval_steps_per_second": 5.197,
	"step": 3240
	},
	{
	"epoch": 2.7377767658944734,
	"grad_norm": 0.45651596784591675,
	"learning_rate": 0.0009158415841584159,
	"loss": 1.8405,
	"step": 3250
	},
	{
	"epoch": 2.7462006944049175,
	"grad_norm": 0.5253742933273315,
	"learning_rate": 0.000914851485148515,
	"loss": 1.839,
	"step": 3260
	},
	{
	"epoch": 2.754624622915362,
	"grad_norm": 0.4810900390148163,
	"learning_rate": 0.0009138613861386139,
	"loss": 1.8352,
	"step": 3270
	},
	{
	"epoch": 2.7630485514258067,
	"grad_norm": 0.42353251576423645,
	"learning_rate": 0.0009128712871287129,
	"loss": 1.8308,
	"step": 3280
	},
	{
	"epoch": 2.7714724799362513,
	"grad_norm": 0.34494903683662415,
	"learning_rate": 0.0009118811881188119,
	"loss": 1.8271,
	"step": 3290
	},
	{
	"epoch": 2.779896408446696,
	"grad_norm": 0.44857293367385864,
	"learning_rate": 0.0009108910891089109,
	"loss": 1.8272,
	"step": 3300
	},
	{
	"epoch": 2.7883203369571405,
	"grad_norm": 0.32810303568840027,
	"learning_rate": 0.00090990099009901,
	"loss": 1.8201,
	"step": 3310
	},
	{
	"epoch": 2.796744265467585,
	"grad_norm": 0.5814313292503357,
	"learning_rate": 0.0009089108910891089,
	"loss": 1.8181,
	"step": 3320
	},
	{
	"epoch": 2.8051681939780293,
	"grad_norm": 0.6469531655311584,
	"learning_rate": 0.000907920792079208,
	"loss": 1.8228,
	"step": 3330
	},
	{
	"epoch": 2.8051681939780293,
	"eval_accuracy": 0.627194729904968,
	"eval_loss": 1.7094751596450806,
	"eval_runtime": 879.8799,
	"eval_samples_per_second": 567.55,
	"eval_steps_per_second": 5.255,
	"step": 3330
	},
	{
	"epoch": 2.813592122488474,
	"grad_norm": 0.37370234727859497,
	"learning_rate": 0.0009069306930693069,
	"loss": 1.8143,
	"step": 3340
	},
	{
	"epoch": 2.8220160509989185,
	"grad_norm": 0.2818905711174011,
	"learning_rate": 0.000905940594059406,
	"loss": 1.8058,
	"step": 3350
	},
	{
	"epoch": 2.830439979509363,
	"grad_norm": 0.40032240748405457,
	"learning_rate": 0.000904950495049505,
	"loss": 1.8037,
	"step": 3360
	},
	{
	"epoch": 2.8388639080198077,
	"grad_norm": 0.4075703024864197,
	"learning_rate": 0.000903960396039604,
	"loss": 1.8042,
	"step": 3370
	},
	{
	"epoch": 2.8472878365302523,
	"grad_norm": 0.4188884496688843,
	"learning_rate": 0.000902970297029703,
	"loss": 1.7954,
	"step": 3380
	},
	{
	"epoch": 2.855711765040697,
	"grad_norm": 0.40151095390319824,
	"learning_rate": 0.000901980198019802,
	"loss": 1.8,
	"step": 3390
	},
	{
	"epoch": 2.864135693551141,
	"grad_norm": 0.38640516996383667,
	"learning_rate": 0.000900990099009901,
	"loss": 1.7897,
	"step": 3400
	},
	{
	"epoch": 2.8725596220615857,
	"grad_norm": 0.46775710582733154,
	"learning_rate": 0.0009000000000000001,
	"loss": 1.7889,
	"step": 3410
	},
	{
	"epoch": 2.8809835505720303,
	"grad_norm": 0.5004317760467529,
	"learning_rate": 0.000899009900990099,
	"loss": 1.7838,
	"step": 3420
	},
	{
	"epoch": 2.8809835505720303,
	"eval_accuracy": 0.6330453392339891,
	"eval_loss": 1.6756778955459595,
	"eval_runtime": 890.43,
	"eval_samples_per_second": 560.826,
	"eval_steps_per_second": 5.193,
	"step": 3420
	},
	{
	"epoch": 2.889407479082475,
	"grad_norm": 0.44054290652275085,
	"learning_rate": 0.0008980198019801981,
	"loss": 1.7839,
	"step": 3430
	},
	{
	"epoch": 2.8978314075929195,
	"grad_norm": 0.38003844022750854,
	"learning_rate": 0.000897029702970297,
	"loss": 1.7793,
	"step": 3440
	},
	{
	"epoch": 2.9062553361033636,
	"grad_norm": 0.3714471757411957,
	"learning_rate": 0.0008960396039603961,
	"loss": 1.7765,
	"step": 3450
	},
	{
	"epoch": 2.9146792646138087,
	"grad_norm": 0.4955293834209442,
	"learning_rate": 0.0008950495049504951,
	"loss": 1.7729,
	"step": 3460
	},
	{
	"epoch": 2.923103193124253,
	"grad_norm": 0.367481529712677,
	"learning_rate": 0.0008940594059405941,
	"loss": 1.7666,
	"step": 3470
	},
	{
	"epoch": 2.9315271216346974,
	"grad_norm": 0.48372742533683777,
	"learning_rate": 0.0008930693069306931,
	"loss": 1.7638,
	"step": 3480
	},
	{
	"epoch": 2.939951050145142,
	"grad_norm": 0.5356625318527222,
	"learning_rate": 0.0008920792079207921,
	"loss": 1.7625,
	"step": 3490
	},
	{
	"epoch": 2.9483749786555866,
	"grad_norm": 0.396090030670166,
	"learning_rate": 0.0008910891089108911,
	"loss": 1.7597,
	"step": 3500
	},
	{
	"epoch": 2.956798907166031,
	"grad_norm": 0.3071458041667938,
	"learning_rate": 0.0008900990099009902,
	"loss": 1.7513,
	"step": 3510
	},
	{
	"epoch": 2.956798907166031,
	"eval_accuracy": 0.640630813225039,
	"eval_loss": 1.6351577043533325,
	"eval_runtime": 887.1061,
	"eval_samples_per_second": 562.927,
	"eval_steps_per_second": 5.212,
	"step": 3510
	},
	{
	"epoch": 2.9652228356764754,
	"grad_norm": 0.7265316247940063,
	"learning_rate": 0.0008891089108910891,
	"loss": 1.7482,
	"step": 3520
	},
	{
	"epoch": 2.97364676418692,
	"grad_norm": 0.34152501821517944,
	"learning_rate": 0.0008881188118811882,
	"loss": 1.7454,
	"step": 3530
	},
	{
	"epoch": 2.9820706926973646,
	"grad_norm": 0.5570985078811646,
	"learning_rate": 0.0008871287128712871,
	"loss": 1.736,
	"step": 3540
	},
	{
	"epoch": 2.990494621207809,
	"grad_norm": 0.29268133640289307,
	"learning_rate": 0.0008861386138613862,
	"loss": 1.7323,
	"step": 3550
	},
	{
	"epoch": 2.998918549718254,
	"grad_norm": 0.4475082755088806,
	"learning_rate": 0.0008851485148514852,
	"loss": 1.7207,
	"step": 3560
	},
	{
	"epoch": 3.0073424782286984,
	"grad_norm": 0.39963921904563904,
	"learning_rate": 0.0008841584158415842,
	"loss": 1.7199,
	"step": 3570
	},
	{
	"epoch": 3.015766406739143,
	"grad_norm": 0.3290662169456482,
	"learning_rate": 0.0008831683168316832,
	"loss": 1.7103,
	"step": 3580
	},
	{
	"epoch": 3.024190335249587,
	"grad_norm": 0.4892579913139343,
	"learning_rate": 0.0008821782178217822,
	"loss": 1.7024,
	"step": 3590
	},
	{
	"epoch": 3.0326142637600317,
	"grad_norm": 0.45102205872535706,
	"learning_rate": 0.0008811881188118812,
	"loss": 1.7012,
	"step": 3600
	},
	{
	"epoch": 3.0326142637600317,
	"eval_accuracy": 0.65292687328356,
	"eval_loss": 1.578561544418335,
	"eval_runtime": 889.1801,
	"eval_samples_per_second": 561.614,
	"eval_steps_per_second": 5.2,
	"step": 3600
	},
	{
	"epoch": 3.0410381922704763,
	"grad_norm": 0.38877975940704346,
	"learning_rate": 0.0008801980198019803,
	"loss": 1.6999,
	"step": 3610
	},
	{
	"epoch": 3.049462120780921,
	"grad_norm": 0.32052722573280334,
	"learning_rate": 0.0008792079207920792,
	"loss": 1.6898,
	"step": 3620
	},
	{
	"epoch": 3.0578860492913655,
	"grad_norm": 0.4076586365699768,
	"learning_rate": 0.0008782178217821783,
	"loss": 1.682,
	"step": 3630
	},
	{
	"epoch": 3.06630997780181,
	"grad_norm": 0.3886164724826813,
	"learning_rate": 0.0008772277227722772,
	"loss": 1.6788,
	"step": 3640
	},
	{
	"epoch": 3.0747339063122547,
	"grad_norm": 0.43478402495384216,
	"learning_rate": 0.0008762376237623763,
	"loss": 1.6757,
	"step": 3650
	},
	{
	"epoch": 3.083157834822699,
	"grad_norm": 0.3681798279285431,
	"learning_rate": 0.0008752475247524753,
	"loss": 1.6725,
	"step": 3660
	},
	{
	"epoch": 3.0915817633331435,
	"grad_norm": 0.44459056854248047,
	"learning_rate": 0.0008742574257425743,
	"loss": 1.6653,
	"step": 3670
	},
	{
	"epoch": 3.100005691843588,
	"grad_norm": 0.3404163420200348,
	"learning_rate": 0.0008732673267326733,
	"loss": 1.6597,
	"step": 3680
	},
	{
	"epoch": 3.1084296203540327,
	"grad_norm": 0.39622583985328674,
	"learning_rate": 0.0008722772277227722,
	"loss": 1.664,
	"step": 3690
	},
	{
	"epoch": 3.1084296203540327,
	"eval_accuracy": 0.6616252383451875,
	"eval_loss": 1.5378377437591553,
	"eval_runtime": 880.004,
	"eval_samples_per_second": 567.47,
	"eval_steps_per_second": 5.255,
	"step": 3690
	},
	{
	"epoch": 3.1168535488644773,
	"grad_norm": 0.36066505312919617,
	"learning_rate": 0.0008712871287128713,
	"loss": 1.6552,
	"step": 3700
	},
	{
	"epoch": 3.125277477374922,
	"grad_norm": 0.45852380990982056,
	"learning_rate": 0.0008702970297029704,
	"loss": 1.6581,
	"step": 3710
	},
	{
	"epoch": 3.1337014058853665,
	"grad_norm": 0.3647266924381256,
	"learning_rate": 0.0008693069306930693,
	"loss": 1.6493,
	"step": 3720
	},
	{
	"epoch": 3.1421253343958107,
	"grad_norm": 0.4774695038795471,
	"learning_rate": 0.0008683168316831684,
	"loss": 1.6457,
	"step": 3730
	},
	{
	"epoch": 3.1505492629062553,
	"grad_norm": 0.4143640398979187,
	"learning_rate": 0.0008673267326732673,
	"loss": 1.6436,
	"step": 3740
	},
	{
	"epoch": 3.1589731914167,
	"grad_norm": 0.4920789897441864,
	"learning_rate": 0.0008663366336633663,
	"loss": 1.6431,
	"step": 3750
	},
	{
	"epoch": 3.1673971199271445,
	"grad_norm": 0.40231600403785706,
	"learning_rate": 0.0008653465346534654,
	"loss": 1.6373,
	"step": 3760
	},
	{
	"epoch": 3.175821048437589,
	"grad_norm": 0.35115131735801697,
	"learning_rate": 0.0008643564356435643,
	"loss": 1.6343,
	"step": 3770
	},
	{
	"epoch": 3.1842449769480337,
	"grad_norm": 0.3814195990562439,
	"learning_rate": 0.0008633663366336634,
	"loss": 1.6345,
	"step": 3780
	},
	{
	"epoch": 3.1842449769480337,
	"eval_accuracy": 0.6669776046149977,
	"eval_loss": 1.5131778717041016,
	"eval_runtime": 887.9268,
	"eval_samples_per_second": 562.407,
	"eval_steps_per_second": 5.208,
	"step": 3780
	},
	{
	"epoch": 3.192668905458478,
	"grad_norm": 0.3229101896286011,
	"learning_rate": 0.0008623762376237623,
	"loss": 1.6281,
	"step": 3790
	},
	{
	"epoch": 3.2010928339689224,
	"grad_norm": 0.4361475110054016,
	"learning_rate": 0.0008613861386138614,
	"loss": 1.6253,
	"step": 3800
	},
	{
	"epoch": 3.209516762479367,
	"grad_norm": 0.3246362507343292,
	"learning_rate": 0.0008603960396039604,
	"loss": 1.6269,
	"step": 3810
	},
	{
	"epoch": 3.2179406909898116,
	"grad_norm": 0.5126762390136719,
	"learning_rate": 0.0008594059405940594,
	"loss": 1.62,
	"step": 3820
	},
	{
	"epoch": 3.226364619500256,
	"grad_norm": 0.3813638389110565,
	"learning_rate": 0.0008584158415841584,
	"loss": 1.6228,
	"step": 3830
	},
	{
	"epoch": 3.234788548010701,
	"grad_norm": 0.5111351013183594,
	"learning_rate": 0.0008574257425742574,
	"loss": 1.6162,
	"step": 3840
	},
	{
	"epoch": 3.243212476521145,
	"grad_norm": 0.3448195457458496,
	"learning_rate": 0.0008564356435643564,
	"loss": 1.6156,
	"step": 3850
	},
	{
	"epoch": 3.2516364050315896,
	"grad_norm": 0.50129634141922,
	"learning_rate": 0.0008554455445544555,
	"loss": 1.6153,
	"step": 3860
	},
	{
	"epoch": 3.260060333542034,
	"grad_norm": 0.3352351188659668,
	"learning_rate": 0.0008544554455445544,
	"loss": 1.6117,
	"step": 3870
	},
	{
	"epoch": 3.260060333542034,
	"eval_accuracy": 0.6717362607348063,
	"eval_loss": 1.4890562295913696,
	"eval_runtime": 886.1465,
	"eval_samples_per_second": 563.537,
	"eval_steps_per_second": 5.218,
	"step": 3870
	},
	{
	"epoch": 3.2684842620524788,
	"grad_norm": 0.38713541626930237,
	"learning_rate": 0.0008534653465346535,
	"loss": 1.6058,
	"step": 3880
	},
	{
	"epoch": 3.2769081905629234,
	"grad_norm": 0.46299123764038086,
	"learning_rate": 0.0008524752475247524,
	"loss": 1.6053,
	"step": 3890
	},
	{
	"epoch": 3.285332119073368,
	"grad_norm": 0.4045964181423187,
	"learning_rate": 0.0008514851485148515,
	"loss": 1.6064,
	"step": 3900
	},
	{
	"epoch": 3.2937560475838126,
	"grad_norm": 0.37616729736328125,
	"learning_rate": 0.0008504950495049505,
	"loss": 1.6005,
	"step": 3910
	},
	{
	"epoch": 3.3021799760942567,
	"grad_norm": 0.47833314538002014,
	"learning_rate": 0.0008495049504950495,
	"loss": 1.599,
	"step": 3920
	},
	{
	"epoch": 3.3106039046047013,
	"grad_norm": 0.436625212430954,
	"learning_rate": 0.0008485148514851485,
	"loss": 1.5954,
	"step": 3930
	},
	{
	"epoch": 3.319027833115146,
	"grad_norm": 0.3456842005252838,
	"learning_rate": 0.0008475247524752475,
	"loss": 1.5924,
	"step": 3940
	},
	{
	"epoch": 3.3274517616255905,
	"grad_norm": 0.5403941869735718,
	"learning_rate": 0.0008465346534653465,
	"loss": 1.5915,
	"step": 3950
	},
	{
	"epoch": 3.335875690136035,
	"grad_norm": 0.3622403144836426,
	"learning_rate": 0.0008455445544554456,
	"loss": 1.6013,
	"step": 3960
	},
	{
	"epoch": 3.335875690136035,
	"eval_accuracy": 0.6740560565861919,
	"eval_loss": 1.475487232208252,
	"eval_runtime": 895.3114,
	"eval_samples_per_second": 557.768,
	"eval_steps_per_second": 5.165,
	"step": 3960
	},
	{
	"epoch": 3.3442996186464797,
	"grad_norm": 0.2850242555141449,
	"learning_rate": 0.0008445544554455445,
	"loss": 1.5903,
	"step": 3970
	},
	{
	"epoch": 3.3527235471569243,
	"grad_norm": 0.39831429719924927,
	"learning_rate": 0.0008435643564356436,
	"loss": 1.5846,
	"step": 3980
	},
	{
	"epoch": 3.3611474756673685,
	"grad_norm": 0.4886794686317444,
	"learning_rate": 0.0008425742574257425,
	"loss": 1.5876,
	"step": 3990
	},
	{
	"epoch": 3.369571404177813,
	"grad_norm": 0.35439977049827576,
	"learning_rate": 0.0008415841584158416,
	"loss": 1.5839,
	"step": 4000
	},
	{
	"epoch": 3.3779953326882577,
	"grad_norm": 0.32369595766067505,
	"learning_rate": 0.0008405940594059406,
	"loss": 1.5797,
	"step": 4010
	},
	{
	"epoch": 3.3864192611987023,
	"grad_norm": 0.48595139384269714,
	"learning_rate": 0.0008396039603960396,
	"loss": 1.58,
	"step": 4020
	},
	{
	"epoch": 3.394843189709147,
	"grad_norm": 0.39331361651420593,
	"learning_rate": 0.0008386138613861386,
	"loss": 1.5786,
	"step": 4030
	},
	{
	"epoch": 3.4032671182195915,
	"grad_norm": 0.31911513209342957,
	"learning_rate": 0.0008376237623762376,
	"loss": 1.5745,
	"step": 4040
	},
	{
	"epoch": 3.411691046730036,
	"grad_norm": 0.319876104593277,
	"learning_rate": 0.0008366336633663366,
	"loss": 1.5749,
	"step": 4050
	},
	{
	"epoch": 3.411691046730036,
	"eval_accuracy": 0.6780886041474171,
	"eval_loss": 1.4578139781951904,
	"eval_runtime": 880.4333,
	"eval_samples_per_second": 567.193,
	"eval_steps_per_second": 5.252,
	"step": 4050
	},
	{
	"epoch": 3.4201149752404802,
	"grad_norm": 0.45969948172569275,
	"learning_rate": 0.0008356435643564357,
	"loss": 1.5759,
	"step": 4060
	},
	{
	"epoch": 3.428538903750925,
	"grad_norm": 0.34449151158332825,
	"learning_rate": 0.0008346534653465346,
	"loss": 1.5707,
	"step": 4070
	},
	{
	"epoch": 3.4369628322613694,
	"grad_norm": 0.3478371202945709,
	"learning_rate": 0.0008336633663366337,
	"loss": 1.5699,
	"step": 4080
	},
	{
	"epoch": 3.445386760771814,
	"grad_norm": 0.5127679109573364,
	"learning_rate": 0.0008326732673267326,
	"loss": 1.5668,
	"step": 4090
	},
	{
	"epoch": 3.4538106892822587,
	"grad_norm": 0.302216500043869,
	"learning_rate": 0.0008316831683168317,
	"loss": 1.5647,
	"step": 4100
	},
	{
	"epoch": 3.4622346177927033,
	"grad_norm": 0.3295814096927643,
	"learning_rate": 0.0008306930693069307,
	"loss": 1.5628,
	"step": 4110
	},
	{
	"epoch": 3.4706585463031474,
	"grad_norm": 0.4209032654762268,
	"learning_rate": 0.0008297029702970297,
	"loss": 1.5628,
	"step": 4120
	},
	{
	"epoch": 3.479082474813592,
	"grad_norm": 0.34786614775657654,
	"learning_rate": 0.0008287128712871287,
	"loss": 1.5613,
	"step": 4130
	},
	{
	"epoch": 3.4875064033240366,
	"grad_norm": 0.4870763421058655,
	"learning_rate": 0.0008277227722772277,
	"loss": 1.5584,
	"step": 4140
	},
	{
	"epoch": 3.4875064033240366,
	"eval_accuracy": 0.6804383346028876,
	"eval_loss": 1.4444972276687622,
	"eval_runtime": 891.9286,
	"eval_samples_per_second": 559.883,
	"eval_steps_per_second": 5.184,
	"step": 4140
	},
	{
	"epoch": 3.495930331834481,
	"grad_norm": 0.31641605496406555,
	"learning_rate": 0.0008267326732673267,
	"loss": 1.5581,
	"step": 4150
	},
	{
	"epoch": 3.504354260344926,
	"grad_norm": 0.31303870677948,
	"learning_rate": 0.0008257425742574258,
	"loss": 1.5548,
	"step": 4160
	},
	{
	"epoch": 3.5127781888553704,
	"grad_norm": 0.35413628816604614,
	"learning_rate": 0.0008247524752475247,
	"loss": 1.5506,
	"step": 4170
	},
	{
	"epoch": 3.5212021173658146,
	"grad_norm": 0.39600226283073425,
	"learning_rate": 0.0008237623762376238,
	"loss": 1.5517,
	"step": 4180
	},
	{
	"epoch": 3.529626045876259,
	"grad_norm": 0.3600960075855255,
	"learning_rate": 0.0008227722772277227,
	"loss": 1.5563,
	"step": 4190
	},
	{
	"epoch": 3.5380499743867038,
	"grad_norm": 0.2877024710178375,
	"learning_rate": 0.0008217821782178218,
	"loss": 1.5467,
	"step": 4200
	},
	{
	"epoch": 3.5464739028971484,
	"grad_norm": 0.42324578762054443,
	"learning_rate": 0.0008207920792079208,
	"loss": 1.546,
	"step": 4210
	},
	{
	"epoch": 3.554897831407593,
	"grad_norm": 0.38907232880592346,
	"learning_rate": 0.0008198019801980197,
	"loss": 1.5458,
	"step": 4220
	},
	{
	"epoch": 3.5633217599180376,
	"grad_norm": 0.34750425815582275,
	"learning_rate": 0.0008188118811881188,
	"loss": 1.5437,
	"step": 4230
	},
	{
	"epoch": 3.5633217599180376,
	"eval_accuracy": 0.6840987986477044,
	"eval_loss": 1.4261698722839355,
	"eval_runtime": 886.2695,
	"eval_samples_per_second": 563.458,
	"eval_steps_per_second": 5.217,
	"step": 4230
	},
	{
	"epoch": 3.571745688428482,
	"grad_norm": 0.3718611001968384,
	"learning_rate": 0.0008178217821782177,
	"loss": 1.546,
	"step": 4240
	},
	{
	"epoch": 3.5801696169389263,
	"grad_norm": 0.39119917154312134,
	"learning_rate": 0.0008168316831683168,
	"loss": 1.5411,
	"step": 4250
	},
	{
	"epoch": 3.588593545449371,
	"grad_norm": 0.45689284801483154,
	"learning_rate": 0.0008158415841584159,
	"loss": 1.5416,
	"step": 4260
	},
	{
	"epoch": 3.5970174739598155,
	"grad_norm": 0.4029008150100708,
	"learning_rate": 0.0008148514851485148,
	"loss": 1.5364,
	"step": 4270
	},
	{
	"epoch": 3.60544140247026,
	"grad_norm": 0.3843879997730255,
	"learning_rate": 0.0008138613861386138,
	"loss": 1.5368,
	"step": 4280
	},
	{
	"epoch": 3.6138653309807047,
	"grad_norm": 0.33945897221565247,
	"learning_rate": 0.0008128712871287128,
	"loss": 1.5369,
	"step": 4290
	},
	{
	"epoch": 3.6222892594911493,
	"grad_norm": 0.29753997921943665,
	"learning_rate": 0.000811881188118812,
	"loss": 1.5326,
	"step": 4300
	},
	{
	"epoch": 3.630713188001594,
	"grad_norm": 0.4412858784198761,
	"learning_rate": 0.000810891089108911,
	"loss": 1.5316,
	"step": 4310
	},
	{
	"epoch": 3.639137116512038,
	"grad_norm": 0.30377647280693054,
	"learning_rate": 0.00080990099009901,
	"loss": 1.5308,
	"step": 4320
	},
	{
	"epoch": 3.639137116512038,
	"eval_accuracy": 0.6865785598346558,
	"eval_loss": 1.4111888408660889,
	"eval_runtime": 880.9823,
	"eval_samples_per_second": 566.84,
	"eval_steps_per_second": 5.249,
	"step": 4320
	},
	{
	"epoch": 3.6475610450224827,
	"grad_norm": 0.3666999638080597,
	"learning_rate": 0.000808910891089109,
	"loss": 1.5279,
	"step": 4330
	},
	{
	"epoch": 3.6559849735329273,
	"grad_norm": 0.3254301846027374,
	"learning_rate": 0.0008079207920792079,
	"loss": 1.5277,
	"step": 4340
	},
	{
	"epoch": 3.664408902043372,
	"grad_norm": 0.4963987469673157,
	"learning_rate": 0.000806930693069307,
	"loss": 1.5286,
	"step": 4350
	},
	{
	"epoch": 3.6728328305538165,
	"grad_norm": 0.34190070629119873,
	"learning_rate": 0.000805940594059406,
	"loss": 1.5294,
	"step": 4360
	},
	{
	"epoch": 3.6812567590642606,
	"grad_norm": 0.35153254866600037,
	"learning_rate": 0.000804950495049505,
	"loss": 1.5217,
	"step": 4370
	},
	{
	"epoch": 3.6896806875747057,
	"grad_norm": 0.345929354429245,
	"learning_rate": 0.000803960396039604,
	"loss": 1.52,
	"step": 4380
	},
	{
	"epoch": 3.69810461608515,
	"grad_norm": 0.37540799379348755,
	"learning_rate": 0.000802970297029703,
	"loss": 1.5208,
	"step": 4390
	},
	{
	"epoch": 3.7065285445955944,
	"grad_norm": 0.33499011397361755,
	"learning_rate": 0.000801980198019802,
	"loss": 1.5196,
	"step": 4400
	},
	{
	"epoch": 3.714952473106039,
	"grad_norm": 0.3461949825286865,
	"learning_rate": 0.0008009900990099011,
	"loss": 1.5188,
	"step": 4410
	},
	{
	"epoch": 3.714952473106039,
	"eval_accuracy": 0.6888913088166951,
	"eval_loss": 1.40292227268219,
	"eval_runtime": 882.772,
	"eval_samples_per_second": 565.691,
	"eval_steps_per_second": 5.238,
	"step": 4410
	},
	{
	"epoch": 3.7233764016164836,
	"grad_norm": 0.36491358280181885,
	"learning_rate": 0.0008,
	"loss": 1.5171,
	"step": 4420
	},
	{
	"epoch": 3.7318003301269282,
	"grad_norm": 0.2799367606639862,
	"learning_rate": 0.0007990099009900991,
	"loss": 1.5142,
	"step": 4430
	},
	{
	"epoch": 3.7402242586373724,
	"grad_norm": 0.361971914768219,
	"learning_rate": 0.000798019801980198,
	"loss": 1.5145,
	"step": 4440
	},
	{
	"epoch": 3.7486481871478174,
	"grad_norm": 0.2618056535720825,
	"learning_rate": 0.0007970297029702971,
	"loss": 1.5113,
	"step": 4450
	},
	{
	"epoch": 3.7570721156582616,
	"grad_norm": 0.5228148698806763,
	"learning_rate": 0.0007960396039603961,
	"loss": 1.5111,
	"step": 4460
	},
	{
	"epoch": 3.765496044168706,
	"grad_norm": 0.37740132212638855,
	"learning_rate": 0.0007950495049504951,
	"loss": 1.5121,
	"step": 4470
	},
	{
	"epoch": 3.773919972679151,
	"grad_norm": 0.3701629340648651,
	"learning_rate": 0.0007940594059405941,
	"loss": 1.5083,
	"step": 4480
	},
	{
	"epoch": 3.7823439011895954,
	"grad_norm": 0.3345108926296234,
	"learning_rate": 0.0007930693069306931,
	"loss": 1.5077,
	"step": 4490
	},
	{
	"epoch": 3.79076782970004,
	"grad_norm": 0.3989773988723755,
	"learning_rate": 0.0007920792079207921,
	"loss": 1.5079,
	"step": 4500
	},
	{
	"epoch": 3.79076782970004,
	"eval_accuracy": 0.6907081981543249,
	"eval_loss": 1.3909889459609985,
	"eval_runtime": 889.7203,
	"eval_samples_per_second": 561.273,
	"eval_steps_per_second": 5.197,
	"step": 4500
	},
	{
	"epoch": 3.799191758210484,
	"grad_norm": 0.284728080034256,
	"learning_rate": 0.0007910891089108912,
	"loss": 1.5046,
	"step": 4510
	},
	{
	"epoch": 3.8076156867209288,
	"grad_norm": 0.5029779672622681,
	"learning_rate": 0.0007900990099009901,
	"loss": 1.5049,
	"step": 4520
	},
	{
	"epoch": 3.8160396152313734,
	"grad_norm": 0.32617345452308655,
	"learning_rate": 0.0007891089108910892,
	"loss": 1.5068,
	"step": 4530
	},
	{
	"epoch": 3.824463543741818,
	"grad_norm": 0.36316540837287903,
	"learning_rate": 0.0007881188118811881,
	"loss": 1.4999,
	"step": 4540
	},
	{
	"epoch": 3.8328874722522626,
	"grad_norm": 0.30240392684936523,
	"learning_rate": 0.0007871287128712872,
	"loss": 1.498,
	"step": 4550
	},
	{
	"epoch": 3.841311400762707,
	"grad_norm": 0.3905390202999115,
	"learning_rate": 0.0007861386138613862,
	"loss": 1.4978,
	"step": 4560
	},
	{
	"epoch": 3.8497353292731518,
	"grad_norm": 0.30473875999450684,
	"learning_rate": 0.0007851485148514852,
	"loss": 1.4965,
	"step": 4570
	},
	{
	"epoch": 3.858159257783596,
	"grad_norm": 0.3675777316093445,
	"learning_rate": 0.0007841584158415842,
	"loss": 1.4957,
	"step": 4580
	},
	{
	"epoch": 3.8665831862940405,
	"grad_norm": 0.394168883562088,
	"learning_rate": 0.0007831683168316832,
	"loss": 1.4936,
	"step": 4590
	},
	{
	"epoch": 3.8665831862940405,
	"eval_accuracy": 0.6926193728848408,
	"eval_loss": 1.3844850063323975,
	"eval_runtime": 887.3028,
	"eval_samples_per_second": 562.802,
	"eval_steps_per_second": 5.211,
	"step": 4590
	},
	{
	"epoch": 3.875007114804485,
	"grad_norm": 0.3404500186443329,
	"learning_rate": 0.0007821782178217822,
	"loss": 1.4956,
	"step": 4600
	},
	{
	"epoch": 3.8834310433149297,
	"grad_norm": 0.3074527978897095,
	"learning_rate": 0.0007811881188118813,
	"loss": 1.4928,
	"step": 4610
	},
	{
	"epoch": 3.8918549718253743,
	"grad_norm": 0.44941094517707825,
	"learning_rate": 0.0007801980198019802,
	"loss": 1.4911,
	"step": 4620
	},
	{
	"epoch": 3.900278900335819,
	"grad_norm": 0.3098917603492737,
	"learning_rate": 0.0007792079207920793,
	"loss": 1.4918,
	"step": 4630
	},
	{
	"epoch": 3.9087028288462635,
	"grad_norm": 0.37436243891716003,
	"learning_rate": 0.0007782178217821782,
	"loss": 1.4866,
	"step": 4640
	},
	{
	"epoch": 3.9171267573567077,
	"grad_norm": 0.3058597445487976,
	"learning_rate": 0.0007772277227722773,
	"loss": 1.4896,
	"step": 4650
	},
	{
	"epoch": 3.9255506858671523,
	"grad_norm": 0.34245744347572327,
	"learning_rate": 0.0007762376237623763,
	"loss": 1.4874,
	"step": 4660
	},
	{
	"epoch": 3.933974614377597,
	"grad_norm": 0.3401254117488861,
	"learning_rate": 0.0007752475247524753,
	"loss": 1.4866,
	"step": 4670
	},
	{
	"epoch": 3.9423985428880415,
	"grad_norm": 0.35778889060020447,
	"learning_rate": 0.0007742574257425743,
	"loss": 1.4818,
	"step": 4680
	},
	{
	"epoch": 3.9423985428880415,
	"eval_accuracy": 0.6951155140000936,
	"eval_loss": 1.3689333200454712,
	"eval_runtime": 879.8095,
	"eval_samples_per_second": 567.596,
	"eval_steps_per_second": 5.256,
	"step": 4680
	},
	{
	"epoch": 3.950822471398486,
	"grad_norm": 0.2895776927471161,
	"learning_rate": 0.0007732673267326733,
	"loss": 1.4822,
	"step": 4690
	},
	{
	"epoch": 3.9592463999089302,
	"grad_norm": 0.3483330309391022,
	"learning_rate": 0.0007722772277227723,
	"loss": 1.4802,
	"step": 4700
	},
	{
	"epoch": 3.9676703284193753,
	"grad_norm": 0.30115026235580444,
	"learning_rate": 0.0007712871287128714,
	"loss": 1.4838,
	"step": 4710
	},
	{
	"epoch": 3.9760942569298194,
	"grad_norm": 0.32046666741371155,
	"learning_rate": 0.0007702970297029703,
	"loss": 1.4799,
	"step": 4720
	},
	{
	"epoch": 3.984518185440264,
	"grad_norm": 0.3833225965499878,
	"learning_rate": 0.0007693069306930694,
	"loss": 1.4785,
	"step": 4730
	},
	{
	"epoch": 3.9929421139507086,
	"grad_norm": 0.30888909101486206,
	"learning_rate": 0.0007683168316831683,
	"loss": 1.475,
	"step": 4740
	},
	{
	"epoch": 4.001366042461153,
	"grad_norm": 0.32462459802627563,
	"learning_rate": 0.0007673267326732674,
	"loss": 1.4746,
	"step": 4750
	},
	{
	"epoch": 4.009789970971598,
	"grad_norm": 0.3200187683105469,
	"learning_rate": 0.0007663366336633664,
	"loss": 1.4768,
	"step": 4760
	},
	{
	"epoch": 4.018213899482042,
	"grad_norm": 0.3794704079627991,
	"learning_rate": 0.0007653465346534654,
	"loss": 1.4761,
	"step": 4770
	},
	{
	"epoch": 4.018213899482042,
	"eval_accuracy": 0.6969660848927619,
	"eval_loss": 1.3595411777496338,
	"eval_runtime": 887.2228,
	"eval_samples_per_second": 562.853,
	"eval_steps_per_second": 5.212,
	"step": 4770
	},
	{
	"epoch": 4.026637827992487,
	"grad_norm": 0.27933019399642944,
	"learning_rate": 0.0007643564356435644,
	"loss": 1.47,
	"step": 4780
	},
	{
	"epoch": 4.035061756502931,
	"grad_norm": 0.32542508840560913,
	"learning_rate": 0.0007633663366336634,
	"loss": 1.4726,
	"step": 4790
	},
	{
	"epoch": 4.043485685013376,
	"grad_norm": 0.3638169765472412,
	"learning_rate": 0.0007623762376237624,
	"loss": 1.4697,
	"step": 4800
	},
	{
	"epoch": 4.05190961352382,
	"grad_norm": 0.3762564957141876,
	"learning_rate": 0.0007613861386138615,
	"loss": 1.4663,
	"step": 4810
	},
	{
	"epoch": 4.0603335420342646,
	"grad_norm": 0.36758995056152344,
	"learning_rate": 0.0007603960396039604,
	"loss": 1.4729,
	"step": 4820
	},
	{
	"epoch": 4.06875747054471,
	"grad_norm": 0.34590932726860046,
	"learning_rate": 0.0007594059405940595,
	"loss": 1.4665,
	"step": 4830
	},
	{
	"epoch": 4.077181399055154,
	"grad_norm": 0.3242778182029724,
	"learning_rate": 0.0007584158415841584,
	"loss": 1.4639,
	"step": 4840
	},
	{
	"epoch": 4.085605327565599,
	"grad_norm": 0.3849882185459137,
	"learning_rate": 0.0007574257425742574,
	"loss": 1.4613,
	"step": 4850
	},
	{
	"epoch": 4.094029256076043,
	"grad_norm": 0.3495323061943054,
	"learning_rate": 0.0007564356435643565,
	"loss": 1.4598,
	"step": 4860
	},
	{
	"epoch": 4.094029256076043,
	"eval_accuracy": 0.6996214986490302,
	"eval_loss": 1.3455697298049927,
	"eval_runtime": 887.3091,
	"eval_samples_per_second": 562.798,
	"eval_steps_per_second": 5.211,
	"step": 4860
	},
	{
	"epoch": 4.102453184586488,
	"grad_norm": 0.3290145993232727,
	"learning_rate": 0.0007554455445544554,
	"loss": 1.4601,
	"step": 4870
	},
	{
	"epoch": 4.110877113096932,
	"grad_norm": 0.34369096159935,
	"learning_rate": 0.0007544554455445545,
	"loss": 1.4603,
	"step": 4880
	},
	{
	"epoch": 4.119301041607376,
	"grad_norm": 0.3350279629230499,
	"learning_rate": 0.0007534653465346534,
	"loss": 1.4609,
	"step": 4890
	},
	{
	"epoch": 4.127724970117821,
	"grad_norm": 0.2575846016407013,
	"learning_rate": 0.0007524752475247525,
	"loss": 1.4565,
	"step": 4900
	},
	{
	"epoch": 4.1361488986282655,
	"grad_norm": 0.3337861895561218,
	"learning_rate": 0.0007514851485148515,
	"loss": 1.4574,
	"step": 4910
	},
	{
	"epoch": 4.144572827138711,
	"grad_norm": 0.3752147853374481,
	"learning_rate": 0.0007504950495049505,
	"loss": 1.4594,
	"step": 4920
	},
	{
	"epoch": 4.152996755649155,
	"grad_norm": 0.29587122797966003,
	"learning_rate": 0.0007495049504950495,
	"loss": 1.4518,
	"step": 4930
	},
	{
	"epoch": 4.161420684159599,
	"grad_norm": 0.2764742374420166,
	"learning_rate": 0.0007485148514851485,
	"loss": 1.4514,
	"step": 4940
	},
	{
	"epoch": 4.169844612670044,
	"grad_norm": 0.4625591039657593,
	"learning_rate": 0.0007475247524752475,
	"loss": 1.4527,
	"step": 4950
	},
	{
	"epoch": 4.169844612670044,
	"eval_accuracy": 0.701515475804278,
	"eval_loss": 1.3361947536468506,
	"eval_runtime": 883.9818,
	"eval_samples_per_second": 564.917,
	"eval_steps_per_second": 5.231,
	"step": 4950
	},
	{
	"epoch": 4.178268541180488,
	"grad_norm": 0.29412004351615906,
	"learning_rate": 0.0007465346534653466,
	"loss": 1.4514,
	"step": 4960
	},
	{
	"epoch": 4.186692469690933,
	"grad_norm": 0.3580242693424225,
	"learning_rate": 0.0007455445544554455,
	"loss": 1.4486,
	"step": 4970
	},
	{
	"epoch": 4.195116398201377,
	"grad_norm": 0.46256908774375916,
	"learning_rate": 0.0007445544554455446,
	"loss": 1.4494,
	"step": 4980
	},
	{
	"epoch": 4.203540326711822,
	"grad_norm": 0.3117842674255371,
	"learning_rate": 0.0007435643564356435,
	"loss": 1.4486,
	"step": 4990
	},
	{
	"epoch": 4.2119642552222665,
	"grad_norm": 0.3382858335971832,
	"learning_rate": 0.0007425742574257426,
	"loss": 1.4452,
	"step": 5000
	},
	{
	"epoch": 4.220388183732711,
	"grad_norm": 0.3153148889541626,
	"learning_rate": 0.0007415841584158416,
	"loss": 1.4465,
	"step": 5010
	},
	{
	"epoch": 4.228812112243156,
	"grad_norm": 0.3635173439979553,
	"learning_rate": 0.0007405940594059406,
	"loss": 1.4443,
	"step": 5020
	},
	{
	"epoch": 4.2372360407536,
	"grad_norm": 0.4260285794734955,
	"learning_rate": 0.0007396039603960396,
	"loss": 1.4454,
	"step": 5030
	},
	{
	"epoch": 4.245659969264045,
	"grad_norm": 0.29188039898872375,
	"learning_rate": 0.0007386138613861386,
	"loss": 1.4442,
	"step": 5040
	},
	{
	"epoch": 4.245659969264045,
	"eval_accuracy": 0.7031089800515327,
	"eval_loss": 1.3285191059112549,
	"eval_runtime": 890.9721,
	"eval_samples_per_second": 560.484,
	"eval_steps_per_second": 5.19,
	"step": 5040
	},
	{
	"epoch": 4.254083897774489,
	"grad_norm": 0.5350555777549744,
	"learning_rate": 0.0007376237623762376,
	"loss": 1.4416,
	"step": 5050
	},
	{
	"epoch": 4.262507826284934,
	"grad_norm": 0.35281315445899963,
	"learning_rate": 0.0007366336633663367,
	"loss": 1.4432,
	"step": 5060
	},
	{
	"epoch": 4.270931754795378,
	"grad_norm": 0.37922871112823486,
	"learning_rate": 0.0007356435643564356,
	"loss": 1.4399,
	"step": 5070
	},
	{
	"epoch": 4.279355683305822,
	"grad_norm": 0.3072182238101959,
	"learning_rate": 0.0007346534653465347,
	"loss": 1.4383,
	"step": 5080
	},
	{
	"epoch": 4.287779611816267,
	"grad_norm": 0.30223241448402405,
	"learning_rate": 0.0007336633663366336,
	"loss": 1.4406,
	"step": 5090
	},
	{
	"epoch": 4.296203540326712,
	"grad_norm": 0.5292770862579346,
	"learning_rate": 0.0007326732673267327,
	"loss": 1.4376,
	"step": 5100
	},
	{
	"epoch": 4.304627468837157,
	"grad_norm": 0.35330840945243835,
	"learning_rate": 0.0007316831683168317,
	"loss": 1.4389,
	"step": 5110
	},
	{
	"epoch": 4.313051397347601,
	"grad_norm": 0.30719104409217834,
	"learning_rate": 0.0007306930693069307,
	"loss": 1.4384,
	"step": 5120
	},
	{
	"epoch": 4.321475325858046,
	"grad_norm": 0.34203872084617615,
	"learning_rate": 0.0007297029702970297,
	"loss": 1.4374,
	"step": 5130
	},
	{
	"epoch": 4.321475325858046,
	"eval_accuracy": 0.7048288335521147,
	"eval_loss": 1.3187906742095947,
	"eval_runtime": 887.0787,
	"eval_samples_per_second": 562.944,
	"eval_steps_per_second": 5.213,
	"step": 5130
	},
	{
	"epoch": 4.32989925436849,
	"grad_norm": 0.38140207529067993,
	"learning_rate": 0.0007287128712871287,
	"loss": 1.4353,
	"step": 5140
	},
	{
	"epoch": 4.338323182878934,
	"grad_norm": 0.303752064704895,
	"learning_rate": 0.0007277227722772277,
	"loss": 1.4336,
	"step": 5150
	},
	{
	"epoch": 4.346747111389379,
	"grad_norm": 0.290764719247818,
	"learning_rate": 0.0007267326732673268,
	"loss": 1.4304,
	"step": 5160
	},
	{
	"epoch": 4.355171039899823,
	"grad_norm": 0.4335167407989502,
	"learning_rate": 0.0007257425742574257,
	"loss": 1.4327,
	"step": 5170
	},
	{
	"epoch": 4.363594968410268,
	"grad_norm": 0.3198365271091461,
	"learning_rate": 0.0007247524752475248,
	"loss": 1.4319,
	"step": 5180
	},
	{
	"epoch": 4.3720188969207125,
	"grad_norm": 0.41567763686180115,
	"learning_rate": 0.0007237623762376237,
	"loss": 1.4318,
	"step": 5190
	},
	{
	"epoch": 4.380442825431157,
	"grad_norm": 0.3342703580856323,
	"learning_rate": 0.0007227722772277228,
	"loss": 1.4298,
	"step": 5200
	},
	{
	"epoch": 4.388866753941602,
	"grad_norm": 0.25702279806137085,
	"learning_rate": 0.0007217821782178218,
	"loss": 1.4265,
	"step": 5210
	},
	{
	"epoch": 4.397290682452046,
	"grad_norm": 0.26949411630630493,
	"learning_rate": 0.0007207920792079208,
	"loss": 1.4278,
	"step": 5220
	},
	{
	"epoch": 4.397290682452046,
	"eval_accuracy": 0.7063243134470976,
	"eval_loss": 1.3113943338394165,
	"eval_runtime": 889.8031,
	"eval_samples_per_second": 561.221,
	"eval_steps_per_second": 5.197,
	"step": 5220
	},
	{
	"epoch": 4.405714610962491,
	"grad_norm": 0.3861467242240906,
	"learning_rate": 0.0007198019801980198,
	"loss": 1.4318,
	"step": 5230
	},
	{
	"epoch": 4.414138539472935,
	"grad_norm": 0.34858283400535583,
	"learning_rate": 0.0007188118811881188,
	"loss": 1.4291,
	"step": 5240
	},
	{
	"epoch": 4.42256246798338,
	"grad_norm": 0.3346785604953766,
	"learning_rate": 0.0007178217821782178,
	"loss": 1.425,
	"step": 5250
	},
	{
	"epoch": 4.430986396493824,
	"grad_norm": 0.3916323184967041,
	"learning_rate": 0.0007168316831683169,
	"loss": 1.4241,
	"step": 5260
	},
	{
	"epoch": 4.439410325004269,
	"grad_norm": 0.2802947759628296,
	"learning_rate": 0.0007158415841584158,
	"loss": 1.4221,
	"step": 5270
	},
	{
	"epoch": 4.4478342535147135,
	"grad_norm": 0.4092938303947449,
	"learning_rate": 0.0007148514851485149,
	"loss": 1.4236,
	"step": 5280
	},
	{
	"epoch": 4.456258182025158,
	"grad_norm": 0.25096723437309265,
	"learning_rate": 0.0007138613861386138,
	"loss": 1.4235,
	"step": 5290
	},
	{
	"epoch": 4.464682110535603,
	"grad_norm": 0.3570871949195862,
	"learning_rate": 0.0007128712871287129,
	"loss": 1.4216,
	"step": 5300
	},
	{
	"epoch": 4.473106039046047,
	"grad_norm": 0.3168172240257263,
	"learning_rate": 0.0007118811881188119,
	"loss": 1.4236,
	"step": 5310
	},
	{
	"epoch": 4.473106039046047,
	"eval_accuracy": 0.7076842136916008,
	"eval_loss": 1.307774543762207,
	"eval_runtime": 889.4836,
	"eval_samples_per_second": 561.422,
	"eval_steps_per_second": 5.199,
	"step": 5310
	},
	{
	"epoch": 4.481529967556492,
	"grad_norm": 0.30059170722961426,
	"learning_rate": 0.0007108910891089109,
	"loss": 1.4193,
	"step": 5320
	},
	{
	"epoch": 4.489953896066936,
	"grad_norm": 0.331824392080307,
	"learning_rate": 0.0007099009900990099,
	"loss": 1.4185,
	"step": 5330
	},
	{
	"epoch": 4.49837782457738,
	"grad_norm": 0.3295821249485016,
	"learning_rate": 0.0007089108910891088,
	"loss": 1.4198,
	"step": 5340
	},
	{
	"epoch": 4.506801753087825,
	"grad_norm": 0.3506734371185303,
	"learning_rate": 0.0007079207920792079,
	"loss": 1.4167,
	"step": 5350
	},
	{
	"epoch": 4.515225681598269,
	"grad_norm": 0.3836129903793335,
	"learning_rate": 0.000706930693069307,
	"loss": 1.417,
	"step": 5360
	},
	{
	"epoch": 4.5236496101087145,
	"grad_norm": 0.3046220541000366,
	"learning_rate": 0.0007059405940594059,
	"loss": 1.4177,
	"step": 5370
	},
	{
	"epoch": 4.532073538619159,
	"grad_norm": 0.37655332684516907,
	"learning_rate": 0.000704950495049505,
	"loss": 1.4149,
	"step": 5380
	},
	{
	"epoch": 4.540497467129603,
	"grad_norm": 0.32939672470092773,
	"learning_rate": 0.0007039603960396039,
	"loss": 1.4165,
	"step": 5390
	},
	{
	"epoch": 4.548921395640048,
	"grad_norm": 0.2900882363319397,
	"learning_rate": 0.0007029702970297029,
	"loss": 1.4128,
	"step": 5400
	},
	{
	"epoch": 4.548921395640048,
	"eval_accuracy": 0.7087959913049944,
	"eval_loss": 1.3013147115707397,
	"eval_runtime": 892.9333,
	"eval_samples_per_second": 559.253,
	"eval_steps_per_second": 5.178,
	"step": 5400
	},
	{
	"epoch": 4.557345324150492,
	"grad_norm": 0.27651771903038025,
	"learning_rate": 0.000701980198019802,
	"loss": 1.4122,
	"step": 5410
	},
	{
	"epoch": 4.565769252660937,
	"grad_norm": 0.4160715639591217,
	"learning_rate": 0.0007009900990099009,
	"loss": 1.4122,
	"step": 5420
	},
	{
	"epoch": 4.574193181171381,
	"grad_norm": 0.2724072337150574,
	"learning_rate": 0.0007,
	"loss": 1.41,
	"step": 5430
	},
	{
	"epoch": 4.582617109681826,
	"grad_norm": 0.35586145520210266,
	"learning_rate": 0.0006990099009900989,
	"loss": 1.4118,
	"step": 5440
	},
	{
	"epoch": 4.59104103819227,
	"grad_norm": 0.3268265128135681,
	"learning_rate": 0.000698019801980198,
	"loss": 1.4117,
	"step": 5450
	},
	{
	"epoch": 4.599464966702715,
	"grad_norm": 0.3230002522468567,
	"learning_rate": 0.000697029702970297,
	"loss": 1.4102,
	"step": 5460
	},
	{
	"epoch": 4.60788889521316,
	"grad_norm": 0.25019174814224243,
	"learning_rate": 0.000696039603960396,
	"loss": 1.4102,
	"step": 5470
	},
	{
	"epoch": 4.616312823723604,
	"grad_norm": 0.38475289940834045,
	"learning_rate": 0.000695049504950495,
	"loss": 1.4075,
	"step": 5480
	},
	{
	"epoch": 4.624736752234049,
	"grad_norm": 0.39824309945106506,
	"learning_rate": 0.000694059405940594,
	"loss": 1.4077,
	"step": 5490
	},
	{
	"epoch": 4.624736752234049,
	"eval_accuracy": 0.7098417264518991,
	"eval_loss": 1.2926928997039795,
	"eval_runtime": 881.9048,
	"eval_samples_per_second": 566.247,
	"eval_steps_per_second": 5.243,
	"step": 5490
	},
	{
	"epoch": 4.633160680744493,
	"grad_norm": 0.3250022828578949,
	"learning_rate": 0.000693069306930693,
	"loss": 1.4068,
	"step": 5500
	},
	{
	"epoch": 4.641584609254938,
	"grad_norm": 0.32388612627983093,
	"learning_rate": 0.0006920792079207921,
	"loss": 1.4062,
	"step": 5510
	},
	{
	"epoch": 4.650008537765382,
	"grad_norm": 0.2806077003479004,
	"learning_rate": 0.000691089108910891,
	"loss": 1.4049,
	"step": 5520
	},
	{
	"epoch": 4.658432466275826,
	"grad_norm": 0.33755025267601013,
	"learning_rate": 0.0006900990099009901,
	"loss": 1.4045,
	"step": 5530
	},
	{
	"epoch": 4.666856394786271,
	"grad_norm": 0.4184636175632477,
	"learning_rate": 0.000689108910891089,
	"loss": 1.4042,
	"step": 5540
	},
	{
	"epoch": 4.6752803232967155,
	"grad_norm": 0.34234240651130676,
	"learning_rate": 0.0006881188118811881,
	"loss": 1.4055,
	"step": 5550
	},
	{
	"epoch": 4.6837042518071605,
	"grad_norm": 0.32120293378829956,
	"learning_rate": 0.0006871287128712872,
	"loss": 1.4014,
	"step": 5560
	},
	{
	"epoch": 4.692128180317605,
	"grad_norm": 0.3810026943683624,
	"learning_rate": 0.0006861386138613862,
	"loss": 1.4039,
	"step": 5570
	},
	{
	"epoch": 4.70055210882805,
	"grad_norm": 0.3171080946922302,
	"learning_rate": 0.0006851485148514852,
	"loss": 1.4025,
	"step": 5580
	},
	{
	"epoch": 4.70055210882805,
	"eval_accuracy": 0.7115425686273988,
	"eval_loss": 1.285227656364441,
	"eval_runtime": 891.3368,
	"eval_samples_per_second": 560.255,
	"eval_steps_per_second": 5.188,
	"step": 5580
	},
	{
	"epoch": 4.708976037338494,
	"grad_norm": 0.24618960916996002,
	"learning_rate": 0.0006841584158415842,
	"loss": 1.3983,
	"step": 5590
	},
	{
	"epoch": 4.717399965848939,
	"grad_norm": 0.494895339012146,
	"learning_rate": 0.0006831683168316832,
	"loss": 1.4,
	"step": 5600
	},
	{
	"epoch": 4.725823894359383,
	"grad_norm": 0.31908226013183594,
	"learning_rate": 0.0006821782178217823,
	"loss": 1.3983,
	"step": 5610
	},
	{
	"epoch": 4.734247822869827,
	"grad_norm": 0.26488983631134033,
	"learning_rate": 0.0006811881188118812,
	"loss": 1.3956,
	"step": 5620
	},
	{
	"epoch": 4.742671751380272,
	"grad_norm": 0.3156343102455139,
	"learning_rate": 0.0006801980198019803,
	"loss": 1.397,
	"step": 5630
	},
	{
	"epoch": 4.7510956798907165,
	"grad_norm": 0.38938194513320923,
	"learning_rate": 0.0006792079207920792,
	"loss": 1.3987,
	"step": 5640
	},
	{
	"epoch": 4.7595196084011615,
	"grad_norm": 0.27233967185020447,
	"learning_rate": 0.0006782178217821783,
	"loss": 1.3983,
	"step": 5650
	},
	{
	"epoch": 4.767943536911606,
	"grad_norm": 0.347419410943985,
	"learning_rate": 0.0006772277227722773,
	"loss": 1.3953,
	"step": 5660
	},
	{
	"epoch": 4.77636746542205,
	"grad_norm": 0.44131675362586975,
	"learning_rate": 0.0006762376237623763,
	"loss": 1.3956,
	"step": 5670
	},
	{
	"epoch": 4.77636746542205,
	"eval_accuracy": 0.7112416746447588,
	"eval_loss": 1.290834665298462,
	"eval_runtime": 886.5668,
	"eval_samples_per_second": 563.269,
	"eval_steps_per_second": 5.216,
	"step": 5670
	},
	{
	"epoch": 4.784791393932495,
	"grad_norm": 0.3185184895992279,
	"learning_rate": 0.0006752475247524753,
	"loss": 1.3976,
	"step": 5680
	},
	{
	"epoch": 4.793215322442939,
	"grad_norm": 0.2549585998058319,
	"learning_rate": 0.0006742574257425743,
	"loss": 1.3931,
	"step": 5690
	},
	{
	"epoch": 4.801639250953384,
	"grad_norm": 0.315294086933136,
	"learning_rate": 0.0006732673267326733,
	"loss": 1.393,
	"step": 5700
	},
	{
	"epoch": 4.810063179463828,
	"grad_norm": 0.3866962492465973,
	"learning_rate": 0.0006722772277227724,
	"loss": 1.3923,
	"step": 5710
	},
	{
	"epoch": 4.818487107974272,
	"grad_norm": 0.28364527225494385,
	"learning_rate": 0.0006712871287128713,
	"loss": 1.3924,
	"step": 5720
	},
	{
	"epoch": 4.826911036484717,
	"grad_norm": 0.3253314793109894,
	"learning_rate": 0.0006702970297029704,
	"loss": 1.3914,
	"step": 5730
	},
	{
	"epoch": 4.835334964995162,
	"grad_norm": 0.31215131282806396,
	"learning_rate": 0.0006693069306930693,
	"loss": 1.3903,
	"step": 5740
	},
	{
	"epoch": 4.843758893505607,
	"grad_norm": 0.34929993748664856,
	"learning_rate": 0.0006683168316831684,
	"loss": 1.3894,
	"step": 5750
	},
	{
	"epoch": 4.852182822016051,
	"grad_norm": 0.38991761207580566,
	"learning_rate": 0.0006673267326732674,
	"loss": 1.3924,
	"step": 5760
	},
	{
	"epoch": 4.852182822016051,
	"eval_accuracy": 0.7133021748514282,
	"eval_loss": 1.2766938209533691,
	"eval_runtime": 881.7452,
	"eval_samples_per_second": 566.35,
	"eval_steps_per_second": 5.244,
	"step": 5760
	},
	{
	"epoch": 4.860606750526496,
	"grad_norm": 0.2888573408126831,
	"learning_rate": 0.0006663366336633664,
	"loss": 1.3918,
	"step": 5770
	},
	{
	"epoch": 4.86903067903694,
	"grad_norm": 0.3224232494831085,
	"learning_rate": 0.0006653465346534654,
	"loss": 1.3895,
	"step": 5780
	},
	{
	"epoch": 4.877454607547385,
	"grad_norm": 0.3562750518321991,
	"learning_rate": 0.0006643564356435644,
	"loss": 1.387,
	"step": 5790
	},
	{
	"epoch": 4.885878536057829,
	"grad_norm": 0.3339401185512543,
	"learning_rate": 0.0006633663366336634,
	"loss": 1.3886,
	"step": 5800
	},
	{
	"epoch": 4.894302464568273,
	"grad_norm": 0.3022938072681427,
	"learning_rate": 0.0006623762376237625,
	"loss": 1.3858,
	"step": 5810
	},
	{
	"epoch": 4.902726393078718,
	"grad_norm": 0.276065856218338,
	"learning_rate": 0.0006613861386138614,
	"loss": 1.386,
	"step": 5820
	},
	{
	"epoch": 4.9111503215891625,
	"grad_norm": 0.3148975372314453,
	"learning_rate": 0.0006603960396039605,
	"loss": 1.385,
	"step": 5830
	},
	{
	"epoch": 4.919574250099608,
	"grad_norm": 0.3374193608760834,
	"learning_rate": 0.0006594059405940594,
	"loss": 1.3842,
	"step": 5840
	},
	{
	"epoch": 4.927998178610052,
	"grad_norm": 0.3293200135231018,
	"learning_rate": 0.0006584158415841585,
	"loss": 1.3835,
	"step": 5850
	},
	{
	"epoch": 4.927998178610052,
	"eval_accuracy": 0.7147221912687882,
	"eval_loss": 1.2681052684783936,
	"eval_runtime": 890.793,
	"eval_samples_per_second": 560.597,
	"eval_steps_per_second": 5.191,
	"step": 5850
	},
	{
	"epoch": 4.936422107120496,
	"grad_norm": 0.3032568693161011,
	"learning_rate": 0.0006574257425742575,
	"loss": 1.3828,
	"step": 5860
	},
	{
	"epoch": 4.944846035630941,
	"grad_norm": 0.24251434206962585,
	"learning_rate": 0.0006564356435643565,
	"loss": 1.3818,
	"step": 5870
	},
	{
	"epoch": 4.953269964141385,
	"grad_norm": 0.3096301257610321,
	"learning_rate": 0.0006554455445544555,
	"loss": 1.3814,
	"step": 5880
	},
	{
	"epoch": 4.96169389265183,
	"grad_norm": 0.34841156005859375,
	"learning_rate": 0.0006544554455445545,
	"loss": 1.3823,
	"step": 5890
	},
	{
	"epoch": 4.970117821162274,
	"grad_norm": 0.312688946723938,
	"learning_rate": 0.0006534653465346535,
	"loss": 1.3818,
	"step": 5900
	},
	{
	"epoch": 4.978541749672719,
	"grad_norm": 0.30799320340156555,
	"learning_rate": 0.0006524752475247526,
	"loss": 1.379,
	"step": 5910
	},
	{
	"epoch": 4.9869656781831635,
	"grad_norm": 0.3510371148586273,
	"learning_rate": 0.0006514851485148515,
	"loss": 1.3814,
	"step": 5920
	},
	{
	"epoch": 4.9953896066936085,
	"grad_norm": 0.2894381582736969,
	"learning_rate": 0.0006504950495049506,
	"loss": 1.3812,
	"step": 5930
	},
	{
	"epoch": 5.003813535204053,
	"grad_norm": 0.2685450315475464,
	"learning_rate": 0.0006495049504950495,
	"loss": 1.3788,
	"step": 5940
	},
	{
	"epoch": 5.003813535204053,
	"eval_accuracy": 0.7160080315056353,
	"eval_loss": 1.2630343437194824,
	"eval_runtime": 883.8805,
	"eval_samples_per_second": 564.981,
	"eval_steps_per_second": 5.231,
	"step": 5940
	},
	{
	"epoch": 5.012237463714497,
	"grad_norm": 0.38857927918434143,
	"learning_rate": 0.0006485148514851485,
	"loss": 1.3809,
	"step": 5950
	},
	{
	"epoch": 5.020661392224942,
	"grad_norm": 0.2822309136390686,
	"learning_rate": 0.0006475247524752476,
	"loss": 1.3769,
	"step": 5960
	},
	{
	"epoch": 5.029085320735386,
	"grad_norm": 0.2725491523742676,
	"learning_rate": 0.0006465346534653465,
	"loss": 1.3762,
	"step": 5970
	},
	{
	"epoch": 5.037509249245831,
	"grad_norm": 0.32517486810684204,
	"learning_rate": 0.0006455445544554456,
	"loss": 1.377,
	"step": 5980
	},
	{
	"epoch": 5.045933177756275,
	"grad_norm": 0.34373360872268677,
	"learning_rate": 0.0006445544554455445,
	"loss": 1.3774,
	"step": 5990
	},
	{
	"epoch": 5.054357106266719,
	"grad_norm": 0.3029853403568268,
	"learning_rate": 0.0006435643564356436,
	"loss": 1.3746,
	"step": 6000
	},
	{
	"epoch": 5.0627810347771645,
	"grad_norm": 0.5577653646469116,
	"learning_rate": 0.0006425742574257426,
	"loss": 1.378,
	"step": 6010
	},
	{
	"epoch": 5.071204963287609,
	"grad_norm": 0.27967342734336853,
	"learning_rate": 0.0006415841584158416,
	"loss": 1.3779,
	"step": 6020
	},
	{
	"epoch": 5.079628891798054,
	"grad_norm": 0.2680428624153137,
	"learning_rate": 0.0006405940594059406,
	"loss": 1.3733,
	"step": 6030
	},
	{
	"epoch": 5.079628891798054,
	"eval_accuracy": 0.7168763989390342,
	"eval_loss": 1.258245825767517,
	"eval_runtime": 902.3568,
	"eval_samples_per_second": 553.413,
	"eval_steps_per_second": 5.124,
	"step": 6030
	},
	{
	"epoch": 5.088052820308498,
	"grad_norm": 0.24522745609283447,
	"learning_rate": 0.0006396039603960396,
	"loss": 1.3692,
	"step": 6040
	},
	{
	"epoch": 5.096476748818943,
	"grad_norm": 0.3076081871986389,
	"learning_rate": 0.0006386138613861386,
	"loss": 1.3724,
	"step": 6050
	},
	{
	"epoch": 5.104900677329387,
	"grad_norm": 0.32096347212791443,
	"learning_rate": 0.0006376237623762377,
	"loss": 1.3737,
	"step": 6060
	},
	{
	"epoch": 5.113324605839831,
	"grad_norm": 0.35196197032928467,
	"learning_rate": 0.0006366336633663366,
	"loss": 1.3719,
	"step": 6070
	},
	{
	"epoch": 5.121748534350276,
	"grad_norm": 0.39065635204315186,
	"learning_rate": 0.0006356435643564357,
	"loss": 1.3719,
	"step": 6080
	},
	{
	"epoch": 5.13017246286072,
	"grad_norm": 0.3439326882362366,
	"learning_rate": 0.0006346534653465346,
	"loss": 1.3749,
	"step": 6090
	},
	{
	"epoch": 5.138596391371165,
	"grad_norm": 0.3175961673259735,
	"learning_rate": 0.0006336633663366337,
	"loss": 1.3679,
	"step": 6100
	},
	{
	"epoch": 5.14702031988161,
	"grad_norm": 0.37071719765663147,
	"learning_rate": 0.0006326732673267327,
	"loss": 1.3706,
	"step": 6110
	},
	{
	"epoch": 5.155444248392055,
	"grad_norm": 0.2499271035194397,
	"learning_rate": 0.0006316831683168317,
	"loss": 1.3685,
	"step": 6120
	},
	{
	"epoch": 5.155444248392055,
	"eval_accuracy": 0.717981203712741,
	"eval_loss": 1.2521748542785645,
	"eval_runtime": 885.5528,
	"eval_samples_per_second": 563.914,
	"eval_steps_per_second": 5.222,
	"step": 6120
	},
	{
	"epoch": 5.163868176902499,
	"grad_norm": 0.3951607346534729,
	"learning_rate": 0.0006306930693069307,
	"loss": 1.3671,
	"step": 6130
	},
	{
	"epoch": 5.172292105412943,
	"grad_norm": 0.4264112114906311,
	"learning_rate": 0.0006297029702970297,
	"loss": 1.3652,
	"step": 6140
	},
	{
	"epoch": 5.180716033923388,
	"grad_norm": 0.3097785711288452,
	"learning_rate": 0.0006287128712871287,
	"loss": 1.3695,
	"step": 6150
	},
	{
	"epoch": 5.189139962433832,
	"grad_norm": 0.28887125849723816,
	"learning_rate": 0.0006277227722772278,
	"loss": 1.3658,
	"step": 6160
	},
	{
	"epoch": 5.197563890944277,
	"grad_norm": 0.27163591980934143,
	"learning_rate": 0.0006267326732673267,
	"loss": 1.3655,
	"step": 6170
	},
	{
	"epoch": 5.205987819454721,
	"grad_norm": 0.30266183614730835,
	"learning_rate": 0.0006257425742574258,
	"loss": 1.3631,
	"step": 6180
	},
	{
	"epoch": 5.2144117479651655,
	"grad_norm": 0.3191784620285034,
	"learning_rate": 0.0006247524752475247,
	"loss": 1.3667,
	"step": 6190
	},
	{
	"epoch": 5.2228356764756105,
	"grad_norm": 0.30907300114631653,
	"learning_rate": 0.0006237623762376238,
	"loss": 1.3667,
	"step": 6200
	},
	{
	"epoch": 5.231259604986055,
	"grad_norm": 0.3120558559894562,
	"learning_rate": 0.0006227722772277228,
	"loss": 1.3638,
	"step": 6210
	},
	{
	"epoch": 5.231259604986055,
	"eval_accuracy": 0.7190249020483522,
	"eval_loss": 1.2470471858978271,
	"eval_runtime": 893.7706,
	"eval_samples_per_second": 558.73,
	"eval_steps_per_second": 5.174,
	"step": 6210
	},
	{
	"epoch": 5.2396835334965,
	"grad_norm": 0.35595396161079407,
	"learning_rate": 0.0006217821782178218,
	"loss": 1.3634,
	"step": 6220
	},
	{
	"epoch": 5.248107462006944,
	"grad_norm": 0.33759573101997375,
	"learning_rate": 0.0006207920792079208,
	"loss": 1.3661,
	"step": 6230
	},
	{
	"epoch": 5.256531390517389,
	"grad_norm": 0.26417672634124756,
	"learning_rate": 0.0006198019801980198,
	"loss": 1.3627,
	"step": 6240
	},
	{
	"epoch": 5.264955319027833,
	"grad_norm": 0.28236111998558044,
	"learning_rate": 0.0006188118811881188,
	"loss": 1.362,
	"step": 6250
	},
	{
	"epoch": 5.273379247538277,
	"grad_norm": 0.5903481245040894,
	"learning_rate": 0.0006178217821782179,
	"loss": 1.3619,
	"step": 6260
	},
	{
	"epoch": 5.281803176048722,
	"grad_norm": 0.298475056886673,
	"learning_rate": 0.0006168316831683168,
	"loss": 1.3671,
	"step": 6270
	},
	{
	"epoch": 5.2902271045591664,
	"grad_norm": 0.27397215366363525,
	"learning_rate": 0.0006158415841584159,
	"loss": 1.3611,
	"step": 6280
	},
	{
	"epoch": 5.2986510330696115,
	"grad_norm": 0.28740593791007996,
	"learning_rate": 0.0006148514851485148,
	"loss": 1.3579,
	"step": 6290
	},
	{
	"epoch": 5.307074961580056,
	"grad_norm": 0.274557888507843,
	"learning_rate": 0.0006138613861386139,
	"loss": 1.3587,
	"step": 6300
	},
	{
	"epoch": 5.307074961580056,
	"eval_accuracy": 0.719703789624826,
	"eval_loss": 1.2432972192764282,
	"eval_runtime": 881.2394,
	"eval_samples_per_second": 566.675,
	"eval_steps_per_second": 5.247,
	"step": 6300
	},
	{
	"epoch": 5.315498890090501,
	"grad_norm": 0.31431418657302856,
	"learning_rate": 0.0006128712871287129,
	"loss": 1.3565,
	"step": 6310
	},
	{
	"epoch": 5.323922818600945,
	"grad_norm": 0.358239084482193,
	"learning_rate": 0.0006118811881188119,
	"loss": 1.3614,
	"step": 6320
	},
	{
	"epoch": 5.332346747111389,
	"grad_norm": 0.3043140769004822,
	"learning_rate": 0.0006108910891089109,
	"loss": 1.3576,
	"step": 6330
	},
	{
	"epoch": 5.340770675621834,
	"grad_norm": 0.2583385109901428,
	"learning_rate": 0.0006099009900990099,
	"loss": 1.3578,
	"step": 6340
	},
	{
	"epoch": 5.349194604132278,
	"grad_norm": 0.3068407475948334,
	"learning_rate": 0.0006089108910891089,
	"loss": 1.3577,
	"step": 6350
	},
	{
	"epoch": 5.357618532642723,
	"grad_norm": 0.2893878221511841,
	"learning_rate": 0.000607920792079208,
	"loss": 1.3569,
	"step": 6360
	},
	{
	"epoch": 5.366042461153167,
	"grad_norm": 0.2883850634098053,
	"learning_rate": 0.0006069306930693069,
	"loss": 1.3555,
	"step": 6370
	},
	{
	"epoch": 5.3744663896636125,
	"grad_norm": 0.3248838484287262,
	"learning_rate": 0.000605940594059406,
	"loss": 1.3561,
	"step": 6380
	},
	{
	"epoch": 5.382890318174057,
	"grad_norm": 0.29167214035987854,
	"learning_rate": 0.0006049504950495049,
	"loss": 1.3582,
	"step": 6390
	},
	{
	"epoch": 5.382890318174057,
	"eval_accuracy": 0.7203339064191229,
	"eval_loss": 1.241172432899475,
	"eval_runtime": 891.2006,
	"eval_samples_per_second": 560.341,
	"eval_steps_per_second": 5.189,
	"step": 6390
	},
	{
	"epoch": 5.391314246684501,
	"grad_norm": 0.3090030550956726,
	"learning_rate": 0.000603960396039604,
	"loss": 1.3534,
	"step": 6400
	},
	{
	"epoch": 5.399738175194946,
	"grad_norm": 0.25337210297584534,
	"learning_rate": 0.000602970297029703,
	"loss": 1.3564,
	"step": 6410
	},
	{
	"epoch": 5.40816210370539,
	"grad_norm": 0.25656768679618835,
	"learning_rate": 0.000601980198019802,
	"loss": 1.3549,
	"step": 6420
	},
	{
	"epoch": 5.416586032215835,
	"grad_norm": 0.2951459288597107,
	"learning_rate": 0.000600990099009901,
	"loss": 1.3518,
	"step": 6430
	},
	{
	"epoch": 5.425009960726279,
	"grad_norm": 0.2697450816631317,
	"learning_rate": 0.0006,
	"loss": 1.3531,
	"step": 6440
	},
	{
	"epoch": 5.433433889236724,
	"grad_norm": 0.28866857290267944,
	"learning_rate": 0.000599009900990099,
	"loss": 1.3524,
	"step": 6450
	},
	{
	"epoch": 5.441857817747168,
	"grad_norm": 0.26775673031806946,
	"learning_rate": 0.000598019801980198,
	"loss": 1.3505,
	"step": 6460
	},
	{
	"epoch": 5.4502817462576125,
	"grad_norm": 0.3911271393299103,
	"learning_rate": 0.000597029702970297,
	"loss": 1.3516,
	"step": 6470
	},
	{
	"epoch": 5.458705674768058,
	"grad_norm": 0.3151527941226959,
	"learning_rate": 0.000596039603960396,
	"loss": 1.353,
	"step": 6480
	},
	{
	"epoch": 5.458705674768058,
	"eval_accuracy": 0.7213715986510872,
	"eval_loss": 1.2357591390609741,
	"eval_runtime": 888.8097,
	"eval_samples_per_second": 561.848,
	"eval_steps_per_second": 5.202,
	"step": 6480
	},
	{
	"epoch": 5.467129603278502,
	"grad_norm": 0.32286888360977173,
	"learning_rate": 0.000595049504950495,
	"loss": 1.3527,
	"step": 6490
	},
	{
	"epoch": 5.475553531788947,
	"grad_norm": 0.3933228850364685,
	"learning_rate": 0.000594059405940594,
	"loss": 1.3511,
	"step": 6500
	},
	{
	"epoch": 5.483977460299391,
	"grad_norm": 0.3246067762374878,
	"learning_rate": 0.0005930693069306931,
	"loss": 1.3524,
	"step": 6510
	},
	{
	"epoch": 5.492401388809835,
	"grad_norm": 0.2912397086620331,
	"learning_rate": 0.000592079207920792,
	"loss": 1.3495,
	"step": 6520
	},
	{
	"epoch": 5.50082531732028,
	"grad_norm": 0.3058258891105652,
	"learning_rate": 0.0005910891089108911,
	"loss": 1.3486,
	"step": 6530
	},
	{
	"epoch": 5.509249245830724,
	"grad_norm": 0.310024231672287,
	"learning_rate": 0.00059009900990099,
	"loss": 1.3507,
	"step": 6540
	},
	{
	"epoch": 5.517673174341169,
	"grad_norm": 0.289165198802948,
	"learning_rate": 0.0005891089108910891,
	"loss": 1.3475,
	"step": 6550
	},
	{
	"epoch": 5.5260971028516135,
	"grad_norm": 0.324613094329834,
	"learning_rate": 0.0005881188118811881,
	"loss": 1.3489,
	"step": 6560
	},
	{
	"epoch": 5.5345210313620585,
	"grad_norm": 0.3530217111110687,
	"learning_rate": 0.0005871287128712871,
	"loss": 1.3477,
	"step": 6570
	},
	{
	"epoch": 5.5345210313620585,
	"eval_accuracy": 0.722217175302605,
	"eval_loss": 1.2293946743011475,
	"eval_runtime": 881.4092,
	"eval_samples_per_second": 566.565,
	"eval_steps_per_second": 5.246,
	"step": 6570
	},
	{
	"epoch": 5.542944959872503,
	"grad_norm": 0.3527272045612335,
	"learning_rate": 0.0005861386138613861,
	"loss": 1.3447,
	"step": 6580
	},
	{
	"epoch": 5.551368888382948,
	"grad_norm": 0.26519855856895447,
	"learning_rate": 0.0005851485148514851,
	"loss": 1.346,
	"step": 6590
	},
	{
	"epoch": 5.559792816893392,
	"grad_norm": 0.29473376274108887,
	"learning_rate": 0.0005841584158415841,
	"loss": 1.3461,
	"step": 6600
	},
	{
	"epoch": 5.568216745403836,
	"grad_norm": 0.31212469935417175,
	"learning_rate": 0.0005831683168316832,
	"loss": 1.3454,
	"step": 6610
	},
	{
	"epoch": 5.576640673914281,
	"grad_norm": 0.2541083097457886,
	"learning_rate": 0.0005821782178217821,
	"loss": 1.3451,
	"step": 6620
	},
	{
	"epoch": 5.585064602424725,
	"grad_norm": 0.28075823187828064,
	"learning_rate": 0.0005811881188118812,
	"loss": 1.3417,
	"step": 6630
	},
	{
	"epoch": 5.59348853093517,
	"grad_norm": 0.286945641040802,
	"learning_rate": 0.0005801980198019801,
	"loss": 1.3439,
	"step": 6640
	},
	{
	"epoch": 5.6019124594456144,
	"grad_norm": 0.2825601100921631,
	"learning_rate": 0.0005792079207920792,
	"loss": 1.3447,
	"step": 6650
	},
	{
	"epoch": 5.610336387956059,
	"grad_norm": 0.3023243844509125,
	"learning_rate": 0.0005782178217821782,
	"loss": 1.3428,
	"step": 6660
	},
	{
	"epoch": 5.610336387956059,
	"eval_accuracy": 0.7226627197479346,
	"eval_loss": 1.2287484407424927,
	"eval_runtime": 893.8585,
	"eval_samples_per_second": 558.675,
	"eval_steps_per_second": 5.173,
	"step": 6660
	},
	{
	"epoch": 5.618760316466504,
	"grad_norm": 0.2548897862434387,
	"learning_rate": 0.0005772277227722772,
	"loss": 1.3441,
	"step": 6670
	},
	{
	"epoch": 5.627184244976948,
	"grad_norm": 0.28277119994163513,
	"learning_rate": 0.0005762376237623762,
	"loss": 1.3421,
	"step": 6680
	},
	{
	"epoch": 5.635608173487393,
	"grad_norm": 0.35963568091392517,
	"learning_rate": 0.0005752475247524752,
	"loss": 1.3421,
	"step": 6690
	},
	{
	"epoch": 5.644032101997837,
	"grad_norm": 0.2753046452999115,
	"learning_rate": 0.0005742574257425742,
	"loss": 1.3449,
	"step": 6700
	},
	{
	"epoch": 5.652456030508281,
	"grad_norm": 0.31272053718566895,
	"learning_rate": 0.0005732673267326733,
	"loss": 1.3418,
	"step": 6710
	},
	{
	"epoch": 5.660879959018726,
	"grad_norm": 0.24427007138729095,
	"learning_rate": 0.0005722772277227722,
	"loss": 1.3409,
	"step": 6720
	},
	{
	"epoch": 5.66930388752917,
	"grad_norm": 0.4038189649581909,
	"learning_rate": 0.0005712871287128713,
	"loss": 1.3387,
	"step": 6730
	},
	{
	"epoch": 5.677727816039615,
	"grad_norm": 0.30009007453918457,
	"learning_rate": 0.0005702970297029702,
	"loss": 1.3425,
	"step": 6740
	},
	{
	"epoch": 5.68615174455006,
	"grad_norm": 0.2813461720943451,
	"learning_rate": 0.0005693069306930693,
	"loss": 1.3396,
	"step": 6750
	},
	{
	"epoch": 5.68615174455006,
	"eval_accuracy": 0.7239226758241876,
	"eval_loss": 1.2240657806396484,
	"eval_runtime": 898.7215,
	"eval_samples_per_second": 555.652,
	"eval_steps_per_second": 5.145,
	"step": 6750
	},
	{
	"epoch": 5.694575673060505,
	"grad_norm": 0.4396764039993286,
	"learning_rate": 0.0005683168316831683,
	"loss": 1.3408,
	"step": 6760
	},
	{
	"epoch": 5.702999601570949,
	"grad_norm": 0.2992042899131775,
	"learning_rate": 0.0005673267326732673,
	"loss": 1.3408,
	"step": 6770
	},
	{
	"epoch": 5.711423530081394,
	"grad_norm": 0.2579440474510193,
	"learning_rate": 0.0005663366336633663,
	"loss": 1.3369,
	"step": 6780
	},
	{
	"epoch": 5.719847458591838,
	"grad_norm": 0.32076653838157654,
	"learning_rate": 0.0005653465346534653,
	"loss": 1.3365,
	"step": 6790
	},
	{
	"epoch": 5.728271387102282,
	"grad_norm": 0.3180268108844757,
	"learning_rate": 0.0005643564356435643,
	"loss": 1.339,
	"step": 6800
	},
	{
	"epoch": 5.736695315612727,
	"grad_norm": 0.27663713693618774,
	"learning_rate": 0.0005633663366336634,
	"loss": 1.3373,
	"step": 6810
	},
	{
	"epoch": 5.745119244123171,
	"grad_norm": 0.27103811502456665,
	"learning_rate": 0.0005623762376237624,
	"loss": 1.3332,
	"step": 6820
	},
	{
	"epoch": 5.753543172633616,
	"grad_norm": 0.34022676944732666,
	"learning_rate": 0.0005613861386138615,
	"loss": 1.3373,
	"step": 6830
	},
	{
	"epoch": 5.7619671011440605,
	"grad_norm": 0.36838725209236145,
	"learning_rate": 0.0005603960396039604,
	"loss": 1.3384,
	"step": 6840
	},
	{
	"epoch": 5.7619671011440605,
	"eval_accuracy": 0.7243312842270887,
	"eval_loss": 1.221815586090088,
	"eval_runtime": 891.7897,
	"eval_samples_per_second": 559.971,
	"eval_steps_per_second": 5.185,
	"step": 6840
	},
	{
	"epoch": 5.770391029654505,
	"grad_norm": 0.2968374490737915,
	"learning_rate": 0.0005594059405940595,
	"loss": 1.3353,
	"step": 6850
	},
	{
	"epoch": 5.77881495816495,
	"grad_norm": 0.36536258459091187,
	"learning_rate": 0.0005584158415841585,
	"loss": 1.3331,
	"step": 6860
	},
	{
	"epoch": 5.787238886675394,
	"grad_norm": 0.2985541522502899,
	"learning_rate": 0.0005574257425742575,
	"loss": 1.3313,
	"step": 6870
	},
	{
	"epoch": 5.795662815185839,
	"grad_norm": 0.33506348729133606,
	"learning_rate": 0.0005564356435643565,
	"loss": 1.3349,
	"step": 6880
	},
	{
	"epoch": 5.804086743696283,
	"grad_norm": 0.31232866644859314,
	"learning_rate": 0.0005554455445544555,
	"loss": 1.3335,
	"step": 6890
	},
	{
	"epoch": 5.812510672206728,
	"grad_norm": 0.27576977014541626,
	"learning_rate": 0.0005544554455445545,
	"loss": 1.3309,
	"step": 6900
	},
	{
	"epoch": 5.820934600717172,
	"grad_norm": 0.2526339590549469,
	"learning_rate": 0.0005534653465346536,
	"loss": 1.3318,
	"step": 6910
	},
	{
	"epoch": 5.829358529227616,
	"grad_norm": 0.25774866342544556,
	"learning_rate": 0.0005524752475247525,
	"loss": 1.3329,
	"step": 6920
	},
	{
	"epoch": 5.8377824577380615,
	"grad_norm": 0.34311917424201965,
	"learning_rate": 0.0005514851485148516,
	"loss": 1.3334,
	"step": 6930
	},
	{
	"epoch": 5.8377824577380615,
	"eval_accuracy": 0.7251374384748042,
	"eval_loss": 1.216299057006836,
	"eval_runtime": 889.6984,
	"eval_samples_per_second": 561.287,
	"eval_steps_per_second": 5.197,
	"step": 6930
	},
	{
	"epoch": 5.846206386248506,
	"grad_norm": 0.32087624073028564,
	"learning_rate": 0.0005504950495049505,
	"loss": 1.3338,
	"step": 6940
	},
	{
	"epoch": 5.854630314758951,
	"grad_norm": 0.25447556376457214,
	"learning_rate": 0.0005495049504950496,
	"loss": 1.3315,
	"step": 6950
	},
	{
	"epoch": 5.863054243269395,
	"grad_norm": 0.285826712846756,
	"learning_rate": 0.0005485148514851486,
	"loss": 1.3303,
	"step": 6960
	},
	{
	"epoch": 5.87147817177984,
	"grad_norm": 0.2816094756126404,
	"learning_rate": 0.0005475247524752476,
	"loss": 1.3308,
	"step": 6970
	},
	{
	"epoch": 5.879902100290284,
	"grad_norm": 0.30444055795669556,
	"learning_rate": 0.0005465346534653466,
	"loss": 1.3303,
	"step": 6980
	},
	{
	"epoch": 5.888326028800728,
	"grad_norm": 0.3512563705444336,
	"learning_rate": 0.0005455445544554456,
	"loss": 1.3305,
	"step": 6990
	},
	{
	"epoch": 5.896749957311173,
	"grad_norm": 0.2924775779247284,
	"learning_rate": 0.0005445544554455446,
	"loss": 1.3307,
	"step": 7000
	},
	{
	"epoch": 5.905173885821617,
	"grad_norm": 0.3497087359428406,
	"learning_rate": 0.0005435643564356437,
	"loss": 1.3295,
	"step": 7010
	},
	{
	"epoch": 5.913597814332062,
	"grad_norm": 0.2714064419269562,
	"learning_rate": 0.0005425742574257426,
	"loss": 1.329,
	"step": 7020
	},
	{
	"epoch": 5.913597814332062,
	"eval_accuracy": 0.7261800107692413,
	"eval_loss": 1.2115275859832764,
	"eval_runtime": 893.0627,
	"eval_samples_per_second": 559.172,
	"eval_steps_per_second": 5.178,
	"step": 7020
	},
	{
	"epoch": 5.922021742842507,
	"grad_norm": 0.277203232049942,
	"learning_rate": 0.0005415841584158417,
	"loss": 1.3269,
	"step": 7030
	},
	{
	"epoch": 5.930445671352951,
	"grad_norm": 0.3769485354423523,
	"learning_rate": 0.0005405940594059406,
	"loss": 1.3268,
	"step": 7040
	},
	{
	"epoch": 5.938869599863396,
	"grad_norm": 0.2526576817035675,
	"learning_rate": 0.0005396039603960396,
	"loss": 1.3262,
	"step": 7050
	},
	{
	"epoch": 5.94729352837384,
	"grad_norm": 0.2670144736766815,
	"learning_rate": 0.0005386138613861387,
	"loss": 1.327,
	"step": 7060
	},
	{
	"epoch": 5.955717456884285,
	"grad_norm": 0.26662877202033997,
	"learning_rate": 0.0005376237623762376,
	"loss": 1.3277,
	"step": 7070
	},
	{
	"epoch": 5.964141385394729,
	"grad_norm": 0.3263689875602722,
	"learning_rate": 0.0005366336633663367,
	"loss": 1.3271,
	"step": 7080
	},
	{
	"epoch": 5.972565313905174,
	"grad_norm": 0.26732614636421204,
	"learning_rate": 0.0005356435643564356,
	"loss": 1.3264,
	"step": 7090
	},
	{
	"epoch": 5.980989242415618,
	"grad_norm": 0.3332139551639557,
	"learning_rate": 0.0005346534653465347,
	"loss": 1.3266,
	"step": 7100
	},
	{
	"epoch": 5.989413170926063,
	"grad_norm": 0.3081839680671692,
	"learning_rate": 0.0005336633663366337,
	"loss": 1.325,
	"step": 7110
	},
	{
	"epoch": 5.989413170926063,
	"eval_accuracy": 0.7263082386708871,
	"eval_loss": 1.2105002403259277,
	"eval_runtime": 893.0055,
	"eval_samples_per_second": 559.208,
	"eval_steps_per_second": 5.178,
	"step": 7110
	},
	{
	"epoch": 5.997837099436508,
	"grad_norm": 0.2502419650554657,
	"learning_rate": 0.0005326732673267327,
	"loss": 1.3263,
	"step": 7120
	},
	{
	"epoch": 6.006261027946952,
	"grad_norm": 0.2437312752008438,
	"learning_rate": 0.0005316831683168317,
	"loss": 1.3225,
	"step": 7130
	},
	{
	"epoch": 6.014684956457397,
	"grad_norm": 0.3372795581817627,
	"learning_rate": 0.0005306930693069307,
	"loss": 1.3234,
	"step": 7140
	},
	{
	"epoch": 6.023108884967841,
	"grad_norm": 0.2895912826061249,
	"learning_rate": 0.0005297029702970297,
	"loss": 1.3252,
	"step": 7150
	},
	{
	"epoch": 6.031532813478286,
	"grad_norm": 0.28451213240623474,
	"learning_rate": 0.0005287128712871288,
	"loss": 1.3238,
	"step": 7160
	},
	{
	"epoch": 6.03995674198873,
	"grad_norm": 0.2496078759431839,
	"learning_rate": 0.0005277227722772277,
	"loss": 1.323,
	"step": 7170
	},
	{
	"epoch": 6.048380670499174,
	"grad_norm": 0.26850923895835876,
	"learning_rate": 0.0005267326732673268,
	"loss": 1.322,
	"step": 7180
	},
	{
	"epoch": 6.056804599009619,
	"grad_norm": 0.30225685238838196,
	"learning_rate": 0.0005257425742574257,
	"loss": 1.3212,
	"step": 7190
	},
	{
	"epoch": 6.0652285275200635,
	"grad_norm": 0.32349905371665955,
	"learning_rate": 0.0005247524752475248,
	"loss": 1.3219,
	"step": 7200
	},
	{
	"epoch": 6.0652285275200635,
	"eval_accuracy": 0.727180971273756,
	"eval_loss": 1.205489993095398,
	"eval_runtime": 890.8938,
	"eval_samples_per_second": 560.534,
	"eval_steps_per_second": 5.19,
	"step": 7200
	},
	{
	"epoch": 6.0736524560305085,
	"grad_norm": 0.29943209886550903,
	"learning_rate": 0.0005237623762376238,
	"loss": 1.3182,
	"step": 7210
	},
	{
	"epoch": 6.082076384540953,
	"grad_norm": 0.30952343344688416,
	"learning_rate": 0.0005227722772277228,
	"loss": 1.3194,
	"step": 7220
	},
	{
	"epoch": 6.090500313051398,
	"grad_norm": 0.3158267140388489,
	"learning_rate": 0.0005217821782178218,
	"loss": 1.319,
	"step": 7230
	},
	{
	"epoch": 6.098924241561842,
	"grad_norm": 0.27009105682373047,
	"learning_rate": 0.0005207920792079208,
	"loss": 1.3212,
	"step": 7240
	},
	{
	"epoch": 6.107348170072286,
	"grad_norm": 0.2660143971443176,
	"learning_rate": 0.0005198019801980198,
	"loss": 1.3181,
	"step": 7250
	},
	{
	"epoch": 6.115772098582731,
	"grad_norm": 0.32289671897888184,
	"learning_rate": 0.0005188118811881189,
	"loss": 1.3166,
	"step": 7260
	},
	{
	"epoch": 6.124196027093175,
	"grad_norm": 0.301577627658844,
	"learning_rate": 0.0005178217821782178,
	"loss": 1.3215,
	"step": 7270
	},
	{
	"epoch": 6.13261995560362,
	"grad_norm": 0.26539114117622375,
	"learning_rate": 0.0005168316831683169,
	"loss": 1.3173,
	"step": 7280
	},
	{
	"epoch": 6.141043884114064,
	"grad_norm": 0.30636703968048096,
	"learning_rate": 0.0005158415841584158,
	"loss": 1.319,
	"step": 7290
	},
	{
	"epoch": 6.141043884114064,
	"eval_accuracy": 0.7278776618882268,
	"eval_loss": 1.2021031379699707,
	"eval_runtime": 893.3533,
	"eval_samples_per_second": 558.99,
	"eval_steps_per_second": 5.176,
	"step": 7290
	},
	{
	"epoch": 6.1494678126245095,
	"grad_norm": 0.2906350791454315,
	"learning_rate": 0.0005148514851485149,
	"loss": 1.3177,
	"step": 7300
	},
	{
	"epoch": 6.157891741134954,
	"grad_norm": 0.33962422609329224,
	"learning_rate": 0.0005138613861386139,
	"loss": 1.3173,
	"step": 7310
	},
	{
	"epoch": 6.166315669645398,
	"grad_norm": 0.29772093892097473,
	"learning_rate": 0.0005128712871287129,
	"loss": 1.3194,
	"step": 7320
	},
	{
	"epoch": 6.174739598155843,
	"grad_norm": 0.27262043952941895,
	"learning_rate": 0.0005118811881188119,
	"loss": 1.3159,
	"step": 7330
	},
	{
	"epoch": 6.183163526666287,
	"grad_norm": 0.2678314745426178,
	"learning_rate": 0.0005108910891089109,
	"loss": 1.3167,
	"step": 7340
	},
	{
	"epoch": 6.191587455176732,
	"grad_norm": 0.3115740716457367,
	"learning_rate": 0.0005099009900990099,
	"loss": 1.3142,
	"step": 7350
	},
	{
	"epoch": 6.200011383687176,
	"grad_norm": 0.2983403205871582,
	"learning_rate": 0.000508910891089109,
	"loss": 1.3158,
	"step": 7360
	},
	{
	"epoch": 6.208435312197621,
	"grad_norm": 0.2797269821166992,
	"learning_rate": 0.0005079207920792079,
	"loss": 1.3163,
	"step": 7370
	},
	{
	"epoch": 6.216859240708065,
	"grad_norm": 0.29581907391548157,
	"learning_rate": 0.000506930693069307,
	"loss": 1.3156,
	"step": 7380
	},
	{
	"epoch": 6.216859240708065,
	"eval_accuracy": 0.7285335214596267,
	"eval_loss": 1.1984630823135376,
	"eval_runtime": 881.1088,
	"eval_samples_per_second": 566.759,
	"eval_steps_per_second": 5.248,
	"step": 7380
	},
	{
	"epoch": 6.2252831692185095,
	"grad_norm": 0.2843240797519684,
	"learning_rate": 0.0005059405940594059,
	"loss": 1.3162,
	"step": 7390
	},
	{
	"epoch": 6.233707097728955,
	"grad_norm": 0.2662515938282013,
	"learning_rate": 0.000504950495049505,
	"loss": 1.314,
	"step": 7400
	},
	{
	"epoch": 6.242131026239399,
	"grad_norm": 0.3370913565158844,
	"learning_rate": 0.000503960396039604,
	"loss": 1.3136,
	"step": 7410
	},
	{
	"epoch": 6.250554954749844,
	"grad_norm": 0.29014459252357483,
	"learning_rate": 0.000502970297029703,
	"loss": 1.3127,
	"step": 7420
	},
	{
	"epoch": 6.258978883260288,
	"grad_norm": 0.2779816687107086,
	"learning_rate": 0.000501980198019802,
	"loss": 1.3137,
	"step": 7430
	},
	{
	"epoch": 6.267402811770733,
	"grad_norm": 0.2942447066307068,
	"learning_rate": 0.000500990099009901,
	"loss": 1.3138,
	"step": 7440
	},
	{
	"epoch": 6.275826740281177,
	"grad_norm": 0.3536125719547272,
	"learning_rate": 0.0005,
	"loss": 1.3135,
	"step": 7450
	},
	{
	"epoch": 6.284250668791621,
	"grad_norm": 0.29686686396598816,
	"learning_rate": 0.0004990099009900991,
	"loss": 1.3129,
	"step": 7460
	},
	{
	"epoch": 6.292674597302066,
	"grad_norm": 0.30590084195137024,
	"learning_rate": 0.000498019801980198,
	"loss": 1.3114,
	"step": 7470
	},
	{
	"epoch": 6.292674597302066,
	"eval_accuracy": 0.7293452386458654,
	"eval_loss": 1.1951327323913574,
	"eval_runtime": 893.3348,
	"eval_samples_per_second": 559.002,
	"eval_steps_per_second": 5.176,
	"step": 7470
	},
	{
	"epoch": 6.3010985258125105,
	"grad_norm": 0.2687655985355377,
	"learning_rate": 0.0004970297029702971,
	"loss": 1.3125,
	"step": 7480
	},
	{
	"epoch": 6.3095224543229556,
	"grad_norm": 0.31057268381118774,
	"learning_rate": 0.000496039603960396,
	"loss": 1.3106,
	"step": 7490
	},
	{
	"epoch": 6.3179463828334,
	"grad_norm": 0.3097970187664032,
	"learning_rate": 0.0004950495049504951,
	"loss": 1.31,
	"step": 7500
	},
	{
	"epoch": 6.326370311343844,
	"grad_norm": 0.28469330072402954,
	"learning_rate": 0.0004940594059405941,
	"loss": 1.3098,
	"step": 7510
	},
	{
	"epoch": 6.334794239854289,
	"grad_norm": 0.2911768853664398,
	"learning_rate": 0.000493069306930693,
	"loss": 1.3103,
	"step": 7520
	},
	{
	"epoch": 6.343218168364733,
	"grad_norm": 0.2990330755710602,
	"learning_rate": 0.0004920792079207921,
	"loss": 1.3108,
	"step": 7530
	},
	{
	"epoch": 6.351642096875178,
	"grad_norm": 0.2908383905887604,
	"learning_rate": 0.000491089108910891,
	"loss": 1.3092,
	"step": 7540
	},
	{
	"epoch": 6.360066025385622,
	"grad_norm": 0.306233674287796,
	"learning_rate": 0.0004900990099009901,
	"loss": 1.3107,
	"step": 7550
	},
	{
	"epoch": 6.368489953896067,
	"grad_norm": 0.2749456465244293,
	"learning_rate": 0.0004891089108910892,
	"loss": 1.3073,
	"step": 7560
	},
	{
	"epoch": 6.368489953896067,
	"eval_accuracy": 0.7300212582744398,
	"eval_loss": 1.1918327808380127,
	"eval_runtime": 886.4778,
	"eval_samples_per_second": 563.326,
	"eval_steps_per_second": 5.216,
	"step": 7560
	},
	{
	"epoch": 6.3769138824065115,
	"grad_norm": 0.2799837291240692,
	"learning_rate": 0.0004881188118811881,
	"loss": 1.3084,
	"step": 7570
	},
	{
	"epoch": 6.385337810916956,
	"grad_norm": 0.3050614893436432,
	"learning_rate": 0.00048712871287128715,
	"loss": 1.3082,
	"step": 7580
	},
	{
	"epoch": 6.393761739427401,
	"grad_norm": 0.2900220453739166,
	"learning_rate": 0.00048613861386138615,
	"loss": 1.3087,
	"step": 7590
	},
	{
	"epoch": 6.402185667937845,
	"grad_norm": 0.2592508792877197,
	"learning_rate": 0.00048514851485148515,
	"loss": 1.3082,
	"step": 7600
	},
	{
	"epoch": 6.41060959644829,
	"grad_norm": 0.2503323256969452,
	"learning_rate": 0.00048415841584158414,
	"loss": 1.3066,
	"step": 7610
	},
	{
	"epoch": 6.419033524958734,
	"grad_norm": 0.30254074931144714,
	"learning_rate": 0.00048316831683168314,
	"loss": 1.3079,
	"step": 7620
	},
	{
	"epoch": 6.427457453469179,
	"grad_norm": 0.28869137167930603,
	"learning_rate": 0.0004821782178217822,
	"loss": 1.3061,
	"step": 7630
	},
	{
	"epoch": 6.435881381979623,
	"grad_norm": 0.3226109445095062,
	"learning_rate": 0.0004811881188118812,
	"loss": 1.3051,
	"step": 7640
	},
	{
	"epoch": 6.444305310490067,
	"grad_norm": 0.2900817096233368,
	"learning_rate": 0.0004801980198019802,
	"loss": 1.3062,
	"step": 7650
	},
	{
	"epoch": 6.444305310490067,
	"eval_accuracy": 0.7304169114350704,
	"eval_loss": 1.1914669275283813,
	"eval_runtime": 888.5325,
	"eval_samples_per_second": 562.023,
	"eval_steps_per_second": 5.204,
	"step": 7650
	},
	{
	"epoch": 6.452729239000512,
	"grad_norm": 0.3235354721546173,
	"learning_rate": 0.0004792079207920792,
	"loss": 1.3074,
	"step": 7660
	},
	{
	"epoch": 6.461153167510957,
	"grad_norm": 0.26384827494621277,
	"learning_rate": 0.0004782178217821782,
	"loss": 1.3052,
	"step": 7670
	},
	{
	"epoch": 6.469577096021402,
	"grad_norm": 0.27176037430763245,
	"learning_rate": 0.00047722772277227724,
	"loss": 1.3032,
	"step": 7680
	},
	{
	"epoch": 6.478001024531846,
	"grad_norm": 0.27846911549568176,
	"learning_rate": 0.00047623762376237624,
	"loss": 1.3038,
	"step": 7690
	},
	{
	"epoch": 6.48642495304229,
	"grad_norm": 0.32258498668670654,
	"learning_rate": 0.00047524752475247524,
	"loss": 1.3052,
	"step": 7700
	},
	{
	"epoch": 6.494848881552735,
	"grad_norm": 0.3000924587249756,
	"learning_rate": 0.00047425742574257423,
	"loss": 1.3046,
	"step": 7710
	},
	{
	"epoch": 6.503272810063179,
	"grad_norm": 0.22748370468616486,
	"learning_rate": 0.00047326732673267323,
	"loss": 1.3054,
	"step": 7720
	},
	{
	"epoch": 6.511696738573624,
	"grad_norm": 0.3552054464817047,
	"learning_rate": 0.0004722772277227723,
	"loss": 1.3026,
	"step": 7730
	},
	{
	"epoch": 6.520120667084068,
	"grad_norm": 0.2629605531692505,
	"learning_rate": 0.0004712871287128713,
	"loss": 1.3021,
	"step": 7740
	},
	{
	"epoch": 6.520120667084068,
	"eval_accuracy": 0.7311149976881265,
	"eval_loss": 1.1877076625823975,
	"eval_runtime": 883.1573,
	"eval_samples_per_second": 565.444,
	"eval_steps_per_second": 5.236,
	"step": 7740
	},
	{
	"epoch": 6.528544595594513,
	"grad_norm": 0.31692177057266235,
	"learning_rate": 0.0004702970297029703,
	"loss": 1.3048,
	"step": 7750
	},
	{
	"epoch": 6.5369685241049575,
	"grad_norm": 0.3689730167388916,
	"learning_rate": 0.0004693069306930693,
	"loss": 1.3016,
	"step": 7760
	},
	{
	"epoch": 6.545392452615403,
	"grad_norm": 0.2619648277759552,
	"learning_rate": 0.00046831683168316833,
	"loss": 1.3018,
	"step": 7770
	},
	{
	"epoch": 6.553816381125847,
	"grad_norm": 0.29713907837867737,
	"learning_rate": 0.0004673267326732674,
	"loss": 1.3007,
	"step": 7780
	},
	{
	"epoch": 6.562240309636291,
	"grad_norm": 0.3426944315433502,
	"learning_rate": 0.0004663366336633664,
	"loss": 1.302,
	"step": 7790
	},
	{
	"epoch": 6.570664238146736,
	"grad_norm": 0.30286312103271484,
	"learning_rate": 0.0004653465346534654,
	"loss": 1.3024,
	"step": 7800
	},
	{
	"epoch": 6.57908816665718,
	"grad_norm": 0.2533584237098694,
	"learning_rate": 0.0004643564356435644,
	"loss": 1.2991,
	"step": 7810
	},
	{
	"epoch": 6.587512095167625,
	"grad_norm": 0.23465867340564728,
	"learning_rate": 0.0004633663366336634,
	"loss": 1.3007,
	"step": 7820
	},
	{
	"epoch": 6.595936023678069,
	"grad_norm": 0.31729191541671753,
	"learning_rate": 0.00046237623762376243,
	"loss": 1.3,
	"step": 7830
	},
	{
	"epoch": 6.595936023678069,
	"eval_accuracy": 0.7318502985148011,
	"eval_loss": 1.1818432807922363,
	"eval_runtime": 891.13,
	"eval_samples_per_second": 560.385,
	"eval_steps_per_second": 5.189,
	"step": 7830
	},
	{
	"epoch": 6.6043599521885135,
	"grad_norm": 0.26264631748199463,
	"learning_rate": 0.00046138613861386143,
	"loss": 1.3003,
	"step": 7840
	},
	{
	"epoch": 6.6127838806989585,
	"grad_norm": 0.26062801480293274,
	"learning_rate": 0.0004603960396039604,
	"loss": 1.2977,
	"step": 7850
	},
	{
	"epoch": 6.621207809209403,
	"grad_norm": 0.2755686640739441,
	"learning_rate": 0.0004594059405940594,
	"loss": 1.2979,
	"step": 7860
	},
	{
	"epoch": 6.629631737719848,
	"grad_norm": 0.32309025526046753,
	"learning_rate": 0.0004584158415841584,
	"loss": 1.297,
	"step": 7870
	},
	{
	"epoch": 6.638055666230292,
	"grad_norm": 0.2709057927131653,
	"learning_rate": 0.0004574257425742575,
	"loss": 1.2999,
	"step": 7880
	},
	{
	"epoch": 6.646479594740737,
	"grad_norm": 0.2785532772541046,
	"learning_rate": 0.00045643564356435647,
	"loss": 1.2959,
	"step": 7890
	},
	{
	"epoch": 6.654903523251181,
	"grad_norm": 0.2822953164577484,
	"learning_rate": 0.00045544554455445547,
	"loss": 1.2984,
	"step": 7900
	},
	{
	"epoch": 6.663327451761625,
	"grad_norm": 0.2704668641090393,
	"learning_rate": 0.00045445544554455447,
	"loss": 1.2956,
	"step": 7910
	},
	{
	"epoch": 6.67175138027207,
	"grad_norm": 0.3228791058063507,
	"learning_rate": 0.00045346534653465347,
	"loss": 1.2984,
	"step": 7920
	},
	{
	"epoch": 6.67175138027207,
	"eval_accuracy": 0.7318941432804211,
	"eval_loss": 1.184158205986023,
	"eval_runtime": 883.7641,
	"eval_samples_per_second": 565.056,
	"eval_steps_per_second": 5.232,
	"step": 7920
	},
	{
	"epoch": 6.680175308782514,
	"grad_norm": 0.2641367018222809,
	"learning_rate": 0.0004524752475247525,
	"loss": 1.299,
	"step": 7930
	},
	{
	"epoch": 6.6885992372929595,
	"grad_norm": 0.28555190563201904,
	"learning_rate": 0.0004514851485148515,
	"loss": 1.2985,
	"step": 7940
	},
	{
	"epoch": 6.697023165803404,
	"grad_norm": 0.2615039050579071,
	"learning_rate": 0.0004504950495049505,
	"loss": 1.294,
	"step": 7950
	},
	{
	"epoch": 6.705447094313849,
	"grad_norm": 0.25349870324134827,
	"learning_rate": 0.0004495049504950495,
	"loss": 1.295,
	"step": 7960
	},
	{
	"epoch": 6.713871022824293,
	"grad_norm": 0.3342011272907257,
	"learning_rate": 0.0004485148514851485,
	"loss": 1.2963,
	"step": 7970
	},
	{
	"epoch": 6.722294951334737,
	"grad_norm": 0.2608206570148468,
	"learning_rate": 0.00044752475247524756,
	"loss": 1.2957,
	"step": 7980
	},
	{
	"epoch": 6.730718879845182,
	"grad_norm": 0.27476873993873596,
	"learning_rate": 0.00044653465346534656,
	"loss": 1.2939,
	"step": 7990
	},
	{
	"epoch": 6.739142808355626,
	"grad_norm": 0.3241907060146332,
	"learning_rate": 0.00044554455445544556,
	"loss": 1.2965,
	"step": 8000
	},
	{
	"epoch": 6.747566736866071,
	"grad_norm": 0.3494180142879486,
	"learning_rate": 0.00044455445544554456,
	"loss": 1.2962,
	"step": 8010
	},
	{
	"epoch": 6.747566736866071,
	"eval_accuracy": 0.7322386411238602,
	"eval_loss": 1.182516098022461,
	"eval_runtime": 889.7545,
	"eval_samples_per_second": 561.251,
	"eval_steps_per_second": 5.197,
	"step": 8010
	},
	{
	"epoch": 6.755990665376515,
	"grad_norm": 0.2616145610809326,
	"learning_rate": 0.00044356435643564356,
	"loss": 1.2958,
	"step": 8020
	},
	{
	"epoch": 6.7644145938869595,
	"grad_norm": 0.29238995909690857,
	"learning_rate": 0.0004425742574257426,
	"loss": 1.293,
	"step": 8030
	},
	{
	"epoch": 6.772838522397405,
	"grad_norm": 0.24060964584350586,
	"learning_rate": 0.0004415841584158416,
	"loss": 1.2948,
	"step": 8040
	},
	{
	"epoch": 6.781262450907849,
	"grad_norm": 0.29363489151000977,
	"learning_rate": 0.0004405940594059406,
	"loss": 1.2928,
	"step": 8050
	},
	{
	"epoch": 6.789686379418294,
	"grad_norm": 0.3320622444152832,
	"learning_rate": 0.0004396039603960396,
	"loss": 1.2925,
	"step": 8060
	},
	{
	"epoch": 6.798110307928738,
	"grad_norm": 0.23857133090496063,
	"learning_rate": 0.0004386138613861386,
	"loss": 1.2943,
	"step": 8070
	},
	{
	"epoch": 6.806534236439183,
	"grad_norm": 0.24713198840618134,
	"learning_rate": 0.00043762376237623765,
	"loss": 1.2938,
	"step": 8080
	},
	{
	"epoch": 6.814958164949627,
	"grad_norm": 0.26270854473114014,
	"learning_rate": 0.00043663366336633665,
	"loss": 1.2916,
	"step": 8090
	},
	{
	"epoch": 6.823382093460072,
	"grad_norm": 0.2450101524591446,
	"learning_rate": 0.00043564356435643565,
	"loss": 1.2931,
	"step": 8100
	},
	{
	"epoch": 6.823382093460072,
	"eval_accuracy": 0.7332625526391774,
	"eval_loss": 1.1757333278656006,
	"eval_runtime": 889.0249,
	"eval_samples_per_second": 561.712,
	"eval_steps_per_second": 5.201,
	"step": 8100
	},
	{
	"epoch": 6.831806021970516,
	"grad_norm": 0.27462685108184814,
	"learning_rate": 0.00043465346534653465,
	"loss": 1.2923,
	"step": 8110
	},
	{
	"epoch": 6.8402299504809605,
	"grad_norm": 0.2707907259464264,
	"learning_rate": 0.00043366336633663365,
	"loss": 1.2925,
	"step": 8120
	},
	{
	"epoch": 6.8486538789914055,
	"grad_norm": 0.24748317897319794,
	"learning_rate": 0.0004326732673267327,
	"loss": 1.2929,
	"step": 8130
	},
	{
	"epoch": 6.85707780750185,
	"grad_norm": 0.226767897605896,
	"learning_rate": 0.0004316831683168317,
	"loss": 1.2883,
	"step": 8140
	},
	{
	"epoch": 6.865501736012295,
	"grad_norm": 0.24889105558395386,
	"learning_rate": 0.0004306930693069307,
	"loss": 1.2893,
	"step": 8150
	},
	{
	"epoch": 6.873925664522739,
	"grad_norm": 0.26075902581214905,
	"learning_rate": 0.0004297029702970297,
	"loss": 1.2893,
	"step": 8160
	},
	{
	"epoch": 6.882349593033183,
	"grad_norm": 0.26210734248161316,
	"learning_rate": 0.0004287128712871287,
	"loss": 1.2868,
	"step": 8170
	},
	{
	"epoch": 6.890773521543628,
	"grad_norm": 0.2559298872947693,
	"learning_rate": 0.00042772277227722774,
	"loss": 1.2886,
	"step": 8180
	},
	{
	"epoch": 6.899197450054072,
	"grad_norm": 0.2503817081451416,
	"learning_rate": 0.00042673267326732674,
	"loss": 1.2883,
	"step": 8190
	},
	{
	"epoch": 6.899197450054072,
	"eval_accuracy": 0.7335132915044345,
	"eval_loss": 1.1744158267974854,
	"eval_runtime": 885.5636,
	"eval_samples_per_second": 563.908,
	"eval_steps_per_second": 5.222,
	"step": 8190
	},
	{
	"epoch": 6.907621378564517,
	"grad_norm": 0.24540117383003235,
	"learning_rate": 0.00042574257425742574,
	"loss": 1.2893,
	"step": 8200
	},
	{
	"epoch": 6.9160453070749615,
	"grad_norm": 0.3089258670806885,
	"learning_rate": 0.00042475247524752474,
	"loss": 1.2896,
	"step": 8210
	},
	{
	"epoch": 6.9244692355854065,
	"grad_norm": 0.26888999342918396,
	"learning_rate": 0.00042376237623762374,
	"loss": 1.2895,
	"step": 8220
	},
	{
	"epoch": 6.932893164095851,
	"grad_norm": 0.24743571877479553,
	"learning_rate": 0.0004227722772277228,
	"loss": 1.2884,
	"step": 8230
	},
	{
	"epoch": 6.941317092606295,
	"grad_norm": 0.24364733695983887,
	"learning_rate": 0.0004217821782178218,
	"loss": 1.2879,
	"step": 8240
	},
	{
	"epoch": 6.94974102111674,
	"grad_norm": 0.2963743507862091,
	"learning_rate": 0.0004207920792079208,
	"loss": 1.2878,
	"step": 8250
	},
	{
	"epoch": 6.958164949627184,
	"grad_norm": 0.2444639950990677,
	"learning_rate": 0.0004198019801980198,
	"loss": 1.2871,
	"step": 8260
	},
	{
	"epoch": 6.966588878137629,
	"grad_norm": 0.27140820026397705,
	"learning_rate": 0.0004188118811881188,
	"loss": 1.2878,
	"step": 8270
	},
	{
	"epoch": 6.975012806648073,
	"grad_norm": 0.2628765404224396,
	"learning_rate": 0.00041782178217821784,
	"loss": 1.2873,
	"step": 8280
	},
	{
	"epoch": 6.975012806648073,
	"eval_accuracy": 0.734204579286565,
	"eval_loss": 1.171156644821167,
	"eval_runtime": 888.1172,
	"eval_samples_per_second": 562.286,
	"eval_steps_per_second": 5.207,
	"step": 8280
	},
	{
	"epoch": 6.983436735158518,
	"grad_norm": 0.2539413869380951,
	"learning_rate": 0.00041683168316831683,
	"loss": 1.2874,
	"step": 8290
	},
	{
	"epoch": 6.991860663668962,
	"grad_norm": 0.29522642493247986,
	"learning_rate": 0.00041584158415841583,
	"loss": 1.2859,
	"step": 8300
	},
	{
	"epoch": 7.000284592179407,
	"grad_norm": 0.29553958773612976,
	"learning_rate": 0.00041485148514851483,
	"loss": 1.2878,
	"step": 8310
	},
	{
	"epoch": 7.008708520689852,
	"grad_norm": 0.3111182153224945,
	"learning_rate": 0.00041386138613861383,
	"loss": 1.2874,
	"step": 8320
	},
	{
	"epoch": 7.017132449200296,
	"grad_norm": 0.33146336674690247,
	"learning_rate": 0.0004128712871287129,
	"loss": 1.287,
	"step": 8330
	},
	{
	"epoch": 7.025556377710741,
	"grad_norm": 0.27456361055374146,
	"learning_rate": 0.0004118811881188119,
	"loss": 1.2858,
	"step": 8340
	},
	{
	"epoch": 7.033980306221185,
	"grad_norm": 0.29216212034225464,
	"learning_rate": 0.0004108910891089109,
	"loss": 1.2838,
	"step": 8350
	},
	{
	"epoch": 7.042404234731629,
	"grad_norm": 0.24966631829738617,
	"learning_rate": 0.0004099009900990099,
	"loss": 1.2857,
	"step": 8360
	},
	{
	"epoch": 7.050828163242074,
	"grad_norm": 0.2910294234752655,
	"learning_rate": 0.0004089108910891089,
	"loss": 1.2858,
	"step": 8370
	},
	{
	"epoch": 7.050828163242074,
	"eval_accuracy": 0.7346228547150983,
	"eval_loss": 1.169946551322937,
	"eval_runtime": 890.9908,
	"eval_samples_per_second": 560.473,
	"eval_steps_per_second": 5.19,
	"step": 8370
	},
	{
	"epoch": 7.059252091752518,
	"grad_norm": 0.26337358355522156,
	"learning_rate": 0.0004079207920792079,
	"loss": 1.2842,
	"step": 8380
	},
	{
	"epoch": 7.067676020262963,
	"grad_norm": 0.2426845133304596,
	"learning_rate": 0.0004069306930693069,
	"loss": 1.2836,
	"step": 8390
	},
	{
	"epoch": 7.0760999487734075,
	"grad_norm": 0.2740408778190613,
	"learning_rate": 0.000405940594059406,
	"loss": 1.2842,
	"step": 8400
	},
	{
	"epoch": 7.084523877283853,
	"grad_norm": 0.27966201305389404,
	"learning_rate": 0.000404950495049505,
	"loss": 1.2841,
	"step": 8410
	},
	{
	"epoch": 7.092947805794297,
	"grad_norm": 0.3083817660808563,
	"learning_rate": 0.00040396039603960397,
	"loss": 1.2823,
	"step": 8420
	},
	{
	"epoch": 7.101371734304741,
	"grad_norm": 0.30730104446411133,
	"learning_rate": 0.000402970297029703,
	"loss": 1.2845,
	"step": 8430
	},
	{
	"epoch": 7.109795662815186,
	"grad_norm": 0.2973144054412842,
	"learning_rate": 0.000401980198019802,
	"loss": 1.2814,
	"step": 8440
	},
	{
	"epoch": 7.11821959132563,
	"grad_norm": 0.2775426208972931,
	"learning_rate": 0.000400990099009901,
	"loss": 1.2823,
	"step": 8450
	},
	{
	"epoch": 7.126643519836075,
	"grad_norm": 0.2734345495700836,
	"learning_rate": 0.0004,
	"loss": 1.2819,
	"step": 8460
	},
	{
	"epoch": 7.126643519836075,
	"eval_accuracy": 0.735104089750221,
	"eval_loss": 1.1682698726654053,
	"eval_runtime": 886.7497,
	"eval_samples_per_second": 563.153,
	"eval_steps_per_second": 5.215,
	"step": 8460
	},
	{
	"epoch": 7.135067448346519,
	"grad_norm": 0.27912047505378723,
	"learning_rate": 0.000399009900990099,
	"loss": 1.2826,
	"step": 8470
	},
	{
	"epoch": 7.143491376856964,
	"grad_norm": 0.3084285855293274,
	"learning_rate": 0.00039801980198019807,
	"loss": 1.2811,
	"step": 8480
	},
	{
	"epoch": 7.1519153053674085,
	"grad_norm": 0.30194783210754395,
	"learning_rate": 0.00039702970297029707,
	"loss": 1.2828,
	"step": 8490
	},
	{
	"epoch": 7.160339233877853,
	"grad_norm": 0.25307685136795044,
	"learning_rate": 0.00039603960396039607,
	"loss": 1.2791,
	"step": 8500
	},
	{
	"epoch": 7.168763162388298,
	"grad_norm": 0.25018778443336487,
	"learning_rate": 0.00039504950495049506,
	"loss": 1.2796,
	"step": 8510
	},
	{
	"epoch": 7.177187090898742,
	"grad_norm": 0.2541010081768036,
	"learning_rate": 0.00039405940594059406,
	"loss": 1.2812,
	"step": 8520
	},
	{
	"epoch": 7.185611019409187,
	"grad_norm": 0.29745373129844666,
	"learning_rate": 0.0003930693069306931,
	"loss": 1.2828,
	"step": 8530
	},
	{
	"epoch": 7.194034947919631,
	"grad_norm": 0.2740705907344818,
	"learning_rate": 0.0003920792079207921,
	"loss": 1.2812,
	"step": 8540
	},
	{
	"epoch": 7.202458876430076,
	"grad_norm": 0.23998434841632843,
	"learning_rate": 0.0003910891089108911,
	"loss": 1.2781,
	"step": 8550
	},
	{
	"epoch": 7.202458876430076,
	"eval_accuracy": 0.7354429371546514,
	"eval_loss": 1.1649537086486816,
	"eval_runtime": 891.9041,
	"eval_samples_per_second": 559.899,
	"eval_steps_per_second": 5.184,
	"step": 8550
	},
	{
	"epoch": 7.21088280494052,
	"grad_norm": 0.2691722512245178,
	"learning_rate": 0.0003900990099009901,
	"loss": 1.2785,
	"step": 8560
	},
	{
	"epoch": 7.219306733450964,
	"grad_norm": 0.28188225626945496,
	"learning_rate": 0.0003891089108910891,
	"loss": 1.2807,
	"step": 8570
	},
	{
	"epoch": 7.2277306619614095,
	"grad_norm": 0.3311617970466614,
	"learning_rate": 0.00038811881188118816,
	"loss": 1.2809,
	"step": 8580
	},
	{
	"epoch": 7.236154590471854,
	"grad_norm": 0.2717738747596741,
	"learning_rate": 0.00038712871287128716,
	"loss": 1.278,
	"step": 8590
	},
	{
	"epoch": 7.244578518982299,
	"grad_norm": 0.27171820402145386,
	"learning_rate": 0.00038613861386138616,
	"loss": 1.2803,
	"step": 8600
	},
	{
	"epoch": 7.253002447492743,
	"grad_norm": 0.249137282371521,
	"learning_rate": 0.00038514851485148515,
	"loss": 1.277,
	"step": 8610
	},
	{
	"epoch": 7.261426376003188,
	"grad_norm": 0.26939263939857483,
	"learning_rate": 0.00038415841584158415,
	"loss": 1.2773,
	"step": 8620
	},
	{
	"epoch": 7.269850304513632,
	"grad_norm": 0.3177802860736847,
	"learning_rate": 0.0003831683168316832,
	"loss": 1.2763,
	"step": 8630
	},
	{
	"epoch": 7.278274233024076,
	"grad_norm": 0.2421504557132721,
	"learning_rate": 0.0003821782178217822,
	"loss": 1.2771,
	"step": 8640
	},
	{
	"epoch": 7.278274233024076,
	"eval_accuracy": 0.7357238880776348,
	"eval_loss": 1.1646403074264526,
	"eval_runtime": 878.5966,
	"eval_samples_per_second": 568.379,
	"eval_steps_per_second": 5.263,
	"step": 8640
	},
	{
	"epoch": 7.286698161534521,
	"grad_norm": 0.28808215260505676,
	"learning_rate": 0.0003811881188118812,
	"loss": 1.2744,
	"step": 8650
	},
	{
	"epoch": 7.295122090044965,
	"grad_norm": 0.26363667845726013,
	"learning_rate": 0.0003801980198019802,
	"loss": 1.2788,
	"step": 8660
	},
	{
	"epoch": 7.30354601855541,
	"grad_norm": 0.35491064190864563,
	"learning_rate": 0.0003792079207920792,
	"loss": 1.2792,
	"step": 8670
	},
	{
	"epoch": 7.311969947065855,
	"grad_norm": 0.3273920714855194,
	"learning_rate": 0.00037821782178217825,
	"loss": 1.278,
	"step": 8680
	},
	{
	"epoch": 7.320393875576299,
	"grad_norm": 0.28319239616394043,
	"learning_rate": 0.00037722772277227725,
	"loss": 1.2762,
	"step": 8690
	},
	{
	"epoch": 7.328817804086744,
	"grad_norm": 0.28414586186408997,
	"learning_rate": 0.00037623762376237625,
	"loss": 1.2769,
	"step": 8700
	},
	{
	"epoch": 7.337241732597188,
	"grad_norm": 0.25393033027648926,
	"learning_rate": 0.00037524752475247524,
	"loss": 1.2742,
	"step": 8710
	},
	{
	"epoch": 7.345665661107633,
	"grad_norm": 0.25634288787841797,
	"learning_rate": 0.00037425742574257424,
	"loss": 1.2753,
	"step": 8720
	},
	{
	"epoch": 7.354089589618077,
	"grad_norm": 0.2355813831090927,
	"learning_rate": 0.0003732673267326733,
	"loss": 1.2749,
	"step": 8730
	},
	{
	"epoch": 7.354089589618077,
	"eval_accuracy": 0.7361996522899728,
	"eval_loss": 1.160847544670105,
	"eval_runtime": 889.4544,
	"eval_samples_per_second": 561.441,
	"eval_steps_per_second": 5.199,
	"step": 8730
	},
	{
	"epoch": 7.362513518128522,
	"grad_norm": 0.24002189934253693,
	"learning_rate": 0.0003722772277227723,
	"loss": 1.2751,
	"step": 8740
	},
	{
	"epoch": 7.370937446638966,
	"grad_norm": 0.2806450128555298,
	"learning_rate": 0.0003712871287128713,
	"loss": 1.275,
	"step": 8750
	},
	{
	"epoch": 7.3793613751494105,
	"grad_norm": 0.24552834033966064,
	"learning_rate": 0.0003702970297029703,
	"loss": 1.2753,
	"step": 8760
	},
	{
	"epoch": 7.3877853036598555,
	"grad_norm": 0.24814461171627045,
	"learning_rate": 0.0003693069306930693,
	"loss": 1.276,
	"step": 8770
	},
	{
	"epoch": 7.3962092321703,
	"grad_norm": 0.26086533069610596,
	"learning_rate": 0.00036831683168316834,
	"loss": 1.2744,
	"step": 8780
	},
	{
	"epoch": 7.404633160680745,
	"grad_norm": 0.2854679822921753,
	"learning_rate": 0.00036732673267326734,
	"loss": 1.2739,
	"step": 8790
	},
	{
	"epoch": 7.413057089191189,
	"grad_norm": 0.24847003817558289,
	"learning_rate": 0.00036633663366336634,
	"loss": 1.2731,
	"step": 8800
	},
	{
	"epoch": 7.421481017701634,
	"grad_norm": 0.3230905532836914,
	"learning_rate": 0.00036534653465346533,
	"loss": 1.2732,
	"step": 8810
	},
	{
	"epoch": 7.429904946212078,
	"grad_norm": 0.30264076590538025,
	"learning_rate": 0.00036435643564356433,
	"loss": 1.273,
	"step": 8820
	},
	{
	"epoch": 7.429904946212078,
	"eval_accuracy": 0.7366944357714759,
	"eval_loss": 1.1585748195648193,
	"eval_runtime": 884.7129,
	"eval_samples_per_second": 564.45,
	"eval_steps_per_second": 5.227,
	"step": 8820
	},
	{
	"epoch": 7.438328874722522,
	"grad_norm": 0.25705888867378235,
	"learning_rate": 0.0003633663366336634,
	"loss": 1.2738,
	"step": 8830
	},
	{
	"epoch": 7.446752803232967,
	"grad_norm": 0.2455236166715622,
	"learning_rate": 0.0003623762376237624,
	"loss": 1.2727,
	"step": 8840
	},
	{
	"epoch": 7.4551767317434114,
	"grad_norm": 0.2877678871154785,
	"learning_rate": 0.0003613861386138614,
	"loss": 1.2733,
	"step": 8850
	},
	{
	"epoch": 7.4636006602538565,
	"grad_norm": 0.2644253969192505,
	"learning_rate": 0.0003603960396039604,
	"loss": 1.2711,
	"step": 8860
	},
	{
	"epoch": 7.472024588764301,
	"grad_norm": 0.25103089213371277,
	"learning_rate": 0.0003594059405940594,
	"loss": 1.2727,
	"step": 8870
	},
	{
	"epoch": 7.480448517274746,
	"grad_norm": 0.28732746839523315,
	"learning_rate": 0.00035841584158415843,
	"loss": 1.2729,
	"step": 8880
	},
	{
	"epoch": 7.48887244578519,
	"grad_norm": 0.3096875846385956,
	"learning_rate": 0.00035742574257425743,
	"loss": 1.2733,
	"step": 8890
	},
	{
	"epoch": 7.497296374295634,
	"grad_norm": 0.27695363759994507,
	"learning_rate": 0.0003564356435643564,
	"loss": 1.2719,
	"step": 8900
	},
	{
	"epoch": 7.505720302806079,
	"grad_norm": 0.26089048385620117,
	"learning_rate": 0.0003554455445544554,
	"loss": 1.2718,
	"step": 8910
	},
	{
	"epoch": 7.505720302806079,
	"eval_accuracy": 0.7372118632602084,
	"eval_loss": 1.1557950973510742,
	"eval_runtime": 890.5411,
	"eval_samples_per_second": 560.756,
	"eval_steps_per_second": 5.192,
	"step": 8910
	},
	{
	"epoch": 7.514144231316523,
	"grad_norm": 0.24578547477722168,
	"learning_rate": 0.0003544554455445544,
	"loss": 1.2723,
	"step": 8920
	},
	{
	"epoch": 7.522568159826968,
	"grad_norm": 0.2624136209487915,
	"learning_rate": 0.0003534653465346535,
	"loss": 1.2708,
	"step": 8930
	},
	{
	"epoch": 7.530992088337412,
	"grad_norm": 0.25748109817504883,
	"learning_rate": 0.0003524752475247525,
	"loss": 1.2708,
	"step": 8940
	},
	{
	"epoch": 7.5394160168478574,
	"grad_norm": 0.28079208731651306,
	"learning_rate": 0.00035148514851485147,
	"loss": 1.2727,
	"step": 8950
	},
	{
	"epoch": 7.547839945358302,
	"grad_norm": 0.2706407904624939,
	"learning_rate": 0.00035049504950495047,
	"loss": 1.2712,
	"step": 8960
	},
	{
	"epoch": 7.556263873868746,
	"grad_norm": 0.27032172679901123,
	"learning_rate": 0.00034950495049504947,
	"loss": 1.2673,
	"step": 8970
	},
	{
	"epoch": 7.564687802379191,
	"grad_norm": 0.24915465712547302,
	"learning_rate": 0.0003485148514851485,
	"loss": 1.2682,
	"step": 8980
	},
	{
	"epoch": 7.573111730889635,
	"grad_norm": 0.24191108345985413,
	"learning_rate": 0.0003475247524752475,
	"loss": 1.2719,
	"step": 8990
	},
	{
	"epoch": 7.58153565940008,
	"grad_norm": 0.2806965112686157,
	"learning_rate": 0.0003465346534653465,
	"loss": 1.2681,
	"step": 9000
	},
	{
	"epoch": 7.58153565940008,
	"eval_accuracy": 0.7375367942915361,
	"eval_loss": 1.1551363468170166,
	"eval_runtime": 876.3936,
	"eval_samples_per_second": 569.808,
	"eval_steps_per_second": 5.276,
	"step": 9000
	},
	{
	"epoch": 7.589959587910524,
	"grad_norm": 0.2909415364265442,
	"learning_rate": 0.0003455445544554455,
	"loss": 1.2687,
	"step": 9010
	},
	{
	"epoch": 7.598383516420968,
	"grad_norm": 0.30222398042678833,
	"learning_rate": 0.0003445544554455445,
	"loss": 1.2684,
	"step": 9020
	},
	{
	"epoch": 7.606807444931413,
	"grad_norm": 0.25246381759643555,
	"learning_rate": 0.0003435643564356436,
	"loss": 1.2689,
	"step": 9030
	},
	{
	"epoch": 7.6152313734418575,
	"grad_norm": 0.25202953815460205,
	"learning_rate": 0.0003425742574257426,
	"loss": 1.2689,
	"step": 9040
	},
	{
	"epoch": 7.623655301952303,
	"grad_norm": 0.2351432740688324,
	"learning_rate": 0.0003415841584158416,
	"loss": 1.2655,
	"step": 9050
	},
	{
	"epoch": 7.632079230462747,
	"grad_norm": 0.26545044779777527,
	"learning_rate": 0.0003405940594059406,
	"loss": 1.2659,
	"step": 9060
	},
	{
	"epoch": 7.640503158973192,
	"grad_norm": 0.248436838388443,
	"learning_rate": 0.0003396039603960396,
	"loss": 1.2677,
	"step": 9070
	},
	{
	"epoch": 7.648927087483636,
	"grad_norm": 0.3021203279495239,
	"learning_rate": 0.00033861386138613867,
	"loss": 1.2692,
	"step": 9080
	},
	{
	"epoch": 7.657351015994081,
	"grad_norm": 0.27577024698257446,
	"learning_rate": 0.00033762376237623766,
	"loss": 1.2672,
	"step": 9090
	},
	{
	"epoch": 7.657351015994081,
	"eval_accuracy": 0.7378275299930978,
	"eval_loss": 1.1522574424743652,
	"eval_runtime": 891.8663,
	"eval_samples_per_second": 559.923,
	"eval_steps_per_second": 5.185,
	"step": 9090
	},
	{
	"epoch": 7.665774944504525,
	"grad_norm": 0.2087612897157669,
	"learning_rate": 0.00033663366336633666,
	"loss": 1.2655,
	"step": 9100
	},
	{
	"epoch": 7.674198873014969,
	"grad_norm": 0.24880866706371307,
	"learning_rate": 0.00033564356435643566,
	"loss": 1.2677,
	"step": 9110
	},
	{
	"epoch": 7.682622801525414,
	"grad_norm": 0.26335397362709045,
	"learning_rate": 0.00033465346534653466,
	"loss": 1.2647,
	"step": 9120
	},
	{
	"epoch": 7.6910467300358585,
	"grad_norm": 0.25413015484809875,
	"learning_rate": 0.0003336633663366337,
	"loss": 1.265,
	"step": 9130
	},
	{
	"epoch": 7.6994706585463035,
	"grad_norm": 0.3119896650314331,
	"learning_rate": 0.0003326732673267327,
	"loss": 1.2674,
	"step": 9140
	},
	{
	"epoch": 7.707894587056748,
	"grad_norm": 0.2269907146692276,
	"learning_rate": 0.0003316831683168317,
	"loss": 1.2647,
	"step": 9150
	},
	{
	"epoch": 7.716318515567192,
	"grad_norm": 0.31745684146881104,
	"learning_rate": 0.0003306930693069307,
	"loss": 1.2668,
	"step": 9160
	},
	{
	"epoch": 7.724742444077637,
	"grad_norm": 0.28096485137939453,
	"learning_rate": 0.0003297029702970297,
	"loss": 1.2658,
	"step": 9170
	},
	{
	"epoch": 7.733166372588081,
	"grad_norm": 0.26646697521209717,
	"learning_rate": 0.00032871287128712876,
	"loss": 1.2664,
	"step": 9180
	},
	{
	"epoch": 7.733166372588081,
	"eval_accuracy": 0.7381772885380696,
	"eval_loss": 1.151962161064148,
	"eval_runtime": 889.9446,
	"eval_samples_per_second": 561.132,
	"eval_steps_per_second": 5.196,
	"step": 9180
	},
	{
	"epoch": 7.741590301098526,
	"grad_norm": 0.24463273584842682,
	"learning_rate": 0.00032772277227722775,
	"loss": 1.2663,
	"step": 9190
	},
	{
	"epoch": 7.75001422960897,
	"grad_norm": 0.23978425562381744,
	"learning_rate": 0.00032673267326732675,
	"loss": 1.2634,
	"step": 9200
	},
	{
	"epoch": 7.758438158119414,
	"grad_norm": 0.25662901997566223,
	"learning_rate": 0.00032574257425742575,
	"loss": 1.2651,
	"step": 9210
	},
	{
	"epoch": 7.766862086629859,
	"grad_norm": 0.2697198688983917,
	"learning_rate": 0.00032475247524752475,
	"loss": 1.2628,
	"step": 9220
	},
	{
	"epoch": 7.775286015140304,
	"grad_norm": 0.2753835618495941,
	"learning_rate": 0.0003237623762376238,
	"loss": 1.2632,
	"step": 9230
	},
	{
	"epoch": 7.783709943650749,
	"grad_norm": 0.23303931951522827,
	"learning_rate": 0.0003227722772277228,
	"loss": 1.2625,
	"step": 9240
	},
	{
	"epoch": 7.792133872161193,
	"grad_norm": 0.26077255606651306,
	"learning_rate": 0.0003217821782178218,
	"loss": 1.2648,
	"step": 9250
	},
	{
	"epoch": 7.800557800671638,
	"grad_norm": 0.25494781136512756,
	"learning_rate": 0.0003207920792079208,
	"loss": 1.2648,
	"step": 9260
	},
	{
	"epoch": 7.808981729182082,
	"grad_norm": 0.2447885125875473,
	"learning_rate": 0.0003198019801980198,
	"loss": 1.2645,
	"step": 9270
	},
	{
	"epoch": 7.808981729182082,
	"eval_accuracy": 0.7385748699480129,
	"eval_loss": 1.1492513418197632,
	"eval_runtime": 885.3604,
	"eval_samples_per_second": 564.037,
	"eval_steps_per_second": 5.223,
	"step": 9270
	},
	{
	"epoch": 7.817405657692527,
	"grad_norm": 0.23961922526359558,
	"learning_rate": 0.00031881188118811885,
	"loss": 1.2631,
	"step": 9280
	},
	{
	"epoch": 7.825829586202971,
	"grad_norm": 0.2850695252418518,
	"learning_rate": 0.00031782178217821784,
	"loss": 1.2636,
	"step": 9290
	},
	{
	"epoch": 7.834253514713415,
	"grad_norm": 0.257962167263031,
	"learning_rate": 0.00031683168316831684,
	"loss": 1.2647,
	"step": 9300
	},
	{
	"epoch": 7.84267744322386,
	"grad_norm": 0.28995752334594727,
	"learning_rate": 0.00031584158415841584,
	"loss": 1.2613,
	"step": 9310
	},
	{
	"epoch": 7.851101371734305,
	"grad_norm": 0.23544956743717194,
	"learning_rate": 0.00031485148514851484,
	"loss": 1.261,
	"step": 9320
	},
	{
	"epoch": 7.85952530024475,
	"grad_norm": 0.27855780720710754,
	"learning_rate": 0.0003138613861386139,
	"loss": 1.2615,
	"step": 9330
	},
	{
	"epoch": 7.867949228755194,
	"grad_norm": 0.2668914198875427,
	"learning_rate": 0.0003128712871287129,
	"loss": 1.2629,
	"step": 9340
	},
	{
	"epoch": 7.876373157265638,
	"grad_norm": 0.2561187446117401,
	"learning_rate": 0.0003118811881188119,
	"loss": 1.2614,
	"step": 9350
	},
	{
	"epoch": 7.884797085776083,
	"grad_norm": 0.23943807184696198,
	"learning_rate": 0.0003108910891089109,
	"loss": 1.2591,
	"step": 9360
	},
	{
	"epoch": 7.884797085776083,
	"eval_accuracy": 0.7389714933005799,
	"eval_loss": 1.1477636098861694,
	"eval_runtime": 884.2901,
	"eval_samples_per_second": 564.72,
	"eval_steps_per_second": 5.229,
	"step": 9360
	},
	{
	"epoch": 7.893221014286527,
	"grad_norm": 0.3144013583660126,
	"learning_rate": 0.0003099009900990099,
	"loss": 1.2606,
	"step": 9370
	},
	{
	"epoch": 7.901644942796972,
	"grad_norm": 0.30694615840911865,
	"learning_rate": 0.00030891089108910894,
	"loss": 1.2607,
	"step": 9380
	},
	{
	"epoch": 7.910068871307416,
	"grad_norm": 0.28703033924102783,
	"learning_rate": 0.00030792079207920793,
	"loss": 1.2625,
	"step": 9390
	},
	{
	"epoch": 7.918492799817861,
	"grad_norm": 0.24160224199295044,
	"learning_rate": 0.00030693069306930693,
	"loss": 1.2594,
	"step": 9400
	},
	{
	"epoch": 7.9269167283283055,
	"grad_norm": 0.26693734526634216,
	"learning_rate": 0.00030594059405940593,
	"loss": 1.2605,
	"step": 9410
	},
	{
	"epoch": 7.935340656838751,
	"grad_norm": 0.23551449179649353,
	"learning_rate": 0.00030495049504950493,
	"loss": 1.2589,
	"step": 9420
	},
	{
	"epoch": 7.943764585349195,
	"grad_norm": 0.23266945779323578,
	"learning_rate": 0.000303960396039604,
	"loss": 1.2575,
	"step": 9430
	},
	{
	"epoch": 7.952188513859639,
	"grad_norm": 0.19307726621627808,
	"learning_rate": 0.000302970297029703,
	"loss": 1.2594,
	"step": 9440
	},
	{
	"epoch": 7.960612442370084,
	"grad_norm": 0.2490869015455246,
	"learning_rate": 0.000301980198019802,
	"loss": 1.2594,
	"step": 9450
	},
	{
	"epoch": 7.960612442370084,
	"eval_accuracy": 0.7392987654643606,
	"eval_loss": 1.1463170051574707,
	"eval_runtime": 887.3291,
	"eval_samples_per_second": 562.786,
	"eval_steps_per_second": 5.211,
	"step": 9450
	},
	{
	"epoch": 7.969036370880528,
	"grad_norm": 0.24613766372203827,
	"learning_rate": 0.000300990099009901,
	"loss": 1.2586,
	"step": 9460
	},
	{
	"epoch": 7.977460299390973,
	"grad_norm": 0.28653955459594727,
	"learning_rate": 0.0003,
	"loss": 1.2596,
	"step": 9470
	},
	{
	"epoch": 7.985884227901417,
	"grad_norm": 0.2534151077270508,
	"learning_rate": 0.000299009900990099,
	"loss": 1.258,
	"step": 9480
	},
	{
	"epoch": 7.994308156411861,
	"grad_norm": 0.2278260588645935,
	"learning_rate": 0.000298019801980198,
	"loss": 1.2596,
	"step": 9490
	},
	{
	"epoch": 8.002732084922306,
	"grad_norm": 0.24955512583255768,
	"learning_rate": 0.000297029702970297,
	"loss": 1.2589,
	"step": 9500
	},
	{
	"epoch": 8.011156013432752,
	"grad_norm": 0.24727576971054077,
	"learning_rate": 0.000296039603960396,
	"loss": 1.259,
	"step": 9510
	},
	{
	"epoch": 8.019579941943196,
	"grad_norm": 0.23246212303638458,
	"learning_rate": 0.000295049504950495,
	"loss": 1.2569,
	"step": 9520
	},
	{
	"epoch": 8.02800387045364,
	"grad_norm": 0.31031736731529236,
	"learning_rate": 0.00029405940594059407,
	"loss": 1.2576,
	"step": 9530
	},
	{
	"epoch": 8.036427798964084,
	"grad_norm": 0.25005343556404114,
	"learning_rate": 0.00029306930693069307,
	"loss": 1.2586,
	"step": 9540
	},
	{
	"epoch": 8.036427798964084,
	"eval_accuracy": 0.7396166114825387,
	"eval_loss": 1.1443780660629272,
	"eval_runtime": 886.7087,
	"eval_samples_per_second": 563.179,
	"eval_steps_per_second": 5.215,
	"step": 9540
	},
	{
	"epoch": 8.044851727474528,
	"grad_norm": 0.26693809032440186,
	"learning_rate": 0.00029207920792079207,
	"loss": 1.2565,
	"step": 9550
	},
	{
	"epoch": 8.053275655984974,
	"grad_norm": 0.2694302797317505,
	"learning_rate": 0.00029108910891089107,
	"loss": 1.2578,
	"step": 9560
	},
	{
	"epoch": 8.061699584495418,
	"grad_norm": 0.28717589378356934,
	"learning_rate": 0.00029009900990099006,
	"loss": 1.257,
	"step": 9570
	},
	{
	"epoch": 8.070123513005862,
	"grad_norm": 0.2473517805337906,
	"learning_rate": 0.0002891089108910891,
	"loss": 1.2584,
	"step": 9580
	},
	{
	"epoch": 8.078547441516307,
	"grad_norm": 0.238663449883461,
	"learning_rate": 0.0002881188118811881,
	"loss": 1.2565,
	"step": 9590
	},
	{
	"epoch": 8.086971370026752,
	"grad_norm": 0.25168007612228394,
	"learning_rate": 0.0002871287128712871,
	"loss": 1.2601,
	"step": 9600
	},
	{
	"epoch": 8.095395298537197,
	"grad_norm": 0.2553163766860962,
	"learning_rate": 0.0002861386138613861,
	"loss": 1.2582,
	"step": 9610
	},
	{
	"epoch": 8.10381922704764,
	"grad_norm": 0.22442133724689484,
	"learning_rate": 0.0002851485148514851,
	"loss": 1.2564,
	"step": 9620
	},
	{
	"epoch": 8.112243155558085,
	"grad_norm": 0.2428729087114334,
	"learning_rate": 0.00028415841584158416,
	"loss": 1.2555,
	"step": 9630
	},
	{
	"epoch": 8.112243155558085,
	"eval_accuracy": 0.7398516451845706,
	"eval_loss": 1.1434710025787354,
	"eval_runtime": 884.9135,
	"eval_samples_per_second": 564.322,
	"eval_steps_per_second": 5.225,
	"step": 9630
	},
	{
	"epoch": 8.120667084068529,
	"grad_norm": 0.24635536968708038,
	"learning_rate": 0.00028316831683168316,
	"loss": 1.256,
	"step": 9640
	},
	{
	"epoch": 8.129091012578975,
	"grad_norm": 0.25894826650619507,
	"learning_rate": 0.00028217821782178216,
	"loss": 1.2559,
	"step": 9650
	},
	{
	"epoch": 8.13751494108942,
	"grad_norm": 0.28364095091819763,
	"learning_rate": 0.0002811881188118812,
	"loss": 1.2558,
	"step": 9660
	},
	{
	"epoch": 8.145938869599863,
	"grad_norm": 0.27813902497291565,
	"learning_rate": 0.0002801980198019802,
	"loss": 1.2551,
	"step": 9670
	},
	{
	"epoch": 8.154362798110308,
	"grad_norm": 0.25842994451522827,
	"learning_rate": 0.00027920792079207926,
	"loss": 1.2566,
	"step": 9680
	},
	{
	"epoch": 8.162786726620752,
	"grad_norm": 0.28136196732521057,
	"learning_rate": 0.00027821782178217826,
	"loss": 1.2558,
	"step": 9690
	},
	{
	"epoch": 8.171210655131198,
	"grad_norm": 0.24087685346603394,
	"learning_rate": 0.00027722772277227726,
	"loss": 1.2548,
	"step": 9700
	},
	{
	"epoch": 8.179634583641642,
	"grad_norm": 0.24687226116657257,
	"learning_rate": 0.00027623762376237626,
	"loss": 1.2585,
	"step": 9710
	},
	{
	"epoch": 8.188058512152086,
	"grad_norm": 0.22570998966693878,
	"learning_rate": 0.00027524752475247525,
	"loss": 1.2534,
	"step": 9720
	},
	{
	"epoch": 8.188058512152086,
	"eval_accuracy": 0.7402963892075639,
	"eval_loss": 1.1417516469955444,
	"eval_runtime": 887.2248,
	"eval_samples_per_second": 562.852,
	"eval_steps_per_second": 5.212,
	"step": 9720
	},
	{
	"epoch": 8.19648244066253,
	"grad_norm": 0.2180325835943222,
	"learning_rate": 0.0002742574257425743,
	"loss": 1.254,
	"step": 9730
	},
	{
	"epoch": 8.204906369172976,
	"grad_norm": 0.24650686979293823,
	"learning_rate": 0.0002732673267326733,
	"loss": 1.2549,
	"step": 9740
	},
	{
	"epoch": 8.21333029768342,
	"grad_norm": 0.23055210709571838,
	"learning_rate": 0.0002722772277227723,
	"loss": 1.2533,
	"step": 9750
	},
	{
	"epoch": 8.221754226193864,
	"grad_norm": 0.2486119419336319,
	"learning_rate": 0.0002712871287128713,
	"loss": 1.2535,
	"step": 9760
	},
	{
	"epoch": 8.230178154704308,
	"grad_norm": 0.2295829951763153,
	"learning_rate": 0.0002702970297029703,
	"loss": 1.2532,
	"step": 9770
	},
	{
	"epoch": 8.238602083214753,
	"grad_norm": 0.24997445940971375,
	"learning_rate": 0.00026930693069306935,
	"loss": 1.2531,
	"step": 9780
	},
	{
	"epoch": 8.247026011725199,
	"grad_norm": 0.26696640253067017,
	"learning_rate": 0.00026831683168316835,
	"loss": 1.2537,
	"step": 9790
	},
	{
	"epoch": 8.255449940235643,
	"grad_norm": 0.26139459013938904,
	"learning_rate": 0.00026732673267326735,
	"loss": 1.255,
	"step": 9800
	},
	{
	"epoch": 8.263873868746087,
	"grad_norm": 0.24359402060508728,
	"learning_rate": 0.00026633663366336635,
	"loss": 1.2531,
	"step": 9810
	},
	{
	"epoch": 8.263873868746087,
	"eval_accuracy": 0.7405673501883495,
	"eval_loss": 1.139613389968872,
	"eval_runtime": 879.601,
	"eval_samples_per_second": 567.73,
	"eval_steps_per_second": 5.257,
	"step": 9810
	},
	{
	"epoch": 8.272297797256531,
	"grad_norm": 0.2327917069196701,
	"learning_rate": 0.00026534653465346534,
	"loss": 1.2534,
	"step": 9820
	},
	{
	"epoch": 8.280721725766975,
	"grad_norm": 0.25629815459251404,
	"learning_rate": 0.0002643564356435644,
	"loss": 1.2531,
	"step": 9830
	},
	{
	"epoch": 8.289145654277421,
	"grad_norm": 0.22450138628482819,
	"learning_rate": 0.0002633663366336634,
	"loss": 1.2529,
	"step": 9840
	},
	{
	"epoch": 8.297569582787865,
	"grad_norm": 0.2623524069786072,
	"learning_rate": 0.0002623762376237624,
	"loss": 1.2504,
	"step": 9850
	},
	{
	"epoch": 8.30599351129831,
	"grad_norm": 0.2159668356180191,
	"learning_rate": 0.0002613861386138614,
	"loss": 1.2528,
	"step": 9860
	},
	{
	"epoch": 8.314417439808754,
	"grad_norm": 0.24267102777957916,
	"learning_rate": 0.0002603960396039604,
	"loss": 1.2514,
	"step": 9870
	},
	{
	"epoch": 8.322841368319198,
	"grad_norm": 0.2541745603084564,
	"learning_rate": 0.00025940594059405944,
	"loss": 1.2505,
	"step": 9880
	},
	{
	"epoch": 8.331265296829644,
	"grad_norm": 0.28231385350227356,
	"learning_rate": 0.00025841584158415844,
	"loss": 1.2511,
	"step": 9890
	},
	{
	"epoch": 8.339689225340088,
	"grad_norm": 0.2412833273410797,
	"learning_rate": 0.00025742574257425744,
	"loss": 1.2506,
	"step": 9900
	},
	{
	"epoch": 8.339689225340088,
	"eval_accuracy": 0.740612444763646,
	"eval_loss": 1.140478491783142,
	"eval_runtime": 884.9323,
	"eval_samples_per_second": 564.31,
	"eval_steps_per_second": 5.225,
	"step": 9900
	},
	{
	"epoch": 8.348113153850532,
	"grad_norm": 0.2641441524028778,
	"learning_rate": 0.00025643564356435644,
	"loss": 1.2519,
	"step": 9910
	},
	{
	"epoch": 8.356537082360976,
	"grad_norm": 0.2675786316394806,
	"learning_rate": 0.00025544554455445543,
	"loss": 1.2516,
	"step": 9920
	},
	{
	"epoch": 8.364961010871422,
	"grad_norm": 0.2118910253047943,
	"learning_rate": 0.0002544554455445545,
	"loss": 1.2511,
	"step": 9930
	},
	{
	"epoch": 8.373384939381866,
	"grad_norm": 0.27223941683769226,
	"learning_rate": 0.0002534653465346535,
	"loss": 1.2519,
	"step": 9940
	},
	{
	"epoch": 8.38180886789231,
	"grad_norm": 0.2487749308347702,
	"learning_rate": 0.0002524752475247525,
	"loss": 1.2506,
	"step": 9950
	},
	{
	"epoch": 8.390232796402755,
	"grad_norm": 0.2320510894060135,
	"learning_rate": 0.0002514851485148515,
	"loss": 1.2534,
	"step": 9960
	},
	{
	"epoch": 8.398656724913199,
	"grad_norm": 0.2474934607744217,
	"learning_rate": 0.0002504950495049505,
	"loss": 1.249,
	"step": 9970
	},
	{
	"epoch": 8.407080653423645,
	"grad_norm": 0.23778343200683594,
	"learning_rate": 0.00024950495049504953,
	"loss": 1.2503,
	"step": 9980
	},
	{
	"epoch": 8.415504581934089,
	"grad_norm": 0.2715946137905121,
	"learning_rate": 0.00024851485148514853,
	"loss": 1.2515,
	"step": 9990
	},
	{
	"epoch": 8.415504581934089,
	"eval_accuracy": 0.7412818791412316,
	"eval_loss": 1.137270450592041,
	"eval_runtime": 885.4223,
	"eval_samples_per_second": 563.998,
	"eval_steps_per_second": 5.222,
	"step": 9990
	},
	{
	"epoch": 8.423928510444533,
	"grad_norm": 0.26555290818214417,
	"learning_rate": 0.00024752475247524753,
	"loss": 1.2485,
	"step": 10000
	},
	{
	"epoch": 8.432352438954977,
	"grad_norm": 0.23698092997074127,
	"learning_rate": 0.0002465346534653465,
	"loss": 1.2498,
	"step": 10010
	},
	{
	"epoch": 8.440776367465421,
	"grad_norm": 0.23015616834163666,
	"learning_rate": 0.0002455445544554455,
	"loss": 1.2482,
	"step": 10020
	},
	{
	"epoch": 8.449200295975867,
	"grad_norm": 0.22911451756954193,
	"learning_rate": 0.0002445544554455446,
	"loss": 1.2503,
	"step": 10030
	},
	{
	"epoch": 8.457624224486311,
	"grad_norm": 0.24171452224254608,
	"learning_rate": 0.00024356435643564357,
	"loss": 1.2485,
	"step": 10040
	},
	{
	"epoch": 8.466048152996756,
	"grad_norm": 0.24717497825622559,
	"learning_rate": 0.00024257425742574257,
	"loss": 1.2503,
	"step": 10050
	},
	{
	"epoch": 8.4744720815072,
	"grad_norm": 0.23118732869625092,
	"learning_rate": 0.00024158415841584157,
	"loss": 1.2488,
	"step": 10060
	},
	{
	"epoch": 8.482896010017644,
	"grad_norm": 0.22151467204093933,
	"learning_rate": 0.0002405940594059406,
	"loss": 1.2484,
	"step": 10070
	},
	{
	"epoch": 8.49131993852809,
	"grad_norm": 0.2284466177225113,
	"learning_rate": 0.0002396039603960396,
	"loss": 1.2487,
	"step": 10080
	},
	{
	"epoch": 8.49131993852809,
	"eval_accuracy": 0.7414350855696202,
	"eval_loss": 1.134464144706726,
	"eval_runtime": 887.5421,
	"eval_samples_per_second": 562.65,
	"eval_steps_per_second": 5.21,
	"step": 10080
	},
	{
	"epoch": 8.499743867038534,
	"grad_norm": 0.2377534806728363,
	"learning_rate": 0.00023861386138613862,
	"loss": 1.2491,
	"step": 10090
	},
	{
	"epoch": 8.508167795548978,
	"grad_norm": 0.2649644613265991,
	"learning_rate": 0.00023762376237623762,
	"loss": 1.2467,
	"step": 10100
	},
	{
	"epoch": 8.516591724059422,
	"grad_norm": 0.22302138805389404,
	"learning_rate": 0.00023663366336633662,
	"loss": 1.2496,
	"step": 10110
	},
	{
	"epoch": 8.525015652569868,
	"grad_norm": 0.24170257151126862,
	"learning_rate": 0.00023564356435643564,
	"loss": 1.2471,
	"step": 10120
	},
	{
	"epoch": 8.533439581080312,
	"grad_norm": 0.2645774781703949,
	"learning_rate": 0.00023465346534653464,
	"loss": 1.2477,
	"step": 10130
	},
	{
	"epoch": 8.541863509590756,
	"grad_norm": 0.24155734479427338,
	"learning_rate": 0.0002336633663366337,
	"loss": 1.2466,
	"step": 10140
	},
	{
	"epoch": 8.5502874381012,
	"grad_norm": 0.23023132979869843,
	"learning_rate": 0.0002326732673267327,
	"loss": 1.2457,
	"step": 10150
	},
	{
	"epoch": 8.558711366611645,
	"grad_norm": 0.2243080586194992,
	"learning_rate": 0.0002316831683168317,
	"loss": 1.2476,
	"step": 10160
	},
	{
	"epoch": 8.56713529512209,
	"grad_norm": 0.278157114982605,
	"learning_rate": 0.00023069306930693071,
	"loss": 1.2462,
	"step": 10170
	},
	{
	"epoch": 8.56713529512209,
	"eval_accuracy": 0.7417397824056636,
	"eval_loss": 1.1336922645568848,
	"eval_runtime": 892.4907,
	"eval_samples_per_second": 559.531,
	"eval_steps_per_second": 5.181,
	"step": 10170
	},
	{
	"epoch": 8.575559223632535,
	"grad_norm": 0.24606026709079742,
	"learning_rate": 0.0002297029702970297,
	"loss": 1.2478,
	"step": 10180
	},
	{
	"epoch": 8.583983152142979,
	"grad_norm": 0.23494498431682587,
	"learning_rate": 0.00022871287128712874,
	"loss": 1.2463,
	"step": 10190
	},
	{
	"epoch": 8.592407080653423,
	"grad_norm": 0.21522320806980133,
	"learning_rate": 0.00022772277227722774,
	"loss": 1.2479,
	"step": 10200
	},
	{
	"epoch": 8.60083100916387,
	"grad_norm": 0.2655723989009857,
	"learning_rate": 0.00022673267326732673,
	"loss": 1.2468,
	"step": 10210
	},
	{
	"epoch": 8.609254937674313,
	"grad_norm": 0.2444898933172226,
	"learning_rate": 0.00022574257425742576,
	"loss": 1.246,
	"step": 10220
	},
	{
	"epoch": 8.617678866184757,
	"grad_norm": 0.2277156114578247,
	"learning_rate": 0.00022475247524752476,
	"loss": 1.2466,
	"step": 10230
	},
	{
	"epoch": 8.626102794695202,
	"grad_norm": 0.22111962735652924,
	"learning_rate": 0.00022376237623762378,
	"loss": 1.2451,
	"step": 10240
	},
	{
	"epoch": 8.634526723205646,
	"grad_norm": 0.23199447989463806,
	"learning_rate": 0.00022277227722772278,
	"loss": 1.2463,
	"step": 10250
	},
	{
	"epoch": 8.642950651716092,
	"grad_norm": 0.22960427403450012,
	"learning_rate": 0.00022178217821782178,
	"loss": 1.2465,
	"step": 10260
	},
	{
	"epoch": 8.642950651716092,
	"eval_accuracy": 0.7420823467349104,
	"eval_loss": 1.1322184801101685,
	"eval_runtime": 883.7567,
	"eval_samples_per_second": 565.061,
	"eval_steps_per_second": 5.232,
	"step": 10260
	},
	{
	"epoch": 8.651374580226536,
	"grad_norm": 0.290622353553772,
	"learning_rate": 0.0002207920792079208,
	"loss": 1.2444,
	"step": 10270
	},
	{
	"epoch": 8.65979850873698,
	"grad_norm": 0.2639337480068207,
	"learning_rate": 0.0002198019801980198,
	"loss": 1.247,
	"step": 10280
	},
	{
	"epoch": 8.668222437247424,
	"grad_norm": 0.22477252781391144,
	"learning_rate": 0.00021881188118811883,
	"loss": 1.2443,
	"step": 10290
	},
	{
	"epoch": 8.676646365757868,
	"grad_norm": 0.2989983558654785,
	"learning_rate": 0.00021782178217821783,
	"loss": 1.2461,
	"step": 10300
	},
	{
	"epoch": 8.685070294268314,
	"grad_norm": 0.22259776294231415,
	"learning_rate": 0.00021683168316831682,
	"loss": 1.2438,
	"step": 10310
	},
	{
	"epoch": 8.693494222778758,
	"grad_norm": 0.21380363404750824,
	"learning_rate": 0.00021584158415841585,
	"loss": 1.2414,
	"step": 10320
	},
	{
	"epoch": 8.701918151289203,
	"grad_norm": 0.23593538999557495,
	"learning_rate": 0.00021485148514851485,
	"loss": 1.2454,
	"step": 10330
	},
	{
	"epoch": 8.710342079799647,
	"grad_norm": 0.25987499952316284,
	"learning_rate": 0.00021386138613861387,
	"loss": 1.2444,
	"step": 10340
	},
	{
	"epoch": 8.71876600831009,
	"grad_norm": 0.21150009334087372,
	"learning_rate": 0.00021287128712871287,
	"loss": 1.2414,
	"step": 10350
	},
	{
	"epoch": 8.71876600831009,
	"eval_accuracy": 0.7421671573662553,
	"eval_loss": 1.1316900253295898,
	"eval_runtime": 893.0033,
	"eval_samples_per_second": 559.21,
	"eval_steps_per_second": 5.178,
	"step": 10350
	},
	{
	"epoch": 8.727189936820537,
	"grad_norm": 0.23628725111484528,
	"learning_rate": 0.00021188118811881187,
	"loss": 1.2432,
	"step": 10360
	},
	{
	"epoch": 8.735613865330981,
	"grad_norm": 0.24477533996105194,
	"learning_rate": 0.0002108910891089109,
	"loss": 1.2447,
	"step": 10370
	},
	{
	"epoch": 8.744037793841425,
	"grad_norm": 0.2156253159046173,
	"learning_rate": 0.0002099009900990099,
	"loss": 1.2452,
	"step": 10380
	},
	{
	"epoch": 8.75246172235187,
	"grad_norm": 0.27982792258262634,
	"learning_rate": 0.00020891089108910892,
	"loss": 1.2434,
	"step": 10390
	},
	{
	"epoch": 8.760885650862313,
	"grad_norm": 0.24025356769561768,
	"learning_rate": 0.00020792079207920792,
	"loss": 1.244,
	"step": 10400
	},
	{
	"epoch": 8.76930957937276,
	"grad_norm": 0.22768454253673553,
	"learning_rate": 0.00020693069306930691,
	"loss": 1.2427,
	"step": 10410
	},
	{
	"epoch": 8.777733507883204,
	"grad_norm": 0.2676762640476227,
	"learning_rate": 0.00020594059405940594,
	"loss": 1.244,
	"step": 10420
	},
	{
	"epoch": 8.786157436393648,
	"grad_norm": 0.23502378165721893,
	"learning_rate": 0.00020495049504950494,
	"loss": 1.244,
	"step": 10430
	},
	{
	"epoch": 8.794581364904092,
	"grad_norm": 0.23354895412921906,
	"learning_rate": 0.00020396039603960396,
	"loss": 1.2435,
	"step": 10440
	},
	{
	"epoch": 8.794581364904092,
	"eval_accuracy": 0.7425177306861277,
	"eval_loss": 1.1301963329315186,
	"eval_runtime": 885.137,
	"eval_samples_per_second": 564.179,
	"eval_steps_per_second": 5.224,
	"step": 10440
	},
	{
	"epoch": 8.803005293414538,
	"grad_norm": 0.22738757729530334,
	"learning_rate": 0.000202970297029703,
	"loss": 1.2426,
	"step": 10450
	},
	{
	"epoch": 8.811429221924982,
	"grad_norm": 0.20702116191387177,
	"learning_rate": 0.00020198019801980199,
	"loss": 1.243,
	"step": 10460
	},
	{
	"epoch": 8.819853150435426,
	"grad_norm": 0.20945468544960022,
	"learning_rate": 0.000200990099009901,
	"loss": 1.2411,
	"step": 10470
	},
	{
	"epoch": 8.82827707894587,
	"grad_norm": 0.21654458343982697,
	"learning_rate": 0.0002,
	"loss": 1.2428,
	"step": 10480
	},
	{
	"epoch": 8.836701007456314,
	"grad_norm": 0.2217228263616562,
	"learning_rate": 0.00019900990099009903,
	"loss": 1.2405,
	"step": 10490
	},
	{
	"epoch": 8.84512493596676,
	"grad_norm": 0.27619633078575134,
	"learning_rate": 0.00019801980198019803,
	"loss": 1.2424,
	"step": 10500
	},
	{
	"epoch": 8.853548864477204,
	"grad_norm": 0.2569934129714966,
	"learning_rate": 0.00019702970297029703,
	"loss": 1.2418,
	"step": 10510
	},
	{
	"epoch": 8.861972792987649,
	"grad_norm": 0.2570299804210663,
	"learning_rate": 0.00019603960396039606,
	"loss": 1.2423,
	"step": 10520
	},
	{
	"epoch": 8.870396721498093,
	"grad_norm": 0.22972337901592255,
	"learning_rate": 0.00019504950495049505,
	"loss": 1.2399,
	"step": 10530
	},
	{
	"epoch": 8.870396721498093,
	"eval_accuracy": 0.7427001211705735,
	"eval_loss": 1.1304486989974976,
	"eval_runtime": 881.4454,
	"eval_samples_per_second": 566.542,
	"eval_steps_per_second": 5.246,
	"step": 10530
	},
	{
	"epoch": 8.878820650008539,
	"grad_norm": 0.2365693300962448,
	"learning_rate": 0.00019405940594059408,
	"loss": 1.2426,
	"step": 10540
	},
	{
	"epoch": 8.887244578518983,
	"grad_norm": 0.2252751588821411,
	"learning_rate": 0.00019306930693069308,
	"loss": 1.2406,
	"step": 10550
	},
	{
	"epoch": 8.895668507029427,
	"grad_norm": 0.2205033302307129,
	"learning_rate": 0.00019207920792079208,
	"loss": 1.2419,
	"step": 10560
	},
	{
	"epoch": 8.904092435539871,
	"grad_norm": 0.21468041837215424,
	"learning_rate": 0.0001910891089108911,
	"loss": 1.2406,
	"step": 10570
	},
	{
	"epoch": 8.912516364050315,
	"grad_norm": 0.23669223487377167,
	"learning_rate": 0.0001900990099009901,
	"loss": 1.2401,
	"step": 10580
	},
	{
	"epoch": 8.920940292560761,
	"grad_norm": 0.2412618100643158,
	"learning_rate": 0.00018910891089108913,
	"loss": 1.2402,
	"step": 10590
	},
	{
	"epoch": 8.929364221071205,
	"grad_norm": 0.21675223112106323,
	"learning_rate": 0.00018811881188118812,
	"loss": 1.2417,
	"step": 10600
	},
	{
	"epoch": 8.93778814958165,
	"grad_norm": 0.24683676660060883,
	"learning_rate": 0.00018712871287128712,
	"loss": 1.2417,
	"step": 10610
	},
	{
	"epoch": 8.946212078092094,
	"grad_norm": 0.21681492030620575,
	"learning_rate": 0.00018613861386138615,
	"loss": 1.2408,
	"step": 10620
	},
	{
	"epoch": 8.946212078092094,
	"eval_accuracy": 0.7428579001690714,
	"eval_loss": 1.1290760040283203,
	"eval_runtime": 889.1418,
	"eval_samples_per_second": 561.638,
	"eval_steps_per_second": 5.201,
	"step": 10620
	},
	{
	"epoch": 8.954636006602538,
	"grad_norm": 0.22117485105991364,
	"learning_rate": 0.00018514851485148514,
	"loss": 1.2399,
	"step": 10630
	},
	{
	"epoch": 8.963059935112984,
	"grad_norm": 0.2180255800485611,
	"learning_rate": 0.00018415841584158417,
	"loss": 1.2378,
	"step": 10640
	},
	{
	"epoch": 8.971483863623428,
	"grad_norm": 0.23244567215442657,
	"learning_rate": 0.00018316831683168317,
	"loss": 1.2402,
	"step": 10650
	},
	{
	"epoch": 8.979907792133872,
	"grad_norm": 0.23777294158935547,
	"learning_rate": 0.00018217821782178217,
	"loss": 1.2417,
	"step": 10660
	},
	{
	"epoch": 8.988331720644316,
	"grad_norm": 0.26418906450271606,
	"learning_rate": 0.0001811881188118812,
	"loss": 1.238,
	"step": 10670
	},
	{
	"epoch": 8.99675564915476,
	"grad_norm": 0.21142803132534027,
	"learning_rate": 0.0001801980198019802,
	"loss": 1.2384,
	"step": 10680
	},
	{
	"epoch": 9.005179577665206,
	"grad_norm": 0.21976542472839355,
	"learning_rate": 0.00017920792079207922,
	"loss": 1.2399,
	"step": 10690
	},
	{
	"epoch": 9.01360350617565,
	"grad_norm": 0.2216147631406784,
	"learning_rate": 0.0001782178217821782,
	"loss": 1.2391,
	"step": 10700
	},
	{
	"epoch": 9.022027434686095,
	"grad_norm": 0.1873018890619278,
	"learning_rate": 0.0001772277227722772,
	"loss": 1.2368,
	"step": 10710
	},
	{
	"epoch": 9.022027434686095,
	"eval_accuracy": 0.7431224622062498,
	"eval_loss": 1.1265127658843994,
	"eval_runtime": 891.5668,
	"eval_samples_per_second": 560.111,
	"eval_steps_per_second": 5.186,
	"step": 10710
	},
	{
	"epoch": 9.030451363196539,
	"grad_norm": 0.23913191258907318,
	"learning_rate": 0.00017623762376237624,
	"loss": 1.2404,
	"step": 10720
	},
	{
	"epoch": 9.038875291706983,
	"grad_norm": 0.21578449010849,
	"learning_rate": 0.00017524752475247524,
	"loss": 1.2388,
	"step": 10730
	},
	{
	"epoch": 9.047299220217429,
	"grad_norm": 0.2038455754518509,
	"learning_rate": 0.00017425742574257426,
	"loss": 1.2402,
	"step": 10740
	},
	{
	"epoch": 9.055723148727873,
	"grad_norm": 0.21903488039970398,
	"learning_rate": 0.00017326732673267326,
	"loss": 1.2383,
	"step": 10750
	},
	{
	"epoch": 9.064147077238317,
	"grad_norm": 0.21970726549625397,
	"learning_rate": 0.00017227722772277226,
	"loss": 1.2386,
	"step": 10760
	},
	{
	"epoch": 9.072571005748761,
	"grad_norm": 0.22701360285282135,
	"learning_rate": 0.0001712871287128713,
	"loss": 1.2391,
	"step": 10770
	},
	{
	"epoch": 9.080994934259207,
	"grad_norm": 0.21777622401714325,
	"learning_rate": 0.0001702970297029703,
	"loss": 1.2388,
	"step": 10780
	},
	{
	"epoch": 9.089418862769651,
	"grad_norm": 0.2336941659450531,
	"learning_rate": 0.00016930693069306933,
	"loss": 1.2383,
	"step": 10790
	},
	{
	"epoch": 9.097842791280096,
	"grad_norm": 0.20545706152915955,
	"learning_rate": 0.00016831683168316833,
	"loss": 1.2376,
	"step": 10800
	},
	{
	"epoch": 9.097842791280096,
	"eval_accuracy": 0.7435866345331611,
	"eval_loss": 1.1250243186950684,
	"eval_runtime": 885.3582,
	"eval_samples_per_second": 564.038,
	"eval_steps_per_second": 5.223,
	"step": 10800
	},
	{
	"epoch": 9.10626671979054,
	"grad_norm": 0.23678459227085114,
	"learning_rate": 0.00016732673267326733,
	"loss": 1.2394,
	"step": 10810
	},
	{
	"epoch": 9.114690648300984,
	"grad_norm": 0.24195948243141174,
	"learning_rate": 0.00016633663366336635,
	"loss": 1.238,
	"step": 10820
	},
	{
	"epoch": 9.12311457681143,
	"grad_norm": 0.20026259124279022,
	"learning_rate": 0.00016534653465346535,
	"loss": 1.2364,
	"step": 10830
	},
	{
	"epoch": 9.131538505321874,
	"grad_norm": 0.21753010153770447,
	"learning_rate": 0.00016435643564356438,
	"loss": 1.238,
	"step": 10840
	},
	{
	"epoch": 9.139962433832318,
	"grad_norm": 0.20273657143115997,
	"learning_rate": 0.00016336633663366338,
	"loss": 1.2374,
	"step": 10850
	},
	{
	"epoch": 9.148386362342762,
	"grad_norm": 0.21302086114883423,
	"learning_rate": 0.00016237623762376237,
	"loss": 1.2372,
	"step": 10860
	},
	{
	"epoch": 9.156810290853207,
	"grad_norm": 0.23342467844486237,
	"learning_rate": 0.0001613861386138614,
	"loss": 1.2378,
	"step": 10870
	},
	{
	"epoch": 9.165234219363652,
	"grad_norm": 0.24393875896930695,
	"learning_rate": 0.0001603960396039604,
	"loss": 1.2362,
	"step": 10880
	},
	{
	"epoch": 9.173658147874097,
	"grad_norm": 0.19604717195034027,
	"learning_rate": 0.00015940594059405942,
	"loss": 1.237,
	"step": 10890
	},
	{
	"epoch": 9.173658147874097,
	"eval_accuracy": 0.743667723412049,
	"eval_loss": 1.124830722808838,
	"eval_runtime": 887.4222,
	"eval_samples_per_second": 562.727,
	"eval_steps_per_second": 5.211,
	"step": 10890
	},
	{
	"epoch": 9.18208207638454,
	"grad_norm": 0.19619697332382202,
	"learning_rate": 0.00015841584158415842,
	"loss": 1.2356,
	"step": 10900
	},
	{
	"epoch": 9.190506004894985,
	"grad_norm": 0.20415499806404114,
	"learning_rate": 0.00015742574257425742,
	"loss": 1.2373,
	"step": 10910
	},
	{
	"epoch": 9.19892993340543,
	"grad_norm": 0.21602529287338257,
	"learning_rate": 0.00015643564356435644,
	"loss": 1.2369,
	"step": 10920
	},
	{
	"epoch": 9.207353861915875,
	"grad_norm": 0.2266259491443634,
	"learning_rate": 0.00015544554455445544,
	"loss": 1.236,
	"step": 10930
	},
	{
	"epoch": 9.21577779042632,
	"grad_norm": 0.2172340452671051,
	"learning_rate": 0.00015445544554455447,
	"loss": 1.236,
	"step": 10940
	},
	{
	"epoch": 9.224201718936763,
	"grad_norm": 0.21929994225502014,
	"learning_rate": 0.00015346534653465347,
	"loss": 1.2381,
	"step": 10950
	},
	{
	"epoch": 9.232625647447207,
	"grad_norm": 0.20617130398750305,
	"learning_rate": 0.00015247524752475246,
	"loss": 1.2346,
	"step": 10960
	},
	{
	"epoch": 9.241049575957653,
	"grad_norm": 0.2271021008491516,
	"learning_rate": 0.0001514851485148515,
	"loss": 1.2364,
	"step": 10970
	},
	{
	"epoch": 9.249473504468098,
	"grad_norm": 0.22377552092075348,
	"learning_rate": 0.0001504950495049505,
	"loss": 1.2342,
	"step": 10980
	},
	{
	"epoch": 9.249473504468098,
	"eval_accuracy": 0.7438243969178056,
	"eval_loss": 1.124144434928894,
	"eval_runtime": 880.0851,
	"eval_samples_per_second": 567.418,
	"eval_steps_per_second": 5.254,
	"step": 10980
	},
	{
	"epoch": 9.257897432978542,
	"grad_norm": 0.23195216059684753,
	"learning_rate": 0.0001495049504950495,
	"loss": 1.2347,
	"step": 10990
	},
	{
	"epoch": 9.266321361488986,
	"grad_norm": 0.19934554398059845,
	"learning_rate": 0.0001485148514851485,
	"loss": 1.2359,
	"step": 11000
	},
	{
	"epoch": 9.27474528999943,
	"grad_norm": 0.19541287422180176,
	"learning_rate": 0.0001475247524752475,
	"loss": 1.2342,
	"step": 11010
	},
	{
	"epoch": 9.283169218509876,
	"grad_norm": 0.2204955518245697,
	"learning_rate": 0.00014653465346534653,
	"loss": 1.2356,
	"step": 11020
	},
	{
	"epoch": 9.29159314702032,
	"grad_norm": 0.22855669260025024,
	"learning_rate": 0.00014554455445544553,
	"loss": 1.2367,
	"step": 11030
	},
	{
	"epoch": 9.300017075530764,
	"grad_norm": 0.20308193564414978,
	"learning_rate": 0.00014455445544554456,
	"loss": 1.235,
	"step": 11040
	},
	{
	"epoch": 9.308441004041208,
	"grad_norm": 0.18201188743114471,
	"learning_rate": 0.00014356435643564356,
	"loss": 1.235,
	"step": 11050
	},
	{
	"epoch": 9.316864932551653,
	"grad_norm": 0.199186772108078,
	"learning_rate": 0.00014257425742574255,
	"loss": 1.2348,
	"step": 11060
	},
	{
	"epoch": 9.325288861062099,
	"grad_norm": 0.23214493691921234,
	"learning_rate": 0.00014158415841584158,
	"loss": 1.2335,
	"step": 11070
	},
	{
	"epoch": 9.325288861062099,
	"eval_accuracy": 0.7438911749364814,
	"eval_loss": 1.123384714126587,
	"eval_runtime": 888.3176,
	"eval_samples_per_second": 562.159,
	"eval_steps_per_second": 5.205,
	"step": 11070
	},
	{
	"epoch": 9.333712789572543,
	"grad_norm": 0.2128278762102127,
	"learning_rate": 0.0001405940594059406,
	"loss": 1.2337,
	"step": 11080
	},
	{
	"epoch": 9.342136718082987,
	"grad_norm": 0.20257510244846344,
	"learning_rate": 0.00013960396039603963,
	"loss": 1.2357,
	"step": 11090
	},
	{
	"epoch": 9.350560646593431,
	"grad_norm": 0.22038786113262177,
	"learning_rate": 0.00013861386138613863,
	"loss": 1.2333,
	"step": 11100
	},
	{
	"epoch": 9.358984575103877,
	"grad_norm": 0.2351042628288269,
	"learning_rate": 0.00013762376237623763,
	"loss": 1.235,
	"step": 11110
	},
	{
	"epoch": 9.367408503614321,
	"grad_norm": 0.2042153775691986,
	"learning_rate": 0.00013663366336633665,
	"loss": 1.2339,
	"step": 11120
	},
	{
	"epoch": 9.375832432124765,
	"grad_norm": 0.20065917074680328,
	"learning_rate": 0.00013564356435643565,
	"loss": 1.234,
	"step": 11130
	},
	{
	"epoch": 9.38425636063521,
	"grad_norm": 0.22544540464878082,
	"learning_rate": 0.00013465346534653468,
	"loss": 1.2319,
	"step": 11140
	},
	{
	"epoch": 9.392680289145654,
	"grad_norm": 0.2352074533700943,
	"learning_rate": 0.00013366336633663367,
	"loss": 1.2347,
	"step": 11150
	},
	{
	"epoch": 9.4011042176561,
	"grad_norm": 0.2452593892812729,
	"learning_rate": 0.00013267326732673267,
	"loss": 1.2343,
	"step": 11160
	},
	{
	"epoch": 9.4011042176561,
	"eval_accuracy": 0.7445740208736444,
	"eval_loss": 1.1202077865600586,
	"eval_runtime": 879.3984,
	"eval_samples_per_second": 567.861,
	"eval_steps_per_second": 5.258,
	"step": 11160
	},
	{
	"epoch": 9.409528146166544,
	"grad_norm": 0.20848217606544495,
	"learning_rate": 0.0001316831683168317,
	"loss": 1.2315,
	"step": 11170
	},
	{
	"epoch": 9.417952074676988,
	"grad_norm": 0.20628029108047485,
	"learning_rate": 0.0001306930693069307,
	"loss": 1.2326,
	"step": 11180
	},
	{
	"epoch": 9.426376003187432,
	"grad_norm": 0.199026957154274,
	"learning_rate": 0.00012970297029702972,
	"loss": 1.2329,
	"step": 11190
	},
	{
	"epoch": 9.434799931697876,
	"grad_norm": 0.21373671293258667,
	"learning_rate": 0.00012871287128712872,
	"loss": 1.2326,
	"step": 11200
	},
	{
	"epoch": 9.443223860208322,
	"grad_norm": 0.2015460729598999,
	"learning_rate": 0.00012772277227722772,
	"loss": 1.2327,
	"step": 11210
	},
	{
	"epoch": 9.451647788718766,
	"grad_norm": 0.2228008210659027,
	"learning_rate": 0.00012673267326732674,
	"loss": 1.2334,
	"step": 11220
	},
	{
	"epoch": 9.46007171722921,
	"grad_norm": 0.21561528742313385,
	"learning_rate": 0.00012574257425742574,
	"loss": 1.233,
	"step": 11230
	},
	{
	"epoch": 9.468495645739655,
	"grad_norm": 0.2073032706975937,
	"learning_rate": 0.00012475247524752477,
	"loss": 1.2314,
	"step": 11240
	},
	{
	"epoch": 9.4769195742501,
	"grad_norm": 0.19552037119865417,
	"learning_rate": 0.00012376237623762376,
	"loss": 1.2333,
	"step": 11250
	},
	{
	"epoch": 9.4769195742501,
	"eval_accuracy": 0.744401638855597,
	"eval_loss": 1.1210565567016602,
	"eval_runtime": 888.2535,
	"eval_samples_per_second": 562.2,
	"eval_steps_per_second": 5.206,
	"step": 11250
	},
	{
	"epoch": 9.485343502760545,
	"grad_norm": 0.20909276604652405,
	"learning_rate": 0.00012277227722772276,
	"loss": 1.2332,
	"step": 11260
	},
	{
	"epoch": 9.493767431270989,
	"grad_norm": 0.210150346159935,
	"learning_rate": 0.00012178217821782179,
	"loss": 1.2308,
	"step": 11270
	},
	{
	"epoch": 9.502191359781433,
	"grad_norm": 0.1982164978981018,
	"learning_rate": 0.00012079207920792079,
	"loss": 1.2305,
	"step": 11280
	},
	{
	"epoch": 9.510615288291877,
	"grad_norm": 0.2049965262413025,
	"learning_rate": 0.0001198019801980198,
	"loss": 1.2334,
	"step": 11290
	},
	{
	"epoch": 9.519039216802323,
	"grad_norm": 0.18243108689785004,
	"learning_rate": 0.00011881188118811881,
	"loss": 1.2335,
	"step": 11300
	},
	{
	"epoch": 9.527463145312767,
	"grad_norm": 0.2009328156709671,
	"learning_rate": 0.00011782178217821782,
	"loss": 1.2313,
	"step": 11310
	},
	{
	"epoch": 9.535887073823211,
	"grad_norm": 0.19226033985614777,
	"learning_rate": 0.00011683168316831685,
	"loss": 1.2332,
	"step": 11320
	},
	{
	"epoch": 9.544311002333655,
	"grad_norm": 0.20206843316555023,
	"learning_rate": 0.00011584158415841584,
	"loss": 1.2333,
	"step": 11330
	},
	{
	"epoch": 9.5527349308441,
	"grad_norm": 0.20852382481098175,
	"learning_rate": 0.00011485148514851486,
	"loss": 1.2322,
	"step": 11340
	},
	{
	"epoch": 9.5527349308441,
	"eval_accuracy": 0.7448142064493213,
	"eval_loss": 1.1182734966278076,
	"eval_runtime": 889.106,
	"eval_samples_per_second": 561.661,
	"eval_steps_per_second": 5.201,
	"step": 11340
	},
	{
	"epoch": 9.561158859354546,
	"grad_norm": 0.19330884516239166,
	"learning_rate": 0.00011386138613861387,
	"loss": 1.2294,
	"step": 11350
	},
	{
	"epoch": 9.56958278786499,
	"grad_norm": 0.17878125607967377,
	"learning_rate": 0.00011287128712871288,
	"loss": 1.2301,
	"step": 11360
	},
	{
	"epoch": 9.578006716375434,
	"grad_norm": 0.20679515600204468,
	"learning_rate": 0.00011188118811881189,
	"loss": 1.2302,
	"step": 11370
	},
	{
	"epoch": 9.586430644885878,
	"grad_norm": 0.20949432253837585,
	"learning_rate": 0.00011089108910891089,
	"loss": 1.2308,
	"step": 11380
	},
	{
	"epoch": 9.594854573396322,
	"grad_norm": 0.21771377325057983,
	"learning_rate": 0.0001099009900990099,
	"loss": 1.2313,
	"step": 11390
	},
	{
	"epoch": 9.603278501906768,
	"grad_norm": 0.1953546106815338,
	"learning_rate": 0.00010891089108910891,
	"loss": 1.2305,
	"step": 11400
	},
	{
	"epoch": 9.611702430417212,
	"grad_norm": 0.20105966925621033,
	"learning_rate": 0.00010792079207920792,
	"loss": 1.2294,
	"step": 11410
	},
	{
	"epoch": 9.620126358927656,
	"grad_norm": 0.20625823736190796,
	"learning_rate": 0.00010693069306930694,
	"loss": 1.2287,
	"step": 11420
	},
	{
	"epoch": 9.6285502874381,
	"grad_norm": 0.2024402767419815,
	"learning_rate": 0.00010594059405940593,
	"loss": 1.2309,
	"step": 11430
	},
	{
	"epoch": 9.6285502874381,
	"eval_accuracy": 0.7450274546722492,
	"eval_loss": 1.1177880764007568,
	"eval_runtime": 889.3816,
	"eval_samples_per_second": 561.487,
	"eval_steps_per_second": 5.199,
	"step": 11430
	},
	{
	"epoch": 9.636974215948547,
	"grad_norm": 0.20498992502689362,
	"learning_rate": 0.00010495049504950495,
	"loss": 1.228,
	"step": 11440
	},
	{
	"epoch": 9.64539814445899,
	"grad_norm": 0.18760576844215393,
	"learning_rate": 0.00010396039603960396,
	"loss": 1.2287,
	"step": 11450
	},
	{
	"epoch": 9.653822072969435,
	"grad_norm": 0.2059292048215866,
	"learning_rate": 0.00010297029702970297,
	"loss": 1.2284,
	"step": 11460
	},
	{
	"epoch": 9.662246001479879,
	"grad_norm": 0.20898665487766266,
	"learning_rate": 0.00010198019801980198,
	"loss": 1.231,
	"step": 11470
	},
	{
	"epoch": 9.670669929990323,
	"grad_norm": 0.20303255319595337,
	"learning_rate": 0.00010099009900990099,
	"loss": 1.2302,
	"step": 11480
	},
	{
	"epoch": 9.679093858500769,
	"grad_norm": 0.20947200059890747,
	"learning_rate": 0.0001,
	"loss": 1.2314,
	"step": 11490
	},
	{
	"epoch": 9.687517787011213,
	"grad_norm": 0.20898771286010742,
	"learning_rate": 9.900990099009902e-05,
	"loss": 1.2294,
	"step": 11500
	},
	{
	"epoch": 9.695941715521657,
	"grad_norm": 0.18466849625110626,
	"learning_rate": 9.801980198019803e-05,
	"loss": 1.2309,
	"step": 11510
	},
	{
	"epoch": 9.704365644032102,
	"grad_norm": 0.1769760698080063,
	"learning_rate": 9.702970297029704e-05,
	"loss": 1.2282,
	"step": 11520
	},
	{
	"epoch": 9.704365644032102,
	"eval_accuracy": 0.7449189101862153,
	"eval_loss": 1.118354082107544,
	"eval_runtime": 879.3937,
	"eval_samples_per_second": 567.864,
	"eval_steps_per_second": 5.258,
	"step": 11520
	},
	{
	"epoch": 9.712789572542546,
	"grad_norm": 0.18270480632781982,
	"learning_rate": 9.603960396039604e-05,
	"loss": 1.2286,
	"step": 11530
	},
	{
	"epoch": 9.721213501052992,
	"grad_norm": 0.1812662035226822,
	"learning_rate": 9.504950495049505e-05,
	"loss": 1.2279,
	"step": 11540
	},
	{
	"epoch": 9.729637429563436,
	"grad_norm": 0.20632152259349823,
	"learning_rate": 9.405940594059406e-05,
	"loss": 1.2295,
	"step": 11550
	},
	{
	"epoch": 9.73806135807388,
	"grad_norm": 0.19512777030467987,
	"learning_rate": 9.306930693069307e-05,
	"loss": 1.2292,
	"step": 11560
	},
	{
	"epoch": 9.746485286584324,
	"grad_norm": 0.19665522873401642,
	"learning_rate": 9.207920792079209e-05,
	"loss": 1.2294,
	"step": 11570
	},
	{
	"epoch": 9.75490921509477,
	"grad_norm": 0.18540680408477783,
	"learning_rate": 9.108910891089108e-05,
	"loss": 1.2297,
	"step": 11580
	},
	{
	"epoch": 9.763333143605214,
	"grad_norm": 0.21472424268722534,
	"learning_rate": 9.00990099009901e-05,
	"loss": 1.2277,
	"step": 11590
	},
	{
	"epoch": 9.771757072115658,
	"grad_norm": 0.2189822793006897,
	"learning_rate": 8.91089108910891e-05,
	"loss": 1.2293,
	"step": 11600
	},
	{
	"epoch": 9.780181000626103,
	"grad_norm": 0.19983939826488495,
	"learning_rate": 8.811881188118812e-05,
	"loss": 1.2287,
	"step": 11610
	},
	{
	"epoch": 9.780181000626103,
	"eval_accuracy": 0.7452771934107217,
	"eval_loss": 1.1166530847549438,
	"eval_runtime": 886.9822,
	"eval_samples_per_second": 563.006,
	"eval_steps_per_second": 5.213,
	"step": 11610
	},
	{
	"epoch": 9.788604929136547,
	"grad_norm": 0.1868014931678772,
	"learning_rate": 8.712871287128713e-05,
	"loss": 1.2296,
	"step": 11620
	},
	{
	"epoch": 9.797028857646993,
	"grad_norm": 0.2048911601305008,
	"learning_rate": 8.613861386138613e-05,
	"loss": 1.2291,
	"step": 11630
	},
	{
	"epoch": 9.805452786157437,
	"grad_norm": 0.2088802009820938,
	"learning_rate": 8.514851485148515e-05,
	"loss": 1.2271,
	"step": 11640
	},
	{
	"epoch": 9.813876714667881,
	"grad_norm": 0.20058122277259827,
	"learning_rate": 8.415841584158417e-05,
	"loss": 1.2296,
	"step": 11650
	},
	{
	"epoch": 9.822300643178325,
	"grad_norm": 0.1964656561613083,
	"learning_rate": 8.316831683168318e-05,
	"loss": 1.2272,
	"step": 11660
	},
	{
	"epoch": 9.83072457168877,
	"grad_norm": 0.20214231312274933,
	"learning_rate": 8.217821782178219e-05,
	"loss": 1.2271,
	"step": 11670
	},
	{
	"epoch": 9.839148500199215,
	"grad_norm": 0.19427910447120667,
	"learning_rate": 8.118811881188119e-05,
	"loss": 1.2264,
	"step": 11680
	},
	{
	"epoch": 9.84757242870966,
	"grad_norm": 0.18842646479606628,
	"learning_rate": 8.01980198019802e-05,
	"loss": 1.2265,
	"step": 11690
	},
	{
	"epoch": 9.855996357220103,
	"grad_norm": 0.18588952720165253,
	"learning_rate": 7.920792079207921e-05,
	"loss": 1.2279,
	"step": 11700
	},
	{
	"epoch": 9.855996357220103,
	"eval_accuracy": 0.7454476541387279,
	"eval_loss": 1.1153885126113892,
	"eval_runtime": 879.2745,
	"eval_samples_per_second": 567.941,
	"eval_steps_per_second": 5.259,
	"step": 11700
	},
	{
	"epoch": 9.864420285730548,
	"grad_norm": 0.18300525844097137,
	"learning_rate": 7.821782178217822e-05,
	"loss": 1.2268,
	"step": 11710
	},
	{
	"epoch": 9.872844214240992,
	"grad_norm": 0.18436813354492188,
	"learning_rate": 7.722772277227723e-05,
	"loss": 1.2256,
	"step": 11720
	},
	{
	"epoch": 9.881268142751438,
	"grad_norm": 0.19767363369464874,
	"learning_rate": 7.623762376237623e-05,
	"loss": 1.2246,
	"step": 11730
	},
	{
	"epoch": 9.889692071261882,
	"grad_norm": 0.1749766319990158,
	"learning_rate": 7.524752475247524e-05,
	"loss": 1.2277,
	"step": 11740
	},
	{
	"epoch": 9.898115999772326,
	"grad_norm": 0.17161355912685394,
	"learning_rate": 7.425742574257426e-05,
	"loss": 1.2262,
	"step": 11750
	},
	{
	"epoch": 9.90653992828277,
	"grad_norm": 0.190937340259552,
	"learning_rate": 7.326732673267327e-05,
	"loss": 1.2276,
	"step": 11760
	},
	{
	"epoch": 9.914963856793216,
	"grad_norm": 0.18256962299346924,
	"learning_rate": 7.227722772277228e-05,
	"loss": 1.2274,
	"step": 11770
	},
	{
	"epoch": 9.92338778530366,
	"grad_norm": 0.1912631094455719,
	"learning_rate": 7.128712871287128e-05,
	"loss": 1.2243,
	"step": 11780
	},
	{
	"epoch": 9.931811713814104,
	"grad_norm": 0.19331537187099457,
	"learning_rate": 7.02970297029703e-05,
	"loss": 1.2261,
	"step": 11790
	},
	{
	"epoch": 9.931811713814104,
	"eval_accuracy": 0.7455543705350357,
	"eval_loss": 1.115136981010437,
	"eval_runtime": 887.3277,
	"eval_samples_per_second": 562.786,
	"eval_steps_per_second": 5.211,
	"step": 11790
	},
	{
	"epoch": 9.940235642324549,
	"grad_norm": 0.17607170343399048,
	"learning_rate": 6.930693069306931e-05,
	"loss": 1.228,
	"step": 11800
	},
	{
	"epoch": 9.948659570834993,
	"grad_norm": 0.17280788719654083,
	"learning_rate": 6.831683168316833e-05,
	"loss": 1.2269,
	"step": 11810
	},
	{
	"epoch": 9.957083499345439,
	"grad_norm": 0.19290916621685028,
	"learning_rate": 6.732673267326734e-05,
	"loss": 1.2279,
	"step": 11820
	},
	{
	"epoch": 9.965507427855883,
	"grad_norm": 0.19125664234161377,
	"learning_rate": 6.633663366336634e-05,
	"loss": 1.227,
	"step": 11830
	},
	{
	"epoch": 9.973931356366327,
	"grad_norm": 0.18251217901706696,
	"learning_rate": 6.534653465346535e-05,
	"loss": 1.2254,
	"step": 11840
	},
	{
	"epoch": 9.982355284876771,
	"grad_norm": 0.19647039473056793,
	"learning_rate": 6.435643564356436e-05,
	"loss": 1.2261,
	"step": 11850
	},
	{
	"epoch": 9.990779213387215,
	"grad_norm": 0.17714038491249084,
	"learning_rate": 6.336633663366337e-05,
	"loss": 1.2276,
	"step": 11860
	},
	{
	"epoch": 9.999203141897661,
	"grad_norm": 0.18365037441253662,
	"learning_rate": 6.237623762376238e-05,
	"loss": 1.2261,
	"step": 11870
	},
	{
	"epoch": 10.007627070408105,
	"grad_norm": 0.1910678595304489,
	"learning_rate": 6.138613861386138e-05,
	"loss": 1.2244,
	"step": 11880
	},
	{
	"epoch": 10.007627070408105,
	"eval_accuracy": 0.7456593741030724,
	"eval_loss": 1.1154232025146484,
	"eval_runtime": 887.0764,
	"eval_samples_per_second": 562.946,
	"eval_steps_per_second": 5.213,
	"step": 11880
	},
	{
	"epoch": 10.01605099891855,
	"grad_norm": 0.18324702978134155,
	"learning_rate": 6.039603960396039e-05,
	"loss": 1.2267,
	"step": 11890
	},
	{
	"epoch": 10.024474927428994,
	"grad_norm": 0.1686498522758484,
	"learning_rate": 5.9405940594059404e-05,
	"loss": 1.2242,
	"step": 11900
	},
	{
	"epoch": 10.03289885593944,
	"grad_norm": 0.17256265878677368,
	"learning_rate": 5.841584158415842e-05,
	"loss": 1.2239,
	"step": 11910
	},
	{
	"epoch": 10.041322784449884,
	"grad_norm": 0.19624483585357666,
	"learning_rate": 5.742574257425743e-05,
	"loss": 1.2258,
	"step": 11920
	},
	{
	"epoch": 10.049746712960328,
	"grad_norm": 0.17262500524520874,
	"learning_rate": 5.643564356435644e-05,
	"loss": 1.2258,
	"step": 11930
	},
	{
	"epoch": 10.058170641470772,
	"grad_norm": 0.1741054356098175,
	"learning_rate": 5.5445544554455445e-05,
	"loss": 1.2245,
	"step": 11940
	},
	{
	"epoch": 10.066594569981216,
	"grad_norm": 0.17313139140605927,
	"learning_rate": 5.4455445544554456e-05,
	"loss": 1.2256,
	"step": 11950
	},
	{
	"epoch": 10.075018498491662,
	"grad_norm": 0.18322905898094177,
	"learning_rate": 5.346534653465347e-05,
	"loss": 1.2243,
	"step": 11960
	},
	{
	"epoch": 10.083442427002106,
	"grad_norm": 0.18261946737766266,
	"learning_rate": 5.247524752475247e-05,
	"loss": 1.2252,
	"step": 11970
	},
	{
	"epoch": 10.083442427002106,
	"eval_accuracy": 0.7457714664313748,
	"eval_loss": 1.1143237352371216,
	"eval_runtime": 887.1041,
	"eval_samples_per_second": 562.928,
	"eval_steps_per_second": 5.212,
	"step": 11970
	},
	{
	"epoch": 10.09186635551255,
	"grad_norm": 0.1877572238445282,
	"learning_rate": 5.1485148514851485e-05,
	"loss": 1.2249,
	"step": 11980
	},
	{
	"epoch": 10.100290284022995,
	"grad_norm": 0.18356889486312866,
	"learning_rate": 5.0495049504950497e-05,
	"loss": 1.2255,
	"step": 11990
	},
	{
	"epoch": 10.108714212533439,
	"grad_norm": 0.1898818463087082,
	"learning_rate": 4.950495049504951e-05,
	"loss": 1.2241,
	"step": 12000
	},
	{
	"epoch": 10.117138141043885,
	"grad_norm": 0.17149324715137482,
	"learning_rate": 4.851485148514852e-05,
	"loss": 1.2257,
	"step": 12010
	},
	{
	"epoch": 10.125562069554329,
	"grad_norm": 0.16672831773757935,
	"learning_rate": 4.7524752475247525e-05,
	"loss": 1.2255,
	"step": 12020
	},
	{
	"epoch": 10.133985998064773,
	"grad_norm": 0.16820046305656433,
	"learning_rate": 4.653465346534654e-05,
	"loss": 1.225,
	"step": 12030
	},
	{
	"epoch": 10.142409926575217,
	"grad_norm": 0.17770229279994965,
	"learning_rate": 4.554455445544554e-05,
	"loss": 1.227,
	"step": 12040
	},
	{
	"epoch": 10.150833855085661,
	"grad_norm": 0.16082800924777985,
	"learning_rate": 4.455445544554455e-05,
	"loss": 1.2253,
	"step": 12050
	},
	{
	"epoch": 10.159257783596107,
	"grad_norm": 0.1669086515903473,
	"learning_rate": 4.3564356435643565e-05,
	"loss": 1.2241,
	"step": 12060
	},
	{
	"epoch": 10.159257783596107,
	"eval_accuracy": 0.7460534494522424,
	"eval_loss": 1.1121779680252075,
	"eval_runtime": 882.614,
	"eval_samples_per_second": 565.792,
	"eval_steps_per_second": 5.239,
	"step": 12060
	},
	{
	"epoch": 10.167681712106551,
	"grad_norm": 0.17394189536571503,
	"learning_rate": 4.257425742574258e-05,
	"loss": 1.2238,
	"step": 12070
	},
	{
	"epoch": 10.176105640616996,
	"grad_norm": 0.1611398160457611,
	"learning_rate": 4.158415841584159e-05,
	"loss": 1.2243,
	"step": 12080
	},
	{
	"epoch": 10.18452956912744,
	"grad_norm": 0.16469168663024902,
	"learning_rate": 4.0594059405940594e-05,
	"loss": 1.2232,
	"step": 12090
	},
	{
	"epoch": 10.192953497637886,
	"grad_norm": 0.1700202375650406,
	"learning_rate": 3.9603960396039605e-05,
	"loss": 1.2243,
	"step": 12100
	},
	{
	"epoch": 10.20137742614833,
	"grad_norm": 0.16961273550987244,
	"learning_rate": 3.861386138613862e-05,
	"loss": 1.2244,
	"step": 12110
	},
	{
	"epoch": 10.209801354658774,
	"grad_norm": 0.18176864087581635,
	"learning_rate": 3.762376237623762e-05,
	"loss": 1.2234,
	"step": 12120
	},
	{
	"epoch": 10.218225283169218,
	"grad_norm": 0.17132678627967834,
	"learning_rate": 3.6633663366336634e-05,
	"loss": 1.2231,
	"step": 12130
	},
	{
	"epoch": 10.226649211679662,
	"grad_norm": 0.1708788424730301,
	"learning_rate": 3.564356435643564e-05,
	"loss": 1.2228,
	"step": 12140
	},
	{
	"epoch": 10.235073140190108,
	"grad_norm": 0.16924616694450378,
	"learning_rate": 3.465346534653466e-05,
	"loss": 1.2241,
	"step": 12150
	},
	{
	"epoch": 10.235073140190108,
	"eval_accuracy": 0.7462807420235112,
	"eval_loss": 1.1115893125534058,
	"eval_runtime": 893.1249,
	"eval_samples_per_second": 559.133,
	"eval_steps_per_second": 5.177,
	"step": 12150
	},
	{
	"epoch": 10.243497068700552,
	"grad_norm": 0.1617705076932907,
	"learning_rate": 3.366336633663367e-05,
	"loss": 1.2239,
	"step": 12160
	},
	{
	"epoch": 10.251920997210997,
	"grad_norm": 0.17731362581253052,
	"learning_rate": 3.2673267326732674e-05,
	"loss": 1.2232,
	"step": 12170
	},
	{
	"epoch": 10.26034492572144,
	"grad_norm": 0.17324230074882507,
	"learning_rate": 3.1683168316831686e-05,
	"loss": 1.224,
	"step": 12180
	},
	{
	"epoch": 10.268768854231885,
	"grad_norm": 0.15266722440719604,
	"learning_rate": 3.069306930693069e-05,
	"loss": 1.224,
	"step": 12190
	},
	{
	"epoch": 10.27719278274233,
	"grad_norm": 0.1547342985868454,
	"learning_rate": 2.9702970297029702e-05,
	"loss": 1.2232,
	"step": 12200
	},
	{
	"epoch": 10.285616711252775,
	"grad_norm": 0.15873835980892181,
	"learning_rate": 2.8712871287128714e-05,
	"loss": 1.2221,
	"step": 12210
	},
	{
	"epoch": 10.29404063976322,
	"grad_norm": 0.15968631207942963,
	"learning_rate": 2.7722772277227722e-05,
	"loss": 1.223,
	"step": 12220
	},
	{
	"epoch": 10.302464568273663,
	"grad_norm": 0.15929782390594482,
	"learning_rate": 2.6732673267326734e-05,
	"loss": 1.2242,
	"step": 12230
	},
	{
	"epoch": 10.31088849678411,
	"grad_norm": 0.1512889713048935,
	"learning_rate": 2.5742574257425742e-05,
	"loss": 1.2223,
	"step": 12240
	},
	{
	"epoch": 10.31088849678411,
	"eval_accuracy": 0.7462616988558893,
	"eval_loss": 1.1114362478256226,
	"eval_runtime": 886.8923,
	"eval_samples_per_second": 563.063,
	"eval_steps_per_second": 5.214,
	"step": 12240
	},
	{
	"epoch": 10.319312425294553,
	"grad_norm": 0.15943297743797302,
	"learning_rate": 2.4752475247524754e-05,
	"loss": 1.2224,
	"step": 12250
	},
	{
	"epoch": 10.327736353804998,
	"grad_norm": 0.16134706139564514,
	"learning_rate": 2.3762376237623762e-05,
	"loss": 1.2218,
	"step": 12260
	},
	{
	"epoch": 10.336160282315442,
	"grad_norm": 0.15525278449058533,
	"learning_rate": 2.277227722772277e-05,
	"loss": 1.2237,
	"step": 12270
	},
	{
	"epoch": 10.344584210825886,
	"grad_norm": 0.1626599282026291,
	"learning_rate": 2.1782178217821783e-05,
	"loss": 1.2228,
	"step": 12280
	},
	{
	"epoch": 10.353008139336332,
	"grad_norm": 0.1533862203359604,
	"learning_rate": 2.0792079207920794e-05,
	"loss": 1.221,
	"step": 12290
	},
	{
	"epoch": 10.361432067846776,
	"grad_norm": 0.14988014101982117,
	"learning_rate": 1.9801980198019803e-05,
	"loss": 1.2238,
	"step": 12300
	},
	{
	"epoch": 10.36985599635722,
	"grad_norm": 0.15282054245471954,
	"learning_rate": 1.881188118811881e-05,
	"loss": 1.2202,
	"step": 12310
	},
	{
	"epoch": 10.378279924867664,
	"grad_norm": 0.1532844454050064,
	"learning_rate": 1.782178217821782e-05,
	"loss": 1.2222,
	"step": 12320
	},
	{
	"epoch": 10.386703853378108,
	"grad_norm": 0.15041793882846832,
	"learning_rate": 1.6831683168316834e-05,
	"loss": 1.2233,
	"step": 12330
	},
	{
	"epoch": 10.386703853378108,
	"eval_accuracy": 0.7464784909349403,
	"eval_loss": 1.1103906631469727,
	"eval_runtime": 893.2259,
	"eval_samples_per_second": 559.07,
	"eval_steps_per_second": 5.177,
	"step": 12330
	}
	],
	"logging_steps": 10,
	"max_steps": 12500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 11,
	"save_steps": 90,
	"total_flos": 3.205415169974477e+18,
	"train_batch_size": 108,
	"trial_name": null,
	"trial_params": null
	}