astrophotography-object-classifier-alpha4.2 / trainer_state.json

Upload 8 files

ed5a13e about 2 years ago

160 kB

	{
	"best_metric": 0.0011723055504262447,
	"best_model_checkpoint": "./ap_train_outputs/checkpoint-10918",
	"epoch": 106.0,
	"eval_steps": 500,
	"global_step": 10918,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1,
	"learning_rate": 1.999223300970874e-05,
	"loss": 2.0179,
	"step": 10
	},
	{
	"epoch": 0.19,
	"learning_rate": 1.9984466019417477e-05,
	"loss": 1.9319,
	"step": 20
	},
	{
	"epoch": 0.29,
	"learning_rate": 1.9976699029126216e-05,
	"loss": 1.7818,
	"step": 30
	},
	{
	"epoch": 0.39,
	"learning_rate": 1.9968932038834955e-05,
	"loss": 1.7205,
	"step": 40
	},
	{
	"epoch": 0.49,
	"learning_rate": 1.996116504854369e-05,
	"loss": 1.5862,
	"step": 50
	},
	{
	"epoch": 0.58,
	"learning_rate": 1.995339805825243e-05,
	"loss": 1.5051,
	"step": 60
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.9945631067961166e-05,
	"loss": 1.3624,
	"step": 70
	},
	{
	"epoch": 0.78,
	"learning_rate": 1.9937864077669905e-05,
	"loss": 1.3245,
	"step": 80
	},
	{
	"epoch": 0.87,
	"learning_rate": 1.993009708737864e-05,
	"loss": 1.2896,
	"step": 90
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.992233009708738e-05,
	"loss": 1.1133,
	"step": 100
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8561643835616438,
	"eval_loss": 1.1050430536270142,
	"eval_runtime": 1.0213,
	"eval_samples_per_second": 142.949,
	"eval_steps_per_second": 18.603,
	"step": 103
	},
	{
	"epoch": 1.07,
	"learning_rate": 1.991456310679612e-05,
	"loss": 1.1258,
	"step": 110
	},
	{
	"epoch": 1.17,
	"learning_rate": 1.9906796116504855e-05,
	"loss": 1.0101,
	"step": 120
	},
	{
	"epoch": 1.26,
	"learning_rate": 1.9899029126213594e-05,
	"loss": 0.8295,
	"step": 130
	},
	{
	"epoch": 1.36,
	"learning_rate": 1.989126213592233e-05,
	"loss": 0.8112,
	"step": 140
	},
	{
	"epoch": 1.46,
	"learning_rate": 1.988349514563107e-05,
	"loss": 0.7511,
	"step": 150
	},
	{
	"epoch": 1.55,
	"learning_rate": 1.987572815533981e-05,
	"loss": 0.7514,
	"step": 160
	},
	{
	"epoch": 1.65,
	"learning_rate": 1.9867961165048548e-05,
	"loss": 0.7797,
	"step": 170
	},
	{
	"epoch": 1.75,
	"learning_rate": 1.9860194174757283e-05,
	"loss": 0.6666,
	"step": 180
	},
	{
	"epoch": 1.84,
	"learning_rate": 1.9852427184466022e-05,
	"loss": 0.7185,
	"step": 190
	},
	{
	"epoch": 1.94,
	"learning_rate": 1.9844660194174758e-05,
	"loss": 0.6564,
	"step": 200
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9452054794520548,
	"eval_loss": 0.6278233528137207,
	"eval_runtime": 1.018,
	"eval_samples_per_second": 143.418,
	"eval_steps_per_second": 18.664,
	"step": 206
	},
	{
	"epoch": 2.04,
	"learning_rate": 1.9836893203883497e-05,
	"loss": 0.4882,
	"step": 210
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.9829126213592233e-05,
	"loss": 0.5629,
	"step": 220
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.9821359223300972e-05,
	"loss": 0.5384,
	"step": 230
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.981359223300971e-05,
	"loss": 0.445,
	"step": 240
	},
	{
	"epoch": 2.43,
	"learning_rate": 1.9805825242718447e-05,
	"loss": 0.5185,
	"step": 250
	},
	{
	"epoch": 2.52,
	"learning_rate": 1.9798058252427187e-05,
	"loss": 0.4958,
	"step": 260
	},
	{
	"epoch": 2.62,
	"learning_rate": 1.9790291262135922e-05,
	"loss": 0.4132,
	"step": 270
	},
	{
	"epoch": 2.72,
	"learning_rate": 1.978252427184466e-05,
	"loss": 0.4397,
	"step": 280
	},
	{
	"epoch": 2.82,
	"learning_rate": 1.97747572815534e-05,
	"loss": 0.4415,
	"step": 290
	},
	{
	"epoch": 2.91,
	"learning_rate": 1.9766990291262137e-05,
	"loss": 0.4004,
	"step": 300
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.3876227140426636,
	"eval_runtime": 0.9913,
	"eval_samples_per_second": 147.283,
	"eval_steps_per_second": 19.167,
	"step": 309
	},
	{
	"epoch": 3.01,
	"learning_rate": 1.9759223300970876e-05,
	"loss": 0.3367,
	"step": 310
	},
	{
	"epoch": 3.11,
	"learning_rate": 1.975145631067961e-05,
	"loss": 0.3328,
	"step": 320
	},
	{
	"epoch": 3.2,
	"learning_rate": 1.974368932038835e-05,
	"loss": 0.3767,
	"step": 330
	},
	{
	"epoch": 3.3,
	"learning_rate": 1.9735922330097087e-05,
	"loss": 0.3029,
	"step": 340
	},
	{
	"epoch": 3.4,
	"learning_rate": 1.972815533980583e-05,
	"loss": 0.3183,
	"step": 350
	},
	{
	"epoch": 3.5,
	"learning_rate": 1.9720388349514565e-05,
	"loss": 0.239,
	"step": 360
	},
	{
	"epoch": 3.59,
	"learning_rate": 1.9712621359223304e-05,
	"loss": 0.3627,
	"step": 370
	},
	{
	"epoch": 3.69,
	"learning_rate": 1.970485436893204e-05,
	"loss": 0.3516,
	"step": 380
	},
	{
	"epoch": 3.79,
	"learning_rate": 1.969708737864078e-05,
	"loss": 0.2904,
	"step": 390
	},
	{
	"epoch": 3.88,
	"learning_rate": 1.9689320388349515e-05,
	"loss": 0.2362,
	"step": 400
	},
	{
	"epoch": 3.98,
	"learning_rate": 1.9681553398058254e-05,
	"loss": 0.2624,
	"step": 410
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.24633407592773438,
	"eval_runtime": 0.9705,
	"eval_samples_per_second": 150.434,
	"eval_steps_per_second": 19.577,
	"step": 412
	},
	{
	"epoch": 4.08,
	"learning_rate": 1.9673786407766993e-05,
	"loss": 0.2748,
	"step": 420
	},
	{
	"epoch": 4.17,
	"learning_rate": 1.966601941747573e-05,
	"loss": 0.2072,
	"step": 430
	},
	{
	"epoch": 4.27,
	"learning_rate": 1.965825242718447e-05,
	"loss": 0.209,
	"step": 440
	},
	{
	"epoch": 4.37,
	"learning_rate": 1.9650485436893204e-05,
	"loss": 0.2567,
	"step": 450
	},
	{
	"epoch": 4.47,
	"learning_rate": 1.9642718446601943e-05,
	"loss": 0.194,
	"step": 460
	},
	{
	"epoch": 4.56,
	"learning_rate": 1.963495145631068e-05,
	"loss": 0.2188,
	"step": 470
	},
	{
	"epoch": 4.66,
	"learning_rate": 1.962718446601942e-05,
	"loss": 0.2031,
	"step": 480
	},
	{
	"epoch": 4.76,
	"learning_rate": 1.9619417475728157e-05,
	"loss": 0.2943,
	"step": 490
	},
	{
	"epoch": 4.85,
	"learning_rate": 1.9611650485436893e-05,
	"loss": 0.1883,
	"step": 500
	},
	{
	"epoch": 4.95,
	"learning_rate": 1.9603883495145632e-05,
	"loss": 0.2074,
	"step": 510
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.19891677796840668,
	"eval_runtime": 0.9232,
	"eval_samples_per_second": 158.14,
	"eval_steps_per_second": 20.58,
	"step": 515
	},
	{
	"epoch": 5.05,
	"learning_rate": 1.959611650485437e-05,
	"loss": 0.2058,
	"step": 520
	},
	{
	"epoch": 5.15,
	"learning_rate": 1.9588349514563107e-05,
	"loss": 0.1468,
	"step": 530
	},
	{
	"epoch": 5.24,
	"learning_rate": 1.9580582524271847e-05,
	"loss": 0.2338,
	"step": 540
	},
	{
	"epoch": 5.34,
	"learning_rate": 1.9572815533980586e-05,
	"loss": 0.2376,
	"step": 550
	},
	{
	"epoch": 5.44,
	"learning_rate": 1.956504854368932e-05,
	"loss": 0.2948,
	"step": 560
	},
	{
	"epoch": 5.53,
	"learning_rate": 1.955728155339806e-05,
	"loss": 0.191,
	"step": 570
	},
	{
	"epoch": 5.63,
	"learning_rate": 1.9549514563106797e-05,
	"loss": 0.1313,
	"step": 580
	},
	{
	"epoch": 5.73,
	"learning_rate": 1.9541747572815536e-05,
	"loss": 0.1462,
	"step": 590
	},
	{
	"epoch": 5.83,
	"learning_rate": 1.9533980582524275e-05,
	"loss": 0.239,
	"step": 600
	},
	{
	"epoch": 5.92,
	"learning_rate": 1.952621359223301e-05,
	"loss": 0.141,
	"step": 610
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.17079336941242218,
	"eval_runtime": 0.9678,
	"eval_samples_per_second": 150.859,
	"eval_steps_per_second": 19.632,
	"step": 618
	},
	{
	"epoch": 6.02,
	"learning_rate": 1.951844660194175e-05,
	"loss": 0.1518,
	"step": 620
	},
	{
	"epoch": 6.12,
	"learning_rate": 1.9510679611650486e-05,
	"loss": 0.1385,
	"step": 630
	},
	{
	"epoch": 6.21,
	"learning_rate": 1.9502912621359225e-05,
	"loss": 0.1632,
	"step": 640
	},
	{
	"epoch": 6.31,
	"learning_rate": 1.949514563106796e-05,
	"loss": 0.216,
	"step": 650
	},
	{
	"epoch": 6.41,
	"learning_rate": 1.94873786407767e-05,
	"loss": 0.3242,
	"step": 660
	},
	{
	"epoch": 6.5,
	"learning_rate": 1.947961165048544e-05,
	"loss": 0.1218,
	"step": 670
	},
	{
	"epoch": 6.6,
	"learning_rate": 1.947184466019418e-05,
	"loss": 0.1637,
	"step": 680
	},
	{
	"epoch": 6.7,
	"learning_rate": 1.9464077669902914e-05,
	"loss": 0.1651,
	"step": 690
	},
	{
	"epoch": 6.8,
	"learning_rate": 1.9456310679611653e-05,
	"loss": 0.181,
	"step": 700
	},
	{
	"epoch": 6.89,
	"learning_rate": 1.944854368932039e-05,
	"loss": 0.186,
	"step": 710
	},
	{
	"epoch": 6.99,
	"learning_rate": 1.944077669902913e-05,
	"loss": 0.1338,
	"step": 720
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.17499177157878876,
	"eval_runtime": 0.9605,
	"eval_samples_per_second": 152.011,
	"eval_steps_per_second": 19.782,
	"step": 721
	},
	{
	"epoch": 7.09,
	"learning_rate": 1.9433009708737868e-05,
	"loss": 0.1857,
	"step": 730
	},
	{
	"epoch": 7.18,
	"learning_rate": 1.9425242718446603e-05,
	"loss": 0.2048,
	"step": 740
	},
	{
	"epoch": 7.28,
	"learning_rate": 1.9417475728155343e-05,
	"loss": 0.1958,
	"step": 750
	},
	{
	"epoch": 7.38,
	"learning_rate": 1.940970873786408e-05,
	"loss": 0.2379,
	"step": 760
	},
	{
	"epoch": 7.48,
	"learning_rate": 1.9401941747572818e-05,
	"loss": 0.1159,
	"step": 770
	},
	{
	"epoch": 7.57,
	"learning_rate": 1.9394174757281553e-05,
	"loss": 0.1961,
	"step": 780
	},
	{
	"epoch": 7.67,
	"learning_rate": 1.9386407766990292e-05,
	"loss": 0.1297,
	"step": 790
	},
	{
	"epoch": 7.77,
	"learning_rate": 1.937864077669903e-05,
	"loss": 0.2555,
	"step": 800
	},
	{
	"epoch": 7.86,
	"learning_rate": 1.9370873786407767e-05,
	"loss": 0.134,
	"step": 810
	},
	{
	"epoch": 7.96,
	"learning_rate": 1.9363106796116507e-05,
	"loss": 0.1343,
	"step": 820
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.12730906903743744,
	"eval_runtime": 0.993,
	"eval_samples_per_second": 147.023,
	"eval_steps_per_second": 19.133,
	"step": 824
	},
	{
	"epoch": 8.06,
	"learning_rate": 1.9355339805825242e-05,
	"loss": 0.2206,
	"step": 830
	},
	{
	"epoch": 8.16,
	"learning_rate": 1.934757281553398e-05,
	"loss": 0.1735,
	"step": 840
	},
	{
	"epoch": 8.25,
	"learning_rate": 1.9339805825242717e-05,
	"loss": 0.137,
	"step": 850
	},
	{
	"epoch": 8.35,
	"learning_rate": 1.933203883495146e-05,
	"loss": 0.1378,
	"step": 860
	},
	{
	"epoch": 8.45,
	"learning_rate": 1.9324271844660196e-05,
	"loss": 0.1671,
	"step": 870
	},
	{
	"epoch": 8.54,
	"learning_rate": 1.9316504854368935e-05,
	"loss": 0.212,
	"step": 880
	},
	{
	"epoch": 8.64,
	"learning_rate": 1.930873786407767e-05,
	"loss": 0.1598,
	"step": 890
	},
	{
	"epoch": 8.74,
	"learning_rate": 1.930097087378641e-05,
	"loss": 0.1813,
	"step": 900
	},
	{
	"epoch": 8.83,
	"learning_rate": 1.9293203883495146e-05,
	"loss": 0.0725,
	"step": 910
	},
	{
	"epoch": 8.93,
	"learning_rate": 1.9285436893203885e-05,
	"loss": 0.1558,
	"step": 920
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.11657154560089111,
	"eval_runtime": 0.9702,
	"eval_samples_per_second": 150.486,
	"eval_steps_per_second": 19.584,
	"step": 927
	},
	{
	"epoch": 9.03,
	"learning_rate": 1.9277669902912624e-05,
	"loss": 0.094,
	"step": 930
	},
	{
	"epoch": 9.13,
	"learning_rate": 1.926990291262136e-05,
	"loss": 0.1341,
	"step": 940
	},
	{
	"epoch": 9.22,
	"learning_rate": 1.92621359223301e-05,
	"loss": 0.196,
	"step": 950
	},
	{
	"epoch": 9.32,
	"learning_rate": 1.9254368932038835e-05,
	"loss": 0.1028,
	"step": 960
	},
	{
	"epoch": 9.42,
	"learning_rate": 1.9246601941747574e-05,
	"loss": 0.178,
	"step": 970
	},
	{
	"epoch": 9.51,
	"learning_rate": 1.9238834951456313e-05,
	"loss": 0.2527,
	"step": 980
	},
	{
	"epoch": 9.61,
	"learning_rate": 1.923106796116505e-05,
	"loss": 0.2609,
	"step": 990
	},
	{
	"epoch": 9.71,
	"learning_rate": 1.922330097087379e-05,
	"loss": 0.1518,
	"step": 1000
	},
	{
	"epoch": 9.81,
	"learning_rate": 1.9215533980582528e-05,
	"loss": 0.1383,
	"step": 1010
	},
	{
	"epoch": 9.9,
	"learning_rate": 1.9207766990291263e-05,
	"loss": 0.075,
	"step": 1020
	},
	{
	"epoch": 10.0,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.0799,
	"step": 1030
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.1238846480846405,
	"eval_runtime": 0.9773,
	"eval_samples_per_second": 149.397,
	"eval_steps_per_second": 19.442,
	"step": 1030
	},
	{
	"epoch": 10.1,
	"learning_rate": 1.919223300970874e-05,
	"loss": 0.1866,
	"step": 1040
	},
	{
	"epoch": 10.19,
	"learning_rate": 1.9184466019417478e-05,
	"loss": 0.1154,
	"step": 1050
	},
	{
	"epoch": 10.29,
	"learning_rate": 1.9176699029126217e-05,
	"loss": 0.1123,
	"step": 1060
	},
	{
	"epoch": 10.39,
	"learning_rate": 1.9168932038834952e-05,
	"loss": 0.1085,
	"step": 1070
	},
	{
	"epoch": 10.49,
	"learning_rate": 1.916116504854369e-05,
	"loss": 0.2075,
	"step": 1080
	},
	{
	"epoch": 10.58,
	"learning_rate": 1.9153398058252427e-05,
	"loss": 0.0624,
	"step": 1090
	},
	{
	"epoch": 10.68,
	"learning_rate": 1.9145631067961167e-05,
	"loss": 0.1116,
	"step": 1100
	},
	{
	"epoch": 10.78,
	"learning_rate": 1.9137864077669906e-05,
	"loss": 0.0523,
	"step": 1110
	},
	{
	"epoch": 10.87,
	"learning_rate": 1.913009708737864e-05,
	"loss": 0.1655,
	"step": 1120
	},
	{
	"epoch": 10.97,
	"learning_rate": 1.912233009708738e-05,
	"loss": 0.1677,
	"step": 1130
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.9726027397260274,
	"eval_loss": 0.15431082248687744,
	"eval_runtime": 0.948,
	"eval_samples_per_second": 154.005,
	"eval_steps_per_second": 20.042,
	"step": 1133
	},
	{
	"epoch": 11.07,
	"learning_rate": 1.9114563106796117e-05,
	"loss": 0.1516,
	"step": 1140
	},
	{
	"epoch": 11.17,
	"learning_rate": 1.9106796116504856e-05,
	"loss": 0.1927,
	"step": 1150
	},
	{
	"epoch": 11.26,
	"learning_rate": 1.909902912621359e-05,
	"loss": 0.0548,
	"step": 1160
	},
	{
	"epoch": 11.36,
	"learning_rate": 1.9091262135922334e-05,
	"loss": 0.085,
	"step": 1170
	},
	{
	"epoch": 11.46,
	"learning_rate": 1.908349514563107e-05,
	"loss": 0.202,
	"step": 1180
	},
	{
	"epoch": 11.55,
	"learning_rate": 1.907572815533981e-05,
	"loss": 0.0741,
	"step": 1190
	},
	{
	"epoch": 11.65,
	"learning_rate": 1.9067961165048545e-05,
	"loss": 0.1373,
	"step": 1200
	},
	{
	"epoch": 11.75,
	"learning_rate": 1.9060194174757284e-05,
	"loss": 0.219,
	"step": 1210
	},
	{
	"epoch": 11.84,
	"learning_rate": 1.905242718446602e-05,
	"loss": 0.169,
	"step": 1220
	},
	{
	"epoch": 11.94,
	"learning_rate": 1.904466019417476e-05,
	"loss": 0.1969,
	"step": 1230
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.09193126857280731,
	"eval_runtime": 0.9434,
	"eval_samples_per_second": 154.754,
	"eval_steps_per_second": 20.139,
	"step": 1236
	},
	{
	"epoch": 12.04,
	"learning_rate": 1.90368932038835e-05,
	"loss": 0.0957,
	"step": 1240
	},
	{
	"epoch": 12.14,
	"learning_rate": 1.9029126213592234e-05,
	"loss": 0.1396,
	"step": 1250
	},
	{
	"epoch": 12.23,
	"learning_rate": 1.9021359223300973e-05,
	"loss": 0.1004,
	"step": 1260
	},
	{
	"epoch": 12.33,
	"learning_rate": 1.901359223300971e-05,
	"loss": 0.0796,
	"step": 1270
	},
	{
	"epoch": 12.43,
	"learning_rate": 1.900582524271845e-05,
	"loss": 0.225,
	"step": 1280
	},
	{
	"epoch": 12.52,
	"learning_rate": 1.8998058252427184e-05,
	"loss": 0.1395,
	"step": 1290
	},
	{
	"epoch": 12.62,
	"learning_rate": 1.8990291262135923e-05,
	"loss": 0.0571,
	"step": 1300
	},
	{
	"epoch": 12.72,
	"learning_rate": 1.8982524271844663e-05,
	"loss": 0.0472,
	"step": 1310
	},
	{
	"epoch": 12.82,
	"learning_rate": 1.89747572815534e-05,
	"loss": 0.1276,
	"step": 1320
	},
	{
	"epoch": 12.91,
	"learning_rate": 1.8966990291262138e-05,
	"loss": 0.0533,
	"step": 1330
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.07145330309867859,
	"eval_runtime": 0.9485,
	"eval_samples_per_second": 153.935,
	"eval_steps_per_second": 20.033,
	"step": 1339
	},
	{
	"epoch": 13.01,
	"learning_rate": 1.8959223300970873e-05,
	"loss": 0.0895,
	"step": 1340
	},
	{
	"epoch": 13.11,
	"learning_rate": 1.8951456310679613e-05,
	"loss": 0.0545,
	"step": 1350
	},
	{
	"epoch": 13.2,
	"learning_rate": 1.894368932038835e-05,
	"loss": 0.0889,
	"step": 1360
	},
	{
	"epoch": 13.3,
	"learning_rate": 1.893592233009709e-05,
	"loss": 0.0444,
	"step": 1370
	},
	{
	"epoch": 13.4,
	"learning_rate": 1.8928155339805827e-05,
	"loss": 0.131,
	"step": 1380
	},
	{
	"epoch": 13.5,
	"learning_rate": 1.8920388349514566e-05,
	"loss": 0.1644,
	"step": 1390
	},
	{
	"epoch": 13.59,
	"learning_rate": 1.89126213592233e-05,
	"loss": 0.1254,
	"step": 1400
	},
	{
	"epoch": 13.69,
	"learning_rate": 1.890485436893204e-05,
	"loss": 0.1407,
	"step": 1410
	},
	{
	"epoch": 13.79,
	"learning_rate": 1.8897087378640777e-05,
	"loss": 0.1139,
	"step": 1420
	},
	{
	"epoch": 13.88,
	"learning_rate": 1.8889320388349516e-05,
	"loss": 0.0703,
	"step": 1430
	},
	{
	"epoch": 13.98,
	"learning_rate": 1.8881553398058255e-05,
	"loss": 0.1645,
	"step": 1440
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.050846148282289505,
	"eval_runtime": 0.9651,
	"eval_samples_per_second": 151.283,
	"eval_steps_per_second": 19.688,
	"step": 1442
	},
	{
	"epoch": 14.08,
	"learning_rate": 1.887378640776699e-05,
	"loss": 0.1136,
	"step": 1450
	},
	{
	"epoch": 14.17,
	"learning_rate": 1.886601941747573e-05,
	"loss": 0.0542,
	"step": 1460
	},
	{
	"epoch": 14.27,
	"learning_rate": 1.8858252427184466e-05,
	"loss": 0.1973,
	"step": 1470
	},
	{
	"epoch": 14.37,
	"learning_rate": 1.8850485436893205e-05,
	"loss": 0.1312,
	"step": 1480
	},
	{
	"epoch": 14.47,
	"learning_rate": 1.8842718446601944e-05,
	"loss": 0.1627,
	"step": 1490
	},
	{
	"epoch": 14.56,
	"learning_rate": 1.883495145631068e-05,
	"loss": 0.1452,
	"step": 1500
	},
	{
	"epoch": 14.66,
	"learning_rate": 1.882718446601942e-05,
	"loss": 0.1142,
	"step": 1510
	},
	{
	"epoch": 14.76,
	"learning_rate": 1.881941747572816e-05,
	"loss": 0.0803,
	"step": 1520
	},
	{
	"epoch": 14.85,
	"learning_rate": 1.8811650485436894e-05,
	"loss": 0.1401,
	"step": 1530
	},
	{
	"epoch": 14.95,
	"learning_rate": 1.8803883495145633e-05,
	"loss": 0.1036,
	"step": 1540
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.06801381707191467,
	"eval_runtime": 0.9536,
	"eval_samples_per_second": 153.104,
	"eval_steps_per_second": 19.924,
	"step": 1545
	},
	{
	"epoch": 15.05,
	"learning_rate": 1.8796116504854373e-05,
	"loss": 0.1774,
	"step": 1550
	},
	{
	"epoch": 15.15,
	"learning_rate": 1.878834951456311e-05,
	"loss": 0.0533,
	"step": 1560
	},
	{
	"epoch": 15.24,
	"learning_rate": 1.8780582524271848e-05,
	"loss": 0.0623,
	"step": 1570
	},
	{
	"epoch": 15.34,
	"learning_rate": 1.8772815533980583e-05,
	"loss": 0.1694,
	"step": 1580
	},
	{
	"epoch": 15.44,
	"learning_rate": 1.8765048543689323e-05,
	"loss": 0.1773,
	"step": 1590
	},
	{
	"epoch": 15.53,
	"learning_rate": 1.875728155339806e-05,
	"loss": 0.2231,
	"step": 1600
	},
	{
	"epoch": 15.63,
	"learning_rate": 1.8749514563106798e-05,
	"loss": 0.0794,
	"step": 1610
	},
	{
	"epoch": 15.73,
	"learning_rate": 1.8741747572815537e-05,
	"loss": 0.0464,
	"step": 1620
	},
	{
	"epoch": 15.83,
	"learning_rate": 1.8733980582524273e-05,
	"loss": 0.1643,
	"step": 1630
	},
	{
	"epoch": 15.92,
	"learning_rate": 1.8726213592233012e-05,
	"loss": 0.0442,
	"step": 1640
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.08464141935110092,
	"eval_runtime": 0.9534,
	"eval_samples_per_second": 153.139,
	"eval_steps_per_second": 19.929,
	"step": 1648
	},
	{
	"epoch": 16.02,
	"learning_rate": 1.8718446601941747e-05,
	"loss": 0.0626,
	"step": 1650
	},
	{
	"epoch": 16.12,
	"learning_rate": 1.8710679611650487e-05,
	"loss": 0.0868,
	"step": 1660
	},
	{
	"epoch": 16.21,
	"learning_rate": 1.8702912621359222e-05,
	"loss": 0.2295,
	"step": 1670
	},
	{
	"epoch": 16.31,
	"learning_rate": 1.8695145631067965e-05,
	"loss": 0.089,
	"step": 1680
	},
	{
	"epoch": 16.41,
	"learning_rate": 1.86873786407767e-05,
	"loss": 0.0727,
	"step": 1690
	},
	{
	"epoch": 16.5,
	"learning_rate": 1.867961165048544e-05,
	"loss": 0.0831,
	"step": 1700
	},
	{
	"epoch": 16.6,
	"learning_rate": 1.8671844660194176e-05,
	"loss": 0.1162,
	"step": 1710
	},
	{
	"epoch": 16.7,
	"learning_rate": 1.8664077669902915e-05,
	"loss": 0.0484,
	"step": 1720
	},
	{
	"epoch": 16.8,
	"learning_rate": 1.865631067961165e-05,
	"loss": 0.0411,
	"step": 1730
	},
	{
	"epoch": 16.89,
	"learning_rate": 1.864854368932039e-05,
	"loss": 0.0726,
	"step": 1740
	},
	{
	"epoch": 16.99,
	"learning_rate": 1.864077669902913e-05,
	"loss": 0.065,
	"step": 1750
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.056606147438287735,
	"eval_runtime": 0.9748,
	"eval_samples_per_second": 149.773,
	"eval_steps_per_second": 19.491,
	"step": 1751
	},
	{
	"epoch": 17.09,
	"learning_rate": 1.8633009708737865e-05,
	"loss": 0.2112,
	"step": 1760
	},
	{
	"epoch": 17.18,
	"learning_rate": 1.8625242718446604e-05,
	"loss": 0.0992,
	"step": 1770
	},
	{
	"epoch": 17.28,
	"learning_rate": 1.861747572815534e-05,
	"loss": 0.1154,
	"step": 1780
	},
	{
	"epoch": 17.38,
	"learning_rate": 1.860970873786408e-05,
	"loss": 0.0843,
	"step": 1790
	},
	{
	"epoch": 17.48,
	"learning_rate": 1.860194174757282e-05,
	"loss": 0.0969,
	"step": 1800
	},
	{
	"epoch": 17.57,
	"learning_rate": 1.8594174757281554e-05,
	"loss": 0.2324,
	"step": 1810
	},
	{
	"epoch": 17.67,
	"learning_rate": 1.8586407766990293e-05,
	"loss": 0.1239,
	"step": 1820
	},
	{
	"epoch": 17.77,
	"learning_rate": 1.857864077669903e-05,
	"loss": 0.1081,
	"step": 1830
	},
	{
	"epoch": 17.86,
	"learning_rate": 1.857087378640777e-05,
	"loss": 0.0354,
	"step": 1840
	},
	{
	"epoch": 17.96,
	"learning_rate": 1.8563106796116504e-05,
	"loss": 0.1437,
	"step": 1850
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.04979800060391426,
	"eval_runtime": 0.9429,
	"eval_samples_per_second": 154.848,
	"eval_steps_per_second": 20.151,
	"step": 1854
	},
	{
	"epoch": 18.06,
	"learning_rate": 1.8555339805825243e-05,
	"loss": 0.1741,
	"step": 1860
	},
	{
	"epoch": 18.16,
	"learning_rate": 1.8547572815533983e-05,
	"loss": 0.0442,
	"step": 1870
	},
	{
	"epoch": 18.25,
	"learning_rate": 1.8539805825242722e-05,
	"loss": 0.0778,
	"step": 1880
	},
	{
	"epoch": 18.35,
	"learning_rate": 1.8532038834951458e-05,
	"loss": 0.132,
	"step": 1890
	},
	{
	"epoch": 18.45,
	"learning_rate": 1.8524271844660197e-05,
	"loss": 0.2408,
	"step": 1900
	},
	{
	"epoch": 18.54,
	"learning_rate": 1.8516504854368933e-05,
	"loss": 0.0852,
	"step": 1910
	},
	{
	"epoch": 18.64,
	"learning_rate": 1.8508737864077672e-05,
	"loss": 0.149,
	"step": 1920
	},
	{
	"epoch": 18.74,
	"learning_rate": 1.850097087378641e-05,
	"loss": 0.0426,
	"step": 1930
	},
	{
	"epoch": 18.83,
	"learning_rate": 1.8493203883495147e-05,
	"loss": 0.1248,
	"step": 1940
	},
	{
	"epoch": 18.93,
	"learning_rate": 1.8485436893203886e-05,
	"loss": 0.1527,
	"step": 1950
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.0702158659696579,
	"eval_runtime": 0.9693,
	"eval_samples_per_second": 150.63,
	"eval_steps_per_second": 19.603,
	"step": 1957
	},
	{
	"epoch": 19.03,
	"learning_rate": 1.847766990291262e-05,
	"loss": 0.0963,
	"step": 1960
	},
	{
	"epoch": 19.13,
	"learning_rate": 1.846990291262136e-05,
	"loss": 0.1038,
	"step": 1970
	},
	{
	"epoch": 19.22,
	"learning_rate": 1.8462135922330097e-05,
	"loss": 0.0276,
	"step": 1980
	},
	{
	"epoch": 19.32,
	"learning_rate": 1.8454368932038836e-05,
	"loss": 0.2018,
	"step": 1990
	},
	{
	"epoch": 19.42,
	"learning_rate": 1.8446601941747575e-05,
	"loss": 0.1405,
	"step": 2000
	},
	{
	"epoch": 19.51,
	"learning_rate": 1.843883495145631e-05,
	"loss": 0.0337,
	"step": 2010
	},
	{
	"epoch": 19.61,
	"learning_rate": 1.843106796116505e-05,
	"loss": 0.1076,
	"step": 2020
	},
	{
	"epoch": 19.71,
	"learning_rate": 1.842330097087379e-05,
	"loss": 0.1037,
	"step": 2030
	},
	{
	"epoch": 19.81,
	"learning_rate": 1.8415533980582525e-05,
	"loss": 0.0665,
	"step": 2040
	},
	{
	"epoch": 19.9,
	"learning_rate": 1.8407766990291264e-05,
	"loss": 0.1567,
	"step": 2050
	},
	{
	"epoch": 20.0,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.0682,
	"step": 2060
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.06622537225484848,
	"eval_runtime": 0.9584,
	"eval_samples_per_second": 152.335,
	"eval_steps_per_second": 19.824,
	"step": 2060
	},
	{
	"epoch": 20.1,
	"learning_rate": 1.839223300970874e-05,
	"loss": 0.0995,
	"step": 2070
	},
	{
	"epoch": 20.19,
	"learning_rate": 1.838446601941748e-05,
	"loss": 0.0921,
	"step": 2080
	},
	{
	"epoch": 20.29,
	"learning_rate": 1.8376699029126214e-05,
	"loss": 0.2157,
	"step": 2090
	},
	{
	"epoch": 20.39,
	"learning_rate": 1.8368932038834953e-05,
	"loss": 0.1321,
	"step": 2100
	},
	{
	"epoch": 20.49,
	"learning_rate": 1.836116504854369e-05,
	"loss": 0.0957,
	"step": 2110
	},
	{
	"epoch": 20.58,
	"learning_rate": 1.835339805825243e-05,
	"loss": 0.2989,
	"step": 2120
	},
	{
	"epoch": 20.68,
	"learning_rate": 1.8345631067961168e-05,
	"loss": 0.2302,
	"step": 2130
	},
	{
	"epoch": 20.78,
	"learning_rate": 1.8337864077669903e-05,
	"loss": 0.1633,
	"step": 2140
	},
	{
	"epoch": 20.87,
	"learning_rate": 1.8330097087378643e-05,
	"loss": 0.0726,
	"step": 2150
	},
	{
	"epoch": 20.97,
	"learning_rate": 1.832233009708738e-05,
	"loss": 0.1013,
	"step": 2160
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.07291552424430847,
	"eval_runtime": 0.958,
	"eval_samples_per_second": 152.399,
	"eval_steps_per_second": 19.833,
	"step": 2163
	},
	{
	"epoch": 21.07,
	"learning_rate": 1.8314563106796118e-05,
	"loss": 0.0254,
	"step": 2170
	},
	{
	"epoch": 21.17,
	"learning_rate": 1.8306796116504857e-05,
	"loss": 0.1409,
	"step": 2180
	},
	{
	"epoch": 21.26,
	"learning_rate": 1.8299029126213596e-05,
	"loss": 0.0853,
	"step": 2190
	},
	{
	"epoch": 21.36,
	"learning_rate": 1.8291262135922332e-05,
	"loss": 0.131,
	"step": 2200
	},
	{
	"epoch": 21.46,
	"learning_rate": 1.828349514563107e-05,
	"loss": 0.1024,
	"step": 2210
	},
	{
	"epoch": 21.55,
	"learning_rate": 1.8275728155339807e-05,
	"loss": 0.0212,
	"step": 2220
	},
	{
	"epoch": 21.65,
	"learning_rate": 1.8267961165048546e-05,
	"loss": 0.0578,
	"step": 2230
	},
	{
	"epoch": 21.75,
	"learning_rate": 1.826019417475728e-05,
	"loss": 0.1048,
	"step": 2240
	},
	{
	"epoch": 21.84,
	"learning_rate": 1.825242718446602e-05,
	"loss": 0.0612,
	"step": 2250
	},
	{
	"epoch": 21.94,
	"learning_rate": 1.824466019417476e-05,
	"loss": 0.0807,
	"step": 2260
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.02733495458960533,
	"eval_runtime": 0.9501,
	"eval_samples_per_second": 153.673,
	"eval_steps_per_second": 19.999,
	"step": 2266
	},
	{
	"epoch": 22.04,
	"learning_rate": 1.8236893203883496e-05,
	"loss": 0.1788,
	"step": 2270
	},
	{
	"epoch": 22.14,
	"learning_rate": 1.8229126213592235e-05,
	"loss": 0.1037,
	"step": 2280
	},
	{
	"epoch": 22.23,
	"learning_rate": 1.822135922330097e-05,
	"loss": 0.0909,
	"step": 2290
	},
	{
	"epoch": 22.33,
	"learning_rate": 1.821359223300971e-05,
	"loss": 0.0597,
	"step": 2300
	},
	{
	"epoch": 22.43,
	"learning_rate": 1.820582524271845e-05,
	"loss": 0.0693,
	"step": 2310
	},
	{
	"epoch": 22.52,
	"learning_rate": 1.8198058252427185e-05,
	"loss": 0.0684,
	"step": 2320
	},
	{
	"epoch": 22.62,
	"learning_rate": 1.8190291262135924e-05,
	"loss": 0.1146,
	"step": 2330
	},
	{
	"epoch": 22.72,
	"learning_rate": 1.818252427184466e-05,
	"loss": 0.0753,
	"step": 2340
	},
	{
	"epoch": 22.82,
	"learning_rate": 1.81747572815534e-05,
	"loss": 0.0691,
	"step": 2350
	},
	{
	"epoch": 22.91,
	"learning_rate": 1.8166990291262135e-05,
	"loss": 0.0803,
	"step": 2360
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.13809683918952942,
	"eval_runtime": 0.9466,
	"eval_samples_per_second": 154.239,
	"eval_steps_per_second": 20.072,
	"step": 2369
	},
	{
	"epoch": 23.01,
	"learning_rate": 1.8159223300970878e-05,
	"loss": 0.1052,
	"step": 2370
	},
	{
	"epoch": 23.11,
	"learning_rate": 1.8151456310679613e-05,
	"loss": 0.1529,
	"step": 2380
	},
	{
	"epoch": 23.2,
	"learning_rate": 1.8143689320388353e-05,
	"loss": 0.0929,
	"step": 2390
	},
	{
	"epoch": 23.3,
	"learning_rate": 1.813592233009709e-05,
	"loss": 0.1057,
	"step": 2400
	},
	{
	"epoch": 23.4,
	"learning_rate": 1.8128155339805828e-05,
	"loss": 0.0545,
	"step": 2410
	},
	{
	"epoch": 23.5,
	"learning_rate": 1.8120388349514563e-05,
	"loss": 0.0632,
	"step": 2420
	},
	{
	"epoch": 23.59,
	"learning_rate": 1.8112621359223303e-05,
	"loss": 0.0276,
	"step": 2430
	},
	{
	"epoch": 23.69,
	"learning_rate": 1.8104854368932042e-05,
	"loss": 0.0976,
	"step": 2440
	},
	{
	"epoch": 23.79,
	"learning_rate": 1.8097087378640778e-05,
	"loss": 0.087,
	"step": 2450
	},
	{
	"epoch": 23.88,
	"learning_rate": 1.8089320388349517e-05,
	"loss": 0.248,
	"step": 2460
	},
	{
	"epoch": 23.98,
	"learning_rate": 1.8081553398058253e-05,
	"loss": 0.0972,
	"step": 2470
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.025691555812954903,
	"eval_runtime": 0.9246,
	"eval_samples_per_second": 157.902,
	"eval_steps_per_second": 20.549,
	"step": 2472
	},
	{
	"epoch": 24.08,
	"learning_rate": 1.8073786407766992e-05,
	"loss": 0.1732,
	"step": 2480
	},
	{
	"epoch": 24.17,
	"learning_rate": 1.8066019417475728e-05,
	"loss": 0.0377,
	"step": 2490
	},
	{
	"epoch": 24.27,
	"learning_rate": 1.8058252427184467e-05,
	"loss": 0.0686,
	"step": 2500
	},
	{
	"epoch": 24.37,
	"learning_rate": 1.8050485436893206e-05,
	"loss": 0.0926,
	"step": 2510
	},
	{
	"epoch": 24.47,
	"learning_rate": 1.8042718446601942e-05,
	"loss": 0.079,
	"step": 2520
	},
	{
	"epoch": 24.56,
	"learning_rate": 1.803495145631068e-05,
	"loss": 0.0477,
	"step": 2530
	},
	{
	"epoch": 24.66,
	"learning_rate": 1.802718446601942e-05,
	"loss": 0.0554,
	"step": 2540
	},
	{
	"epoch": 24.76,
	"learning_rate": 1.8019417475728156e-05,
	"loss": 0.0732,
	"step": 2550
	},
	{
	"epoch": 24.85,
	"learning_rate": 1.8011650485436895e-05,
	"loss": 0.0215,
	"step": 2560
	},
	{
	"epoch": 24.95,
	"learning_rate": 1.8003883495145634e-05,
	"loss": 0.0173,
	"step": 2570
	},
	{
	"epoch": 25.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.05056421086192131,
	"eval_runtime": 0.9345,
	"eval_samples_per_second": 156.232,
	"eval_steps_per_second": 20.332,
	"step": 2575
	},
	{
	"epoch": 25.05,
	"learning_rate": 1.799611650485437e-05,
	"loss": 0.0749,
	"step": 2580
	},
	{
	"epoch": 25.15,
	"learning_rate": 1.798834951456311e-05,
	"loss": 0.0437,
	"step": 2590
	},
	{
	"epoch": 25.24,
	"learning_rate": 1.7980582524271845e-05,
	"loss": 0.0748,
	"step": 2600
	},
	{
	"epoch": 25.34,
	"learning_rate": 1.7972815533980584e-05,
	"loss": 0.04,
	"step": 2610
	},
	{
	"epoch": 25.44,
	"learning_rate": 1.7965048543689323e-05,
	"loss": 0.0721,
	"step": 2620
	},
	{
	"epoch": 25.53,
	"learning_rate": 1.795728155339806e-05,
	"loss": 0.143,
	"step": 2630
	},
	{
	"epoch": 25.63,
	"learning_rate": 1.79495145631068e-05,
	"loss": 0.185,
	"step": 2640
	},
	{
	"epoch": 25.73,
	"learning_rate": 1.7941747572815534e-05,
	"loss": 0.0379,
	"step": 2650
	},
	{
	"epoch": 25.83,
	"learning_rate": 1.7933980582524273e-05,
	"loss": 0.1209,
	"step": 2660
	},
	{
	"epoch": 25.92,
	"learning_rate": 1.792621359223301e-05,
	"loss": 0.075,
	"step": 2670
	},
	{
	"epoch": 26.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.09800746291875839,
	"eval_runtime": 0.9365,
	"eval_samples_per_second": 155.906,
	"eval_steps_per_second": 20.289,
	"step": 2678
	},
	{
	"epoch": 26.02,
	"learning_rate": 1.791844660194175e-05,
	"loss": 0.0662,
	"step": 2680
	},
	{
	"epoch": 26.12,
	"learning_rate": 1.7910679611650488e-05,
	"loss": 0.0206,
	"step": 2690
	},
	{
	"epoch": 26.21,
	"learning_rate": 1.7902912621359227e-05,
	"loss": 0.0576,
	"step": 2700
	},
	{
	"epoch": 26.31,
	"learning_rate": 1.7895145631067963e-05,
	"loss": 0.0479,
	"step": 2710
	},
	{
	"epoch": 26.41,
	"learning_rate": 1.7887378640776702e-05,
	"loss": 0.039,
	"step": 2720
	},
	{
	"epoch": 26.5,
	"learning_rate": 1.7879611650485438e-05,
	"loss": 0.0851,
	"step": 2730
	},
	{
	"epoch": 26.6,
	"learning_rate": 1.7871844660194177e-05,
	"loss": 0.1626,
	"step": 2740
	},
	{
	"epoch": 26.7,
	"learning_rate": 1.7864077669902916e-05,
	"loss": 0.079,
	"step": 2750
	},
	{
	"epoch": 26.8,
	"learning_rate": 1.7856310679611652e-05,
	"loss": 0.0268,
	"step": 2760
	},
	{
	"epoch": 26.89,
	"learning_rate": 1.784854368932039e-05,
	"loss": 0.0656,
	"step": 2770
	},
	{
	"epoch": 26.99,
	"learning_rate": 1.7840776699029127e-05,
	"loss": 0.1103,
	"step": 2780
	},
	{
	"epoch": 27.0,
	"eval_accuracy": 0.958904109589041,
	"eval_loss": 0.10835416615009308,
	"eval_runtime": 0.9504,
	"eval_samples_per_second": 153.614,
	"eval_steps_per_second": 19.991,
	"step": 2781
	},
	{
	"epoch": 27.09,
	"learning_rate": 1.7833009708737866e-05,
	"loss": 0.0675,
	"step": 2790
	},
	{
	"epoch": 27.18,
	"learning_rate": 1.7825242718446602e-05,
	"loss": 0.183,
	"step": 2800
	},
	{
	"epoch": 27.28,
	"learning_rate": 1.781747572815534e-05,
	"loss": 0.0763,
	"step": 2810
	},
	{
	"epoch": 27.38,
	"learning_rate": 1.780970873786408e-05,
	"loss": 0.0298,
	"step": 2820
	},
	{
	"epoch": 27.48,
	"learning_rate": 1.7801941747572816e-05,
	"loss": 0.1811,
	"step": 2830
	},
	{
	"epoch": 27.57,
	"learning_rate": 1.7794174757281555e-05,
	"loss": 0.0562,
	"step": 2840
	},
	{
	"epoch": 27.67,
	"learning_rate": 1.778640776699029e-05,
	"loss": 0.146,
	"step": 2850
	},
	{
	"epoch": 27.77,
	"learning_rate": 1.777864077669903e-05,
	"loss": 0.0538,
	"step": 2860
	},
	{
	"epoch": 27.86,
	"learning_rate": 1.7770873786407766e-05,
	"loss": 0.1454,
	"step": 2870
	},
	{
	"epoch": 27.96,
	"learning_rate": 1.776310679611651e-05,
	"loss": 0.0622,
	"step": 2880
	},
	{
	"epoch": 28.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.02398013137280941,
	"eval_runtime": 0.9144,
	"eval_samples_per_second": 159.669,
	"eval_steps_per_second": 20.779,
	"step": 2884
	},
	{
	"epoch": 28.06,
	"learning_rate": 1.7755339805825244e-05,
	"loss": 0.1488,
	"step": 2890
	},
	{
	"epoch": 28.16,
	"learning_rate": 1.7747572815533983e-05,
	"loss": 0.0624,
	"step": 2900
	},
	{
	"epoch": 28.25,
	"learning_rate": 1.773980582524272e-05,
	"loss": 0.0144,
	"step": 2910
	},
	{
	"epoch": 28.35,
	"learning_rate": 1.773203883495146e-05,
	"loss": 0.0935,
	"step": 2920
	},
	{
	"epoch": 28.45,
	"learning_rate": 1.7724271844660194e-05,
	"loss": 0.1088,
	"step": 2930
	},
	{
	"epoch": 28.54,
	"learning_rate": 1.7716504854368933e-05,
	"loss": 0.0121,
	"step": 2940
	},
	{
	"epoch": 28.64,
	"learning_rate": 1.7708737864077673e-05,
	"loss": 0.0328,
	"step": 2950
	},
	{
	"epoch": 28.74,
	"learning_rate": 1.770097087378641e-05,
	"loss": 0.0876,
	"step": 2960
	},
	{
	"epoch": 28.83,
	"learning_rate": 1.7693203883495148e-05,
	"loss": 0.0872,
	"step": 2970
	},
	{
	"epoch": 28.93,
	"learning_rate": 1.7685436893203883e-05,
	"loss": 0.0126,
	"step": 2980
	},
	{
	"epoch": 29.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.03914155438542366,
	"eval_runtime": 0.9262,
	"eval_samples_per_second": 157.634,
	"eval_steps_per_second": 20.514,
	"step": 2987
	},
	{
	"epoch": 29.03,
	"learning_rate": 1.7677669902912623e-05,
	"loss": 0.0274,
	"step": 2990
	},
	{
	"epoch": 29.13,
	"learning_rate": 1.7669902912621362e-05,
	"loss": 0.0635,
	"step": 3000
	},
	{
	"epoch": 29.22,
	"learning_rate": 1.7662135922330098e-05,
	"loss": 0.1097,
	"step": 3010
	},
	{
	"epoch": 29.32,
	"learning_rate": 1.7654368932038837e-05,
	"loss": 0.1493,
	"step": 3020
	},
	{
	"epoch": 29.42,
	"learning_rate": 1.7646601941747576e-05,
	"loss": 0.0423,
	"step": 3030
	},
	{
	"epoch": 29.51,
	"learning_rate": 1.7638834951456312e-05,
	"loss": 0.1211,
	"step": 3040
	},
	{
	"epoch": 29.61,
	"learning_rate": 1.763106796116505e-05,
	"loss": 0.0614,
	"step": 3050
	},
	{
	"epoch": 29.71,
	"learning_rate": 1.7623300970873787e-05,
	"loss": 0.0644,
	"step": 3060
	},
	{
	"epoch": 29.81,
	"learning_rate": 1.7615533980582526e-05,
	"loss": 0.0784,
	"step": 3070
	},
	{
	"epoch": 29.9,
	"learning_rate": 1.7607766990291265e-05,
	"loss": 0.156,
	"step": 3080
	},
	{
	"epoch": 30.0,
	"learning_rate": 1.76e-05,
	"loss": 0.082,
	"step": 3090
	},
	{
	"epoch": 30.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.08485659211874008,
	"eval_runtime": 0.9382,
	"eval_samples_per_second": 155.618,
	"eval_steps_per_second": 20.252,
	"step": 3090
	},
	{
	"epoch": 30.1,
	"learning_rate": 1.759223300970874e-05,
	"loss": 0.2005,
	"step": 3100
	},
	{
	"epoch": 30.19,
	"learning_rate": 1.7584466019417476e-05,
	"loss": 0.322,
	"step": 3110
	},
	{
	"epoch": 30.29,
	"learning_rate": 1.7576699029126215e-05,
	"loss": 0.0765,
	"step": 3120
	},
	{
	"epoch": 30.39,
	"learning_rate": 1.7568932038834954e-05,
	"loss": 0.0799,
	"step": 3130
	},
	{
	"epoch": 30.49,
	"learning_rate": 1.756116504854369e-05,
	"loss": 0.0892,
	"step": 3140
	},
	{
	"epoch": 30.58,
	"learning_rate": 1.755339805825243e-05,
	"loss": 0.0932,
	"step": 3150
	},
	{
	"epoch": 30.68,
	"learning_rate": 1.7545631067961165e-05,
	"loss": 0.0882,
	"step": 3160
	},
	{
	"epoch": 30.78,
	"learning_rate": 1.7537864077669904e-05,
	"loss": 0.0714,
	"step": 3170
	},
	{
	"epoch": 30.87,
	"learning_rate": 1.753009708737864e-05,
	"loss": 0.0537,
	"step": 3180
	},
	{
	"epoch": 30.97,
	"learning_rate": 1.7522330097087383e-05,
	"loss": 0.0203,
	"step": 3190
	},
	{
	"epoch": 31.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.019243279471993446,
	"eval_runtime": 0.9242,
	"eval_samples_per_second": 157.974,
	"eval_steps_per_second": 20.558,
	"step": 3193
	},
	{
	"epoch": 31.07,
	"learning_rate": 1.751456310679612e-05,
	"loss": 0.1567,
	"step": 3200
	},
	{
	"epoch": 31.17,
	"learning_rate": 1.7506796116504858e-05,
	"loss": 0.0829,
	"step": 3210
	},
	{
	"epoch": 31.26,
	"learning_rate": 1.7499029126213593e-05,
	"loss": 0.0259,
	"step": 3220
	},
	{
	"epoch": 31.36,
	"learning_rate": 1.7491262135922333e-05,
	"loss": 0.0337,
	"step": 3230
	},
	{
	"epoch": 31.46,
	"learning_rate": 1.748349514563107e-05,
	"loss": 0.0407,
	"step": 3240
	},
	{
	"epoch": 31.55,
	"learning_rate": 1.7475728155339808e-05,
	"loss": 0.1494,
	"step": 3250
	},
	{
	"epoch": 31.65,
	"learning_rate": 1.7467961165048547e-05,
	"loss": 0.1308,
	"step": 3260
	},
	{
	"epoch": 31.75,
	"learning_rate": 1.7460194174757283e-05,
	"loss": 0.0744,
	"step": 3270
	},
	{
	"epoch": 31.84,
	"learning_rate": 1.7452427184466022e-05,
	"loss": 0.059,
	"step": 3280
	},
	{
	"epoch": 31.94,
	"learning_rate": 1.7444660194174758e-05,
	"loss": 0.1044,
	"step": 3290
	},
	{
	"epoch": 32.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.11390157043933868,
	"eval_runtime": 0.9599,
	"eval_samples_per_second": 152.1,
	"eval_steps_per_second": 19.794,
	"step": 3296
	},
	{
	"epoch": 32.04,
	"learning_rate": 1.7436893203883497e-05,
	"loss": 0.1431,
	"step": 3300
	},
	{
	"epoch": 32.14,
	"learning_rate": 1.7429126213592233e-05,
	"loss": 0.0207,
	"step": 3310
	},
	{
	"epoch": 32.23,
	"learning_rate": 1.7421359223300972e-05,
	"loss": 0.1726,
	"step": 3320
	},
	{
	"epoch": 32.33,
	"learning_rate": 1.741359223300971e-05,
	"loss": 0.0813,
	"step": 3330
	},
	{
	"epoch": 32.43,
	"learning_rate": 1.7405825242718447e-05,
	"loss": 0.1417,
	"step": 3340
	},
	{
	"epoch": 32.52,
	"learning_rate": 1.7398058252427186e-05,
	"loss": 0.036,
	"step": 3350
	},
	{
	"epoch": 32.62,
	"learning_rate": 1.7390291262135922e-05,
	"loss": 0.065,
	"step": 3360
	},
	{
	"epoch": 32.72,
	"learning_rate": 1.738252427184466e-05,
	"loss": 0.0654,
	"step": 3370
	},
	{
	"epoch": 32.82,
	"learning_rate": 1.73747572815534e-05,
	"loss": 0.0311,
	"step": 3380
	},
	{
	"epoch": 32.91,
	"learning_rate": 1.736699029126214e-05,
	"loss": 0.0134,
	"step": 3390
	},
	{
	"epoch": 33.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.057724058628082275,
	"eval_runtime": 0.9176,
	"eval_samples_per_second": 159.114,
	"eval_steps_per_second": 20.707,
	"step": 3399
	},
	{
	"epoch": 33.01,
	"learning_rate": 1.7359223300970875e-05,
	"loss": 0.0149,
	"step": 3400
	},
	{
	"epoch": 33.11,
	"learning_rate": 1.7351456310679614e-05,
	"loss": 0.1328,
	"step": 3410
	},
	{
	"epoch": 33.2,
	"learning_rate": 1.734368932038835e-05,
	"loss": 0.0303,
	"step": 3420
	},
	{
	"epoch": 33.3,
	"learning_rate": 1.733592233009709e-05,
	"loss": 0.0764,
	"step": 3430
	},
	{
	"epoch": 33.4,
	"learning_rate": 1.732815533980583e-05,
	"loss": 0.0176,
	"step": 3440
	},
	{
	"epoch": 33.5,
	"learning_rate": 1.7320388349514564e-05,
	"loss": 0.0133,
	"step": 3450
	},
	{
	"epoch": 33.59,
	"learning_rate": 1.7312621359223303e-05,
	"loss": 0.2035,
	"step": 3460
	},
	{
	"epoch": 33.69,
	"learning_rate": 1.730485436893204e-05,
	"loss": 0.0844,
	"step": 3470
	},
	{
	"epoch": 33.79,
	"learning_rate": 1.729708737864078e-05,
	"loss": 0.062,
	"step": 3480
	},
	{
	"epoch": 33.88,
	"learning_rate": 1.7289320388349514e-05,
	"loss": 0.0381,
	"step": 3490
	},
	{
	"epoch": 33.98,
	"learning_rate": 1.7281553398058253e-05,
	"loss": 0.0923,
	"step": 3500
	},
	{
	"epoch": 34.0,
	"eval_accuracy": 0.958904109589041,
	"eval_loss": 0.182390034198761,
	"eval_runtime": 0.9423,
	"eval_samples_per_second": 154.946,
	"eval_steps_per_second": 20.164,
	"step": 3502
	},
	{
	"epoch": 34.08,
	"learning_rate": 1.7273786407766993e-05,
	"loss": 0.044,
	"step": 3510
	},
	{
	"epoch": 34.17,
	"learning_rate": 1.726601941747573e-05,
	"loss": 0.0188,
	"step": 3520
	},
	{
	"epoch": 34.27,
	"learning_rate": 1.7258252427184468e-05,
	"loss": 0.0863,
	"step": 3530
	},
	{
	"epoch": 34.37,
	"learning_rate": 1.7250485436893207e-05,
	"loss": 0.1034,
	"step": 3540
	},
	{
	"epoch": 34.47,
	"learning_rate": 1.7242718446601943e-05,
	"loss": 0.0148,
	"step": 3550
	},
	{
	"epoch": 34.56,
	"learning_rate": 1.7234951456310682e-05,
	"loss": 0.0083,
	"step": 3560
	},
	{
	"epoch": 34.66,
	"learning_rate": 1.722718446601942e-05,
	"loss": 0.0313,
	"step": 3570
	},
	{
	"epoch": 34.76,
	"learning_rate": 1.7219417475728157e-05,
	"loss": 0.1949,
	"step": 3580
	},
	{
	"epoch": 34.85,
	"learning_rate": 1.7211650485436896e-05,
	"loss": 0.0643,
	"step": 3590
	},
	{
	"epoch": 34.95,
	"learning_rate": 1.7203883495145632e-05,
	"loss": 0.1156,
	"step": 3600
	},
	{
	"epoch": 35.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.022417498752474785,
	"eval_runtime": 0.9325,
	"eval_samples_per_second": 156.574,
	"eval_steps_per_second": 20.376,
	"step": 3605
	},
	{
	"epoch": 35.05,
	"learning_rate": 1.719611650485437e-05,
	"loss": 0.1949,
	"step": 3610
	},
	{
	"epoch": 35.15,
	"learning_rate": 1.7188349514563107e-05,
	"loss": 0.0527,
	"step": 3620
	},
	{
	"epoch": 35.24,
	"learning_rate": 1.7180582524271846e-05,
	"loss": 0.0105,
	"step": 3630
	},
	{
	"epoch": 35.34,
	"learning_rate": 1.7172815533980585e-05,
	"loss": 0.1182,
	"step": 3640
	},
	{
	"epoch": 35.44,
	"learning_rate": 1.716504854368932e-05,
	"loss": 0.0799,
	"step": 3650
	},
	{
	"epoch": 35.53,
	"learning_rate": 1.715728155339806e-05,
	"loss": 0.1506,
	"step": 3660
	},
	{
	"epoch": 35.63,
	"learning_rate": 1.7149514563106796e-05,
	"loss": 0.1022,
	"step": 3670
	},
	{
	"epoch": 35.73,
	"learning_rate": 1.7141747572815535e-05,
	"loss": 0.0591,
	"step": 3680
	},
	{
	"epoch": 35.83,
	"learning_rate": 1.713398058252427e-05,
	"loss": 0.0083,
	"step": 3690
	},
	{
	"epoch": 35.92,
	"learning_rate": 1.7126213592233013e-05,
	"loss": 0.0161,
	"step": 3700
	},
	{
	"epoch": 36.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03223036974668503,
	"eval_runtime": 0.926,
	"eval_samples_per_second": 157.661,
	"eval_steps_per_second": 20.518,
	"step": 3708
	},
	{
	"epoch": 36.02,
	"learning_rate": 1.711844660194175e-05,
	"loss": 0.1174,
	"step": 3710
	},
	{
	"epoch": 36.12,
	"learning_rate": 1.711067961165049e-05,
	"loss": 0.0884,
	"step": 3720
	},
	{
	"epoch": 36.21,
	"learning_rate": 1.7102912621359224e-05,
	"loss": 0.0085,
	"step": 3730
	},
	{
	"epoch": 36.31,
	"learning_rate": 1.7095145631067963e-05,
	"loss": 0.1102,
	"step": 3740
	},
	{
	"epoch": 36.41,
	"learning_rate": 1.70873786407767e-05,
	"loss": 0.1087,
	"step": 3750
	},
	{
	"epoch": 36.5,
	"learning_rate": 1.707961165048544e-05,
	"loss": 0.0612,
	"step": 3760
	},
	{
	"epoch": 36.6,
	"learning_rate": 1.7071844660194178e-05,
	"loss": 0.0383,
	"step": 3770
	},
	{
	"epoch": 36.7,
	"learning_rate": 1.7064077669902913e-05,
	"loss": 0.021,
	"step": 3780
	},
	{
	"epoch": 36.8,
	"learning_rate": 1.7056310679611653e-05,
	"loss": 0.1188,
	"step": 3790
	},
	{
	"epoch": 36.89,
	"learning_rate": 1.704854368932039e-05,
	"loss": 0.0805,
	"step": 3800
	},
	{
	"epoch": 36.99,
	"learning_rate": 1.7040776699029128e-05,
	"loss": 0.0754,
	"step": 3810
	},
	{
	"epoch": 37.0,
	"eval_accuracy": 0.9726027397260274,
	"eval_loss": 0.10264816880226135,
	"eval_runtime": 0.9208,
	"eval_samples_per_second": 158.561,
	"eval_steps_per_second": 20.635,
	"step": 3811
	},
	{
	"epoch": 37.09,
	"learning_rate": 1.7033009708737867e-05,
	"loss": 0.012,
	"step": 3820
	},
	{
	"epoch": 37.18,
	"learning_rate": 1.7025242718446603e-05,
	"loss": 0.0646,
	"step": 3830
	},
	{
	"epoch": 37.28,
	"learning_rate": 1.7017475728155342e-05,
	"loss": 0.0136,
	"step": 3840
	},
	{
	"epoch": 37.38,
	"learning_rate": 1.7009708737864078e-05,
	"loss": 0.0409,
	"step": 3850
	},
	{
	"epoch": 37.48,
	"learning_rate": 1.7001941747572817e-05,
	"loss": 0.109,
	"step": 3860
	},
	{
	"epoch": 37.57,
	"learning_rate": 1.6994174757281553e-05,
	"loss": 0.0205,
	"step": 3870
	},
	{
	"epoch": 37.67,
	"learning_rate": 1.6986407766990292e-05,
	"loss": 0.1262,
	"step": 3880
	},
	{
	"epoch": 37.77,
	"learning_rate": 1.697864077669903e-05,
	"loss": 0.1535,
	"step": 3890
	},
	{
	"epoch": 37.86,
	"learning_rate": 1.697087378640777e-05,
	"loss": 0.0292,
	"step": 3900
	},
	{
	"epoch": 37.96,
	"learning_rate": 1.6963106796116506e-05,
	"loss": 0.0356,
	"step": 3910
	},
	{
	"epoch": 38.0,
	"eval_accuracy": 0.952054794520548,
	"eval_loss": 0.25439009070396423,
	"eval_runtime": 0.9243,
	"eval_samples_per_second": 157.958,
	"eval_steps_per_second": 20.556,
	"step": 3914
	},
	{
	"epoch": 38.06,
	"learning_rate": 1.6955339805825245e-05,
	"loss": 0.1842,
	"step": 3920
	},
	{
	"epoch": 38.16,
	"learning_rate": 1.694757281553398e-05,
	"loss": 0.1801,
	"step": 3930
	},
	{
	"epoch": 38.25,
	"learning_rate": 1.693980582524272e-05,
	"loss": 0.0089,
	"step": 3940
	},
	{
	"epoch": 38.35,
	"learning_rate": 1.693203883495146e-05,
	"loss": 0.0289,
	"step": 3950
	},
	{
	"epoch": 38.45,
	"learning_rate": 1.6924271844660195e-05,
	"loss": 0.0536,
	"step": 3960
	},
	{
	"epoch": 38.54,
	"learning_rate": 1.6916504854368934e-05,
	"loss": 0.1036,
	"step": 3970
	},
	{
	"epoch": 38.64,
	"learning_rate": 1.690873786407767e-05,
	"loss": 0.0112,
	"step": 3980
	},
	{
	"epoch": 38.74,
	"learning_rate": 1.690097087378641e-05,
	"loss": 0.008,
	"step": 3990
	},
	{
	"epoch": 38.83,
	"learning_rate": 1.6893203883495145e-05,
	"loss": 0.0183,
	"step": 4000
	},
	{
	"epoch": 38.93,
	"learning_rate": 1.6885436893203884e-05,
	"loss": 0.008,
	"step": 4010
	},
	{
	"epoch": 39.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.10272617638111115,
	"eval_runtime": 0.9261,
	"eval_samples_per_second": 157.656,
	"eval_steps_per_second": 20.517,
	"step": 4017
	},
	{
	"epoch": 39.03,
	"learning_rate": 1.6877669902912623e-05,
	"loss": 0.1074,
	"step": 4020
	},
	{
	"epoch": 39.13,
	"learning_rate": 1.686990291262136e-05,
	"loss": 0.1753,
	"step": 4030
	},
	{
	"epoch": 39.22,
	"learning_rate": 1.68621359223301e-05,
	"loss": 0.0181,
	"step": 4040
	},
	{
	"epoch": 39.32,
	"learning_rate": 1.6854368932038838e-05,
	"loss": 0.0541,
	"step": 4050
	},
	{
	"epoch": 39.42,
	"learning_rate": 1.6846601941747573e-05,
	"loss": 0.1461,
	"step": 4060
	},
	{
	"epoch": 39.51,
	"learning_rate": 1.6838834951456313e-05,
	"loss": 0.1556,
	"step": 4070
	},
	{
	"epoch": 39.61,
	"learning_rate": 1.6831067961165052e-05,
	"loss": 0.0072,
	"step": 4080
	},
	{
	"epoch": 39.71,
	"learning_rate": 1.6823300970873788e-05,
	"loss": 0.1443,
	"step": 4090
	},
	{
	"epoch": 39.81,
	"learning_rate": 1.6815533980582527e-05,
	"loss": 0.0272,
	"step": 4100
	},
	{
	"epoch": 39.9,
	"learning_rate": 1.6807766990291263e-05,
	"loss": 0.0404,
	"step": 4110
	},
	{
	"epoch": 40.0,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 0.1293,
	"step": 4120
	},
	{
	"epoch": 40.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.06097627803683281,
	"eval_runtime": 0.961,
	"eval_samples_per_second": 151.929,
	"eval_steps_per_second": 19.772,
	"step": 4120
	},
	{
	"epoch": 40.1,
	"learning_rate": 1.6792233009708738e-05,
	"loss": 0.0466,
	"step": 4130
	},
	{
	"epoch": 40.19,
	"learning_rate": 1.6784466019417477e-05,
	"loss": 0.0499,
	"step": 4140
	},
	{
	"epoch": 40.29,
	"learning_rate": 1.6776699029126216e-05,
	"loss": 0.1867,
	"step": 4150
	},
	{
	"epoch": 40.39,
	"learning_rate": 1.6768932038834952e-05,
	"loss": 0.0198,
	"step": 4160
	},
	{
	"epoch": 40.49,
	"learning_rate": 1.676116504854369e-05,
	"loss": 0.0074,
	"step": 4170
	},
	{
	"epoch": 40.58,
	"learning_rate": 1.6753398058252427e-05,
	"loss": 0.0624,
	"step": 4180
	},
	{
	"epoch": 40.68,
	"learning_rate": 1.6745631067961166e-05,
	"loss": 0.0607,
	"step": 4190
	},
	{
	"epoch": 40.78,
	"learning_rate": 1.6737864077669905e-05,
	"loss": 0.0749,
	"step": 4200
	},
	{
	"epoch": 40.87,
	"learning_rate": 1.6730097087378644e-05,
	"loss": 0.0066,
	"step": 4210
	},
	{
	"epoch": 40.97,
	"learning_rate": 1.672233009708738e-05,
	"loss": 0.0578,
	"step": 4220
	},
	{
	"epoch": 41.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.08583226799964905,
	"eval_runtime": 0.9345,
	"eval_samples_per_second": 156.24,
	"eval_steps_per_second": 20.333,
	"step": 4223
	},
	{
	"epoch": 41.07,
	"learning_rate": 1.671456310679612e-05,
	"loss": 0.1032,
	"step": 4230
	},
	{
	"epoch": 41.17,
	"learning_rate": 1.6706796116504855e-05,
	"loss": 0.0544,
	"step": 4240
	},
	{
	"epoch": 41.26,
	"learning_rate": 1.6699029126213594e-05,
	"loss": 0.1737,
	"step": 4250
	},
	{
	"epoch": 41.36,
	"learning_rate": 1.669126213592233e-05,
	"loss": 0.0807,
	"step": 4260
	},
	{
	"epoch": 41.46,
	"learning_rate": 1.668349514563107e-05,
	"loss": 0.0775,
	"step": 4270
	},
	{
	"epoch": 41.55,
	"learning_rate": 1.667572815533981e-05,
	"loss": 0.0672,
	"step": 4280
	},
	{
	"epoch": 41.65,
	"learning_rate": 1.6667961165048544e-05,
	"loss": 0.049,
	"step": 4290
	},
	{
	"epoch": 41.75,
	"learning_rate": 1.6660194174757283e-05,
	"loss": 0.1505,
	"step": 4300
	},
	{
	"epoch": 41.84,
	"learning_rate": 1.665242718446602e-05,
	"loss": 0.1309,
	"step": 4310
	},
	{
	"epoch": 41.94,
	"learning_rate": 1.664466019417476e-05,
	"loss": 0.0528,
	"step": 4320
	},
	{
	"epoch": 42.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.09928789734840393,
	"eval_runtime": 0.9576,
	"eval_samples_per_second": 152.464,
	"eval_steps_per_second": 19.841,
	"step": 4326
	},
	{
	"epoch": 42.04,
	"learning_rate": 1.6636893203883498e-05,
	"loss": 0.1204,
	"step": 4330
	},
	{
	"epoch": 42.14,
	"learning_rate": 1.6629126213592233e-05,
	"loss": 0.0681,
	"step": 4340
	},
	{
	"epoch": 42.23,
	"learning_rate": 1.6621359223300973e-05,
	"loss": 0.1064,
	"step": 4350
	},
	{
	"epoch": 42.33,
	"learning_rate": 1.661359223300971e-05,
	"loss": 0.0672,
	"step": 4360
	},
	{
	"epoch": 42.43,
	"learning_rate": 1.6605825242718448e-05,
	"loss": 0.0494,
	"step": 4370
	},
	{
	"epoch": 42.52,
	"learning_rate": 1.6598058252427183e-05,
	"loss": 0.0866,
	"step": 4380
	},
	{
	"epoch": 42.62,
	"learning_rate": 1.6590291262135926e-05,
	"loss": 0.0385,
	"step": 4390
	},
	{
	"epoch": 42.72,
	"learning_rate": 1.6582524271844662e-05,
	"loss": 0.0143,
	"step": 4400
	},
	{
	"epoch": 42.82,
	"learning_rate": 1.65747572815534e-05,
	"loss": 0.014,
	"step": 4410
	},
	{
	"epoch": 42.91,
	"learning_rate": 1.6566990291262137e-05,
	"loss": 0.0886,
	"step": 4420
	},
	{
	"epoch": 43.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03256027027964592,
	"eval_runtime": 0.9428,
	"eval_samples_per_second": 154.855,
	"eval_steps_per_second": 20.152,
	"step": 4429
	},
	{
	"epoch": 43.01,
	"learning_rate": 1.6559223300970876e-05,
	"loss": 0.0291,
	"step": 4430
	},
	{
	"epoch": 43.11,
	"learning_rate": 1.6551456310679612e-05,
	"loss": 0.0058,
	"step": 4440
	},
	{
	"epoch": 43.2,
	"learning_rate": 1.654368932038835e-05,
	"loss": 0.0331,
	"step": 4450
	},
	{
	"epoch": 43.3,
	"learning_rate": 1.653592233009709e-05,
	"loss": 0.2086,
	"step": 4460
	},
	{
	"epoch": 43.4,
	"learning_rate": 1.6528155339805826e-05,
	"loss": 0.0081,
	"step": 4470
	},
	{
	"epoch": 43.5,
	"learning_rate": 1.6520388349514565e-05,
	"loss": 0.0051,
	"step": 4480
	},
	{
	"epoch": 43.59,
	"learning_rate": 1.65126213592233e-05,
	"loss": 0.2006,
	"step": 4490
	},
	{
	"epoch": 43.69,
	"learning_rate": 1.650485436893204e-05,
	"loss": 0.0789,
	"step": 4500
	},
	{
	"epoch": 43.79,
	"learning_rate": 1.6497087378640776e-05,
	"loss": 0.0571,
	"step": 4510
	},
	{
	"epoch": 43.88,
	"learning_rate": 1.6489320388349515e-05,
	"loss": 0.0509,
	"step": 4520
	},
	{
	"epoch": 43.98,
	"learning_rate": 1.6481553398058254e-05,
	"loss": 0.0254,
	"step": 4530
	},
	{
	"epoch": 44.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03951861709356308,
	"eval_runtime": 0.9204,
	"eval_samples_per_second": 158.634,
	"eval_steps_per_second": 20.644,
	"step": 4532
	},
	{
	"epoch": 44.08,
	"learning_rate": 1.647378640776699e-05,
	"loss": 0.0554,
	"step": 4540
	},
	{
	"epoch": 44.17,
	"learning_rate": 1.646601941747573e-05,
	"loss": 0.1147,
	"step": 4550
	},
	{
	"epoch": 44.27,
	"learning_rate": 1.645825242718447e-05,
	"loss": 0.0991,
	"step": 4560
	},
	{
	"epoch": 44.37,
	"learning_rate": 1.6450485436893204e-05,
	"loss": 0.0387,
	"step": 4570
	},
	{
	"epoch": 44.47,
	"learning_rate": 1.6442718446601943e-05,
	"loss": 0.0065,
	"step": 4580
	},
	{
	"epoch": 44.56,
	"learning_rate": 1.6434951456310683e-05,
	"loss": 0.0062,
	"step": 4590
	},
	{
	"epoch": 44.66,
	"learning_rate": 1.642718446601942e-05,
	"loss": 0.0337,
	"step": 4600
	},
	{
	"epoch": 44.76,
	"learning_rate": 1.6419417475728158e-05,
	"loss": 0.0792,
	"step": 4610
	},
	{
	"epoch": 44.85,
	"learning_rate": 1.6411650485436893e-05,
	"loss": 0.1339,
	"step": 4620
	},
	{
	"epoch": 44.95,
	"learning_rate": 1.6403883495145633e-05,
	"loss": 0.0087,
	"step": 4630
	},
	{
	"epoch": 45.0,
	"eval_accuracy": 0.958904109589041,
	"eval_loss": 0.1797976791858673,
	"eval_runtime": 0.9137,
	"eval_samples_per_second": 159.792,
	"eval_steps_per_second": 20.795,
	"step": 4635
	},
	{
	"epoch": 45.05,
	"learning_rate": 1.6396116504854372e-05,
	"loss": 0.0471,
	"step": 4640
	},
	{
	"epoch": 45.15,
	"learning_rate": 1.6388349514563108e-05,
	"loss": 0.2771,
	"step": 4650
	},
	{
	"epoch": 45.24,
	"learning_rate": 1.6380582524271847e-05,
	"loss": 0.0076,
	"step": 4660
	},
	{
	"epoch": 45.34,
	"learning_rate": 1.6372815533980583e-05,
	"loss": 0.0712,
	"step": 4670
	},
	{
	"epoch": 45.44,
	"learning_rate": 1.6365048543689322e-05,
	"loss": 0.0652,
	"step": 4680
	},
	{
	"epoch": 45.53,
	"learning_rate": 1.6357281553398058e-05,
	"loss": 0.0174,
	"step": 4690
	},
	{
	"epoch": 45.63,
	"learning_rate": 1.6349514563106797e-05,
	"loss": 0.0869,
	"step": 4700
	},
	{
	"epoch": 45.73,
	"learning_rate": 1.6341747572815536e-05,
	"loss": 0.0263,
	"step": 4710
	},
	{
	"epoch": 45.83,
	"learning_rate": 1.6333980582524275e-05,
	"loss": 0.1847,
	"step": 4720
	},
	{
	"epoch": 45.92,
	"learning_rate": 1.632621359223301e-05,
	"loss": 0.0736,
	"step": 4730
	},
	{
	"epoch": 46.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.0322740375995636,
	"eval_runtime": 0.9527,
	"eval_samples_per_second": 153.246,
	"eval_steps_per_second": 19.943,
	"step": 4738
	},
	{
	"epoch": 46.02,
	"learning_rate": 1.631844660194175e-05,
	"loss": 0.0529,
	"step": 4740
	},
	{
	"epoch": 46.12,
	"learning_rate": 1.6310679611650486e-05,
	"loss": 0.0063,
	"step": 4750
	},
	{
	"epoch": 46.21,
	"learning_rate": 1.6302912621359225e-05,
	"loss": 0.0516,
	"step": 4760
	},
	{
	"epoch": 46.31,
	"learning_rate": 1.6295145631067964e-05,
	"loss": 0.0302,
	"step": 4770
	},
	{
	"epoch": 46.41,
	"learning_rate": 1.62873786407767e-05,
	"loss": 0.0122,
	"step": 4780
	},
	{
	"epoch": 46.5,
	"learning_rate": 1.627961165048544e-05,
	"loss": 0.1734,
	"step": 4790
	},
	{
	"epoch": 46.6,
	"learning_rate": 1.6271844660194175e-05,
	"loss": 0.0983,
	"step": 4800
	},
	{
	"epoch": 46.7,
	"learning_rate": 1.6264077669902914e-05,
	"loss": 0.1147,
	"step": 4810
	},
	{
	"epoch": 46.8,
	"learning_rate": 1.625631067961165e-05,
	"loss": 0.0177,
	"step": 4820
	},
	{
	"epoch": 46.89,
	"learning_rate": 1.624854368932039e-05,
	"loss": 0.0644,
	"step": 4830
	},
	{
	"epoch": 46.99,
	"learning_rate": 1.624077669902913e-05,
	"loss": 0.0427,
	"step": 4840
	},
	{
	"epoch": 47.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03598255664110184,
	"eval_runtime": 0.9233,
	"eval_samples_per_second": 158.128,
	"eval_steps_per_second": 20.578,
	"step": 4841
	},
	{
	"epoch": 47.09,
	"learning_rate": 1.6233009708737864e-05,
	"loss": 0.0146,
	"step": 4850
	},
	{
	"epoch": 47.18,
	"learning_rate": 1.6225242718446603e-05,
	"loss": 0.0297,
	"step": 4860
	},
	{
	"epoch": 47.28,
	"learning_rate": 1.621747572815534e-05,
	"loss": 0.0042,
	"step": 4870
	},
	{
	"epoch": 47.38,
	"learning_rate": 1.620970873786408e-05,
	"loss": 0.0157,
	"step": 4880
	},
	{
	"epoch": 47.48,
	"learning_rate": 1.6201941747572814e-05,
	"loss": 0.0753,
	"step": 4890
	},
	{
	"epoch": 47.57,
	"learning_rate": 1.6194174757281557e-05,
	"loss": 0.1388,
	"step": 4900
	},
	{
	"epoch": 47.67,
	"learning_rate": 1.6186407766990293e-05,
	"loss": 0.0326,
	"step": 4910
	},
	{
	"epoch": 47.77,
	"learning_rate": 1.6178640776699032e-05,
	"loss": 0.1892,
	"step": 4920
	},
	{
	"epoch": 47.86,
	"learning_rate": 1.6170873786407768e-05,
	"loss": 0.0573,
	"step": 4930
	},
	{
	"epoch": 47.96,
	"learning_rate": 1.6163106796116507e-05,
	"loss": 0.0322,
	"step": 4940
	},
	{
	"epoch": 48.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.05355680733919144,
	"eval_runtime": 0.9463,
	"eval_samples_per_second": 154.291,
	"eval_steps_per_second": 20.079,
	"step": 4944
	},
	{
	"epoch": 48.06,
	"learning_rate": 1.6155339805825243e-05,
	"loss": 0.1167,
	"step": 4950
	},
	{
	"epoch": 48.16,
	"learning_rate": 1.6147572815533982e-05,
	"loss": 0.0333,
	"step": 4960
	},
	{
	"epoch": 48.25,
	"learning_rate": 1.613980582524272e-05,
	"loss": 0.2643,
	"step": 4970
	},
	{
	"epoch": 48.35,
	"learning_rate": 1.6132038834951457e-05,
	"loss": 0.0314,
	"step": 4980
	},
	{
	"epoch": 48.45,
	"learning_rate": 1.6124271844660196e-05,
	"loss": 0.0281,
	"step": 4990
	},
	{
	"epoch": 48.54,
	"learning_rate": 1.6116504854368932e-05,
	"loss": 0.0865,
	"step": 5000
	},
	{
	"epoch": 48.64,
	"learning_rate": 1.610873786407767e-05,
	"loss": 0.1104,
	"step": 5010
	},
	{
	"epoch": 48.74,
	"learning_rate": 1.610097087378641e-05,
	"loss": 0.0059,
	"step": 5020
	},
	{
	"epoch": 48.83,
	"learning_rate": 1.6093203883495146e-05,
	"loss": 0.0419,
	"step": 5030
	},
	{
	"epoch": 48.93,
	"learning_rate": 1.6085436893203885e-05,
	"loss": 0.0499,
	"step": 5040
	},
	{
	"epoch": 49.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.035887837409973145,
	"eval_runtime": 0.9776,
	"eval_samples_per_second": 149.343,
	"eval_steps_per_second": 19.435,
	"step": 5047
	},
	{
	"epoch": 49.03,
	"learning_rate": 1.6077669902912624e-05,
	"loss": 0.062,
	"step": 5050
	},
	{
	"epoch": 49.13,
	"learning_rate": 1.606990291262136e-05,
	"loss": 0.0114,
	"step": 5060
	},
	{
	"epoch": 49.22,
	"learning_rate": 1.60621359223301e-05,
	"loss": 0.1428,
	"step": 5070
	},
	{
	"epoch": 49.32,
	"learning_rate": 1.6054368932038835e-05,
	"loss": 0.0259,
	"step": 5080
	},
	{
	"epoch": 49.42,
	"learning_rate": 1.6046601941747574e-05,
	"loss": 0.0047,
	"step": 5090
	},
	{
	"epoch": 49.51,
	"learning_rate": 1.6038834951456313e-05,
	"loss": 0.0825,
	"step": 5100
	},
	{
	"epoch": 49.61,
	"learning_rate": 1.603106796116505e-05,
	"loss": 0.1709,
	"step": 5110
	},
	{
	"epoch": 49.71,
	"learning_rate": 1.602330097087379e-05,
	"loss": 0.0343,
	"step": 5120
	},
	{
	"epoch": 49.81,
	"learning_rate": 1.6015533980582524e-05,
	"loss": 0.0675,
	"step": 5130
	},
	{
	"epoch": 49.9,
	"learning_rate": 1.6007766990291263e-05,
	"loss": 0.0356,
	"step": 5140
	},
	{
	"epoch": 50.0,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.0234,
	"step": 5150
	},
	{
	"epoch": 50.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.01597742550075054,
	"eval_runtime": 0.9767,
	"eval_samples_per_second": 149.48,
	"eval_steps_per_second": 19.453,
	"step": 5150
	},
	{
	"epoch": 50.1,
	"learning_rate": 1.599223300970874e-05,
	"loss": 0.1435,
	"step": 5160
	},
	{
	"epoch": 50.19,
	"learning_rate": 1.5984466019417478e-05,
	"loss": 0.1082,
	"step": 5170
	},
	{
	"epoch": 50.29,
	"learning_rate": 1.5976699029126213e-05,
	"loss": 0.0888,
	"step": 5180
	},
	{
	"epoch": 50.39,
	"learning_rate": 1.5968932038834953e-05,
	"loss": 0.0825,
	"step": 5190
	},
	{
	"epoch": 50.49,
	"learning_rate": 1.596116504854369e-05,
	"loss": 0.1063,
	"step": 5200
	},
	{
	"epoch": 50.58,
	"learning_rate": 1.595339805825243e-05,
	"loss": 0.0379,
	"step": 5210
	},
	{
	"epoch": 50.68,
	"learning_rate": 1.5945631067961167e-05,
	"loss": 0.0053,
	"step": 5220
	},
	{
	"epoch": 50.78,
	"learning_rate": 1.5937864077669906e-05,
	"loss": 0.0691,
	"step": 5230
	},
	{
	"epoch": 50.87,
	"learning_rate": 1.5930097087378642e-05,
	"loss": 0.0763,
	"step": 5240
	},
	{
	"epoch": 50.97,
	"learning_rate": 1.592233009708738e-05,
	"loss": 0.0896,
	"step": 5250
	},
	{
	"epoch": 51.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.054553717374801636,
	"eval_runtime": 0.9405,
	"eval_samples_per_second": 155.229,
	"eval_steps_per_second": 20.201,
	"step": 5253
	},
	{
	"epoch": 51.07,
	"learning_rate": 1.5914563106796117e-05,
	"loss": 0.0095,
	"step": 5260
	},
	{
	"epoch": 51.17,
	"learning_rate": 1.5906796116504856e-05,
	"loss": 0.0832,
	"step": 5270
	},
	{
	"epoch": 51.26,
	"learning_rate": 1.5899029126213595e-05,
	"loss": 0.0357,
	"step": 5280
	},
	{
	"epoch": 51.36,
	"learning_rate": 1.589126213592233e-05,
	"loss": 0.0705,
	"step": 5290
	},
	{
	"epoch": 51.46,
	"learning_rate": 1.588349514563107e-05,
	"loss": 0.0749,
	"step": 5300
	},
	{
	"epoch": 51.55,
	"learning_rate": 1.5875728155339806e-05,
	"loss": 0.0785,
	"step": 5310
	},
	{
	"epoch": 51.65,
	"learning_rate": 1.5867961165048545e-05,
	"loss": 0.0107,
	"step": 5320
	},
	{
	"epoch": 51.75,
	"learning_rate": 1.586019417475728e-05,
	"loss": 0.0292,
	"step": 5330
	},
	{
	"epoch": 51.84,
	"learning_rate": 1.585242718446602e-05,
	"loss": 0.0349,
	"step": 5340
	},
	{
	"epoch": 51.94,
	"learning_rate": 1.584466019417476e-05,
	"loss": 0.1089,
	"step": 5350
	},
	{
	"epoch": 52.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.06735321879386902,
	"eval_runtime": 0.9363,
	"eval_samples_per_second": 155.931,
	"eval_steps_per_second": 20.292,
	"step": 5356
	},
	{
	"epoch": 52.04,
	"learning_rate": 1.5836893203883495e-05,
	"loss": 0.0729,
	"step": 5360
	},
	{
	"epoch": 52.14,
	"learning_rate": 1.5829126213592234e-05,
	"loss": 0.226,
	"step": 5370
	},
	{
	"epoch": 52.23,
	"learning_rate": 1.582135922330097e-05,
	"loss": 0.1495,
	"step": 5380
	},
	{
	"epoch": 52.33,
	"learning_rate": 1.581359223300971e-05,
	"loss": 0.1037,
	"step": 5390
	},
	{
	"epoch": 52.43,
	"learning_rate": 1.580582524271845e-05,
	"loss": 0.0258,
	"step": 5400
	},
	{
	"epoch": 52.52,
	"learning_rate": 1.5798058252427188e-05,
	"loss": 0.0822,
	"step": 5410
	},
	{
	"epoch": 52.62,
	"learning_rate": 1.5790291262135923e-05,
	"loss": 0.0039,
	"step": 5420
	},
	{
	"epoch": 52.72,
	"learning_rate": 1.5782524271844663e-05,
	"loss": 0.1656,
	"step": 5430
	},
	{
	"epoch": 52.82,
	"learning_rate": 1.57747572815534e-05,
	"loss": 0.0786,
	"step": 5440
	},
	{
	"epoch": 52.91,
	"learning_rate": 1.5766990291262138e-05,
	"loss": 0.1473,
	"step": 5450
	},
	{
	"epoch": 53.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03693979233503342,
	"eval_runtime": 0.9352,
	"eval_samples_per_second": 156.119,
	"eval_steps_per_second": 20.317,
	"step": 5459
	},
	{
	"epoch": 53.01,
	"learning_rate": 1.5759223300970877e-05,
	"loss": 0.1319,
	"step": 5460
	},
	{
	"epoch": 53.11,
	"learning_rate": 1.5751456310679613e-05,
	"loss": 0.0548,
	"step": 5470
	},
	{
	"epoch": 53.2,
	"learning_rate": 1.5743689320388352e-05,
	"loss": 0.1589,
	"step": 5480
	},
	{
	"epoch": 53.3,
	"learning_rate": 1.5735922330097088e-05,
	"loss": 0.0182,
	"step": 5490
	},
	{
	"epoch": 53.4,
	"learning_rate": 1.5728155339805827e-05,
	"loss": 0.0687,
	"step": 5500
	},
	{
	"epoch": 53.5,
	"learning_rate": 1.5720388349514563e-05,
	"loss": 0.0477,
	"step": 5510
	},
	{
	"epoch": 53.59,
	"learning_rate": 1.5712621359223302e-05,
	"loss": 0.0341,
	"step": 5520
	},
	{
	"epoch": 53.69,
	"learning_rate": 1.570485436893204e-05,
	"loss": 0.0338,
	"step": 5530
	},
	{
	"epoch": 53.79,
	"learning_rate": 1.5697087378640777e-05,
	"loss": 0.0927,
	"step": 5540
	},
	{
	"epoch": 53.88,
	"learning_rate": 1.5689320388349516e-05,
	"loss": 0.119,
	"step": 5550
	},
	{
	"epoch": 53.98,
	"learning_rate": 1.5681553398058255e-05,
	"loss": 0.0346,
	"step": 5560
	},
	{
	"epoch": 54.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.03953592851758003,
	"eval_runtime": 0.9234,
	"eval_samples_per_second": 158.116,
	"eval_steps_per_second": 20.577,
	"step": 5562
	},
	{
	"epoch": 54.08,
	"learning_rate": 1.567378640776699e-05,
	"loss": 0.0527,
	"step": 5570
	},
	{
	"epoch": 54.17,
	"learning_rate": 1.566601941747573e-05,
	"loss": 0.17,
	"step": 5580
	},
	{
	"epoch": 54.27,
	"learning_rate": 1.565825242718447e-05,
	"loss": 0.0102,
	"step": 5590
	},
	{
	"epoch": 54.37,
	"learning_rate": 1.5650485436893205e-05,
	"loss": 0.0073,
	"step": 5600
	},
	{
	"epoch": 54.47,
	"learning_rate": 1.5642718446601944e-05,
	"loss": 0.0288,
	"step": 5610
	},
	{
	"epoch": 54.56,
	"learning_rate": 1.563495145631068e-05,
	"loss": 0.0455,
	"step": 5620
	},
	{
	"epoch": 54.66,
	"learning_rate": 1.562718446601942e-05,
	"loss": 0.0343,
	"step": 5630
	},
	{
	"epoch": 54.76,
	"learning_rate": 1.5619417475728155e-05,
	"loss": 0.0179,
	"step": 5640
	},
	{
	"epoch": 54.85,
	"learning_rate": 1.5611650485436894e-05,
	"loss": 0.0116,
	"step": 5650
	},
	{
	"epoch": 54.95,
	"learning_rate": 1.5603883495145634e-05,
	"loss": 0.1742,
	"step": 5660
	},
	{
	"epoch": 55.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03901122882962227,
	"eval_runtime": 0.9237,
	"eval_samples_per_second": 158.058,
	"eval_steps_per_second": 20.569,
	"step": 5665
	},
	{
	"epoch": 55.05,
	"learning_rate": 1.559611650485437e-05,
	"loss": 0.0043,
	"step": 5670
	},
	{
	"epoch": 55.15,
	"learning_rate": 1.558834951456311e-05,
	"loss": 0.0422,
	"step": 5680
	},
	{
	"epoch": 55.24,
	"learning_rate": 1.5580582524271844e-05,
	"loss": 0.0032,
	"step": 5690
	},
	{
	"epoch": 55.34,
	"learning_rate": 1.5572815533980583e-05,
	"loss": 0.0043,
	"step": 5700
	},
	{
	"epoch": 55.44,
	"learning_rate": 1.556504854368932e-05,
	"loss": 0.099,
	"step": 5710
	},
	{
	"epoch": 55.53,
	"learning_rate": 1.5557281553398062e-05,
	"loss": 0.0195,
	"step": 5720
	},
	{
	"epoch": 55.63,
	"learning_rate": 1.5549514563106798e-05,
	"loss": 0.1299,
	"step": 5730
	},
	{
	"epoch": 55.73,
	"learning_rate": 1.5541747572815537e-05,
	"loss": 0.0038,
	"step": 5740
	},
	{
	"epoch": 55.83,
	"learning_rate": 1.5533980582524273e-05,
	"loss": 0.0479,
	"step": 5750
	},
	{
	"epoch": 55.92,
	"learning_rate": 1.5526213592233012e-05,
	"loss": 0.0788,
	"step": 5760
	},
	{
	"epoch": 56.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.055711355060338974,
	"eval_runtime": 0.9412,
	"eval_samples_per_second": 155.121,
	"eval_steps_per_second": 20.187,
	"step": 5768
	},
	{
	"epoch": 56.02,
	"learning_rate": 1.5518446601941748e-05,
	"loss": 0.1459,
	"step": 5770
	},
	{
	"epoch": 56.12,
	"learning_rate": 1.5510679611650487e-05,
	"loss": 0.067,
	"step": 5780
	},
	{
	"epoch": 56.21,
	"learning_rate": 1.5502912621359226e-05,
	"loss": 0.056,
	"step": 5790
	},
	{
	"epoch": 56.31,
	"learning_rate": 1.5495145631067962e-05,
	"loss": 0.0233,
	"step": 5800
	},
	{
	"epoch": 56.41,
	"learning_rate": 1.54873786407767e-05,
	"loss": 0.1362,
	"step": 5810
	},
	{
	"epoch": 56.5,
	"learning_rate": 1.5479611650485437e-05,
	"loss": 0.092,
	"step": 5820
	},
	{
	"epoch": 56.6,
	"learning_rate": 1.5471844660194176e-05,
	"loss": 0.0779,
	"step": 5830
	},
	{
	"epoch": 56.7,
	"learning_rate": 1.5464077669902915e-05,
	"loss": 0.0401,
	"step": 5840
	},
	{
	"epoch": 56.8,
	"learning_rate": 1.545631067961165e-05,
	"loss": 0.0743,
	"step": 5850
	},
	{
	"epoch": 56.89,
	"learning_rate": 1.544854368932039e-05,
	"loss": 0.0751,
	"step": 5860
	},
	{
	"epoch": 56.99,
	"learning_rate": 1.5440776699029126e-05,
	"loss": 0.12,
	"step": 5870
	},
	{
	"epoch": 57.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.04083726927638054,
	"eval_runtime": 0.9215,
	"eval_samples_per_second": 158.439,
	"eval_steps_per_second": 20.619,
	"step": 5871
	},
	{
	"epoch": 57.09,
	"learning_rate": 1.5433009708737865e-05,
	"loss": 0.0554,
	"step": 5880
	},
	{
	"epoch": 57.18,
	"learning_rate": 1.54252427184466e-05,
	"loss": 0.0277,
	"step": 5890
	},
	{
	"epoch": 57.28,
	"learning_rate": 1.541747572815534e-05,
	"loss": 0.0297,
	"step": 5900
	},
	{
	"epoch": 57.38,
	"learning_rate": 1.540970873786408e-05,
	"loss": 0.0304,
	"step": 5910
	},
	{
	"epoch": 57.48,
	"learning_rate": 1.540194174757282e-05,
	"loss": 0.1162,
	"step": 5920
	},
	{
	"epoch": 57.57,
	"learning_rate": 1.5394174757281554e-05,
	"loss": 0.0031,
	"step": 5930
	},
	{
	"epoch": 57.67,
	"learning_rate": 1.5386407766990294e-05,
	"loss": 0.0263,
	"step": 5940
	},
	{
	"epoch": 57.77,
	"learning_rate": 1.537864077669903e-05,
	"loss": 0.0255,
	"step": 5950
	},
	{
	"epoch": 57.86,
	"learning_rate": 1.537087378640777e-05,
	"loss": 0.1066,
	"step": 5960
	},
	{
	"epoch": 57.96,
	"learning_rate": 1.5363106796116508e-05,
	"loss": 0.0952,
	"step": 5970
	},
	{
	"epoch": 58.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.04665667563676834,
	"eval_runtime": 0.9277,
	"eval_samples_per_second": 157.377,
	"eval_steps_per_second": 20.481,
	"step": 5974
	},
	{
	"epoch": 58.06,
	"learning_rate": 1.5355339805825243e-05,
	"loss": 0.0915,
	"step": 5980
	},
	{
	"epoch": 58.16,
	"learning_rate": 1.5347572815533983e-05,
	"loss": 0.0818,
	"step": 5990
	},
	{
	"epoch": 58.25,
	"learning_rate": 1.533980582524272e-05,
	"loss": 0.1942,
	"step": 6000
	},
	{
	"epoch": 58.35,
	"learning_rate": 1.5332038834951458e-05,
	"loss": 0.0257,
	"step": 6010
	},
	{
	"epoch": 58.45,
	"learning_rate": 1.5324271844660193e-05,
	"loss": 0.2663,
	"step": 6020
	},
	{
	"epoch": 58.54,
	"learning_rate": 1.5316504854368933e-05,
	"loss": 0.1124,
	"step": 6030
	},
	{
	"epoch": 58.64,
	"learning_rate": 1.5308737864077672e-05,
	"loss": 0.1751,
	"step": 6040
	},
	{
	"epoch": 58.74,
	"learning_rate": 1.5300970873786408e-05,
	"loss": 0.06,
	"step": 6050
	},
	{
	"epoch": 58.83,
	"learning_rate": 1.5293203883495147e-05,
	"loss": 0.069,
	"step": 6060
	},
	{
	"epoch": 58.93,
	"learning_rate": 1.5285436893203886e-05,
	"loss": 0.0119,
	"step": 6070
	},
	{
	"epoch": 59.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.09355130046606064,
	"eval_runtime": 0.9076,
	"eval_samples_per_second": 160.86,
	"eval_steps_per_second": 20.934,
	"step": 6077
	},
	{
	"epoch": 59.03,
	"learning_rate": 1.5277669902912622e-05,
	"loss": 0.0037,
	"step": 6080
	},
	{
	"epoch": 59.13,
	"learning_rate": 1.526990291262136e-05,
	"loss": 0.0265,
	"step": 6090
	},
	{
	"epoch": 59.22,
	"learning_rate": 1.52621359223301e-05,
	"loss": 0.0376,
	"step": 6100
	},
	{
	"epoch": 59.32,
	"learning_rate": 1.5254368932038836e-05,
	"loss": 0.0088,
	"step": 6110
	},
	{
	"epoch": 59.42,
	"learning_rate": 1.5246601941747573e-05,
	"loss": 0.0406,
	"step": 6120
	},
	{
	"epoch": 59.51,
	"learning_rate": 1.5238834951456311e-05,
	"loss": 0.2535,
	"step": 6130
	},
	{
	"epoch": 59.61,
	"learning_rate": 1.5231067961165048e-05,
	"loss": 0.0168,
	"step": 6140
	},
	{
	"epoch": 59.71,
	"learning_rate": 1.5223300970873786e-05,
	"loss": 0.0041,
	"step": 6150
	},
	{
	"epoch": 59.81,
	"learning_rate": 1.5215533980582527e-05,
	"loss": 0.0073,
	"step": 6160
	},
	{
	"epoch": 59.9,
	"learning_rate": 1.5207766990291264e-05,
	"loss": 0.0921,
	"step": 6170
	},
	{
	"epoch": 60.0,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 0.0381,
	"step": 6180
	},
	{
	"epoch": 60.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.058126527816057205,
	"eval_runtime": 0.9237,
	"eval_samples_per_second": 158.052,
	"eval_steps_per_second": 20.568,
	"step": 6180
	},
	{
	"epoch": 60.1,
	"learning_rate": 1.519223300970874e-05,
	"loss": 0.0028,
	"step": 6190
	},
	{
	"epoch": 60.19,
	"learning_rate": 1.5184466019417477e-05,
	"loss": 0.0349,
	"step": 6200
	},
	{
	"epoch": 60.29,
	"learning_rate": 1.5176699029126214e-05,
	"loss": 0.0037,
	"step": 6210
	},
	{
	"epoch": 60.39,
	"learning_rate": 1.5168932038834954e-05,
	"loss": 0.0028,
	"step": 6220
	},
	{
	"epoch": 60.49,
	"learning_rate": 1.5161165048543691e-05,
	"loss": 0.0764,
	"step": 6230
	},
	{
	"epoch": 60.58,
	"learning_rate": 1.5153398058252429e-05,
	"loss": 0.1693,
	"step": 6240
	},
	{
	"epoch": 60.68,
	"learning_rate": 1.5145631067961166e-05,
	"loss": 0.0965,
	"step": 6250
	},
	{
	"epoch": 60.78,
	"learning_rate": 1.5137864077669904e-05,
	"loss": 0.0026,
	"step": 6260
	},
	{
	"epoch": 60.87,
	"learning_rate": 1.5130097087378641e-05,
	"loss": 0.0157,
	"step": 6270
	},
	{
	"epoch": 60.97,
	"learning_rate": 1.512233009708738e-05,
	"loss": 0.0147,
	"step": 6280
	},
	{
	"epoch": 61.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.08475180715322495,
	"eval_runtime": 0.9312,
	"eval_samples_per_second": 156.787,
	"eval_steps_per_second": 20.404,
	"step": 6283
	},
	{
	"epoch": 61.07,
	"learning_rate": 1.5114563106796118e-05,
	"loss": 0.0033,
	"step": 6290
	},
	{
	"epoch": 61.17,
	"learning_rate": 1.5106796116504855e-05,
	"loss": 0.0149,
	"step": 6300
	},
	{
	"epoch": 61.26,
	"learning_rate": 1.5099029126213593e-05,
	"loss": 0.0366,
	"step": 6310
	},
	{
	"epoch": 61.36,
	"learning_rate": 1.5091262135922332e-05,
	"loss": 0.0854,
	"step": 6320
	},
	{
	"epoch": 61.46,
	"learning_rate": 1.508349514563107e-05,
	"loss": 0.0727,
	"step": 6330
	},
	{
	"epoch": 61.55,
	"learning_rate": 1.5075728155339807e-05,
	"loss": 0.0502,
	"step": 6340
	},
	{
	"epoch": 61.65,
	"learning_rate": 1.5067961165048546e-05,
	"loss": 0.0878,
	"step": 6350
	},
	{
	"epoch": 61.75,
	"learning_rate": 1.5060194174757284e-05,
	"loss": 0.0988,
	"step": 6360
	},
	{
	"epoch": 61.84,
	"learning_rate": 1.5052427184466021e-05,
	"loss": 0.0054,
	"step": 6370
	},
	{
	"epoch": 61.94,
	"learning_rate": 1.5044660194174759e-05,
	"loss": 0.028,
	"step": 6380
	},
	{
	"epoch": 62.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.0554812066257,
	"eval_runtime": 0.9252,
	"eval_samples_per_second": 157.804,
	"eval_steps_per_second": 20.536,
	"step": 6386
	},
	{
	"epoch": 62.04,
	"learning_rate": 1.5036893203883496e-05,
	"loss": 0.0038,
	"step": 6390
	},
	{
	"epoch": 62.14,
	"learning_rate": 1.5029126213592234e-05,
	"loss": 0.1136,
	"step": 6400
	},
	{
	"epoch": 62.23,
	"learning_rate": 1.5021359223300973e-05,
	"loss": 0.0329,
	"step": 6410
	},
	{
	"epoch": 62.33,
	"learning_rate": 1.501359223300971e-05,
	"loss": 0.2072,
	"step": 6420
	},
	{
	"epoch": 62.43,
	"learning_rate": 1.5005825242718448e-05,
	"loss": 0.028,
	"step": 6430
	},
	{
	"epoch": 62.52,
	"learning_rate": 1.4998058252427185e-05,
	"loss": 0.2947,
	"step": 6440
	},
	{
	"epoch": 62.62,
	"learning_rate": 1.4990291262135923e-05,
	"loss": 0.0525,
	"step": 6450
	},
	{
	"epoch": 62.72,
	"learning_rate": 1.498252427184466e-05,
	"loss": 0.0433,
	"step": 6460
	},
	{
	"epoch": 62.82,
	"learning_rate": 1.4974757281553401e-05,
	"loss": 0.0054,
	"step": 6470
	},
	{
	"epoch": 62.91,
	"learning_rate": 1.4966990291262139e-05,
	"loss": 0.0108,
	"step": 6480
	},
	{
	"epoch": 63.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.02103378064930439,
	"eval_runtime": 0.9293,
	"eval_samples_per_second": 157.104,
	"eval_steps_per_second": 20.445,
	"step": 6489
	},
	{
	"epoch": 63.01,
	"learning_rate": 1.4959223300970876e-05,
	"loss": 0.0574,
	"step": 6490
	},
	{
	"epoch": 63.11,
	"learning_rate": 1.4951456310679614e-05,
	"loss": 0.1288,
	"step": 6500
	},
	{
	"epoch": 63.2,
	"learning_rate": 1.4943689320388351e-05,
	"loss": 0.0043,
	"step": 6510
	},
	{
	"epoch": 63.3,
	"learning_rate": 1.4935922330097089e-05,
	"loss": 0.0602,
	"step": 6520
	},
	{
	"epoch": 63.4,
	"learning_rate": 1.4928155339805826e-05,
	"loss": 0.087,
	"step": 6530
	},
	{
	"epoch": 63.5,
	"learning_rate": 1.4920388349514565e-05,
	"loss": 0.0581,
	"step": 6540
	},
	{
	"epoch": 63.59,
	"learning_rate": 1.4912621359223303e-05,
	"loss": 0.0797,
	"step": 6550
	},
	{
	"epoch": 63.69,
	"learning_rate": 1.490485436893204e-05,
	"loss": 0.1079,
	"step": 6560
	},
	{
	"epoch": 63.79,
	"learning_rate": 1.4897087378640778e-05,
	"loss": 0.0026,
	"step": 6570
	},
	{
	"epoch": 63.88,
	"learning_rate": 1.4889320388349515e-05,
	"loss": 0.004,
	"step": 6580
	},
	{
	"epoch": 63.98,
	"learning_rate": 1.4881553398058253e-05,
	"loss": 0.0845,
	"step": 6590
	},
	{
	"epoch": 64.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.01815168187022209,
	"eval_runtime": 0.957,
	"eval_samples_per_second": 152.56,
	"eval_steps_per_second": 19.854,
	"step": 6592
	},
	{
	"epoch": 64.08,
	"learning_rate": 1.4873786407766992e-05,
	"loss": 0.0624,
	"step": 6600
	},
	{
	"epoch": 64.17,
	"learning_rate": 1.486601941747573e-05,
	"loss": 0.0056,
	"step": 6610
	},
	{
	"epoch": 64.27,
	"learning_rate": 1.4858252427184467e-05,
	"loss": 0.0028,
	"step": 6620
	},
	{
	"epoch": 64.37,
	"learning_rate": 1.4850485436893204e-05,
	"loss": 0.0151,
	"step": 6630
	},
	{
	"epoch": 64.47,
	"learning_rate": 1.4842718446601942e-05,
	"loss": 0.0057,
	"step": 6640
	},
	{
	"epoch": 64.56,
	"learning_rate": 1.483495145631068e-05,
	"loss": 0.0037,
	"step": 6650
	},
	{
	"epoch": 64.66,
	"learning_rate": 1.482718446601942e-05,
	"loss": 0.0025,
	"step": 6660
	},
	{
	"epoch": 64.76,
	"learning_rate": 1.4819417475728158e-05,
	"loss": 0.0439,
	"step": 6670
	},
	{
	"epoch": 64.85,
	"learning_rate": 1.4811650485436895e-05,
	"loss": 0.0049,
	"step": 6680
	},
	{
	"epoch": 64.95,
	"learning_rate": 1.4803883495145633e-05,
	"loss": 0.0027,
	"step": 6690
	},
	{
	"epoch": 65.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.021542595699429512,
	"eval_runtime": 0.9233,
	"eval_samples_per_second": 158.125,
	"eval_steps_per_second": 20.578,
	"step": 6695
	},
	{
	"epoch": 65.05,
	"learning_rate": 1.479611650485437e-05,
	"loss": 0.0547,
	"step": 6700
	},
	{
	"epoch": 65.15,
	"learning_rate": 1.4788349514563108e-05,
	"loss": 0.0319,
	"step": 6710
	},
	{
	"epoch": 65.24,
	"learning_rate": 1.4780582524271845e-05,
	"loss": 0.0903,
	"step": 6720
	},
	{
	"epoch": 65.34,
	"learning_rate": 1.4772815533980584e-05,
	"loss": 0.1014,
	"step": 6730
	},
	{
	"epoch": 65.44,
	"learning_rate": 1.4765048543689322e-05,
	"loss": 0.0021,
	"step": 6740
	},
	{
	"epoch": 65.53,
	"learning_rate": 1.475728155339806e-05,
	"loss": 0.0146,
	"step": 6750
	},
	{
	"epoch": 65.63,
	"learning_rate": 1.4749514563106797e-05,
	"loss": 0.0188,
	"step": 6760
	},
	{
	"epoch": 65.73,
	"learning_rate": 1.4741747572815534e-05,
	"loss": 0.1414,
	"step": 6770
	},
	{
	"epoch": 65.83,
	"learning_rate": 1.4733980582524272e-05,
	"loss": 0.0898,
	"step": 6780
	},
	{
	"epoch": 65.92,
	"learning_rate": 1.4726213592233011e-05,
	"loss": 0.0852,
	"step": 6790
	},
	{
	"epoch": 66.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.03675241023302078,
	"eval_runtime": 0.9838,
	"eval_samples_per_second": 148.411,
	"eval_steps_per_second": 19.314,
	"step": 6798
	},
	{
	"epoch": 66.02,
	"learning_rate": 1.4718446601941749e-05,
	"loss": 0.0604,
	"step": 6800
	},
	{
	"epoch": 66.12,
	"learning_rate": 1.4710679611650486e-05,
	"loss": 0.0943,
	"step": 6810
	},
	{
	"epoch": 66.21,
	"learning_rate": 1.4702912621359225e-05,
	"loss": 0.1165,
	"step": 6820
	},
	{
	"epoch": 66.31,
	"learning_rate": 1.4695145631067963e-05,
	"loss": 0.0357,
	"step": 6830
	},
	{
	"epoch": 66.41,
	"learning_rate": 1.46873786407767e-05,
	"loss": 0.0481,
	"step": 6840
	},
	{
	"epoch": 66.5,
	"learning_rate": 1.467961165048544e-05,
	"loss": 0.0041,
	"step": 6850
	},
	{
	"epoch": 66.6,
	"learning_rate": 1.4671844660194177e-05,
	"loss": 0.019,
	"step": 6860
	},
	{
	"epoch": 66.7,
	"learning_rate": 1.4664077669902914e-05,
	"loss": 0.0022,
	"step": 6870
	},
	{
	"epoch": 66.8,
	"learning_rate": 1.4656310679611652e-05,
	"loss": 0.0822,
	"step": 6880
	},
	{
	"epoch": 66.89,
	"learning_rate": 1.464854368932039e-05,
	"loss": 0.0585,
	"step": 6890
	},
	{
	"epoch": 66.99,
	"learning_rate": 1.4640776699029127e-05,
	"loss": 0.0022,
	"step": 6900
	},
	{
	"epoch": 67.0,
	"eval_accuracy": 0.958904109589041,
	"eval_loss": 0.16548927128314972,
	"eval_runtime": 0.927,
	"eval_samples_per_second": 157.494,
	"eval_steps_per_second": 20.496,
	"step": 6901
	},
	{
	"epoch": 67.09,
	"learning_rate": 1.4633009708737864e-05,
	"loss": 0.0252,
	"step": 6910
	},
	{
	"epoch": 67.18,
	"learning_rate": 1.4625242718446604e-05,
	"loss": 0.1552,
	"step": 6920
	},
	{
	"epoch": 67.28,
	"learning_rate": 1.4617475728155341e-05,
	"loss": 0.0023,
	"step": 6930
	},
	{
	"epoch": 67.38,
	"learning_rate": 1.4609708737864079e-05,
	"loss": 0.0022,
	"step": 6940
	},
	{
	"epoch": 67.48,
	"learning_rate": 1.4601941747572816e-05,
	"loss": 0.0952,
	"step": 6950
	},
	{
	"epoch": 67.57,
	"learning_rate": 1.4594174757281554e-05,
	"loss": 0.0205,
	"step": 6960
	},
	{
	"epoch": 67.67,
	"learning_rate": 1.4586407766990291e-05,
	"loss": 0.0487,
	"step": 6970
	},
	{
	"epoch": 67.77,
	"learning_rate": 1.4578640776699032e-05,
	"loss": 0.002,
	"step": 6980
	},
	{
	"epoch": 67.86,
	"learning_rate": 1.457087378640777e-05,
	"loss": 0.0832,
	"step": 6990
	},
	{
	"epoch": 67.96,
	"learning_rate": 1.4563106796116507e-05,
	"loss": 0.0757,
	"step": 7000
	},
	{
	"epoch": 68.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.034192681312561035,
	"eval_runtime": 0.8958,
	"eval_samples_per_second": 162.982,
	"eval_steps_per_second": 21.21,
	"step": 7004
	},
	{
	"epoch": 68.06,
	"learning_rate": 1.4555339805825244e-05,
	"loss": 0.0993,
	"step": 7010
	},
	{
	"epoch": 68.16,
	"learning_rate": 1.4547572815533982e-05,
	"loss": 0.0503,
	"step": 7020
	},
	{
	"epoch": 68.25,
	"learning_rate": 1.453980582524272e-05,
	"loss": 0.0605,
	"step": 7030
	},
	{
	"epoch": 68.35,
	"learning_rate": 1.4532038834951459e-05,
	"loss": 0.1539,
	"step": 7040
	},
	{
	"epoch": 68.45,
	"learning_rate": 1.4524271844660196e-05,
	"loss": 0.0486,
	"step": 7050
	},
	{
	"epoch": 68.54,
	"learning_rate": 1.4516504854368934e-05,
	"loss": 0.0159,
	"step": 7060
	},
	{
	"epoch": 68.64,
	"learning_rate": 1.4508737864077671e-05,
	"loss": 0.0608,
	"step": 7070
	},
	{
	"epoch": 68.74,
	"learning_rate": 1.4500970873786409e-05,
	"loss": 0.1876,
	"step": 7080
	},
	{
	"epoch": 68.83,
	"learning_rate": 1.4493203883495146e-05,
	"loss": 0.0214,
	"step": 7090
	},
	{
	"epoch": 68.93,
	"learning_rate": 1.4485436893203884e-05,
	"loss": 0.0823,
	"step": 7100
	},
	{
	"epoch": 69.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.02801397815346718,
	"eval_runtime": 0.9051,
	"eval_samples_per_second": 161.3,
	"eval_steps_per_second": 20.991,
	"step": 7107
	},
	{
	"epoch": 69.03,
	"learning_rate": 1.4477669902912623e-05,
	"loss": 0.0045,
	"step": 7110
	},
	{
	"epoch": 69.13,
	"learning_rate": 1.446990291262136e-05,
	"loss": 0.0027,
	"step": 7120
	},
	{
	"epoch": 69.22,
	"learning_rate": 1.4462135922330098e-05,
	"loss": 0.08,
	"step": 7130
	},
	{
	"epoch": 69.32,
	"learning_rate": 1.4454368932038835e-05,
	"loss": 0.1202,
	"step": 7140
	},
	{
	"epoch": 69.42,
	"learning_rate": 1.4446601941747573e-05,
	"loss": 0.0255,
	"step": 7150
	},
	{
	"epoch": 69.51,
	"learning_rate": 1.443883495145631e-05,
	"loss": 0.0071,
	"step": 7160
	},
	{
	"epoch": 69.61,
	"learning_rate": 1.4431067961165051e-05,
	"loss": 0.0873,
	"step": 7170
	},
	{
	"epoch": 69.71,
	"learning_rate": 1.4423300970873789e-05,
	"loss": 0.0846,
	"step": 7180
	},
	{
	"epoch": 69.81,
	"learning_rate": 1.4415533980582526e-05,
	"loss": 0.1357,
	"step": 7190
	},
	{
	"epoch": 69.9,
	"learning_rate": 1.4407766990291264e-05,
	"loss": 0.082,
	"step": 7200
	},
	{
	"epoch": 70.0,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 0.1071,
	"step": 7210
	},
	{
	"epoch": 70.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.014005626551806927,
	"eval_runtime": 0.9022,
	"eval_samples_per_second": 161.82,
	"eval_steps_per_second": 21.059,
	"step": 7210
	},
	{
	"epoch": 70.1,
	"learning_rate": 1.4392233009708739e-05,
	"loss": 0.0503,
	"step": 7220
	},
	{
	"epoch": 70.19,
	"learning_rate": 1.4384466019417478e-05,
	"loss": 0.1342,
	"step": 7230
	},
	{
	"epoch": 70.29,
	"learning_rate": 1.4376699029126215e-05,
	"loss": 0.0553,
	"step": 7240
	},
	{
	"epoch": 70.39,
	"learning_rate": 1.4368932038834953e-05,
	"loss": 0.0535,
	"step": 7250
	},
	{
	"epoch": 70.49,
	"learning_rate": 1.436116504854369e-05,
	"loss": 0.0376,
	"step": 7260
	},
	{
	"epoch": 70.58,
	"learning_rate": 1.4353398058252428e-05,
	"loss": 0.0154,
	"step": 7270
	},
	{
	"epoch": 70.68,
	"learning_rate": 1.4345631067961165e-05,
	"loss": 0.0047,
	"step": 7280
	},
	{
	"epoch": 70.78,
	"learning_rate": 1.4337864077669904e-05,
	"loss": 0.0018,
	"step": 7290
	},
	{
	"epoch": 70.87,
	"learning_rate": 1.4330097087378642e-05,
	"loss": 0.0908,
	"step": 7300
	},
	{
	"epoch": 70.97,
	"learning_rate": 1.432233009708738e-05,
	"loss": 0.0832,
	"step": 7310
	},
	{
	"epoch": 71.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03868861868977547,
	"eval_runtime": 0.9162,
	"eval_samples_per_second": 159.35,
	"eval_steps_per_second": 20.737,
	"step": 7313
	},
	{
	"epoch": 71.07,
	"learning_rate": 1.4314563106796117e-05,
	"loss": 0.054,
	"step": 7320
	},
	{
	"epoch": 71.17,
	"learning_rate": 1.4306796116504856e-05,
	"loss": 0.0967,
	"step": 7330
	},
	{
	"epoch": 71.26,
	"learning_rate": 1.4299029126213594e-05,
	"loss": 0.0186,
	"step": 7340
	},
	{
	"epoch": 71.36,
	"learning_rate": 1.4291262135922331e-05,
	"loss": 0.0503,
	"step": 7350
	},
	{
	"epoch": 71.46,
	"learning_rate": 1.428349514563107e-05,
	"loss": 0.1007,
	"step": 7360
	},
	{
	"epoch": 71.55,
	"learning_rate": 1.4275728155339808e-05,
	"loss": 0.0525,
	"step": 7370
	},
	{
	"epoch": 71.65,
	"learning_rate": 1.4267961165048545e-05,
	"loss": 0.0239,
	"step": 7380
	},
	{
	"epoch": 71.75,
	"learning_rate": 1.4260194174757283e-05,
	"loss": 0.0964,
	"step": 7390
	},
	{
	"epoch": 71.84,
	"learning_rate": 1.425242718446602e-05,
	"loss": 0.0359,
	"step": 7400
	},
	{
	"epoch": 71.94,
	"learning_rate": 1.4244660194174758e-05,
	"loss": 0.0417,
	"step": 7410
	},
	{
	"epoch": 72.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.0697227343916893,
	"eval_runtime": 0.9023,
	"eval_samples_per_second": 161.815,
	"eval_steps_per_second": 21.058,
	"step": 7416
	},
	{
	"epoch": 72.04,
	"learning_rate": 1.4236893203883497e-05,
	"loss": 0.0933,
	"step": 7420
	},
	{
	"epoch": 72.14,
	"learning_rate": 1.4229126213592234e-05,
	"loss": 0.1749,
	"step": 7430
	},
	{
	"epoch": 72.23,
	"learning_rate": 1.4221359223300972e-05,
	"loss": 0.0145,
	"step": 7440
	},
	{
	"epoch": 72.33,
	"learning_rate": 1.421359223300971e-05,
	"loss": 0.0321,
	"step": 7450
	},
	{
	"epoch": 72.43,
	"learning_rate": 1.4205825242718447e-05,
	"loss": 0.0879,
	"step": 7460
	},
	{
	"epoch": 72.52,
	"learning_rate": 1.4198058252427184e-05,
	"loss": 0.0227,
	"step": 7470
	},
	{
	"epoch": 72.62,
	"learning_rate": 1.4190291262135925e-05,
	"loss": 0.1572,
	"step": 7480
	},
	{
	"epoch": 72.72,
	"learning_rate": 1.4182524271844663e-05,
	"loss": 0.0728,
	"step": 7490
	},
	{
	"epoch": 72.82,
	"learning_rate": 1.41747572815534e-05,
	"loss": 0.0045,
	"step": 7500
	},
	{
	"epoch": 72.91,
	"learning_rate": 1.4166990291262138e-05,
	"loss": 0.1208,
	"step": 7510
	},
	{
	"epoch": 73.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.07754257321357727,
	"eval_runtime": 0.8991,
	"eval_samples_per_second": 162.384,
	"eval_steps_per_second": 21.132,
	"step": 7519
	},
	{
	"epoch": 73.01,
	"learning_rate": 1.4159223300970875e-05,
	"loss": 0.0482,
	"step": 7520
	},
	{
	"epoch": 73.11,
	"learning_rate": 1.4151456310679613e-05,
	"loss": 0.0655,
	"step": 7530
	},
	{
	"epoch": 73.2,
	"learning_rate": 1.414368932038835e-05,
	"loss": 0.0787,
	"step": 7540
	},
	{
	"epoch": 73.3,
	"learning_rate": 1.413592233009709e-05,
	"loss": 0.0483,
	"step": 7550
	},
	{
	"epoch": 73.4,
	"learning_rate": 1.4128155339805827e-05,
	"loss": 0.068,
	"step": 7560
	},
	{
	"epoch": 73.5,
	"learning_rate": 1.4120388349514564e-05,
	"loss": 0.0395,
	"step": 7570
	},
	{
	"epoch": 73.59,
	"learning_rate": 1.4112621359223302e-05,
	"loss": 0.0644,
	"step": 7580
	},
	{
	"epoch": 73.69,
	"learning_rate": 1.410485436893204e-05,
	"loss": 0.0126,
	"step": 7590
	},
	{
	"epoch": 73.79,
	"learning_rate": 1.4097087378640777e-05,
	"loss": 0.0531,
	"step": 7600
	},
	{
	"epoch": 73.88,
	"learning_rate": 1.4089320388349516e-05,
	"loss": 0.0767,
	"step": 7610
	},
	{
	"epoch": 73.98,
	"learning_rate": 1.4081553398058254e-05,
	"loss": 0.0083,
	"step": 7620
	},
	{
	"epoch": 74.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.052464041858911514,
	"eval_runtime": 0.9146,
	"eval_samples_per_second": 159.624,
	"eval_steps_per_second": 20.773,
	"step": 7622
	},
	{
	"epoch": 74.08,
	"learning_rate": 1.4073786407766991e-05,
	"loss": 0.0115,
	"step": 7630
	},
	{
	"epoch": 74.17,
	"learning_rate": 1.4066019417475729e-05,
	"loss": 0.0252,
	"step": 7640
	},
	{
	"epoch": 74.27,
	"learning_rate": 1.4058252427184466e-05,
	"loss": 0.0033,
	"step": 7650
	},
	{
	"epoch": 74.37,
	"learning_rate": 1.4050485436893204e-05,
	"loss": 0.0883,
	"step": 7660
	},
	{
	"epoch": 74.47,
	"learning_rate": 1.4042718446601944e-05,
	"loss": 0.0103,
	"step": 7670
	},
	{
	"epoch": 74.56,
	"learning_rate": 1.4034951456310682e-05,
	"loss": 0.1416,
	"step": 7680
	},
	{
	"epoch": 74.66,
	"learning_rate": 1.402718446601942e-05,
	"loss": 0.0526,
	"step": 7690
	},
	{
	"epoch": 74.76,
	"learning_rate": 1.4019417475728157e-05,
	"loss": 0.0104,
	"step": 7700
	},
	{
	"epoch": 74.85,
	"learning_rate": 1.4011650485436894e-05,
	"loss": 0.1323,
	"step": 7710
	},
	{
	"epoch": 74.95,
	"learning_rate": 1.4003883495145632e-05,
	"loss": 0.0017,
	"step": 7720
	},
	{
	"epoch": 75.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.04071873798966408,
	"eval_runtime": 0.9191,
	"eval_samples_per_second": 158.853,
	"eval_steps_per_second": 20.673,
	"step": 7725
	},
	{
	"epoch": 75.05,
	"learning_rate": 1.399611650485437e-05,
	"loss": 0.0016,
	"step": 7730
	},
	{
	"epoch": 75.15,
	"learning_rate": 1.3988349514563109e-05,
	"loss": 0.0279,
	"step": 7740
	},
	{
	"epoch": 75.24,
	"learning_rate": 1.3980582524271846e-05,
	"loss": 0.0353,
	"step": 7750
	},
	{
	"epoch": 75.34,
	"learning_rate": 1.3972815533980584e-05,
	"loss": 0.0031,
	"step": 7760
	},
	{
	"epoch": 75.44,
	"learning_rate": 1.3965048543689321e-05,
	"loss": 0.0166,
	"step": 7770
	},
	{
	"epoch": 75.53,
	"learning_rate": 1.3957281553398059e-05,
	"loss": 0.0515,
	"step": 7780
	},
	{
	"epoch": 75.63,
	"learning_rate": 1.3949514563106796e-05,
	"loss": 0.0705,
	"step": 7790
	},
	{
	"epoch": 75.73,
	"learning_rate": 1.3941747572815535e-05,
	"loss": 0.1237,
	"step": 7800
	},
	{
	"epoch": 75.83,
	"learning_rate": 1.3933980582524273e-05,
	"loss": 0.087,
	"step": 7810
	},
	{
	"epoch": 75.92,
	"learning_rate": 1.392621359223301e-05,
	"loss": 0.012,
	"step": 7820
	},
	{
	"epoch": 76.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.0362648107111454,
	"eval_runtime": 0.9186,
	"eval_samples_per_second": 158.943,
	"eval_steps_per_second": 20.684,
	"step": 7828
	},
	{
	"epoch": 76.02,
	"learning_rate": 1.391844660194175e-05,
	"loss": 0.1469,
	"step": 7830
	},
	{
	"epoch": 76.12,
	"learning_rate": 1.3910679611650487e-05,
	"loss": 0.0019,
	"step": 7840
	},
	{
	"epoch": 76.21,
	"learning_rate": 1.3902912621359224e-05,
	"loss": 0.2058,
	"step": 7850
	},
	{
	"epoch": 76.31,
	"learning_rate": 1.3895145631067964e-05,
	"loss": 0.0152,
	"step": 7860
	},
	{
	"epoch": 76.41,
	"learning_rate": 1.3887378640776701e-05,
	"loss": 0.0499,
	"step": 7870
	},
	{
	"epoch": 76.5,
	"learning_rate": 1.3879611650485439e-05,
	"loss": 0.0561,
	"step": 7880
	},
	{
	"epoch": 76.6,
	"learning_rate": 1.3871844660194176e-05,
	"loss": 0.1247,
	"step": 7890
	},
	{
	"epoch": 76.7,
	"learning_rate": 1.3864077669902914e-05,
	"loss": 0.0401,
	"step": 7900
	},
	{
	"epoch": 76.8,
	"learning_rate": 1.3856310679611651e-05,
	"loss": 0.0112,
	"step": 7910
	},
	{
	"epoch": 76.89,
	"learning_rate": 1.3848543689320389e-05,
	"loss": 0.0092,
	"step": 7920
	},
	{
	"epoch": 76.99,
	"learning_rate": 1.3840776699029128e-05,
	"loss": 0.0215,
	"step": 7930
	},
	{
	"epoch": 77.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.030757028609514236,
	"eval_runtime": 0.9146,
	"eval_samples_per_second": 159.637,
	"eval_steps_per_second": 20.775,
	"step": 7931
	},
	{
	"epoch": 77.09,
	"learning_rate": 1.3833009708737865e-05,
	"loss": 0.1653,
	"step": 7940
	},
	{
	"epoch": 77.18,
	"learning_rate": 1.3825242718446603e-05,
	"loss": 0.0577,
	"step": 7950
	},
	{
	"epoch": 77.28,
	"learning_rate": 1.381747572815534e-05,
	"loss": 0.0645,
	"step": 7960
	},
	{
	"epoch": 77.38,
	"learning_rate": 1.3809708737864078e-05,
	"loss": 0.0362,
	"step": 7970
	},
	{
	"epoch": 77.48,
	"learning_rate": 1.3801941747572815e-05,
	"loss": 0.0155,
	"step": 7980
	},
	{
	"epoch": 77.57,
	"learning_rate": 1.3794174757281556e-05,
	"loss": 0.0902,
	"step": 7990
	},
	{
	"epoch": 77.67,
	"learning_rate": 1.3786407766990294e-05,
	"loss": 0.059,
	"step": 8000
	},
	{
	"epoch": 77.77,
	"learning_rate": 1.3778640776699031e-05,
	"loss": 0.0036,
	"step": 8010
	},
	{
	"epoch": 77.86,
	"learning_rate": 1.3770873786407769e-05,
	"loss": 0.0471,
	"step": 8020
	},
	{
	"epoch": 77.96,
	"learning_rate": 1.3763106796116506e-05,
	"loss": 0.0319,
	"step": 8030
	},
	{
	"epoch": 78.0,
	"eval_accuracy": 0.9726027397260274,
	"eval_loss": 0.05245841667056084,
	"eval_runtime": 0.9259,
	"eval_samples_per_second": 157.685,
	"eval_steps_per_second": 20.521,
	"step": 8034
	},
	{
	"epoch": 78.06,
	"learning_rate": 1.3755339805825244e-05,
	"loss": 0.0681,
	"step": 8040
	},
	{
	"epoch": 78.16,
	"learning_rate": 1.3747572815533983e-05,
	"loss": 0.0086,
	"step": 8050
	},
	{
	"epoch": 78.25,
	"learning_rate": 1.373980582524272e-05,
	"loss": 0.0723,
	"step": 8060
	},
	{
	"epoch": 78.35,
	"learning_rate": 1.3732038834951458e-05,
	"loss": 0.1384,
	"step": 8070
	},
	{
	"epoch": 78.45,
	"learning_rate": 1.3724271844660195e-05,
	"loss": 0.1407,
	"step": 8080
	},
	{
	"epoch": 78.54,
	"learning_rate": 1.3716504854368933e-05,
	"loss": 0.007,
	"step": 8090
	},
	{
	"epoch": 78.64,
	"learning_rate": 1.370873786407767e-05,
	"loss": 0.0528,
	"step": 8100
	},
	{
	"epoch": 78.74,
	"learning_rate": 1.370097087378641e-05,
	"loss": 0.0091,
	"step": 8110
	},
	{
	"epoch": 78.83,
	"learning_rate": 1.3693203883495147e-05,
	"loss": 0.033,
	"step": 8120
	},
	{
	"epoch": 78.93,
	"learning_rate": 1.3685436893203884e-05,
	"loss": 0.093,
	"step": 8130
	},
	{
	"epoch": 79.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.03234969452023506,
	"eval_runtime": 0.8975,
	"eval_samples_per_second": 162.673,
	"eval_steps_per_second": 21.17,
	"step": 8137
	},
	{
	"epoch": 79.03,
	"learning_rate": 1.3677669902912622e-05,
	"loss": 0.0629,
	"step": 8140
	},
	{
	"epoch": 79.13,
	"learning_rate": 1.366990291262136e-05,
	"loss": 0.0159,
	"step": 8150
	},
	{
	"epoch": 79.22,
	"learning_rate": 1.3662135922330097e-05,
	"loss": 0.011,
	"step": 8160
	},
	{
	"epoch": 79.32,
	"learning_rate": 1.3654368932038834e-05,
	"loss": 0.1088,
	"step": 8170
	},
	{
	"epoch": 79.42,
	"learning_rate": 1.3646601941747575e-05,
	"loss": 0.1116,
	"step": 8180
	},
	{
	"epoch": 79.51,
	"learning_rate": 1.3638834951456313e-05,
	"loss": 0.0462,
	"step": 8190
	},
	{
	"epoch": 79.61,
	"learning_rate": 1.363106796116505e-05,
	"loss": 0.0378,
	"step": 8200
	},
	{
	"epoch": 79.71,
	"learning_rate": 1.3623300970873788e-05,
	"loss": 0.0016,
	"step": 8210
	},
	{
	"epoch": 79.81,
	"learning_rate": 1.3615533980582525e-05,
	"loss": 0.0658,
	"step": 8220
	},
	{
	"epoch": 79.9,
	"learning_rate": 1.3607766990291263e-05,
	"loss": 0.1224,
	"step": 8230
	},
	{
	"epoch": 80.0,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 0.0813,
	"step": 8240
	},
	{
	"epoch": 80.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.04363853111863136,
	"eval_runtime": 0.9212,
	"eval_samples_per_second": 158.487,
	"eval_steps_per_second": 20.625,
	"step": 8240
	},
	{
	"epoch": 80.1,
	"learning_rate": 1.359223300970874e-05,
	"loss": 0.1413,
	"step": 8250
	},
	{
	"epoch": 80.19,
	"learning_rate": 1.3584466019417477e-05,
	"loss": 0.0308,
	"step": 8260
	},
	{
	"epoch": 80.29,
	"learning_rate": 1.3576699029126214e-05,
	"loss": 0.0483,
	"step": 8270
	},
	{
	"epoch": 80.39,
	"learning_rate": 1.3568932038834952e-05,
	"loss": 0.0162,
	"step": 8280
	},
	{
	"epoch": 80.49,
	"learning_rate": 1.356116504854369e-05,
	"loss": 0.1146,
	"step": 8290
	},
	{
	"epoch": 80.58,
	"learning_rate": 1.3553398058252429e-05,
	"loss": 0.0095,
	"step": 8300
	},
	{
	"epoch": 80.68,
	"learning_rate": 1.3545631067961166e-05,
	"loss": 0.0334,
	"step": 8310
	},
	{
	"epoch": 80.78,
	"learning_rate": 1.3537864077669904e-05,
	"loss": 0.0178,
	"step": 8320
	},
	{
	"epoch": 80.87,
	"learning_rate": 1.3530097087378641e-05,
	"loss": 0.0963,
	"step": 8330
	},
	{
	"epoch": 80.97,
	"learning_rate": 1.352233009708738e-05,
	"loss": 0.0014,
	"step": 8340
	},
	{
	"epoch": 81.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.0034924051724374294,
	"eval_runtime": 0.9228,
	"eval_samples_per_second": 158.21,
	"eval_steps_per_second": 20.589,
	"step": 8343
	},
	{
	"epoch": 81.07,
	"learning_rate": 1.3514563106796118e-05,
	"loss": 0.0019,
	"step": 8350
	},
	{
	"epoch": 81.17,
	"learning_rate": 1.3506796116504855e-05,
	"loss": 0.0013,
	"step": 8360
	},
	{
	"epoch": 81.26,
	"learning_rate": 1.3499029126213594e-05,
	"loss": 0.0016,
	"step": 8370
	},
	{
	"epoch": 81.36,
	"learning_rate": 1.3491262135922332e-05,
	"loss": 0.0363,
	"step": 8380
	},
	{
	"epoch": 81.46,
	"learning_rate": 1.348349514563107e-05,
	"loss": 0.0769,
	"step": 8390
	},
	{
	"epoch": 81.55,
	"learning_rate": 1.3475728155339807e-05,
	"loss": 0.0014,
	"step": 8400
	},
	{
	"epoch": 81.65,
	"learning_rate": 1.3467961165048544e-05,
	"loss": 0.0019,
	"step": 8410
	},
	{
	"epoch": 81.75,
	"learning_rate": 1.3460194174757282e-05,
	"loss": 0.0999,
	"step": 8420
	},
	{
	"epoch": 81.84,
	"learning_rate": 1.3452427184466021e-05,
	"loss": 0.0025,
	"step": 8430
	},
	{
	"epoch": 81.94,
	"learning_rate": 1.3444660194174759e-05,
	"loss": 0.0774,
	"step": 8440
	},
	{
	"epoch": 82.0,
	"eval_accuracy": 0.9726027397260274,
	"eval_loss": 0.10503670573234558,
	"eval_runtime": 0.9067,
	"eval_samples_per_second": 161.03,
	"eval_steps_per_second": 20.956,
	"step": 8446
	},
	{
	"epoch": 82.04,
	"learning_rate": 1.3436893203883496e-05,
	"loss": 0.0666,
	"step": 8450
	},
	{
	"epoch": 82.14,
	"learning_rate": 1.3429126213592234e-05,
	"loss": 0.0457,
	"step": 8460
	},
	{
	"epoch": 82.23,
	"learning_rate": 1.3421359223300971e-05,
	"loss": 0.0802,
	"step": 8470
	},
	{
	"epoch": 82.33,
	"learning_rate": 1.3413592233009709e-05,
	"loss": 0.0304,
	"step": 8480
	},
	{
	"epoch": 82.43,
	"learning_rate": 1.340582524271845e-05,
	"loss": 0.0012,
	"step": 8490
	},
	{
	"epoch": 82.52,
	"learning_rate": 1.3398058252427187e-05,
	"loss": 0.0039,
	"step": 8500
	},
	{
	"epoch": 82.62,
	"learning_rate": 1.3390291262135924e-05,
	"loss": 0.0734,
	"step": 8510
	},
	{
	"epoch": 82.72,
	"learning_rate": 1.3382524271844662e-05,
	"loss": 0.0466,
	"step": 8520
	},
	{
	"epoch": 82.82,
	"learning_rate": 1.33747572815534e-05,
	"loss": 0.0051,
	"step": 8530
	},
	{
	"epoch": 82.91,
	"learning_rate": 1.3366990291262137e-05,
	"loss": 0.0393,
	"step": 8540
	},
	{
	"epoch": 83.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.08058138936758041,
	"eval_runtime": 0.8979,
	"eval_samples_per_second": 162.604,
	"eval_steps_per_second": 21.161,
	"step": 8549
	},
	{
	"epoch": 83.01,
	"learning_rate": 1.3359223300970874e-05,
	"loss": 0.1685,
	"step": 8550
	},
	{
	"epoch": 83.11,
	"learning_rate": 1.3351456310679614e-05,
	"loss": 0.0016,
	"step": 8560
	},
	{
	"epoch": 83.2,
	"learning_rate": 1.3343689320388351e-05,
	"loss": 0.0839,
	"step": 8570
	},
	{
	"epoch": 83.3,
	"learning_rate": 1.3335922330097089e-05,
	"loss": 0.0922,
	"step": 8580
	},
	{
	"epoch": 83.4,
	"learning_rate": 1.3328155339805826e-05,
	"loss": 0.0146,
	"step": 8590
	},
	{
	"epoch": 83.5,
	"learning_rate": 1.3320388349514564e-05,
	"loss": 0.0014,
	"step": 8600
	},
	{
	"epoch": 83.59,
	"learning_rate": 1.3312621359223301e-05,
	"loss": 0.0269,
	"step": 8610
	},
	{
	"epoch": 83.69,
	"learning_rate": 1.330485436893204e-05,
	"loss": 0.0333,
	"step": 8620
	},
	{
	"epoch": 83.79,
	"learning_rate": 1.3297087378640778e-05,
	"loss": 0.0037,
	"step": 8630
	},
	{
	"epoch": 83.88,
	"learning_rate": 1.3289320388349515e-05,
	"loss": 0.0935,
	"step": 8640
	},
	{
	"epoch": 83.98,
	"learning_rate": 1.3281553398058253e-05,
	"loss": 0.0537,
	"step": 8650
	},
	{
	"epoch": 84.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.07363705337047577,
	"eval_runtime": 0.8825,
	"eval_samples_per_second": 165.435,
	"eval_steps_per_second": 21.529,
	"step": 8652
	},
	{
	"epoch": 84.08,
	"learning_rate": 1.327378640776699e-05,
	"loss": 0.1431,
	"step": 8660
	},
	{
	"epoch": 84.17,
	"learning_rate": 1.3266019417475728e-05,
	"loss": 0.1869,
	"step": 8670
	},
	{
	"epoch": 84.27,
	"learning_rate": 1.3258252427184469e-05,
	"loss": 0.041,
	"step": 8680
	},
	{
	"epoch": 84.37,
	"learning_rate": 1.3250485436893206e-05,
	"loss": 0.0108,
	"step": 8690
	},
	{
	"epoch": 84.47,
	"learning_rate": 1.3242718446601944e-05,
	"loss": 0.0105,
	"step": 8700
	},
	{
	"epoch": 84.56,
	"learning_rate": 1.3234951456310681e-05,
	"loss": 0.0507,
	"step": 8710
	},
	{
	"epoch": 84.66,
	"learning_rate": 1.3227184466019419e-05,
	"loss": 0.0333,
	"step": 8720
	},
	{
	"epoch": 84.76,
	"learning_rate": 1.3219417475728156e-05,
	"loss": 0.0421,
	"step": 8730
	},
	{
	"epoch": 84.85,
	"learning_rate": 1.3211650485436894e-05,
	"loss": 0.0567,
	"step": 8740
	},
	{
	"epoch": 84.95,
	"learning_rate": 1.3203883495145633e-05,
	"loss": 0.016,
	"step": 8750
	},
	{
	"epoch": 85.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.06812305748462677,
	"eval_runtime": 0.9225,
	"eval_samples_per_second": 158.264,
	"eval_steps_per_second": 20.596,
	"step": 8755
	},
	{
	"epoch": 85.05,
	"learning_rate": 1.319611650485437e-05,
	"loss": 0.0198,
	"step": 8760
	},
	{
	"epoch": 85.15,
	"learning_rate": 1.3188349514563108e-05,
	"loss": 0.1216,
	"step": 8770
	},
	{
	"epoch": 85.24,
	"learning_rate": 1.3180582524271845e-05,
	"loss": 0.0408,
	"step": 8780
	},
	{
	"epoch": 85.34,
	"learning_rate": 1.3172815533980583e-05,
	"loss": 0.0033,
	"step": 8790
	},
	{
	"epoch": 85.44,
	"learning_rate": 1.316504854368932e-05,
	"loss": 0.0379,
	"step": 8800
	},
	{
	"epoch": 85.53,
	"learning_rate": 1.315728155339806e-05,
	"loss": 0.0153,
	"step": 8810
	},
	{
	"epoch": 85.63,
	"learning_rate": 1.3149514563106797e-05,
	"loss": 0.0569,
	"step": 8820
	},
	{
	"epoch": 85.73,
	"learning_rate": 1.3141747572815534e-05,
	"loss": 0.0773,
	"step": 8830
	},
	{
	"epoch": 85.83,
	"learning_rate": 1.3133980582524274e-05,
	"loss": 0.0036,
	"step": 8840
	},
	{
	"epoch": 85.92,
	"learning_rate": 1.3126213592233011e-05,
	"loss": 0.0562,
	"step": 8850
	},
	{
	"epoch": 86.0,
	"eval_accuracy": 0.9726027397260274,
	"eval_loss": 0.13558551669120789,
	"eval_runtime": 0.9401,
	"eval_samples_per_second": 155.297,
	"eval_steps_per_second": 20.21,
	"step": 8858
	},
	{
	"epoch": 86.02,
	"learning_rate": 1.3118446601941749e-05,
	"loss": 0.0014,
	"step": 8860
	},
	{
	"epoch": 86.12,
	"learning_rate": 1.3110679611650488e-05,
	"loss": 0.0025,
	"step": 8870
	},
	{
	"epoch": 86.21,
	"learning_rate": 1.3102912621359225e-05,
	"loss": 0.0016,
	"step": 8880
	},
	{
	"epoch": 86.31,
	"learning_rate": 1.3095145631067963e-05,
	"loss": 0.0182,
	"step": 8890
	},
	{
	"epoch": 86.41,
	"learning_rate": 1.30873786407767e-05,
	"loss": 0.0062,
	"step": 8900
	},
	{
	"epoch": 86.5,
	"learning_rate": 1.3079611650485438e-05,
	"loss": 0.0416,
	"step": 8910
	},
	{
	"epoch": 86.6,
	"learning_rate": 1.3071844660194175e-05,
	"loss": 0.0296,
	"step": 8920
	},
	{
	"epoch": 86.7,
	"learning_rate": 1.3064077669902913e-05,
	"loss": 0.1365,
	"step": 8930
	},
	{
	"epoch": 86.8,
	"learning_rate": 1.3056310679611652e-05,
	"loss": 0.0012,
	"step": 8940
	},
	{
	"epoch": 86.89,
	"learning_rate": 1.304854368932039e-05,
	"loss": 0.1132,
	"step": 8950
	},
	{
	"epoch": 86.99,
	"learning_rate": 1.3040776699029127e-05,
	"loss": 0.0133,
	"step": 8960
	},
	{
	"epoch": 87.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.09805306047201157,
	"eval_runtime": 0.9311,
	"eval_samples_per_second": 156.804,
	"eval_steps_per_second": 20.406,
	"step": 8961
	},
	{
	"epoch": 87.09,
	"learning_rate": 1.3033009708737864e-05,
	"loss": 0.0237,
	"step": 8970
	},
	{
	"epoch": 87.18,
	"learning_rate": 1.3025242718446602e-05,
	"loss": 0.0895,
	"step": 8980
	},
	{
	"epoch": 87.28,
	"learning_rate": 1.301747572815534e-05,
	"loss": 0.043,
	"step": 8990
	},
	{
	"epoch": 87.38,
	"learning_rate": 1.300970873786408e-05,
	"loss": 0.0013,
	"step": 9000
	},
	{
	"epoch": 87.48,
	"learning_rate": 1.3001941747572818e-05,
	"loss": 0.1008,
	"step": 9010
	},
	{
	"epoch": 87.57,
	"learning_rate": 1.2994174757281555e-05,
	"loss": 0.1435,
	"step": 9020
	},
	{
	"epoch": 87.67,
	"learning_rate": 1.2986407766990293e-05,
	"loss": 0.0573,
	"step": 9030
	},
	{
	"epoch": 87.77,
	"learning_rate": 1.297864077669903e-05,
	"loss": 0.092,
	"step": 9040
	},
	{
	"epoch": 87.86,
	"learning_rate": 1.2970873786407768e-05,
	"loss": 0.1068,
	"step": 9050
	},
	{
	"epoch": 87.96,
	"learning_rate": 1.2963106796116507e-05,
	"loss": 0.0682,
	"step": 9060
	},
	{
	"epoch": 88.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.07209344208240509,
	"eval_runtime": 0.9453,
	"eval_samples_per_second": 154.455,
	"eval_steps_per_second": 20.1,
	"step": 9064
	},
	{
	"epoch": 88.06,
	"learning_rate": 1.2955339805825244e-05,
	"loss": 0.0018,
	"step": 9070
	},
	{
	"epoch": 88.16,
	"learning_rate": 1.2947572815533982e-05,
	"loss": 0.1112,
	"step": 9080
	},
	{
	"epoch": 88.25,
	"learning_rate": 1.293980582524272e-05,
	"loss": 0.0071,
	"step": 9090
	},
	{
	"epoch": 88.35,
	"learning_rate": 1.2932038834951457e-05,
	"loss": 0.0061,
	"step": 9100
	},
	{
	"epoch": 88.45,
	"learning_rate": 1.2924271844660194e-05,
	"loss": 0.1292,
	"step": 9110
	},
	{
	"epoch": 88.54,
	"learning_rate": 1.2916504854368934e-05,
	"loss": 0.0175,
	"step": 9120
	},
	{
	"epoch": 88.64,
	"learning_rate": 1.2908737864077671e-05,
	"loss": 0.04,
	"step": 9130
	},
	{
	"epoch": 88.74,
	"learning_rate": 1.2900970873786409e-05,
	"loss": 0.0015,
	"step": 9140
	},
	{
	"epoch": 88.83,
	"learning_rate": 1.2893203883495146e-05,
	"loss": 0.0422,
	"step": 9150
	},
	{
	"epoch": 88.93,
	"learning_rate": 1.2885436893203884e-05,
	"loss": 0.0514,
	"step": 9160
	},
	{
	"epoch": 89.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.060059912502765656,
	"eval_runtime": 0.9117,
	"eval_samples_per_second": 160.14,
	"eval_steps_per_second": 20.84,
	"step": 9167
	},
	{
	"epoch": 89.03,
	"learning_rate": 1.2877669902912621e-05,
	"loss": 0.0129,
	"step": 9170
	},
	{
	"epoch": 89.13,
	"learning_rate": 1.2869902912621359e-05,
	"loss": 0.0148,
	"step": 9180
	},
	{
	"epoch": 89.22,
	"learning_rate": 1.28621359223301e-05,
	"loss": 0.0098,
	"step": 9190
	},
	{
	"epoch": 89.32,
	"learning_rate": 1.2854368932038837e-05,
	"loss": 0.0552,
	"step": 9200
	},
	{
	"epoch": 89.42,
	"learning_rate": 1.2846601941747574e-05,
	"loss": 0.0969,
	"step": 9210
	},
	{
	"epoch": 89.51,
	"learning_rate": 1.2838834951456312e-05,
	"loss": 0.0018,
	"step": 9220
	},
	{
	"epoch": 89.61,
	"learning_rate": 1.283106796116505e-05,
	"loss": 0.0014,
	"step": 9230
	},
	{
	"epoch": 89.71,
	"learning_rate": 1.2823300970873787e-05,
	"loss": 0.0012,
	"step": 9240
	},
	{
	"epoch": 89.81,
	"learning_rate": 1.2815533980582526e-05,
	"loss": 0.0018,
	"step": 9250
	},
	{
	"epoch": 89.9,
	"learning_rate": 1.2807766990291264e-05,
	"loss": 0.0017,
	"step": 9260
	},
	{
	"epoch": 90.0,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 0.0043,
	"step": 9270
	},
	{
	"epoch": 90.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.16303785145282745,
	"eval_runtime": 0.8933,
	"eval_samples_per_second": 163.434,
	"eval_steps_per_second": 21.269,
	"step": 9270
	},
	{
	"epoch": 90.1,
	"learning_rate": 1.2792233009708739e-05,
	"loss": 0.1021,
	"step": 9280
	},
	{
	"epoch": 90.19,
	"learning_rate": 1.2784466019417476e-05,
	"loss": 0.0296,
	"step": 9290
	},
	{
	"epoch": 90.29,
	"learning_rate": 1.2776699029126214e-05,
	"loss": 0.0811,
	"step": 9300
	},
	{
	"epoch": 90.39,
	"learning_rate": 1.2768932038834953e-05,
	"loss": 0.0438,
	"step": 9310
	},
	{
	"epoch": 90.49,
	"learning_rate": 1.276116504854369e-05,
	"loss": 0.0245,
	"step": 9320
	},
	{
	"epoch": 90.58,
	"learning_rate": 1.2753398058252428e-05,
	"loss": 0.0102,
	"step": 9330
	},
	{
	"epoch": 90.68,
	"learning_rate": 1.2745631067961165e-05,
	"loss": 0.0845,
	"step": 9340
	},
	{
	"epoch": 90.78,
	"learning_rate": 1.2737864077669904e-05,
	"loss": 0.0013,
	"step": 9350
	},
	{
	"epoch": 90.87,
	"learning_rate": 1.2730097087378642e-05,
	"loss": 0.0722,
	"step": 9360
	},
	{
	"epoch": 90.97,
	"learning_rate": 1.272233009708738e-05,
	"loss": 0.0011,
	"step": 9370
	},
	{
	"epoch": 91.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.029909975826740265,
	"eval_runtime": 0.8937,
	"eval_samples_per_second": 163.37,
	"eval_steps_per_second": 21.26,
	"step": 9373
	},
	{
	"epoch": 91.07,
	"learning_rate": 1.2714563106796119e-05,
	"loss": 0.0259,
	"step": 9380
	},
	{
	"epoch": 91.17,
	"learning_rate": 1.2706796116504856e-05,
	"loss": 0.0221,
	"step": 9390
	},
	{
	"epoch": 91.26,
	"learning_rate": 1.2699029126213594e-05,
	"loss": 0.1292,
	"step": 9400
	},
	{
	"epoch": 91.36,
	"learning_rate": 1.2691262135922331e-05,
	"loss": 0.0398,
	"step": 9410
	},
	{
	"epoch": 91.46,
	"learning_rate": 1.2683495145631069e-05,
	"loss": 0.0971,
	"step": 9420
	},
	{
	"epoch": 91.55,
	"learning_rate": 1.2675728155339806e-05,
	"loss": 0.0973,
	"step": 9430
	},
	{
	"epoch": 91.65,
	"learning_rate": 1.2667961165048545e-05,
	"loss": 0.0636,
	"step": 9440
	},
	{
	"epoch": 91.75,
	"learning_rate": 1.2660194174757283e-05,
	"loss": 0.0216,
	"step": 9450
	},
	{
	"epoch": 91.84,
	"learning_rate": 1.265242718446602e-05,
	"loss": 0.1983,
	"step": 9460
	},
	{
	"epoch": 91.94,
	"learning_rate": 1.2644660194174758e-05,
	"loss": 0.0707,
	"step": 9470
	},
	{
	"epoch": 92.0,
	"eval_accuracy": 0.9657534246575342,
	"eval_loss": 0.100075863301754,
	"eval_runtime": 0.8859,
	"eval_samples_per_second": 164.8,
	"eval_steps_per_second": 21.447,
	"step": 9476
	},
	{
	"epoch": 92.04,
	"learning_rate": 1.2636893203883495e-05,
	"loss": 0.0351,
	"step": 9480
	},
	{
	"epoch": 92.14,
	"learning_rate": 1.2629126213592233e-05,
	"loss": 0.0242,
	"step": 9490
	},
	{
	"epoch": 92.23,
	"learning_rate": 1.2621359223300974e-05,
	"loss": 0.0617,
	"step": 9500
	},
	{
	"epoch": 92.33,
	"learning_rate": 1.2613592233009711e-05,
	"loss": 0.1866,
	"step": 9510
	},
	{
	"epoch": 92.43,
	"learning_rate": 1.2605825242718449e-05,
	"loss": 0.0045,
	"step": 9520
	},
	{
	"epoch": 92.52,
	"learning_rate": 1.2598058252427186e-05,
	"loss": 0.1162,
	"step": 9530
	},
	{
	"epoch": 92.62,
	"learning_rate": 1.2590291262135924e-05,
	"loss": 0.034,
	"step": 9540
	},
	{
	"epoch": 92.72,
	"learning_rate": 1.2582524271844661e-05,
	"loss": 0.1544,
	"step": 9550
	},
	{
	"epoch": 92.82,
	"learning_rate": 1.2574757281553399e-05,
	"loss": 0.0101,
	"step": 9560
	},
	{
	"epoch": 92.91,
	"learning_rate": 1.2566990291262138e-05,
	"loss": 0.0026,
	"step": 9570
	},
	{
	"epoch": 93.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.014391203410923481,
	"eval_runtime": 0.8967,
	"eval_samples_per_second": 162.823,
	"eval_steps_per_second": 21.189,
	"step": 9579
	},
	{
	"epoch": 93.01,
	"learning_rate": 1.2559223300970875e-05,
	"loss": 0.0848,
	"step": 9580
	},
	{
	"epoch": 93.11,
	"learning_rate": 1.2551456310679613e-05,
	"loss": 0.0198,
	"step": 9590
	},
	{
	"epoch": 93.2,
	"learning_rate": 1.254368932038835e-05,
	"loss": 0.033,
	"step": 9600
	},
	{
	"epoch": 93.3,
	"learning_rate": 1.2535922330097088e-05,
	"loss": 0.0032,
	"step": 9610
	},
	{
	"epoch": 93.4,
	"learning_rate": 1.2528155339805825e-05,
	"loss": 0.1336,
	"step": 9620
	},
	{
	"epoch": 93.5,
	"learning_rate": 1.2520388349514564e-05,
	"loss": 0.0281,
	"step": 9630
	},
	{
	"epoch": 93.59,
	"learning_rate": 1.2512621359223302e-05,
	"loss": 0.0436,
	"step": 9640
	},
	{
	"epoch": 93.69,
	"learning_rate": 1.250485436893204e-05,
	"loss": 0.193,
	"step": 9650
	},
	{
	"epoch": 93.79,
	"learning_rate": 1.2497087378640777e-05,
	"loss": 0.0018,
	"step": 9660
	},
	{
	"epoch": 93.88,
	"learning_rate": 1.2489320388349514e-05,
	"loss": 0.0509,
	"step": 9670
	},
	{
	"epoch": 93.98,
	"learning_rate": 1.2481553398058252e-05,
	"loss": 0.1578,
	"step": 9680
	},
	{
	"epoch": 94.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.012599923647940159,
	"eval_runtime": 0.8826,
	"eval_samples_per_second": 165.42,
	"eval_steps_per_second": 21.527,
	"step": 9682
	},
	{
	"epoch": 94.08,
	"learning_rate": 1.2473786407766993e-05,
	"loss": 0.0837,
	"step": 9690
	},
	{
	"epoch": 94.17,
	"learning_rate": 1.246601941747573e-05,
	"loss": 0.0786,
	"step": 9700
	},
	{
	"epoch": 94.27,
	"learning_rate": 1.2458252427184468e-05,
	"loss": 0.0012,
	"step": 9710
	},
	{
	"epoch": 94.37,
	"learning_rate": 1.2450485436893205e-05,
	"loss": 0.0656,
	"step": 9720
	},
	{
	"epoch": 94.47,
	"learning_rate": 1.2442718446601943e-05,
	"loss": 0.022,
	"step": 9730
	},
	{
	"epoch": 94.56,
	"learning_rate": 1.243495145631068e-05,
	"loss": 0.1272,
	"step": 9740
	},
	{
	"epoch": 94.66,
	"learning_rate": 1.2427184466019418e-05,
	"loss": 0.0013,
	"step": 9750
	},
	{
	"epoch": 94.76,
	"learning_rate": 1.2419417475728157e-05,
	"loss": 0.0519,
	"step": 9760
	},
	{
	"epoch": 94.85,
	"learning_rate": 1.2411650485436894e-05,
	"loss": 0.084,
	"step": 9770
	},
	{
	"epoch": 94.95,
	"learning_rate": 1.2403883495145632e-05,
	"loss": 0.0431,
	"step": 9780
	},
	{
	"epoch": 95.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.04091314598917961,
	"eval_runtime": 0.8882,
	"eval_samples_per_second": 164.379,
	"eval_steps_per_second": 21.392,
	"step": 9785
	},
	{
	"epoch": 95.05,
	"learning_rate": 1.239611650485437e-05,
	"loss": 0.1725,
	"step": 9790
	},
	{
	"epoch": 95.15,
	"learning_rate": 1.2388349514563107e-05,
	"loss": 0.0395,
	"step": 9800
	},
	{
	"epoch": 95.24,
	"learning_rate": 1.2380582524271844e-05,
	"loss": 0.1174,
	"step": 9810
	},
	{
	"epoch": 95.34,
	"learning_rate": 1.2372815533980584e-05,
	"loss": 0.0012,
	"step": 9820
	},
	{
	"epoch": 95.44,
	"learning_rate": 1.2365048543689321e-05,
	"loss": 0.0623,
	"step": 9830
	},
	{
	"epoch": 95.53,
	"learning_rate": 1.2357281553398059e-05,
	"loss": 0.0653,
	"step": 9840
	},
	{
	"epoch": 95.63,
	"learning_rate": 1.2349514563106798e-05,
	"loss": 0.0259,
	"step": 9850
	},
	{
	"epoch": 95.73,
	"learning_rate": 1.2341747572815535e-05,
	"loss": 0.0147,
	"step": 9860
	},
	{
	"epoch": 95.83,
	"learning_rate": 1.2333980582524273e-05,
	"loss": 0.1148,
	"step": 9870
	},
	{
	"epoch": 95.92,
	"learning_rate": 1.2326213592233012e-05,
	"loss": 0.1357,
	"step": 9880
	},
	{
	"epoch": 96.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.05305100977420807,
	"eval_runtime": 0.8941,
	"eval_samples_per_second": 163.297,
	"eval_steps_per_second": 21.251,
	"step": 9888
	},
	{
	"epoch": 96.02,
	"learning_rate": 1.231844660194175e-05,
	"loss": 0.0041,
	"step": 9890
	},
	{
	"epoch": 96.12,
	"learning_rate": 1.2310679611650487e-05,
	"loss": 0.0897,
	"step": 9900
	},
	{
	"epoch": 96.21,
	"learning_rate": 1.2302912621359224e-05,
	"loss": 0.0901,
	"step": 9910
	},
	{
	"epoch": 96.31,
	"learning_rate": 1.2295145631067962e-05,
	"loss": 0.0013,
	"step": 9920
	},
	{
	"epoch": 96.41,
	"learning_rate": 1.22873786407767e-05,
	"loss": 0.1067,
	"step": 9930
	},
	{
	"epoch": 96.5,
	"learning_rate": 1.2279611650485437e-05,
	"loss": 0.0072,
	"step": 9940
	},
	{
	"epoch": 96.6,
	"learning_rate": 1.2271844660194176e-05,
	"loss": 0.0098,
	"step": 9950
	},
	{
	"epoch": 96.7,
	"learning_rate": 1.2264077669902914e-05,
	"loss": 0.0127,
	"step": 9960
	},
	{
	"epoch": 96.8,
	"learning_rate": 1.2256310679611651e-05,
	"loss": 0.0276,
	"step": 9970
	},
	{
	"epoch": 96.89,
	"learning_rate": 1.2248543689320389e-05,
	"loss": 0.093,
	"step": 9980
	},
	{
	"epoch": 96.99,
	"learning_rate": 1.2240776699029126e-05,
	"loss": 0.0476,
	"step": 9990
	},
	{
	"epoch": 97.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.008646626956760883,
	"eval_runtime": 0.9314,
	"eval_samples_per_second": 156.762,
	"eval_steps_per_second": 20.4,
	"step": 9991
	},
	{
	"epoch": 97.09,
	"learning_rate": 1.2233009708737864e-05,
	"loss": 0.0041,
	"step": 10000
	},
	{
	"epoch": 97.18,
	"learning_rate": 1.2225242718446604e-05,
	"loss": 0.0017,
	"step": 10010
	},
	{
	"epoch": 97.28,
	"learning_rate": 1.2217475728155342e-05,
	"loss": 0.0313,
	"step": 10020
	},
	{
	"epoch": 97.38,
	"learning_rate": 1.220970873786408e-05,
	"loss": 0.0098,
	"step": 10030
	},
	{
	"epoch": 97.48,
	"learning_rate": 1.2201941747572817e-05,
	"loss": 0.0856,
	"step": 10040
	},
	{
	"epoch": 97.57,
	"learning_rate": 1.2194174757281554e-05,
	"loss": 0.1682,
	"step": 10050
	},
	{
	"epoch": 97.67,
	"learning_rate": 1.2186407766990292e-05,
	"loss": 0.1116,
	"step": 10060
	},
	{
	"epoch": 97.77,
	"learning_rate": 1.2178640776699031e-05,
	"loss": 0.0018,
	"step": 10070
	},
	{
	"epoch": 97.86,
	"learning_rate": 1.2170873786407769e-05,
	"loss": 0.002,
	"step": 10080
	},
	{
	"epoch": 97.96,
	"learning_rate": 1.2163106796116506e-05,
	"loss": 0.0315,
	"step": 10090
	},
	{
	"epoch": 98.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.0015310003655031323,
	"eval_runtime": 0.9234,
	"eval_samples_per_second": 158.106,
	"eval_steps_per_second": 20.575,
	"step": 10094
	},
	{
	"epoch": 98.06,
	"learning_rate": 1.2155339805825244e-05,
	"loss": 0.0884,
	"step": 10100
	},
	{
	"epoch": 98.16,
	"learning_rate": 1.2147572815533981e-05,
	"loss": 0.0014,
	"step": 10110
	},
	{
	"epoch": 98.25,
	"learning_rate": 1.2139805825242719e-05,
	"loss": 0.0161,
	"step": 10120
	},
	{
	"epoch": 98.35,
	"learning_rate": 1.2132038834951458e-05,
	"loss": 0.0423,
	"step": 10130
	},
	{
	"epoch": 98.45,
	"learning_rate": 1.2124271844660195e-05,
	"loss": 0.0393,
	"step": 10140
	},
	{
	"epoch": 98.54,
	"learning_rate": 1.2116504854368933e-05,
	"loss": 0.2191,
	"step": 10150
	},
	{
	"epoch": 98.64,
	"learning_rate": 1.210873786407767e-05,
	"loss": 0.0192,
	"step": 10160
	},
	{
	"epoch": 98.74,
	"learning_rate": 1.2100970873786408e-05,
	"loss": 0.0264,
	"step": 10170
	},
	{
	"epoch": 98.83,
	"learning_rate": 1.2093203883495145e-05,
	"loss": 0.1027,
	"step": 10180
	},
	{
	"epoch": 98.93,
	"learning_rate": 1.2085436893203883e-05,
	"loss": 0.0171,
	"step": 10190
	},
	{
	"epoch": 99.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.0362049825489521,
	"eval_runtime": 0.9372,
	"eval_samples_per_second": 155.788,
	"eval_steps_per_second": 20.274,
	"step": 10197
	},
	{
	"epoch": 99.03,
	"learning_rate": 1.2077669902912624e-05,
	"loss": 0.1313,
	"step": 10200
	},
	{
	"epoch": 99.13,
	"learning_rate": 1.2069902912621361e-05,
	"loss": 0.0012,
	"step": 10210
	},
	{
	"epoch": 99.22,
	"learning_rate": 1.2062135922330099e-05,
	"loss": 0.0546,
	"step": 10220
	},
	{
	"epoch": 99.32,
	"learning_rate": 1.2054368932038836e-05,
	"loss": 0.0046,
	"step": 10230
	},
	{
	"epoch": 99.42,
	"learning_rate": 1.2046601941747574e-05,
	"loss": 0.0537,
	"step": 10240
	},
	{
	"epoch": 99.51,
	"learning_rate": 1.2038834951456311e-05,
	"loss": 0.0711,
	"step": 10250
	},
	{
	"epoch": 99.61,
	"learning_rate": 1.203106796116505e-05,
	"loss": 0.012,
	"step": 10260
	},
	{
	"epoch": 99.71,
	"learning_rate": 1.2023300970873788e-05,
	"loss": 0.0375,
	"step": 10270
	},
	{
	"epoch": 99.81,
	"learning_rate": 1.2015533980582525e-05,
	"loss": 0.0139,
	"step": 10280
	},
	{
	"epoch": 99.9,
	"learning_rate": 1.2007766990291263e-05,
	"loss": 0.0962,
	"step": 10290
	},
	{
	"epoch": 100.0,
	"learning_rate": 1.2e-05,
	"loss": 0.0014,
	"step": 10300
	},
	{
	"epoch": 100.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.02322803996503353,
	"eval_runtime": 0.9475,
	"eval_samples_per_second": 154.09,
	"eval_steps_per_second": 20.053,
	"step": 10300
	},
	{
	"epoch": 100.1,
	"learning_rate": 1.1992233009708738e-05,
	"loss": 0.0051,
	"step": 10310
	},
	{
	"epoch": 100.19,
	"learning_rate": 1.1984466019417477e-05,
	"loss": 0.042,
	"step": 10320
	},
	{
	"epoch": 100.29,
	"learning_rate": 1.1976699029126214e-05,
	"loss": 0.001,
	"step": 10330
	},
	{
	"epoch": 100.39,
	"learning_rate": 1.1968932038834952e-05,
	"loss": 0.0835,
	"step": 10340
	},
	{
	"epoch": 100.49,
	"learning_rate": 1.196116504854369e-05,
	"loss": 0.0298,
	"step": 10350
	},
	{
	"epoch": 100.58,
	"learning_rate": 1.1953398058252429e-05,
	"loss": 0.001,
	"step": 10360
	},
	{
	"epoch": 100.68,
	"learning_rate": 1.1945631067961166e-05,
	"loss": 0.2664,
	"step": 10370
	},
	{
	"epoch": 100.78,
	"learning_rate": 1.1937864077669904e-05,
	"loss": 0.0031,
	"step": 10380
	},
	{
	"epoch": 100.87,
	"learning_rate": 1.1930097087378643e-05,
	"loss": 0.0008,
	"step": 10390
	},
	{
	"epoch": 100.97,
	"learning_rate": 1.192233009708738e-05,
	"loss": 0.1161,
	"step": 10400
	},
	{
	"epoch": 101.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.043042704463005066,
	"eval_runtime": 0.9222,
	"eval_samples_per_second": 158.317,
	"eval_steps_per_second": 20.603,
	"step": 10403
	},
	{
	"epoch": 101.07,
	"learning_rate": 1.1914563106796118e-05,
	"loss": 0.0009,
	"step": 10410
	},
	{
	"epoch": 101.17,
	"learning_rate": 1.1906796116504855e-05,
	"loss": 0.0432,
	"step": 10420
	},
	{
	"epoch": 101.26,
	"learning_rate": 1.1899029126213593e-05,
	"loss": 0.0441,
	"step": 10430
	},
	{
	"epoch": 101.36,
	"learning_rate": 1.189126213592233e-05,
	"loss": 0.0617,
	"step": 10440
	},
	{
	"epoch": 101.46,
	"learning_rate": 1.188349514563107e-05,
	"loss": 0.0993,
	"step": 10450
	},
	{
	"epoch": 101.55,
	"learning_rate": 1.1875728155339807e-05,
	"loss": 0.1322,
	"step": 10460
	},
	{
	"epoch": 101.65,
	"learning_rate": 1.1867961165048544e-05,
	"loss": 0.0435,
	"step": 10470
	},
	{
	"epoch": 101.75,
	"learning_rate": 1.1860194174757282e-05,
	"loss": 0.013,
	"step": 10480
	},
	{
	"epoch": 101.84,
	"learning_rate": 1.185242718446602e-05,
	"loss": 0.0214,
	"step": 10490
	},
	{
	"epoch": 101.94,
	"learning_rate": 1.1844660194174757e-05,
	"loss": 0.0839,
	"step": 10500
	},
	{
	"epoch": 102.0,
	"eval_accuracy": 0.9794520547945206,
	"eval_loss": 0.10051363706588745,
	"eval_runtime": 0.9025,
	"eval_samples_per_second": 161.775,
	"eval_steps_per_second": 21.053,
	"step": 10506
	},
	{
	"epoch": 102.04,
	"learning_rate": 1.1836893203883498e-05,
	"loss": 0.0018,
	"step": 10510
	},
	{
	"epoch": 102.14,
	"learning_rate": 1.1829126213592235e-05,
	"loss": 0.0037,
	"step": 10520
	},
	{
	"epoch": 102.23,
	"learning_rate": 1.1821359223300973e-05,
	"loss": 0.0258,
	"step": 10530
	},
	{
	"epoch": 102.33,
	"learning_rate": 1.181359223300971e-05,
	"loss": 0.1846,
	"step": 10540
	},
	{
	"epoch": 102.43,
	"learning_rate": 1.1805825242718448e-05,
	"loss": 0.0964,
	"step": 10550
	},
	{
	"epoch": 102.52,
	"learning_rate": 1.1798058252427185e-05,
	"loss": 0.0063,
	"step": 10560
	},
	{
	"epoch": 102.62,
	"learning_rate": 1.1790291262135923e-05,
	"loss": 0.0415,
	"step": 10570
	},
	{
	"epoch": 102.72,
	"learning_rate": 1.1782524271844662e-05,
	"loss": 0.0045,
	"step": 10580
	},
	{
	"epoch": 102.82,
	"learning_rate": 1.17747572815534e-05,
	"loss": 0.075,
	"step": 10590
	},
	{
	"epoch": 102.91,
	"learning_rate": 1.1766990291262137e-05,
	"loss": 0.0428,
	"step": 10600
	},
	{
	"epoch": 103.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.08688335865736008,
	"eval_runtime": 0.8958,
	"eval_samples_per_second": 162.976,
	"eval_steps_per_second": 21.209,
	"step": 10609
	},
	{
	"epoch": 103.01,
	"learning_rate": 1.1759223300970874e-05,
	"loss": 0.0012,
	"step": 10610
	},
	{
	"epoch": 103.11,
	"learning_rate": 1.1751456310679612e-05,
	"loss": 0.0385,
	"step": 10620
	},
	{
	"epoch": 103.2,
	"learning_rate": 1.174368932038835e-05,
	"loss": 0.0017,
	"step": 10630
	},
	{
	"epoch": 103.3,
	"learning_rate": 1.1735922330097089e-05,
	"loss": 0.001,
	"step": 10640
	},
	{
	"epoch": 103.4,
	"learning_rate": 1.1728155339805826e-05,
	"loss": 0.0486,
	"step": 10650
	},
	{
	"epoch": 103.5,
	"learning_rate": 1.1720388349514564e-05,
	"loss": 0.001,
	"step": 10660
	},
	{
	"epoch": 103.59,
	"learning_rate": 1.1712621359223301e-05,
	"loss": 0.0012,
	"step": 10670
	},
	{
	"epoch": 103.69,
	"learning_rate": 1.1704854368932039e-05,
	"loss": 0.0026,
	"step": 10680
	},
	{
	"epoch": 103.79,
	"learning_rate": 1.1697087378640776e-05,
	"loss": 0.1129,
	"step": 10690
	},
	{
	"epoch": 103.88,
	"learning_rate": 1.1689320388349517e-05,
	"loss": 0.0281,
	"step": 10700
	},
	{
	"epoch": 103.98,
	"learning_rate": 1.1681553398058255e-05,
	"loss": 0.0058,
	"step": 10710
	},
	{
	"epoch": 104.0,
	"eval_accuracy": 0.9863013698630136,
	"eval_loss": 0.02182828262448311,
	"eval_runtime": 0.9139,
	"eval_samples_per_second": 159.746,
	"eval_steps_per_second": 20.789,
	"step": 10712
	},
	{
	"epoch": 104.08,
	"learning_rate": 1.1673786407766992e-05,
	"loss": 0.0081,
	"step": 10720
	},
	{
	"epoch": 104.17,
	"learning_rate": 1.166601941747573e-05,
	"loss": 0.0008,
	"step": 10730
	},
	{
	"epoch": 104.27,
	"learning_rate": 1.1658252427184467e-05,
	"loss": 0.0018,
	"step": 10740
	},
	{
	"epoch": 104.37,
	"learning_rate": 1.1650485436893204e-05,
	"loss": 0.003,
	"step": 10750
	},
	{
	"epoch": 104.47,
	"learning_rate": 1.1642718446601942e-05,
	"loss": 0.0578,
	"step": 10760
	},
	{
	"epoch": 104.56,
	"learning_rate": 1.1634951456310681e-05,
	"loss": 0.0679,
	"step": 10770
	},
	{
	"epoch": 104.66,
	"learning_rate": 1.1627184466019419e-05,
	"loss": 0.0371,
	"step": 10780
	},
	{
	"epoch": 104.76,
	"learning_rate": 1.1619417475728156e-05,
	"loss": 0.0815,
	"step": 10790
	},
	{
	"epoch": 104.85,
	"learning_rate": 1.1611650485436894e-05,
	"loss": 0.0277,
	"step": 10800
	},
	{
	"epoch": 104.95,
	"learning_rate": 1.1603883495145631e-05,
	"loss": 0.0657,
	"step": 10810
	},
	{
	"epoch": 105.0,
	"eval_accuracy": 0.9931506849315068,
	"eval_loss": 0.012804172933101654,
	"eval_runtime": 0.8936,
	"eval_samples_per_second": 163.381,
	"eval_steps_per_second": 21.262,
	"step": 10815
	},
	{
	"epoch": 105.05,
	"learning_rate": 1.1596116504854369e-05,
	"loss": 0.0131,
	"step": 10820
	},
	{
	"epoch": 105.15,
	"learning_rate": 1.1588349514563108e-05,
	"loss": 0.0791,
	"step": 10830
	},
	{
	"epoch": 105.24,
	"learning_rate": 1.1580582524271845e-05,
	"loss": 0.1427,
	"step": 10840
	},
	{
	"epoch": 105.34,
	"learning_rate": 1.1572815533980583e-05,
	"loss": 0.0344,
	"step": 10850
	},
	{
	"epoch": 105.44,
	"learning_rate": 1.1565048543689322e-05,
	"loss": 0.0012,
	"step": 10860
	},
	{
	"epoch": 105.53,
	"learning_rate": 1.155728155339806e-05,
	"loss": 0.1199,
	"step": 10870
	},
	{
	"epoch": 105.63,
	"learning_rate": 1.1549514563106797e-05,
	"loss": 0.0055,
	"step": 10880
	},
	{
	"epoch": 105.73,
	"learning_rate": 1.1541747572815536e-05,
	"loss": 0.1326,
	"step": 10890
	},
	{
	"epoch": 105.83,
	"learning_rate": 1.1533980582524274e-05,
	"loss": 0.0034,
	"step": 10900
	},
	{
	"epoch": 105.92,
	"learning_rate": 1.1526213592233011e-05,
	"loss": 0.0032,
	"step": 10910
	},
	{
	"epoch": 106.0,
	"eval_accuracy": 1.0,
	"eval_loss": 0.0011723055504262447,
	"eval_runtime": 0.8979,
	"eval_samples_per_second": 162.605,
	"eval_steps_per_second": 21.161,
	"step": 10918
	}
	],
	"logging_steps": 10,
	"max_steps": 25750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 250,
	"save_steps": 500,
	"total_flos": 6.768824322311848e+18,
	"trial_name": null,
	"trial_params": null
	}