chatbot / checkpoint-45000 /trainer_state.json

Upload folder using huggingface_hub

e6ad2e6 verified 9 months ago

79.7 kB

	{
	"best_global_step": 45000,
	"best_metric": 0.11760604381561279,
	"best_model_checkpoint": "/content/drive/MyDrive/chatbot/gpt2-finetuned-uet/checkpoint-45000",
	"epoch": 4.0,
	"eval_steps": 5000,
	"global_step": 45000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.008888888888888889,
	"grad_norm": 6.82129430770874,
	"learning_rate": 2.9934000000000002e-05,
	"loss": 0.9164,
	"step": 100
	},
	{
	"epoch": 0.017777777777777778,
	"grad_norm": 5.949863433837891,
	"learning_rate": 2.9867333333333335e-05,
	"loss": 0.2066,
	"step": 200
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 4.183337211608887,
	"learning_rate": 2.9800666666666667e-05,
	"loss": 0.1721,
	"step": 300
	},
	{
	"epoch": 0.035555555555555556,
	"grad_norm": 4.205233573913574,
	"learning_rate": 2.9734e-05,
	"loss": 0.1537,
	"step": 400
	},
	{
	"epoch": 0.044444444444444446,
	"grad_norm": 3.5019726753234863,
	"learning_rate": 2.9667333333333333e-05,
	"loss": 0.138,
	"step": 500
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 3.7419962882995605,
	"learning_rate": 2.9600666666666666e-05,
	"loss": 0.1372,
	"step": 600
	},
	{
	"epoch": 0.06222222222222222,
	"grad_norm": 4.127668380737305,
	"learning_rate": 2.9534000000000002e-05,
	"loss": 0.1348,
	"step": 700
	},
	{
	"epoch": 0.07111111111111111,
	"grad_norm": 5.248896598815918,
	"learning_rate": 2.9467333333333335e-05,
	"loss": 0.1268,
	"step": 800
	},
	{
	"epoch": 0.08,
	"grad_norm": 4.989108562469482,
	"learning_rate": 2.9400666666666668e-05,
	"loss": 0.1249,
	"step": 900
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 3.937284231185913,
	"learning_rate": 2.9334e-05,
	"loss": 0.1247,
	"step": 1000
	},
	{
	"epoch": 0.09777777777777778,
	"grad_norm": 4.6740522384643555,
	"learning_rate": 2.9267333333333334e-05,
	"loss": 0.1241,
	"step": 1100
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 5.112093448638916,
	"learning_rate": 2.9200666666666666e-05,
	"loss": 0.1237,
	"step": 1200
	},
	{
	"epoch": 0.11555555555555555,
	"grad_norm": 4.429466247558594,
	"learning_rate": 2.9134e-05,
	"loss": 0.1233,
	"step": 1300
	},
	{
	"epoch": 0.12444444444444444,
	"grad_norm": 3.7811667919158936,
	"learning_rate": 2.9067333333333332e-05,
	"loss": 0.1224,
	"step": 1400
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 3.949687957763672,
	"learning_rate": 2.9000666666666668e-05,
	"loss": 0.1221,
	"step": 1500
	},
	{
	"epoch": 0.14222222222222222,
	"grad_norm": 4.339414119720459,
	"learning_rate": 2.8934e-05,
	"loss": 0.1208,
	"step": 1600
	},
	{
	"epoch": 0.1511111111111111,
	"grad_norm": 4.27586030960083,
	"learning_rate": 2.8867333333333334e-05,
	"loss": 0.1236,
	"step": 1700
	},
	{
	"epoch": 0.16,
	"grad_norm": 3.8597822189331055,
	"learning_rate": 2.8800666666666667e-05,
	"loss": 0.1211,
	"step": 1800
	},
	{
	"epoch": 0.1688888888888889,
	"grad_norm": 4.734971046447754,
	"learning_rate": 2.8734e-05,
	"loss": 0.122,
	"step": 1900
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 3.8875231742858887,
	"learning_rate": 2.8667333333333333e-05,
	"loss": 0.1213,
	"step": 2000
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 2.6618669033050537,
	"learning_rate": 2.8600666666666665e-05,
	"loss": 0.1218,
	"step": 2100
	},
	{
	"epoch": 0.19555555555555557,
	"grad_norm": 3.809056043624878,
	"learning_rate": 2.8534e-05,
	"loss": 0.1236,
	"step": 2200
	},
	{
	"epoch": 0.20444444444444446,
	"grad_norm": 4.541649341583252,
	"learning_rate": 2.8467333333333334e-05,
	"loss": 0.1211,
	"step": 2300
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 3.4047656059265137,
	"learning_rate": 2.8400666666666667e-05,
	"loss": 0.1221,
	"step": 2400
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 3.6217405796051025,
	"learning_rate": 2.8334e-05,
	"loss": 0.1211,
	"step": 2500
	},
	{
	"epoch": 0.2311111111111111,
	"grad_norm": 3.8457906246185303,
	"learning_rate": 2.8267333333333333e-05,
	"loss": 0.122,
	"step": 2600
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.507346153259277,
	"learning_rate": 2.8200666666666666e-05,
	"loss": 0.1207,
	"step": 2700
	},
	{
	"epoch": 0.24888888888888888,
	"grad_norm": 4.867903232574463,
	"learning_rate": 2.8134e-05,
	"loss": 0.1201,
	"step": 2800
	},
	{
	"epoch": 0.2577777777777778,
	"grad_norm": 3.717101573944092,
	"learning_rate": 2.806733333333333e-05,
	"loss": 0.1202,
	"step": 2900
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 3.990020990371704,
	"learning_rate": 2.8000666666666668e-05,
	"loss": 0.1214,
	"step": 3000
	},
	{
	"epoch": 0.27555555555555555,
	"grad_norm": 3.9653103351593018,
	"learning_rate": 2.7934e-05,
	"loss": 0.1195,
	"step": 3100
	},
	{
	"epoch": 0.28444444444444444,
	"grad_norm": 3.743941068649292,
	"learning_rate": 2.7867333333333333e-05,
	"loss": 0.1209,
	"step": 3200
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 4.509164333343506,
	"learning_rate": 2.7800666666666666e-05,
	"loss": 0.1204,
	"step": 3300
	},
	{
	"epoch": 0.3022222222222222,
	"grad_norm": 4.283110618591309,
	"learning_rate": 2.7734e-05,
	"loss": 0.1205,
	"step": 3400
	},
	{
	"epoch": 0.3111111111111111,
	"grad_norm": 3.8113884925842285,
	"learning_rate": 2.7667333333333332e-05,
	"loss": 0.1184,
	"step": 3500
	},
	{
	"epoch": 0.32,
	"grad_norm": 3.287177801132202,
	"learning_rate": 2.7600666666666665e-05,
	"loss": 0.1201,
	"step": 3600
	},
	{
	"epoch": 0.3288888888888889,
	"grad_norm": 4.167423248291016,
	"learning_rate": 2.7533999999999998e-05,
	"loss": 0.119,
	"step": 3700
	},
	{
	"epoch": 0.3377777777777778,
	"grad_norm": 4.485795974731445,
	"learning_rate": 2.7467333333333334e-05,
	"loss": 0.121,
	"step": 3800
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 3.1703178882598877,
	"learning_rate": 2.7400666666666667e-05,
	"loss": 0.1186,
	"step": 3900
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 3.0991108417510986,
	"learning_rate": 2.7334e-05,
	"loss": 0.1201,
	"step": 4000
	},
	{
	"epoch": 0.36444444444444446,
	"grad_norm": 4.4850053787231445,
	"learning_rate": 2.7267333333333336e-05,
	"loss": 0.1193,
	"step": 4100
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 3.0892951488494873,
	"learning_rate": 2.720066666666667e-05,
	"loss": 0.1186,
	"step": 4200
	},
	{
	"epoch": 0.38222222222222224,
	"grad_norm": 3.4168922901153564,
	"learning_rate": 2.7134e-05,
	"loss": 0.1186,
	"step": 4300
	},
	{
	"epoch": 0.39111111111111113,
	"grad_norm": 2.864269733428955,
	"learning_rate": 2.7067333333333334e-05,
	"loss": 0.1176,
	"step": 4400
	},
	{
	"epoch": 0.4,
	"grad_norm": 4.241358280181885,
	"learning_rate": 2.7000666666666667e-05,
	"loss": 0.118,
	"step": 4500
	},
	{
	"epoch": 0.4088888888888889,
	"grad_norm": 3.6913700103759766,
	"learning_rate": 2.6934000000000003e-05,
	"loss": 0.1184,
	"step": 4600
	},
	{
	"epoch": 0.4177777777777778,
	"grad_norm": 2.865185499191284,
	"learning_rate": 2.6867333333333336e-05,
	"loss": 0.1191,
	"step": 4700
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 3.7335503101348877,
	"learning_rate": 2.680066666666667e-05,
	"loss": 0.1199,
	"step": 4800
	},
	{
	"epoch": 0.43555555555555553,
	"grad_norm": 3.280344009399414,
	"learning_rate": 2.6734000000000002e-05,
	"loss": 0.1184,
	"step": 4900
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 3.2532272338867188,
	"learning_rate": 2.6667333333333335e-05,
	"loss": 0.1188,
	"step": 5000
	},
	{
	"epoch": 0.4444444444444444,
	"eval_loss": 0.12208713591098785,
	"eval_runtime": 204.8959,
	"eval_samples_per_second": 48.805,
	"eval_steps_per_second": 6.101,
	"step": 5000
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 3.123708486557007,
	"learning_rate": 2.6600666666666668e-05,
	"loss": 0.1196,
	"step": 5100
	},
	{
	"epoch": 0.4622222222222222,
	"grad_norm": 3.468099594116211,
	"learning_rate": 2.6534e-05,
	"loss": 0.1181,
	"step": 5200
	},
	{
	"epoch": 0.4711111111111111,
	"grad_norm": 3.4722182750701904,
	"learning_rate": 2.6467333333333337e-05,
	"loss": 0.1186,
	"step": 5300
	},
	{
	"epoch": 0.48,
	"grad_norm": 3.341700792312622,
	"learning_rate": 2.640066666666667e-05,
	"loss": 0.1175,
	"step": 5400
	},
	{
	"epoch": 0.4888888888888889,
	"grad_norm": 5.254228591918945,
	"learning_rate": 2.6334000000000002e-05,
	"loss": 0.1171,
	"step": 5500
	},
	{
	"epoch": 0.49777777777777776,
	"grad_norm": 3.9166531562805176,
	"learning_rate": 2.6267333333333335e-05,
	"loss": 0.1181,
	"step": 5600
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 3.530609130859375,
	"learning_rate": 2.6200666666666668e-05,
	"loss": 0.118,
	"step": 5700
	},
	{
	"epoch": 0.5155555555555555,
	"grad_norm": 2.8813321590423584,
	"learning_rate": 2.6134e-05,
	"loss": 0.119,
	"step": 5800
	},
	{
	"epoch": 0.5244444444444445,
	"grad_norm": 2.88515567779541,
	"learning_rate": 2.6067333333333334e-05,
	"loss": 0.1192,
	"step": 5900
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 3.641014814376831,
	"learning_rate": 2.6000666666666667e-05,
	"loss": 0.1177,
	"step": 6000
	},
	{
	"epoch": 0.5422222222222223,
	"grad_norm": 3.2416274547576904,
	"learning_rate": 2.5934000000000003e-05,
	"loss": 0.1189,
	"step": 6100
	},
	{
	"epoch": 0.5511111111111111,
	"grad_norm": 3.6603827476501465,
	"learning_rate": 2.5867333333333336e-05,
	"loss": 0.12,
	"step": 6200
	},
	{
	"epoch": 0.56,
	"grad_norm": 2.7942700386047363,
	"learning_rate": 2.580066666666667e-05,
	"loss": 0.1186,
	"step": 6300
	},
	{
	"epoch": 0.5688888888888889,
	"grad_norm": 2.454925298690796,
	"learning_rate": 2.5734e-05,
	"loss": 0.1193,
	"step": 6400
	},
	{
	"epoch": 0.5777777777777777,
	"grad_norm": 3.182051420211792,
	"learning_rate": 2.5667333333333334e-05,
	"loss": 0.1179,
	"step": 6500
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 2.543154001235962,
	"learning_rate": 2.5600666666666667e-05,
	"loss": 0.1169,
	"step": 6600
	},
	{
	"epoch": 0.5955555555555555,
	"grad_norm": 2.878065586090088,
	"learning_rate": 2.5534e-05,
	"loss": 0.1165,
	"step": 6700
	},
	{
	"epoch": 0.6044444444444445,
	"grad_norm": 2.6504786014556885,
	"learning_rate": 2.5467333333333333e-05,
	"loss": 0.1177,
	"step": 6800
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 3.112470865249634,
	"learning_rate": 2.540066666666667e-05,
	"loss": 0.1188,
	"step": 6900
	},
	{
	"epoch": 0.6222222222222222,
	"grad_norm": 3.2158005237579346,
	"learning_rate": 2.5334000000000002e-05,
	"loss": 0.1182,
	"step": 7000
	},
	{
	"epoch": 0.6311111111111111,
	"grad_norm": 2.7829103469848633,
	"learning_rate": 2.5267333333333335e-05,
	"loss": 0.1182,
	"step": 7100
	},
	{
	"epoch": 0.64,
	"grad_norm": 3.6927225589752197,
	"learning_rate": 2.5200666666666667e-05,
	"loss": 0.1172,
	"step": 7200
	},
	{
	"epoch": 0.6488888888888888,
	"grad_norm": 2.701704978942871,
	"learning_rate": 2.5134e-05,
	"loss": 0.1174,
	"step": 7300
	},
	{
	"epoch": 0.6577777777777778,
	"grad_norm": 3.097184419631958,
	"learning_rate": 2.5067333333333333e-05,
	"loss": 0.1181,
	"step": 7400
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 3.704460620880127,
	"learning_rate": 2.5000666666666666e-05,
	"loss": 0.1171,
	"step": 7500
	},
	{
	"epoch": 0.6755555555555556,
	"grad_norm": 2.7724316120147705,
	"learning_rate": 2.4934e-05,
	"loss": 0.1172,
	"step": 7600
	},
	{
	"epoch": 0.6844444444444444,
	"grad_norm": 3.8086202144622803,
	"learning_rate": 2.4867333333333335e-05,
	"loss": 0.1182,
	"step": 7700
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 3.596428632736206,
	"learning_rate": 2.4800666666666668e-05,
	"loss": 0.1181,
	"step": 7800
	},
	{
	"epoch": 0.7022222222222222,
	"grad_norm": 2.5893187522888184,
	"learning_rate": 2.4734e-05,
	"loss": 0.118,
	"step": 7900
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 2.582350730895996,
	"learning_rate": 2.4667333333333334e-05,
	"loss": 0.1185,
	"step": 8000
	},
	{
	"epoch": 0.72,
	"grad_norm": 3.3927502632141113,
	"learning_rate": 2.4600666666666666e-05,
	"loss": 0.1179,
	"step": 8100
	},
	{
	"epoch": 0.7288888888888889,
	"grad_norm": 4.322011947631836,
	"learning_rate": 2.4534e-05,
	"loss": 0.118,
	"step": 8200
	},
	{
	"epoch": 0.7377777777777778,
	"grad_norm": 2.3560194969177246,
	"learning_rate": 2.4467333333333332e-05,
	"loss": 0.1175,
	"step": 8300
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 3.332634925842285,
	"learning_rate": 2.4400666666666668e-05,
	"loss": 0.117,
	"step": 8400
	},
	{
	"epoch": 0.7555555555555555,
	"grad_norm": 3.440761089324951,
	"learning_rate": 2.4334e-05,
	"loss": 0.1177,
	"step": 8500
	},
	{
	"epoch": 0.7644444444444445,
	"grad_norm": 2.6699066162109375,
	"learning_rate": 2.4267333333333334e-05,
	"loss": 0.1159,
	"step": 8600
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 2.5748603343963623,
	"learning_rate": 2.4200666666666667e-05,
	"loss": 0.1161,
	"step": 8700
	},
	{
	"epoch": 0.7822222222222223,
	"grad_norm": 3.216967821121216,
	"learning_rate": 2.4134e-05,
	"loss": 0.1167,
	"step": 8800
	},
	{
	"epoch": 0.7911111111111111,
	"grad_norm": 2.9499289989471436,
	"learning_rate": 2.4067333333333333e-05,
	"loss": 0.1164,
	"step": 8900
	},
	{
	"epoch": 0.8,
	"grad_norm": 2.6872825622558594,
	"learning_rate": 2.4000666666666665e-05,
	"loss": 0.117,
	"step": 9000
	},
	{
	"epoch": 0.8088888888888889,
	"grad_norm": 3.444622039794922,
	"learning_rate": 2.3933999999999998e-05,
	"loss": 0.1187,
	"step": 9100
	},
	{
	"epoch": 0.8177777777777778,
	"grad_norm": 2.4359054565429688,
	"learning_rate": 2.3867333333333334e-05,
	"loss": 0.1163,
	"step": 9200
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 2.510025978088379,
	"learning_rate": 2.3800666666666667e-05,
	"loss": 0.117,
	"step": 9300
	},
	{
	"epoch": 0.8355555555555556,
	"grad_norm": 2.5156795978546143,
	"learning_rate": 2.3734e-05,
	"loss": 0.1177,
	"step": 9400
	},
	{
	"epoch": 0.8444444444444444,
	"grad_norm": 3.8582279682159424,
	"learning_rate": 2.3667333333333333e-05,
	"loss": 0.1188,
	"step": 9500
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 2.9142448902130127,
	"learning_rate": 2.3600666666666666e-05,
	"loss": 0.1201,
	"step": 9600
	},
	{
	"epoch": 0.8622222222222222,
	"grad_norm": 1.9949374198913574,
	"learning_rate": 2.3534e-05,
	"loss": 0.1173,
	"step": 9700
	},
	{
	"epoch": 0.8711111111111111,
	"grad_norm": 2.8266148567199707,
	"learning_rate": 2.346733333333333e-05,
	"loss": 0.1156,
	"step": 9800
	},
	{
	"epoch": 0.88,
	"grad_norm": 2.821716070175171,
	"learning_rate": 2.3400666666666664e-05,
	"loss": 0.114,
	"step": 9900
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 2.1341419219970703,
	"learning_rate": 2.3334e-05,
	"loss": 0.118,
	"step": 10000
	},
	{
	"epoch": 0.8888888888888888,
	"eval_loss": 0.11916246265172958,
	"eval_runtime": 209.6485,
	"eval_samples_per_second": 47.699,
	"eval_steps_per_second": 5.962,
	"step": 10000
	},
	{
	"epoch": 0.8977777777777778,
	"grad_norm": 2.4303793907165527,
	"learning_rate": 2.3267333333333333e-05,
	"loss": 0.1164,
	"step": 10100
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 2.23417329788208,
	"learning_rate": 2.3200666666666666e-05,
	"loss": 0.1168,
	"step": 10200
	},
	{
	"epoch": 0.9155555555555556,
	"grad_norm": 2.7402517795562744,
	"learning_rate": 2.3134e-05,
	"loss": 0.1171,
	"step": 10300
	},
	{
	"epoch": 0.9244444444444444,
	"grad_norm": 2.4961931705474854,
	"learning_rate": 2.3067333333333332e-05,
	"loss": 0.117,
	"step": 10400
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 3.0183095932006836,
	"learning_rate": 2.3000666666666668e-05,
	"loss": 0.1166,
	"step": 10500
	},
	{
	"epoch": 0.9422222222222222,
	"grad_norm": 3.062873125076294,
	"learning_rate": 2.2934e-05,
	"loss": 0.1167,
	"step": 10600
	},
	{
	"epoch": 0.9511111111111111,
	"grad_norm": 2.418299436569214,
	"learning_rate": 2.2867333333333334e-05,
	"loss": 0.1173,
	"step": 10700
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.580348253250122,
	"learning_rate": 2.280066666666667e-05,
	"loss": 0.1173,
	"step": 10800
	},
	{
	"epoch": 0.9688888888888889,
	"grad_norm": 2.902337074279785,
	"learning_rate": 2.2734000000000003e-05,
	"loss": 0.1174,
	"step": 10900
	},
	{
	"epoch": 0.9777777777777777,
	"grad_norm": 2.1894068717956543,
	"learning_rate": 2.2667333333333336e-05,
	"loss": 0.1167,
	"step": 11000
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 2.944486618041992,
	"learning_rate": 2.260066666666667e-05,
	"loss": 0.1174,
	"step": 11100
	},
	{
	"epoch": 0.9955555555555555,
	"grad_norm": 2.560166835784912,
	"learning_rate": 2.2534e-05,
	"loss": 0.1179,
	"step": 11200
	},
	{
	"epoch": 1.0044444444444445,
	"grad_norm": 2.7553763389587402,
	"learning_rate": 2.2467333333333334e-05,
	"loss": 0.1158,
	"step": 11300
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 2.8809797763824463,
	"learning_rate": 2.2400666666666667e-05,
	"loss": 0.1175,
	"step": 11400
	},
	{
	"epoch": 1.0222222222222221,
	"grad_norm": 2.329749822616577,
	"learning_rate": 2.2334000000000003e-05,
	"loss": 0.1155,
	"step": 11500
	},
	{
	"epoch": 1.031111111111111,
	"grad_norm": 2.763226270675659,
	"learning_rate": 2.2267333333333336e-05,
	"loss": 0.1166,
	"step": 11600
	},
	{
	"epoch": 1.04,
	"grad_norm": 3.360959768295288,
	"learning_rate": 2.220066666666667e-05,
	"loss": 0.1162,
	"step": 11700
	},
	{
	"epoch": 1.048888888888889,
	"grad_norm": 2.1025476455688477,
	"learning_rate": 2.2134000000000002e-05,
	"loss": 0.1167,
	"step": 11800
	},
	{
	"epoch": 1.0577777777777777,
	"grad_norm": 2.6342437267303467,
	"learning_rate": 2.2067333333333335e-05,
	"loss": 0.1159,
	"step": 11900
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 2.8531672954559326,
	"learning_rate": 2.2000666666666668e-05,
	"loss": 0.1174,
	"step": 12000
	},
	{
	"epoch": 1.0755555555555556,
	"grad_norm": 2.5636589527130127,
	"learning_rate": 2.1934e-05,
	"loss": 0.1164,
	"step": 12100
	},
	{
	"epoch": 1.0844444444444445,
	"grad_norm": 2.7614545822143555,
	"learning_rate": 2.1867333333333333e-05,
	"loss": 0.1172,
	"step": 12200
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 2.60809063911438,
	"learning_rate": 2.180066666666667e-05,
	"loss": 0.1163,
	"step": 12300
	},
	{
	"epoch": 1.1022222222222222,
	"grad_norm": 3.316859483718872,
	"learning_rate": 2.1734000000000002e-05,
	"loss": 0.1177,
	"step": 12400
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 3.271606922149658,
	"learning_rate": 2.1667333333333335e-05,
	"loss": 0.1167,
	"step": 12500
	},
	{
	"epoch": 1.12,
	"grad_norm": 3.194365978240967,
	"learning_rate": 2.1600666666666668e-05,
	"loss": 0.118,
	"step": 12600
	},
	{
	"epoch": 1.1288888888888888,
	"grad_norm": 2.5785796642303467,
	"learning_rate": 2.1534e-05,
	"loss": 0.1166,
	"step": 12700
	},
	{
	"epoch": 1.1377777777777778,
	"grad_norm": 2.8842148780822754,
	"learning_rate": 2.1467333333333334e-05,
	"loss": 0.1169,
	"step": 12800
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 2.530769109725952,
	"learning_rate": 2.1400666666666667e-05,
	"loss": 0.1176,
	"step": 12900
	},
	{
	"epoch": 1.1555555555555554,
	"grad_norm": 2.9388973712921143,
	"learning_rate": 2.1334e-05,
	"loss": 0.1164,
	"step": 13000
	},
	{
	"epoch": 1.1644444444444444,
	"grad_norm": 3.258341073989868,
	"learning_rate": 2.1267333333333336e-05,
	"loss": 0.1161,
	"step": 13100
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 3.597013473510742,
	"learning_rate": 2.120066666666667e-05,
	"loss": 0.1168,
	"step": 13200
	},
	{
	"epoch": 1.1822222222222223,
	"grad_norm": 2.683460235595703,
	"learning_rate": 2.1134e-05,
	"loss": 0.1152,
	"step": 13300
	},
	{
	"epoch": 1.1911111111111112,
	"grad_norm": 3.4266109466552734,
	"learning_rate": 2.1067333333333334e-05,
	"loss": 0.1158,
	"step": 13400
	},
	{
	"epoch": 1.2,
	"grad_norm": 2.183912754058838,
	"learning_rate": 2.1000666666666667e-05,
	"loss": 0.1162,
	"step": 13500
	},
	{
	"epoch": 1.208888888888889,
	"grad_norm": 2.8540754318237305,
	"learning_rate": 2.0934e-05,
	"loss": 0.1162,
	"step": 13600
	},
	{
	"epoch": 1.2177777777777778,
	"grad_norm": 2.472102403640747,
	"learning_rate": 2.0867333333333333e-05,
	"loss": 0.1165,
	"step": 13700
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 2.466033697128296,
	"learning_rate": 2.0800666666666665e-05,
	"loss": 0.1171,
	"step": 13800
	},
	{
	"epoch": 1.2355555555555555,
	"grad_norm": 2.822277784347534,
	"learning_rate": 2.0734000000000002e-05,
	"loss": 0.1154,
	"step": 13900
	},
	{
	"epoch": 1.2444444444444445,
	"grad_norm": 2.0999035835266113,
	"learning_rate": 2.0667333333333335e-05,
	"loss": 0.1163,
	"step": 14000
	},
	{
	"epoch": 1.2533333333333334,
	"grad_norm": 2.3862359523773193,
	"learning_rate": 2.0600666666666667e-05,
	"loss": 0.1166,
	"step": 14100
	},
	{
	"epoch": 1.2622222222222224,
	"grad_norm": 3.0106606483459473,
	"learning_rate": 2.0534e-05,
	"loss": 0.1174,
	"step": 14200
	},
	{
	"epoch": 1.271111111111111,
	"grad_norm": 2.2720947265625,
	"learning_rate": 2.0467333333333333e-05,
	"loss": 0.1162,
	"step": 14300
	},
	{
	"epoch": 1.28,
	"grad_norm": 2.4867804050445557,
	"learning_rate": 2.0400666666666666e-05,
	"loss": 0.1167,
	"step": 14400
	},
	{
	"epoch": 1.2888888888888888,
	"grad_norm": 3.227097511291504,
	"learning_rate": 2.0334e-05,
	"loss": 0.1166,
	"step": 14500
	},
	{
	"epoch": 1.2977777777777777,
	"grad_norm": 2.6462483406066895,
	"learning_rate": 2.0267333333333335e-05,
	"loss": 0.116,
	"step": 14600
	},
	{
	"epoch": 1.3066666666666666,
	"grad_norm": 1.9896470308303833,
	"learning_rate": 2.0200666666666668e-05,
	"loss": 0.1166,
	"step": 14700
	},
	{
	"epoch": 1.3155555555555556,
	"grad_norm": 3.9435179233551025,
	"learning_rate": 2.0134e-05,
	"loss": 0.1161,
	"step": 14800
	},
	{
	"epoch": 1.3244444444444445,
	"grad_norm": 3.1520168781280518,
	"learning_rate": 2.0067333333333334e-05,
	"loss": 0.1163,
	"step": 14900
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 2.1935575008392334,
	"learning_rate": 2.0000666666666666e-05,
	"loss": 0.1166,
	"step": 15000
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 0.11884617805480957,
	"eval_runtime": 211.3057,
	"eval_samples_per_second": 47.325,
	"eval_steps_per_second": 5.916,
	"step": 15000
	},
	{
	"epoch": 1.3422222222222222,
	"grad_norm": 2.775670289993286,
	"learning_rate": 1.9934e-05,
	"loss": 0.1159,
	"step": 15100
	},
	{
	"epoch": 1.3511111111111112,
	"grad_norm": 2.6361074447631836,
	"learning_rate": 1.9867333333333332e-05,
	"loss": 0.1169,
	"step": 15200
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 2.5795843601226807,
	"learning_rate": 1.9800666666666665e-05,
	"loss": 0.1166,
	"step": 15300
	},
	{
	"epoch": 1.3688888888888888,
	"grad_norm": 3.1737446784973145,
	"learning_rate": 1.9734e-05,
	"loss": 0.1167,
	"step": 15400
	},
	{
	"epoch": 1.3777777777777778,
	"grad_norm": 2.2223973274230957,
	"learning_rate": 1.9667333333333334e-05,
	"loss": 0.1164,
	"step": 15500
	},
	{
	"epoch": 1.3866666666666667,
	"grad_norm": 2.2306268215179443,
	"learning_rate": 1.9600666666666667e-05,
	"loss": 0.1168,
	"step": 15600
	},
	{
	"epoch": 1.3955555555555557,
	"grad_norm": 2.343104600906372,
	"learning_rate": 1.9534e-05,
	"loss": 0.1169,
	"step": 15700
	},
	{
	"epoch": 1.4044444444444444,
	"grad_norm": 2.2243905067443848,
	"learning_rate": 1.9467333333333333e-05,
	"loss": 0.1168,
	"step": 15800
	},
	{
	"epoch": 1.4133333333333333,
	"grad_norm": 2.11381459236145,
	"learning_rate": 1.9400666666666665e-05,
	"loss": 0.1176,
	"step": 15900
	},
	{
	"epoch": 1.4222222222222223,
	"grad_norm": 2.713016986846924,
	"learning_rate": 1.9333999999999998e-05,
	"loss": 0.117,
	"step": 16000
	},
	{
	"epoch": 1.431111111111111,
	"grad_norm": 2.860501766204834,
	"learning_rate": 1.926733333333333e-05,
	"loss": 0.1165,
	"step": 16100
	},
	{
	"epoch": 1.44,
	"grad_norm": 2.216109037399292,
	"learning_rate": 1.9200666666666667e-05,
	"loss": 0.117,
	"step": 16200
	},
	{
	"epoch": 1.448888888888889,
	"grad_norm": 2.458571672439575,
	"learning_rate": 1.9134e-05,
	"loss": 0.1166,
	"step": 16300
	},
	{
	"epoch": 1.4577777777777778,
	"grad_norm": 2.421862840652466,
	"learning_rate": 1.9067333333333333e-05,
	"loss": 0.117,
	"step": 16400
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 2.4166271686553955,
	"learning_rate": 1.9000666666666666e-05,
	"loss": 0.1158,
	"step": 16500
	},
	{
	"epoch": 1.4755555555555555,
	"grad_norm": 2.1545352935791016,
	"learning_rate": 1.8934e-05,
	"loss": 0.1153,
	"step": 16600
	},
	{
	"epoch": 1.4844444444444445,
	"grad_norm": 2.041667938232422,
	"learning_rate": 1.886733333333333e-05,
	"loss": 0.1174,
	"step": 16700
	},
	{
	"epoch": 1.4933333333333334,
	"grad_norm": 2.384735584259033,
	"learning_rate": 1.8800666666666664e-05,
	"loss": 0.1163,
	"step": 16800
	},
	{
	"epoch": 1.5022222222222221,
	"grad_norm": 2.500413656234741,
	"learning_rate": 1.8734e-05,
	"loss": 0.1151,
	"step": 16900
	},
	{
	"epoch": 1.511111111111111,
	"grad_norm": 2.1342129707336426,
	"learning_rate": 1.8667333333333337e-05,
	"loss": 0.1159,
	"step": 17000
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.887050986289978,
	"learning_rate": 1.860066666666667e-05,
	"loss": 0.1167,
	"step": 17100
	},
	{
	"epoch": 1.528888888888889,
	"grad_norm": 2.915043830871582,
	"learning_rate": 1.8534000000000002e-05,
	"loss": 0.1146,
	"step": 17200
	},
	{
	"epoch": 1.537777777777778,
	"grad_norm": 1.9369572401046753,
	"learning_rate": 1.8467333333333335e-05,
	"loss": 0.115,
	"step": 17300
	},
	{
	"epoch": 1.5466666666666666,
	"grad_norm": 2.6729207038879395,
	"learning_rate": 1.8400666666666668e-05,
	"loss": 0.1164,
	"step": 17400
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 2.3808655738830566,
	"learning_rate": 1.8334e-05,
	"loss": 0.1164,
	"step": 17500
	},
	{
	"epoch": 1.5644444444444443,
	"grad_norm": 2.073694944381714,
	"learning_rate": 1.8267333333333334e-05,
	"loss": 0.1162,
	"step": 17600
	},
	{
	"epoch": 1.5733333333333333,
	"grad_norm": 2.777702808380127,
	"learning_rate": 1.820066666666667e-05,
	"loss": 0.1165,
	"step": 17700
	},
	{
	"epoch": 1.5822222222222222,
	"grad_norm": 2.505470037460327,
	"learning_rate": 1.8134000000000003e-05,
	"loss": 0.1161,
	"step": 17800
	},
	{
	"epoch": 1.5911111111111111,
	"grad_norm": 2.718674421310425,
	"learning_rate": 1.8067333333333336e-05,
	"loss": 0.1163,
	"step": 17900
	},
	{
	"epoch": 1.6,
	"grad_norm": 2.1494431495666504,
	"learning_rate": 1.800066666666667e-05,
	"loss": 0.1156,
	"step": 18000
	},
	{
	"epoch": 1.608888888888889,
	"grad_norm": 2.116150379180908,
	"learning_rate": 1.7934e-05,
	"loss": 0.1151,
	"step": 18100
	},
	{
	"epoch": 1.6177777777777778,
	"grad_norm": 2.0484061241149902,
	"learning_rate": 1.7867333333333334e-05,
	"loss": 0.1156,
	"step": 18200
	},
	{
	"epoch": 1.6266666666666667,
	"grad_norm": 2.424205780029297,
	"learning_rate": 1.7800666666666667e-05,
	"loss": 0.1163,
	"step": 18300
	},
	{
	"epoch": 1.6355555555555554,
	"grad_norm": 1.8127673864364624,
	"learning_rate": 1.7734e-05,
	"loss": 0.1158,
	"step": 18400
	},
	{
	"epoch": 1.6444444444444444,
	"grad_norm": 1.8198715448379517,
	"learning_rate": 1.7667333333333336e-05,
	"loss": 0.1154,
	"step": 18500
	},
	{
	"epoch": 1.6533333333333333,
	"grad_norm": 2.0981502532958984,
	"learning_rate": 1.760066666666667e-05,
	"loss": 0.1151,
	"step": 18600
	},
	{
	"epoch": 1.6622222222222223,
	"grad_norm": 2.4855105876922607,
	"learning_rate": 1.7534000000000002e-05,
	"loss": 0.1159,
	"step": 18700
	},
	{
	"epoch": 1.6711111111111112,
	"grad_norm": 2.699737071990967,
	"learning_rate": 1.7467333333333335e-05,
	"loss": 0.1157,
	"step": 18800
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 2.327432870864868,
	"learning_rate": 1.7400666666666668e-05,
	"loss": 0.1171,
	"step": 18900
	},
	{
	"epoch": 1.6888888888888889,
	"grad_norm": 2.1968882083892822,
	"learning_rate": 1.7334e-05,
	"loss": 0.1161,
	"step": 19000
	},
	{
	"epoch": 1.6977777777777778,
	"grad_norm": 1.8226240873336792,
	"learning_rate": 1.7267333333333333e-05,
	"loss": 0.1151,
	"step": 19100
	},
	{
	"epoch": 1.7066666666666666,
	"grad_norm": 2.7223825454711914,
	"learning_rate": 1.7200666666666666e-05,
	"loss": 0.1171,
	"step": 19200
	},
	{
	"epoch": 1.7155555555555555,
	"grad_norm": 2.9477438926696777,
	"learning_rate": 1.7134000000000002e-05,
	"loss": 0.1156,
	"step": 19300
	},
	{
	"epoch": 1.7244444444444444,
	"grad_norm": 2.40928316116333,
	"learning_rate": 1.7067333333333335e-05,
	"loss": 0.1166,
	"step": 19400
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 1.8822649717330933,
	"learning_rate": 1.7000666666666668e-05,
	"loss": 0.1153,
	"step": 19500
	},
	{
	"epoch": 1.7422222222222223,
	"grad_norm": 2.2142670154571533,
	"learning_rate": 1.6934e-05,
	"loss": 0.1163,
	"step": 19600
	},
	{
	"epoch": 1.751111111111111,
	"grad_norm": 2.1836495399475098,
	"learning_rate": 1.6867333333333334e-05,
	"loss": 0.1151,
	"step": 19700
	},
	{
	"epoch": 1.76,
	"grad_norm": 3.2107222080230713,
	"learning_rate": 1.6800666666666667e-05,
	"loss": 0.1163,
	"step": 19800
	},
	{
	"epoch": 1.7688888888888887,
	"grad_norm": 1.8287441730499268,
	"learning_rate": 1.6734e-05,
	"loss": 0.1156,
	"step": 19900
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 2.0980119705200195,
	"learning_rate": 1.6667333333333332e-05,
	"loss": 0.1155,
	"step": 20000
	},
	{
	"epoch": 1.7777777777777777,
	"eval_loss": 0.11874008923768997,
	"eval_runtime": 211.255,
	"eval_samples_per_second": 47.336,
	"eval_steps_per_second": 5.917,
	"step": 20000
	},
	{
	"epoch": 1.7866666666666666,
	"grad_norm": 2.3383679389953613,
	"learning_rate": 1.660066666666667e-05,
	"loss": 0.1138,
	"step": 20100
	},
	{
	"epoch": 1.7955555555555556,
	"grad_norm": 2.7525901794433594,
	"learning_rate": 1.6534e-05,
	"loss": 0.116,
	"step": 20200
	},
	{
	"epoch": 1.8044444444444445,
	"grad_norm": 2.5040132999420166,
	"learning_rate": 1.6467333333333334e-05,
	"loss": 0.1161,
	"step": 20300
	},
	{
	"epoch": 1.8133333333333335,
	"grad_norm": 2.259471893310547,
	"learning_rate": 1.6400666666666667e-05,
	"loss": 0.117,
	"step": 20400
	},
	{
	"epoch": 1.8222222222222222,
	"grad_norm": 2.2679028511047363,
	"learning_rate": 1.6334e-05,
	"loss": 0.1137,
	"step": 20500
	},
	{
	"epoch": 1.8311111111111111,
	"grad_norm": 2.327155351638794,
	"learning_rate": 1.6267333333333333e-05,
	"loss": 0.1166,
	"step": 20600
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 1.955175757408142,
	"learning_rate": 1.6200666666666665e-05,
	"loss": 0.1166,
	"step": 20700
	},
	{
	"epoch": 1.8488888888888888,
	"grad_norm": 2.710777759552002,
	"learning_rate": 1.6134e-05,
	"loss": 0.1172,
	"step": 20800
	},
	{
	"epoch": 1.8577777777777778,
	"grad_norm": 2.216688632965088,
	"learning_rate": 1.6067333333333335e-05,
	"loss": 0.1161,
	"step": 20900
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 2.182429075241089,
	"learning_rate": 1.6000666666666667e-05,
	"loss": 0.1156,
	"step": 21000
	},
	{
	"epoch": 1.8755555555555556,
	"grad_norm": 1.9243407249450684,
	"learning_rate": 1.5934e-05,
	"loss": 0.1142,
	"step": 21100
	},
	{
	"epoch": 1.8844444444444446,
	"grad_norm": 2.7626757621765137,
	"learning_rate": 1.5867333333333333e-05,
	"loss": 0.1145,
	"step": 21200
	},
	{
	"epoch": 1.8933333333333333,
	"grad_norm": 2.6856908798217773,
	"learning_rate": 1.5800666666666666e-05,
	"loss": 0.1152,
	"step": 21300
	},
	{
	"epoch": 1.9022222222222223,
	"grad_norm": 1.7904895544052124,
	"learning_rate": 1.5734e-05,
	"loss": 0.1155,
	"step": 21400
	},
	{
	"epoch": 1.911111111111111,
	"grad_norm": 3.033803939819336,
	"learning_rate": 1.566733333333333e-05,
	"loss": 0.1166,
	"step": 21500
	},
	{
	"epoch": 1.92,
	"grad_norm": 2.309826612472534,
	"learning_rate": 1.5600666666666668e-05,
	"loss": 0.1158,
	"step": 21600
	},
	{
	"epoch": 1.9288888888888889,
	"grad_norm": 1.7815381288528442,
	"learning_rate": 1.5534e-05,
	"loss": 0.1162,
	"step": 21700
	},
	{
	"epoch": 1.9377777777777778,
	"grad_norm": 2.4178450107574463,
	"learning_rate": 1.5467333333333334e-05,
	"loss": 0.1148,
	"step": 21800
	},
	{
	"epoch": 1.9466666666666668,
	"grad_norm": 2.054873466491699,
	"learning_rate": 1.5400666666666666e-05,
	"loss": 0.1159,
	"step": 21900
	},
	{
	"epoch": 1.9555555555555557,
	"grad_norm": 2.2199928760528564,
	"learning_rate": 1.5334e-05,
	"loss": 0.116,
	"step": 22000
	},
	{
	"epoch": 1.9644444444444444,
	"grad_norm": 2.7613635063171387,
	"learning_rate": 1.5267333333333332e-05,
	"loss": 0.1158,
	"step": 22100
	},
	{
	"epoch": 1.9733333333333334,
	"grad_norm": 2.339095115661621,
	"learning_rate": 1.5200666666666667e-05,
	"loss": 0.1165,
	"step": 22200
	},
	{
	"epoch": 1.982222222222222,
	"grad_norm": 2.9039108753204346,
	"learning_rate": 1.5134e-05,
	"loss": 0.1161,
	"step": 22300
	},
	{
	"epoch": 1.991111111111111,
	"grad_norm": 1.7739943265914917,
	"learning_rate": 1.5067333333333336e-05,
	"loss": 0.1156,
	"step": 22400
	},
	{
	"epoch": 2.0,
	"grad_norm": 2.047527551651001,
	"learning_rate": 1.5000666666666669e-05,
	"loss": 0.1154,
	"step": 22500
	},
	{
	"epoch": 2.008888888888889,
	"grad_norm": 2.352304458618164,
	"learning_rate": 1.4934000000000001e-05,
	"loss": 0.1158,
	"step": 22600
	},
	{
	"epoch": 2.017777777777778,
	"grad_norm": 2.671964645385742,
	"learning_rate": 1.4867333333333334e-05,
	"loss": 0.1162,
	"step": 22700
	},
	{
	"epoch": 2.026666666666667,
	"grad_norm": 2.2361083030700684,
	"learning_rate": 1.4800666666666667e-05,
	"loss": 0.1159,
	"step": 22800
	},
	{
	"epoch": 2.0355555555555553,
	"grad_norm": 2.8421878814697266,
	"learning_rate": 1.4734e-05,
	"loss": 0.1165,
	"step": 22900
	},
	{
	"epoch": 2.0444444444444443,
	"grad_norm": 2.485544204711914,
	"learning_rate": 1.4667333333333334e-05,
	"loss": 0.1152,
	"step": 23000
	},
	{
	"epoch": 2.0533333333333332,
	"grad_norm": 2.96846079826355,
	"learning_rate": 1.4600666666666667e-05,
	"loss": 0.1155,
	"step": 23100
	},
	{
	"epoch": 2.062222222222222,
	"grad_norm": 2.7394907474517822,
	"learning_rate": 1.4534e-05,
	"loss": 0.1164,
	"step": 23200
	},
	{
	"epoch": 2.071111111111111,
	"grad_norm": 2.4437592029571533,
	"learning_rate": 1.4467333333333333e-05,
	"loss": 0.1156,
	"step": 23300
	},
	{
	"epoch": 2.08,
	"grad_norm": 2.2288527488708496,
	"learning_rate": 1.4400666666666667e-05,
	"loss": 0.1158,
	"step": 23400
	},
	{
	"epoch": 2.088888888888889,
	"grad_norm": 2.3188891410827637,
	"learning_rate": 1.4334e-05,
	"loss": 0.1148,
	"step": 23500
	},
	{
	"epoch": 2.097777777777778,
	"grad_norm": 2.7612464427948,
	"learning_rate": 1.4267333333333333e-05,
	"loss": 0.1171,
	"step": 23600
	},
	{
	"epoch": 2.1066666666666665,
	"grad_norm": 2.3894736766815186,
	"learning_rate": 1.4200666666666666e-05,
	"loss": 0.1148,
	"step": 23700
	},
	{
	"epoch": 2.1155555555555554,
	"grad_norm": 2.3277463912963867,
	"learning_rate": 1.4134e-05,
	"loss": 0.1153,
	"step": 23800
	},
	{
	"epoch": 2.1244444444444444,
	"grad_norm": 2.8140342235565186,
	"learning_rate": 1.4067333333333333e-05,
	"loss": 0.1137,
	"step": 23900
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 2.089547634124756,
	"learning_rate": 1.4000666666666666e-05,
	"loss": 0.1155,
	"step": 24000
	},
	{
	"epoch": 2.1422222222222222,
	"grad_norm": 3.302685260772705,
	"learning_rate": 1.3934e-05,
	"loss": 0.1153,
	"step": 24100
	},
	{
	"epoch": 2.151111111111111,
	"grad_norm": 4.049182415008545,
	"learning_rate": 1.3867333333333334e-05,
	"loss": 0.1157,
	"step": 24200
	},
	{
	"epoch": 2.16,
	"grad_norm": 2.8935699462890625,
	"learning_rate": 1.3800666666666666e-05,
	"loss": 0.1148,
	"step": 24300
	},
	{
	"epoch": 2.168888888888889,
	"grad_norm": 2.7473628520965576,
	"learning_rate": 1.3734e-05,
	"loss": 0.1163,
	"step": 24400
	},
	{
	"epoch": 2.1777777777777776,
	"grad_norm": 2.5902512073516846,
	"learning_rate": 1.3667333333333334e-05,
	"loss": 0.1166,
	"step": 24500
	},
	{
	"epoch": 2.1866666666666665,
	"grad_norm": 2.7223613262176514,
	"learning_rate": 1.3600666666666667e-05,
	"loss": 0.1162,
	"step": 24600
	},
	{
	"epoch": 2.1955555555555555,
	"grad_norm": 2.1939899921417236,
	"learning_rate": 1.3534e-05,
	"loss": 0.1154,
	"step": 24700
	},
	{
	"epoch": 2.2044444444444444,
	"grad_norm": 2.0452585220336914,
	"learning_rate": 1.3467333333333332e-05,
	"loss": 0.1152,
	"step": 24800
	},
	{
	"epoch": 2.2133333333333334,
	"grad_norm": 1.8646681308746338,
	"learning_rate": 1.3400666666666667e-05,
	"loss": 0.1155,
	"step": 24900
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 1.9449495077133179,
	"learning_rate": 1.3334000000000001e-05,
	"loss": 0.1152,
	"step": 25000
	},
	{
	"epoch": 2.2222222222222223,
	"eval_loss": 0.11821907013654709,
	"eval_runtime": 205.4004,
	"eval_samples_per_second": 48.685,
	"eval_steps_per_second": 6.086,
	"step": 25000
	},
	{
	"epoch": 2.2311111111111113,
	"grad_norm": 2.43855881690979,
	"learning_rate": 1.3267333333333334e-05,
	"loss": 0.1152,
	"step": 25100
	},
	{
	"epoch": 2.24,
	"grad_norm": 2.259459972381592,
	"learning_rate": 1.3200666666666667e-05,
	"loss": 0.1166,
	"step": 25200
	},
	{
	"epoch": 2.2488888888888887,
	"grad_norm": 1.6553391218185425,
	"learning_rate": 1.3134000000000002e-05,
	"loss": 0.1161,
	"step": 25300
	},
	{
	"epoch": 2.2577777777777777,
	"grad_norm": 2.632042407989502,
	"learning_rate": 1.3067333333333334e-05,
	"loss": 0.1158,
	"step": 25400
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 1.961142897605896,
	"learning_rate": 1.3000666666666667e-05,
	"loss": 0.1155,
	"step": 25500
	},
	{
	"epoch": 2.2755555555555556,
	"grad_norm": 3.4109835624694824,
	"learning_rate": 1.2934e-05,
	"loss": 0.1157,
	"step": 25600
	},
	{
	"epoch": 2.2844444444444445,
	"grad_norm": 1.8419948816299438,
	"learning_rate": 1.2867333333333335e-05,
	"loss": 0.1155,
	"step": 25700
	},
	{
	"epoch": 2.2933333333333334,
	"grad_norm": 1.9801756143569946,
	"learning_rate": 1.2800666666666668e-05,
	"loss": 0.1158,
	"step": 25800
	},
	{
	"epoch": 2.3022222222222224,
	"grad_norm": 2.43862247467041,
	"learning_rate": 1.2734e-05,
	"loss": 0.1153,
	"step": 25900
	},
	{
	"epoch": 2.311111111111111,
	"grad_norm": 2.5168206691741943,
	"learning_rate": 1.2667333333333333e-05,
	"loss": 0.1156,
	"step": 26000
	},
	{
	"epoch": 2.32,
	"grad_norm": 1.8565939664840698,
	"learning_rate": 1.2600666666666668e-05,
	"loss": 0.1152,
	"step": 26100
	},
	{
	"epoch": 2.328888888888889,
	"grad_norm": 2.830747127532959,
	"learning_rate": 1.2534e-05,
	"loss": 0.1162,
	"step": 26200
	},
	{
	"epoch": 2.3377777777777777,
	"grad_norm": 2.1019651889801025,
	"learning_rate": 1.2467333333333333e-05,
	"loss": 0.1133,
	"step": 26300
	},
	{
	"epoch": 2.3466666666666667,
	"grad_norm": 2.217740774154663,
	"learning_rate": 1.2400666666666666e-05,
	"loss": 0.1152,
	"step": 26400
	},
	{
	"epoch": 2.3555555555555556,
	"grad_norm": 2.361687660217285,
	"learning_rate": 1.2334e-05,
	"loss": 0.1156,
	"step": 26500
	},
	{
	"epoch": 2.3644444444444446,
	"grad_norm": 2.0507583618164062,
	"learning_rate": 1.2267333333333334e-05,
	"loss": 0.1159,
	"step": 26600
	},
	{
	"epoch": 2.3733333333333335,
	"grad_norm": 2.8861610889434814,
	"learning_rate": 1.2200666666666667e-05,
	"loss": 0.1151,
	"step": 26700
	},
	{
	"epoch": 2.3822222222222225,
	"grad_norm": 1.8134089708328247,
	"learning_rate": 1.2134e-05,
	"loss": 0.1154,
	"step": 26800
	},
	{
	"epoch": 2.391111111111111,
	"grad_norm": 2.0537240505218506,
	"learning_rate": 1.2067333333333334e-05,
	"loss": 0.1159,
	"step": 26900
	},
	{
	"epoch": 2.4,
	"grad_norm": 2.097390651702881,
	"learning_rate": 1.2000666666666667e-05,
	"loss": 0.1161,
	"step": 27000
	},
	{
	"epoch": 2.408888888888889,
	"grad_norm": 2.088944435119629,
	"learning_rate": 1.1934e-05,
	"loss": 0.1146,
	"step": 27100
	},
	{
	"epoch": 2.417777777777778,
	"grad_norm": 2.133535385131836,
	"learning_rate": 1.1867333333333332e-05,
	"loss": 0.1159,
	"step": 27200
	},
	{
	"epoch": 2.4266666666666667,
	"grad_norm": 1.7839490175247192,
	"learning_rate": 1.1800666666666667e-05,
	"loss": 0.1151,
	"step": 27300
	},
	{
	"epoch": 2.4355555555555557,
	"grad_norm": 2.6169657707214355,
	"learning_rate": 1.1734e-05,
	"loss": 0.1163,
	"step": 27400
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 2.3692398071289062,
	"learning_rate": 1.1667333333333333e-05,
	"loss": 0.1154,
	"step": 27500
	},
	{
	"epoch": 2.453333333333333,
	"grad_norm": 2.067922353744507,
	"learning_rate": 1.1600666666666667e-05,
	"loss": 0.1164,
	"step": 27600
	},
	{
	"epoch": 2.462222222222222,
	"grad_norm": 2.0473413467407227,
	"learning_rate": 1.1534e-05,
	"loss": 0.1163,
	"step": 27700
	},
	{
	"epoch": 2.471111111111111,
	"grad_norm": 2.808614730834961,
	"learning_rate": 1.1467333333333333e-05,
	"loss": 0.1156,
	"step": 27800
	},
	{
	"epoch": 2.48,
	"grad_norm": 2.913728713989258,
	"learning_rate": 1.1400666666666666e-05,
	"loss": 0.116,
	"step": 27900
	},
	{
	"epoch": 2.488888888888889,
	"grad_norm": 1.912876009941101,
	"learning_rate": 1.1334e-05,
	"loss": 0.1152,
	"step": 28000
	},
	{
	"epoch": 2.497777777777778,
	"grad_norm": 1.86778724193573,
	"learning_rate": 1.1267333333333333e-05,
	"loss": 0.1153,
	"step": 28100
	},
	{
	"epoch": 2.506666666666667,
	"grad_norm": 2.0126466751098633,
	"learning_rate": 1.1200666666666668e-05,
	"loss": 0.1158,
	"step": 28200
	},
	{
	"epoch": 2.5155555555555553,
	"grad_norm": 3.1814756393432617,
	"learning_rate": 1.1134e-05,
	"loss": 0.1141,
	"step": 28300
	},
	{
	"epoch": 2.5244444444444447,
	"grad_norm": 1.9883755445480347,
	"learning_rate": 1.1067333333333335e-05,
	"loss": 0.1166,
	"step": 28400
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 2.183955192565918,
	"learning_rate": 1.1000666666666668e-05,
	"loss": 0.1148,
	"step": 28500
	},
	{
	"epoch": 2.542222222222222,
	"grad_norm": 1.8114796876907349,
	"learning_rate": 1.0934e-05,
	"loss": 0.1152,
	"step": 28600
	},
	{
	"epoch": 2.551111111111111,
	"grad_norm": 2.805391550064087,
	"learning_rate": 1.0867333333333334e-05,
	"loss": 0.1167,
	"step": 28700
	},
	{
	"epoch": 2.56,
	"grad_norm": 1.9589388370513916,
	"learning_rate": 1.0800666666666668e-05,
	"loss": 0.1159,
	"step": 28800
	},
	{
	"epoch": 2.568888888888889,
	"grad_norm": 2.483231782913208,
	"learning_rate": 1.0734000000000001e-05,
	"loss": 0.1164,
	"step": 28900
	},
	{
	"epoch": 2.5777777777777775,
	"grad_norm": 2.146597385406494,
	"learning_rate": 1.0667333333333334e-05,
	"loss": 0.1157,
	"step": 29000
	},
	{
	"epoch": 2.586666666666667,
	"grad_norm": 2.4722535610198975,
	"learning_rate": 1.0600666666666667e-05,
	"loss": 0.1152,
	"step": 29100
	},
	{
	"epoch": 2.5955555555555554,
	"grad_norm": 2.1983442306518555,
	"learning_rate": 1.0534000000000001e-05,
	"loss": 0.1157,
	"step": 29200
	},
	{
	"epoch": 2.6044444444444443,
	"grad_norm": 2.2970950603485107,
	"learning_rate": 1.0467333333333334e-05,
	"loss": 0.1157,
	"step": 29300
	},
	{
	"epoch": 2.6133333333333333,
	"grad_norm": 2.0761561393737793,
	"learning_rate": 1.0400666666666667e-05,
	"loss": 0.1158,
	"step": 29400
	},
	{
	"epoch": 2.6222222222222222,
	"grad_norm": 2.563446283340454,
	"learning_rate": 1.0334e-05,
	"loss": 0.1148,
	"step": 29500
	},
	{
	"epoch": 2.631111111111111,
	"grad_norm": 1.857676386833191,
	"learning_rate": 1.0267333333333334e-05,
	"loss": 0.1156,
	"step": 29600
	},
	{
	"epoch": 2.64,
	"grad_norm": 1.8866102695465088,
	"learning_rate": 1.0200666666666667e-05,
	"loss": 0.1161,
	"step": 29700
	},
	{
	"epoch": 2.648888888888889,
	"grad_norm": 2.0575530529022217,
	"learning_rate": 1.0134e-05,
	"loss": 0.1147,
	"step": 29800
	},
	{
	"epoch": 2.6577777777777776,
	"grad_norm": 2.034001111984253,
	"learning_rate": 1.0067333333333333e-05,
	"loss": 0.1157,
	"step": 29900
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 2.0795133113861084,
	"learning_rate": 1.0000666666666667e-05,
	"loss": 0.1148,
	"step": 30000
	},
	{
	"epoch": 2.6666666666666665,
	"eval_loss": 0.11856765300035477,
	"eval_runtime": 205.9117,
	"eval_samples_per_second": 48.565,
	"eval_steps_per_second": 6.071,
	"step": 30000
	},
	{
	"epoch": 2.6755555555555555,
	"grad_norm": 1.806398630142212,
	"learning_rate": 9.934e-06,
	"loss": 0.1157,
	"step": 30100
	},
	{
	"epoch": 2.6844444444444444,
	"grad_norm": 2.670499563217163,
	"learning_rate": 9.867333333333333e-06,
	"loss": 0.1158,
	"step": 30200
	},
	{
	"epoch": 2.6933333333333334,
	"grad_norm": 2.7029168605804443,
	"learning_rate": 9.800666666666666e-06,
	"loss": 0.1158,
	"step": 30300
	},
	{
	"epoch": 2.7022222222222223,
	"grad_norm": 2.2368838787078857,
	"learning_rate": 9.734e-06,
	"loss": 0.1158,
	"step": 30400
	},
	{
	"epoch": 2.7111111111111112,
	"grad_norm": 2.2548608779907227,
	"learning_rate": 9.667333333333333e-06,
	"loss": 0.1158,
	"step": 30500
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 2.935089588165283,
	"learning_rate": 9.600666666666666e-06,
	"loss": 0.1158,
	"step": 30600
	},
	{
	"epoch": 2.728888888888889,
	"grad_norm": 2.124918222427368,
	"learning_rate": 9.534e-06,
	"loss": 0.116,
	"step": 30700
	},
	{
	"epoch": 2.7377777777777776,
	"grad_norm": 2.378983736038208,
	"learning_rate": 9.467333333333333e-06,
	"loss": 0.1151,
	"step": 30800
	},
	{
	"epoch": 2.7466666666666666,
	"grad_norm": 2.25007963180542,
	"learning_rate": 9.400666666666666e-06,
	"loss": 0.1149,
	"step": 30900
	},
	{
	"epoch": 2.7555555555555555,
	"grad_norm": 2.59733510017395,
	"learning_rate": 9.333999999999999e-06,
	"loss": 0.1161,
	"step": 31000
	},
	{
	"epoch": 2.7644444444444445,
	"grad_norm": 1.812325119972229,
	"learning_rate": 9.267333333333334e-06,
	"loss": 0.1138,
	"step": 31100
	},
	{
	"epoch": 2.7733333333333334,
	"grad_norm": 1.9207689762115479,
	"learning_rate": 9.200666666666666e-06,
	"loss": 0.1147,
	"step": 31200
	},
	{
	"epoch": 2.7822222222222224,
	"grad_norm": 2.4983069896698,
	"learning_rate": 9.134e-06,
	"loss": 0.1153,
	"step": 31300
	},
	{
	"epoch": 2.7911111111111113,
	"grad_norm": 2.1139156818389893,
	"learning_rate": 9.067333333333334e-06,
	"loss": 0.1147,
	"step": 31400
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.7658330202102661,
	"learning_rate": 9.000666666666668e-06,
	"loss": 0.1149,
	"step": 31500
	},
	{
	"epoch": 2.8088888888888888,
	"grad_norm": 2.7101166248321533,
	"learning_rate": 8.934000000000001e-06,
	"loss": 0.1159,
	"step": 31600
	},
	{
	"epoch": 2.8177777777777777,
	"grad_norm": 2.397491455078125,
	"learning_rate": 8.867333333333334e-06,
	"loss": 0.1145,
	"step": 31700
	},
	{
	"epoch": 2.8266666666666667,
	"grad_norm": 1.7462725639343262,
	"learning_rate": 8.800666666666667e-06,
	"loss": 0.1146,
	"step": 31800
	},
	{
	"epoch": 2.8355555555555556,
	"grad_norm": 1.9845815896987915,
	"learning_rate": 8.734000000000001e-06,
	"loss": 0.1159,
	"step": 31900
	},
	{
	"epoch": 2.8444444444444446,
	"grad_norm": 2.7019858360290527,
	"learning_rate": 8.667333333333334e-06,
	"loss": 0.1161,
	"step": 32000
	},
	{
	"epoch": 2.8533333333333335,
	"grad_norm": 2.1721303462982178,
	"learning_rate": 8.600666666666667e-06,
	"loss": 0.1158,
	"step": 32100
	},
	{
	"epoch": 2.862222222222222,
	"grad_norm": 2.018580436706543,
	"learning_rate": 8.534e-06,
	"loss": 0.1155,
	"step": 32200
	},
	{
	"epoch": 2.871111111111111,
	"grad_norm": 2.5351226329803467,
	"learning_rate": 8.467333333333334e-06,
	"loss": 0.1145,
	"step": 32300
	},
	{
	"epoch": 2.88,
	"grad_norm": 2.0548834800720215,
	"learning_rate": 8.400666666666667e-06,
	"loss": 0.1123,
	"step": 32400
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 1.849409818649292,
	"learning_rate": 8.334e-06,
	"loss": 0.1164,
	"step": 32500
	},
	{
	"epoch": 2.897777777777778,
	"grad_norm": 1.837160348892212,
	"learning_rate": 8.267333333333333e-06,
	"loss": 0.1149,
	"step": 32600
	},
	{
	"epoch": 2.9066666666666667,
	"grad_norm": 2.0503478050231934,
	"learning_rate": 8.200666666666668e-06,
	"loss": 0.1156,
	"step": 32700
	},
	{
	"epoch": 2.9155555555555557,
	"grad_norm": 2.295761823654175,
	"learning_rate": 8.134e-06,
	"loss": 0.1161,
	"step": 32800
	},
	{
	"epoch": 2.924444444444444,
	"grad_norm": 1.939372181892395,
	"learning_rate": 8.067333333333333e-06,
	"loss": 0.1159,
	"step": 32900
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 2.1088409423828125,
	"learning_rate": 8.000666666666666e-06,
	"loss": 0.1151,
	"step": 33000
	},
	{
	"epoch": 2.942222222222222,
	"grad_norm": 2.3162732124328613,
	"learning_rate": 7.934e-06,
	"loss": 0.1146,
	"step": 33100
	},
	{
	"epoch": 2.951111111111111,
	"grad_norm": 2.5189192295074463,
	"learning_rate": 7.867333333333333e-06,
	"loss": 0.1153,
	"step": 33200
	},
	{
	"epoch": 2.96,
	"grad_norm": 2.011211633682251,
	"learning_rate": 7.800666666666666e-06,
	"loss": 0.1154,
	"step": 33300
	},
	{
	"epoch": 2.968888888888889,
	"grad_norm": 2.14790415763855,
	"learning_rate": 7.733999999999999e-06,
	"loss": 0.1158,
	"step": 33400
	},
	{
	"epoch": 2.977777777777778,
	"grad_norm": 1.6173288822174072,
	"learning_rate": 7.667333333333334e-06,
	"loss": 0.1154,
	"step": 33500
	},
	{
	"epoch": 2.986666666666667,
	"grad_norm": 2.406761407852173,
	"learning_rate": 7.6006666666666665e-06,
	"loss": 0.1162,
	"step": 33600
	},
	{
	"epoch": 2.9955555555555557,
	"grad_norm": 1.9551059007644653,
	"learning_rate": 7.533999999999999e-06,
	"loss": 0.1152,
	"step": 33700
	},
	{
	"epoch": 3.0044444444444443,
	"grad_norm": 3.290292263031006,
	"learning_rate": 7.467333333333334e-06,
	"loss": 0.1139,
	"step": 33800
	},
	{
	"epoch": 3.013333333333333,
	"grad_norm": 1.8533827066421509,
	"learning_rate": 7.400666666666668e-06,
	"loss": 0.115,
	"step": 33900
	},
	{
	"epoch": 3.022222222222222,
	"grad_norm": 2.736829996109009,
	"learning_rate": 7.3340000000000004e-06,
	"loss": 0.1166,
	"step": 34000
	},
	{
	"epoch": 3.031111111111111,
	"grad_norm": 1.9183787107467651,
	"learning_rate": 7.267333333333334e-06,
	"loss": 0.1156,
	"step": 34100
	},
	{
	"epoch": 3.04,
	"grad_norm": 2.566490411758423,
	"learning_rate": 7.200666666666667e-06,
	"loss": 0.1144,
	"step": 34200
	},
	{
	"epoch": 3.048888888888889,
	"grad_norm": 1.9702024459838867,
	"learning_rate": 7.134000000000001e-06,
	"loss": 0.1155,
	"step": 34300
	},
	{
	"epoch": 3.057777777777778,
	"grad_norm": 1.7992531061172485,
	"learning_rate": 7.0673333333333335e-06,
	"loss": 0.115,
	"step": 34400
	},
	{
	"epoch": 3.066666666666667,
	"grad_norm": 2.741799831390381,
	"learning_rate": 7.000666666666667e-06,
	"loss": 0.1135,
	"step": 34500
	},
	{
	"epoch": 3.0755555555555554,
	"grad_norm": 2.1746695041656494,
	"learning_rate": 6.934e-06,
	"loss": 0.1157,
	"step": 34600
	},
	{
	"epoch": 3.0844444444444443,
	"grad_norm": 2.317960023880005,
	"learning_rate": 6.867333333333334e-06,
	"loss": 0.116,
	"step": 34700
	},
	{
	"epoch": 3.0933333333333333,
	"grad_norm": 2.2601873874664307,
	"learning_rate": 6.8006666666666666e-06,
	"loss": 0.1166,
	"step": 34800
	},
	{
	"epoch": 3.102222222222222,
	"grad_norm": 2.3944337368011475,
	"learning_rate": 6.734e-06,
	"loss": 0.1148,
	"step": 34900
	},
	{
	"epoch": 3.111111111111111,
	"grad_norm": 1.8338050842285156,
	"learning_rate": 6.667333333333333e-06,
	"loss": 0.1162,
	"step": 35000
	},
	{
	"epoch": 3.111111111111111,
	"eval_loss": 0.11784859746694565,
	"eval_runtime": 222.7792,
	"eval_samples_per_second": 44.887,
	"eval_steps_per_second": 5.611,
	"step": 35000
	},
	{
	"epoch": 3.12,
	"grad_norm": 2.1952126026153564,
	"learning_rate": 6.600666666666667e-06,
	"loss": 0.1155,
	"step": 35100
	},
	{
	"epoch": 3.128888888888889,
	"grad_norm": 2.4511802196502686,
	"learning_rate": 6.534e-06,
	"loss": 0.1161,
	"step": 35200
	},
	{
	"epoch": 3.137777777777778,
	"grad_norm": 2.5017638206481934,
	"learning_rate": 6.467333333333333e-06,
	"loss": 0.1151,
	"step": 35300
	},
	{
	"epoch": 3.1466666666666665,
	"grad_norm": 2.345991373062134,
	"learning_rate": 6.400666666666667e-06,
	"loss": 0.1161,
	"step": 35400
	},
	{
	"epoch": 3.1555555555555554,
	"grad_norm": 2.8866028785705566,
	"learning_rate": 6.334000000000001e-06,
	"loss": 0.1156,
	"step": 35500
	},
	{
	"epoch": 3.1644444444444444,
	"grad_norm": 2.9575486183166504,
	"learning_rate": 6.2673333333333335e-06,
	"loss": 0.1142,
	"step": 35600
	},
	{
	"epoch": 3.1733333333333333,
	"grad_norm": 2.0834195613861084,
	"learning_rate": 6.200666666666667e-06,
	"loss": 0.1155,
	"step": 35700
	},
	{
	"epoch": 3.1822222222222223,
	"grad_norm": 2.265125036239624,
	"learning_rate": 6.134e-06,
	"loss": 0.1153,
	"step": 35800
	},
	{
	"epoch": 3.1911111111111112,
	"grad_norm": 1.915515661239624,
	"learning_rate": 6.067333333333334e-06,
	"loss": 0.1156,
	"step": 35900
	},
	{
	"epoch": 3.2,
	"grad_norm": 1.5453358888626099,
	"learning_rate": 6.000666666666667e-06,
	"loss": 0.1159,
	"step": 36000
	},
	{
	"epoch": 3.2088888888888887,
	"grad_norm": 3.102155923843384,
	"learning_rate": 5.934e-06,
	"loss": 0.1159,
	"step": 36100
	},
	{
	"epoch": 3.2177777777777776,
	"grad_norm": 1.9122494459152222,
	"learning_rate": 5.867333333333333e-06,
	"loss": 0.1152,
	"step": 36200
	},
	{
	"epoch": 3.2266666666666666,
	"grad_norm": 3.5081045627593994,
	"learning_rate": 5.800666666666667e-06,
	"loss": 0.1155,
	"step": 36300
	},
	{
	"epoch": 3.2355555555555555,
	"grad_norm": 2.1976592540740967,
	"learning_rate": 5.734e-06,
	"loss": 0.1153,
	"step": 36400
	},
	{
	"epoch": 3.2444444444444445,
	"grad_norm": 1.8369086980819702,
	"learning_rate": 5.667333333333333e-06,
	"loss": 0.1144,
	"step": 36500
	},
	{
	"epoch": 3.2533333333333334,
	"grad_norm": 2.886779308319092,
	"learning_rate": 5.600666666666666e-06,
	"loss": 0.1137,
	"step": 36600
	},
	{
	"epoch": 3.2622222222222224,
	"grad_norm": 2.462570905685425,
	"learning_rate": 5.534e-06,
	"loss": 0.1149,
	"step": 36700
	},
	{
	"epoch": 3.2711111111111113,
	"grad_norm": 2.79964017868042,
	"learning_rate": 5.467333333333333e-06,
	"loss": 0.1144,
	"step": 36800
	},
	{
	"epoch": 3.2800000000000002,
	"grad_norm": 2.734807014465332,
	"learning_rate": 5.400666666666666e-06,
	"loss": 0.1165,
	"step": 36900
	},
	{
	"epoch": 3.2888888888888888,
	"grad_norm": 2.096987247467041,
	"learning_rate": 5.334000000000001e-06,
	"loss": 0.1152,
	"step": 37000
	},
	{
	"epoch": 3.2977777777777777,
	"grad_norm": 2.1545772552490234,
	"learning_rate": 5.267333333333334e-06,
	"loss": 0.1159,
	"step": 37100
	},
	{
	"epoch": 3.3066666666666666,
	"grad_norm": 2.877927780151367,
	"learning_rate": 5.2006666666666675e-06,
	"loss": 0.1145,
	"step": 37200
	},
	{
	"epoch": 3.3155555555555556,
	"grad_norm": 2.041455030441284,
	"learning_rate": 5.134e-06,
	"loss": 0.1146,
	"step": 37300
	},
	{
	"epoch": 3.3244444444444445,
	"grad_norm": 3.838764190673828,
	"learning_rate": 5.067333333333334e-06,
	"loss": 0.115,
	"step": 37400
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 2.4776864051818848,
	"learning_rate": 5.000666666666667e-06,
	"loss": 0.1153,
	"step": 37500
	},
	{
	"epoch": 3.3422222222222224,
	"grad_norm": 2.534553050994873,
	"learning_rate": 4.9340000000000005e-06,
	"loss": 0.1154,
	"step": 37600
	},
	{
	"epoch": 3.351111111111111,
	"grad_norm": 2.8918344974517822,
	"learning_rate": 4.867333333333333e-06,
	"loss": 0.1148,
	"step": 37700
	},
	{
	"epoch": 3.36,
	"grad_norm": 2.2287111282348633,
	"learning_rate": 4.800666666666667e-06,
	"loss": 0.1154,
	"step": 37800
	},
	{
	"epoch": 3.368888888888889,
	"grad_norm": 1.7449971437454224,
	"learning_rate": 4.734e-06,
	"loss": 0.1135,
	"step": 37900
	},
	{
	"epoch": 3.3777777777777778,
	"grad_norm": 1.7717570066452026,
	"learning_rate": 4.667333333333334e-06,
	"loss": 0.1159,
	"step": 38000
	},
	{
	"epoch": 3.3866666666666667,
	"grad_norm": 2.641322135925293,
	"learning_rate": 4.6006666666666664e-06,
	"loss": 0.115,
	"step": 38100
	},
	{
	"epoch": 3.3955555555555557,
	"grad_norm": 2.314724922180176,
	"learning_rate": 4.534e-06,
	"loss": 0.1155,
	"step": 38200
	},
	{
	"epoch": 3.4044444444444446,
	"grad_norm": 2.006136894226074,
	"learning_rate": 4.467333333333333e-06,
	"loss": 0.1151,
	"step": 38300
	},
	{
	"epoch": 3.413333333333333,
	"grad_norm": 2.498370885848999,
	"learning_rate": 4.400666666666667e-06,
	"loss": 0.1135,
	"step": 38400
	},
	{
	"epoch": 3.422222222222222,
	"grad_norm": 2.1067326068878174,
	"learning_rate": 4.3339999999999995e-06,
	"loss": 0.1142,
	"step": 38500
	},
	{
	"epoch": 3.431111111111111,
	"grad_norm": 2.3120410442352295,
	"learning_rate": 4.267333333333334e-06,
	"loss": 0.1156,
	"step": 38600
	},
	{
	"epoch": 3.44,
	"grad_norm": 2.062558650970459,
	"learning_rate": 4.200666666666667e-06,
	"loss": 0.1146,
	"step": 38700
	},
	{
	"epoch": 3.448888888888889,
	"grad_norm": 1.8033158779144287,
	"learning_rate": 4.1340000000000006e-06,
	"loss": 0.1142,
	"step": 38800
	},
	{
	"epoch": 3.457777777777778,
	"grad_norm": 1.7999958992004395,
	"learning_rate": 4.067333333333333e-06,
	"loss": 0.1152,
	"step": 38900
	},
	{
	"epoch": 3.466666666666667,
	"grad_norm": 1.9380857944488525,
	"learning_rate": 4.000666666666667e-06,
	"loss": 0.1159,
	"step": 39000
	},
	{
	"epoch": 3.4755555555555557,
	"grad_norm": 2.4088852405548096,
	"learning_rate": 3.934e-06,
	"loss": 0.1142,
	"step": 39100
	},
	{
	"epoch": 3.4844444444444447,
	"grad_norm": 1.9888384342193604,
	"learning_rate": 3.867333333333334e-06,
	"loss": 0.1131,
	"step": 39200
	},
	{
	"epoch": 3.493333333333333,
	"grad_norm": 2.044527530670166,
	"learning_rate": 3.8006666666666665e-06,
	"loss": 0.1145,
	"step": 39300
	},
	{
	"epoch": 3.502222222222222,
	"grad_norm": 1.478445291519165,
	"learning_rate": 3.734e-06,
	"loss": 0.114,
	"step": 39400
	},
	{
	"epoch": 3.511111111111111,
	"grad_norm": 2.0271923542022705,
	"learning_rate": 3.6673333333333334e-06,
	"loss": 0.1148,
	"step": 39500
	},
	{
	"epoch": 3.52,
	"grad_norm": 2.7675399780273438,
	"learning_rate": 3.6006666666666667e-06,
	"loss": 0.116,
	"step": 39600
	},
	{
	"epoch": 3.528888888888889,
	"grad_norm": 1.6932669878005981,
	"learning_rate": 3.534e-06,
	"loss": 0.1142,
	"step": 39700
	},
	{
	"epoch": 3.537777777777778,
	"grad_norm": 2.0795860290527344,
	"learning_rate": 3.4673333333333337e-06,
	"loss": 0.1148,
	"step": 39800
	},
	{
	"epoch": 3.546666666666667,
	"grad_norm": 1.9962270259857178,
	"learning_rate": 3.400666666666667e-06,
	"loss": 0.1147,
	"step": 39900
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 1.931861400604248,
	"learning_rate": 3.334e-06,
	"loss": 0.1144,
	"step": 40000
	},
	{
	"epoch": 3.5555555555555554,
	"eval_loss": 0.11772522330284119,
	"eval_runtime": 222.4728,
	"eval_samples_per_second": 44.949,
	"eval_steps_per_second": 5.619,
	"step": 40000
	},
	{
	"epoch": 3.5644444444444443,
	"grad_norm": 2.4488837718963623,
	"learning_rate": 3.2673333333333334e-06,
	"loss": 0.1145,
	"step": 40100
	},
	{
	"epoch": 3.5733333333333333,
	"grad_norm": 2.099616050720215,
	"learning_rate": 3.2006666666666667e-06,
	"loss": 0.115,
	"step": 40200
	},
	{
	"epoch": 3.582222222222222,
	"grad_norm": 2.275487184524536,
	"learning_rate": 3.134e-06,
	"loss": 0.1155,
	"step": 40300
	},
	{
	"epoch": 3.591111111111111,
	"grad_norm": 2.2421047687530518,
	"learning_rate": 3.0673333333333332e-06,
	"loss": 0.1139,
	"step": 40400
	},
	{
	"epoch": 3.6,
	"grad_norm": 1.8405983448028564,
	"learning_rate": 3.0006666666666665e-06,
	"loss": 0.1132,
	"step": 40500
	},
	{
	"epoch": 3.608888888888889,
	"grad_norm": 2.1309421062469482,
	"learning_rate": 2.934e-06,
	"loss": 0.1165,
	"step": 40600
	},
	{
	"epoch": 3.6177777777777775,
	"grad_norm": 2.048819065093994,
	"learning_rate": 2.8673333333333335e-06,
	"loss": 0.1152,
	"step": 40700
	},
	{
	"epoch": 3.626666666666667,
	"grad_norm": 1.7024204730987549,
	"learning_rate": 2.8006666666666667e-06,
	"loss": 0.1156,
	"step": 40800
	},
	{
	"epoch": 3.6355555555555554,
	"grad_norm": 1.748242974281311,
	"learning_rate": 2.734e-06,
	"loss": 0.1151,
	"step": 40900
	},
	{
	"epoch": 3.6444444444444444,
	"grad_norm": 1.976176142692566,
	"learning_rate": 2.6673333333333333e-06,
	"loss": 0.1145,
	"step": 41000
	},
	{
	"epoch": 3.6533333333333333,
	"grad_norm": 2.0815675258636475,
	"learning_rate": 2.6006666666666665e-06,
	"loss": 0.115,
	"step": 41100
	},
	{
	"epoch": 3.6622222222222223,
	"grad_norm": 1.9975913763046265,
	"learning_rate": 2.534e-06,
	"loss": 0.1147,
	"step": 41200
	},
	{
	"epoch": 3.671111111111111,
	"grad_norm": 2.068807363510132,
	"learning_rate": 2.467333333333333e-06,
	"loss": 0.115,
	"step": 41300
	},
	{
	"epoch": 3.68,
	"grad_norm": 2.1508102416992188,
	"learning_rate": 2.4006666666666667e-06,
	"loss": 0.1156,
	"step": 41400
	},
	{
	"epoch": 3.688888888888889,
	"grad_norm": 2.2454254627227783,
	"learning_rate": 2.334e-06,
	"loss": 0.1153,
	"step": 41500
	},
	{
	"epoch": 3.6977777777777776,
	"grad_norm": 2.6782426834106445,
	"learning_rate": 2.2673333333333333e-06,
	"loss": 0.1147,
	"step": 41600
	},
	{
	"epoch": 3.7066666666666666,
	"grad_norm": 2.5738117694854736,
	"learning_rate": 2.2006666666666665e-06,
	"loss": 0.1152,
	"step": 41700
	},
	{
	"epoch": 3.7155555555555555,
	"grad_norm": 2.14444899559021,
	"learning_rate": 2.1340000000000002e-06,
	"loss": 0.1148,
	"step": 41800
	},
	{
	"epoch": 3.7244444444444444,
	"grad_norm": 2.488896369934082,
	"learning_rate": 2.0673333333333335e-06,
	"loss": 0.116,
	"step": 41900
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 1.549385905265808,
	"learning_rate": 2.0006666666666668e-06,
	"loss": 0.1143,
	"step": 42000
	},
	{
	"epoch": 3.7422222222222223,
	"grad_norm": 2.7564737796783447,
	"learning_rate": 1.934e-06,
	"loss": 0.1145,
	"step": 42100
	},
	{
	"epoch": 3.7511111111111113,
	"grad_norm": 1.8770675659179688,
	"learning_rate": 1.8673333333333333e-06,
	"loss": 0.1151,
	"step": 42200
	},
	{
	"epoch": 3.76,
	"grad_norm": 1.8028825521469116,
	"learning_rate": 1.8006666666666666e-06,
	"loss": 0.1142,
	"step": 42300
	},
	{
	"epoch": 3.7688888888888887,
	"grad_norm": 3.0894250869750977,
	"learning_rate": 1.734e-06,
	"loss": 0.113,
	"step": 42400
	},
	{
	"epoch": 3.7777777777777777,
	"grad_norm": 1.6943740844726562,
	"learning_rate": 1.6673333333333333e-06,
	"loss": 0.1158,
	"step": 42500
	},
	{
	"epoch": 3.7866666666666666,
	"grad_norm": 2.0735836029052734,
	"learning_rate": 1.6006666666666668e-06,
	"loss": 0.114,
	"step": 42600
	},
	{
	"epoch": 3.7955555555555556,
	"grad_norm": 2.2292916774749756,
	"learning_rate": 1.534e-06,
	"loss": 0.114,
	"step": 42700
	},
	{
	"epoch": 3.8044444444444445,
	"grad_norm": 2.780007839202881,
	"learning_rate": 1.4673333333333335e-06,
	"loss": 0.1149,
	"step": 42800
	},
	{
	"epoch": 3.8133333333333335,
	"grad_norm": 1.9034864902496338,
	"learning_rate": 1.4006666666666668e-06,
	"loss": 0.1149,
	"step": 42900
	},
	{
	"epoch": 3.822222222222222,
	"grad_norm": 1.8478845357894897,
	"learning_rate": 1.334e-06,
	"loss": 0.1131,
	"step": 43000
	},
	{
	"epoch": 3.8311111111111114,
	"grad_norm": 2.3863301277160645,
	"learning_rate": 1.2673333333333333e-06,
	"loss": 0.1151,
	"step": 43100
	},
	{
	"epoch": 3.84,
	"grad_norm": 2.5131964683532715,
	"learning_rate": 1.2006666666666668e-06,
	"loss": 0.1156,
	"step": 43200
	},
	{
	"epoch": 3.848888888888889,
	"grad_norm": 2.439030885696411,
	"learning_rate": 1.134e-06,
	"loss": 0.1151,
	"step": 43300
	},
	{
	"epoch": 3.8577777777777778,
	"grad_norm": 1.6926780939102173,
	"learning_rate": 1.0673333333333333e-06,
	"loss": 0.1149,
	"step": 43400
	},
	{
	"epoch": 3.8666666666666667,
	"grad_norm": 1.7866731882095337,
	"learning_rate": 1.0006666666666666e-06,
	"loss": 0.1147,
	"step": 43500
	},
	{
	"epoch": 3.8755555555555556,
	"grad_norm": 1.7567743062973022,
	"learning_rate": 9.34e-07,
	"loss": 0.1125,
	"step": 43600
	},
	{
	"epoch": 3.8844444444444446,
	"grad_norm": 1.9600574970245361,
	"learning_rate": 8.673333333333333e-07,
	"loss": 0.1145,
	"step": 43700
	},
	{
	"epoch": 3.8933333333333335,
	"grad_norm": 2.4924819469451904,
	"learning_rate": 8.006666666666667e-07,
	"loss": 0.1147,
	"step": 43800
	},
	{
	"epoch": 3.902222222222222,
	"grad_norm": 1.857824683189392,
	"learning_rate": 7.340000000000001e-07,
	"loss": 0.1144,
	"step": 43900
	},
	{
	"epoch": 3.911111111111111,
	"grad_norm": 2.3395354747772217,
	"learning_rate": 6.673333333333334e-07,
	"loss": 0.1156,
	"step": 44000
	},
	{
	"epoch": 3.92,
	"grad_norm": 2.1742966175079346,
	"learning_rate": 6.006666666666667e-07,
	"loss": 0.1149,
	"step": 44100
	},
	{
	"epoch": 3.928888888888889,
	"grad_norm": 1.9339632987976074,
	"learning_rate": 5.34e-07,
	"loss": 0.1157,
	"step": 44200
	},
	{
	"epoch": 3.937777777777778,
	"grad_norm": 2.219855785369873,
	"learning_rate": 4.673333333333333e-07,
	"loss": 0.113,
	"step": 44300
	},
	{
	"epoch": 3.9466666666666668,
	"grad_norm": 2.3561089038848877,
	"learning_rate": 4.006666666666667e-07,
	"loss": 0.1149,
	"step": 44400
	},
	{
	"epoch": 3.9555555555555557,
	"grad_norm": 1.901092529296875,
	"learning_rate": 3.34e-07,
	"loss": 0.1152,
	"step": 44500
	},
	{
	"epoch": 3.964444444444444,
	"grad_norm": 2.4958181381225586,
	"learning_rate": 2.673333333333333e-07,
	"loss": 0.1149,
	"step": 44600
	},
	{
	"epoch": 3.9733333333333336,
	"grad_norm": 1.7383066415786743,
	"learning_rate": 2.006666666666667e-07,
	"loss": 0.1153,
	"step": 44700
	},
	{
	"epoch": 3.982222222222222,
	"grad_norm": 2.181018590927124,
	"learning_rate": 1.34e-07,
	"loss": 0.1153,
	"step": 44800
	},
	{
	"epoch": 3.991111111111111,
	"grad_norm": 2.5362730026245117,
	"learning_rate": 6.733333333333333e-08,
	"loss": 0.1148,
	"step": 44900
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.8079057931900024,
	"learning_rate": 6.666666666666667e-10,
	"loss": 0.1141,
	"step": 45000
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.11760604381561279,
	"eval_runtime": 212.0163,
	"eval_samples_per_second": 47.166,
	"eval_steps_per_second": 5.896,
	"step": 45000
	}
	],
	"logging_steps": 100,
	"max_steps": 45000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 5000,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 2,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.703256576e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}