Upload 10 files

bc36373 verified almost 2 years ago

163 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 10000,
	"global_step": 100000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 12.391390800476074,
	"learning_rate": 3.920000000000001e-06,
	"loss": 1.8027,
	"step": 100
	},
	{
	"epoch": 0.01,
	"grad_norm": 7.110462665557861,
	"learning_rate": 7.92e-06,
	"loss": 1.6358,
	"step": 200
	},
	{
	"epoch": 0.01,
	"grad_norm": 10.526795387268066,
	"learning_rate": 1.1920000000000001e-05,
	"loss": 1.603,
	"step": 300
	},
	{
	"epoch": 0.02,
	"grad_norm": 9.175031661987305,
	"learning_rate": 1.5920000000000003e-05,
	"loss": 1.6249,
	"step": 400
	},
	{
	"epoch": 0.03,
	"grad_norm": 4.193933486938477,
	"learning_rate": 1.9920000000000002e-05,
	"loss": 1.6364,
	"step": 500
	},
	{
	"epoch": 0.03,
	"grad_norm": 8.9299955368042,
	"learning_rate": 1.998030150753769e-05,
	"loss": 1.6265,
	"step": 600
	},
	{
	"epoch": 0.04,
	"grad_norm": 11.564770698547363,
	"learning_rate": 1.996020100502513e-05,
	"loss": 1.5935,
	"step": 700
	},
	{
	"epoch": 0.04,
	"grad_norm": 9.529921531677246,
	"learning_rate": 1.9940100502512564e-05,
	"loss": 1.5959,
	"step": 800
	},
	{
	"epoch": 0.04,
	"grad_norm": 5.335429668426514,
	"learning_rate": 1.9920000000000002e-05,
	"loss": 1.6342,
	"step": 900
	},
	{
	"epoch": 0.05,
	"grad_norm": 8.102309226989746,
	"learning_rate": 1.9899899497487437e-05,
	"loss": 1.572,
	"step": 1000
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.742166042327881,
	"learning_rate": 1.987979899497488e-05,
	"loss": 1.5645,
	"step": 1100
	},
	{
	"epoch": 0.06,
	"grad_norm": 5.3909735679626465,
	"learning_rate": 1.9859698492462313e-05,
	"loss": 1.547,
	"step": 1200
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.765148639678955,
	"learning_rate": 1.983959798994975e-05,
	"loss": 1.5399,
	"step": 1300
	},
	{
	"epoch": 0.07,
	"grad_norm": 6.0268378257751465,
	"learning_rate": 1.9819497487437185e-05,
	"loss": 1.4985,
	"step": 1400
	},
	{
	"epoch": 0.07,
	"grad_norm": 7.305541515350342,
	"learning_rate": 1.9799396984924623e-05,
	"loss": 1.5076,
	"step": 1500
	},
	{
	"epoch": 0.08,
	"grad_norm": 8.56618595123291,
	"learning_rate": 1.977929648241206e-05,
	"loss": 1.52,
	"step": 1600
	},
	{
	"epoch": 0.09,
	"grad_norm": 5.847652435302734,
	"learning_rate": 1.97591959798995e-05,
	"loss": 1.4976,
	"step": 1700
	},
	{
	"epoch": 0.09,
	"grad_norm": 6.940663814544678,
	"learning_rate": 1.9739095477386937e-05,
	"loss": 1.4983,
	"step": 1800
	},
	{
	"epoch": 0.1,
	"grad_norm": 5.06433629989624,
	"learning_rate": 1.9718994974874372e-05,
	"loss": 1.4951,
	"step": 1900
	},
	{
	"epoch": 0.1,
	"grad_norm": 5.1144022941589355,
	"learning_rate": 1.969889447236181e-05,
	"loss": 1.5256,
	"step": 2000
	},
	{
	"epoch": 0.1,
	"grad_norm": 6.515092849731445,
	"learning_rate": 1.9678793969849248e-05,
	"loss": 1.4677,
	"step": 2100
	},
	{
	"epoch": 0.11,
	"grad_norm": 5.787613868713379,
	"learning_rate": 1.9658693467336686e-05,
	"loss": 1.4841,
	"step": 2200
	},
	{
	"epoch": 0.12,
	"grad_norm": 7.798993110656738,
	"learning_rate": 1.963859296482412e-05,
	"loss": 1.4941,
	"step": 2300
	},
	{
	"epoch": 0.12,
	"grad_norm": 4.808990955352783,
	"learning_rate": 1.9618492462311562e-05,
	"loss": 1.4775,
	"step": 2400
	},
	{
	"epoch": 0.12,
	"grad_norm": 6.113214015960693,
	"learning_rate": 1.9598391959798996e-05,
	"loss": 1.4757,
	"step": 2500
	},
	{
	"epoch": 0.13,
	"grad_norm": 6.038852214813232,
	"learning_rate": 1.9578291457286434e-05,
	"loss": 1.4413,
	"step": 2600
	},
	{
	"epoch": 0.14,
	"grad_norm": 7.736110687255859,
	"learning_rate": 1.955819095477387e-05,
	"loss": 1.5001,
	"step": 2700
	},
	{
	"epoch": 0.14,
	"grad_norm": 6.173422336578369,
	"learning_rate": 1.953809045226131e-05,
	"loss": 1.4183,
	"step": 2800
	},
	{
	"epoch": 0.14,
	"grad_norm": 5.368058681488037,
	"learning_rate": 1.9517989949748745e-05,
	"loss": 1.4877,
	"step": 2900
	},
	{
	"epoch": 0.15,
	"grad_norm": 5.35443639755249,
	"learning_rate": 1.9497889447236183e-05,
	"loss": 1.4079,
	"step": 3000
	},
	{
	"epoch": 0.15,
	"grad_norm": 8.716644287109375,
	"learning_rate": 1.9477788944723618e-05,
	"loss": 1.4386,
	"step": 3100
	},
	{
	"epoch": 0.16,
	"grad_norm": 5.639494895935059,
	"learning_rate": 1.945768844221106e-05,
	"loss": 1.4524,
	"step": 3200
	},
	{
	"epoch": 0.17,
	"grad_norm": 3.3629064559936523,
	"learning_rate": 1.9437587939698493e-05,
	"loss": 1.4218,
	"step": 3300
	},
	{
	"epoch": 0.17,
	"grad_norm": 4.7631402015686035,
	"learning_rate": 1.941748743718593e-05,
	"loss": 1.4357,
	"step": 3400
	},
	{
	"epoch": 0.17,
	"grad_norm": 6.286344528198242,
	"learning_rate": 1.939738693467337e-05,
	"loss": 1.4025,
	"step": 3500
	},
	{
	"epoch": 0.18,
	"grad_norm": 4.501611232757568,
	"learning_rate": 1.9377286432160804e-05,
	"loss": 1.4002,
	"step": 3600
	},
	{
	"epoch": 0.18,
	"grad_norm": 6.302520275115967,
	"learning_rate": 1.9357185929648242e-05,
	"loss": 1.4128,
	"step": 3700
	},
	{
	"epoch": 0.19,
	"grad_norm": 6.156075477600098,
	"learning_rate": 1.933708542713568e-05,
	"loss": 1.4136,
	"step": 3800
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.4391913414001465,
	"learning_rate": 1.9316984924623118e-05,
	"loss": 1.4307,
	"step": 3900
	},
	{
	"epoch": 0.2,
	"grad_norm": 6.862305641174316,
	"learning_rate": 1.9296884422110552e-05,
	"loss": 1.3605,
	"step": 4000
	},
	{
	"epoch": 0.2,
	"grad_norm": 5.392678737640381,
	"learning_rate": 1.9276783919597994e-05,
	"loss": 1.4059,
	"step": 4100
	},
	{
	"epoch": 0.21,
	"grad_norm": 5.686226844787598,
	"learning_rate": 1.925668341708543e-05,
	"loss": 1.3474,
	"step": 4200
	},
	{
	"epoch": 0.21,
	"grad_norm": 4.506126403808594,
	"learning_rate": 1.9236582914572866e-05,
	"loss": 1.3708,
	"step": 4300
	},
	{
	"epoch": 0.22,
	"grad_norm": 7.255539894104004,
	"learning_rate": 1.92164824120603e-05,
	"loss": 1.3803,
	"step": 4400
	},
	{
	"epoch": 0.23,
	"grad_norm": 6.463212966918945,
	"learning_rate": 1.9196381909547742e-05,
	"loss": 1.3371,
	"step": 4500
	},
	{
	"epoch": 0.23,
	"grad_norm": 7.1397294998168945,
	"learning_rate": 1.9176281407035177e-05,
	"loss": 1.3787,
	"step": 4600
	},
	{
	"epoch": 0.23,
	"grad_norm": 7.188973426818848,
	"learning_rate": 1.9156180904522615e-05,
	"loss": 1.3699,
	"step": 4700
	},
	{
	"epoch": 0.24,
	"grad_norm": 4.161841869354248,
	"learning_rate": 1.913608040201005e-05,
	"loss": 1.3819,
	"step": 4800
	},
	{
	"epoch": 0.24,
	"grad_norm": 3.420564889907837,
	"learning_rate": 1.911597989949749e-05,
	"loss": 1.3719,
	"step": 4900
	},
	{
	"epoch": 0.25,
	"grad_norm": 5.769357681274414,
	"learning_rate": 1.9095879396984925e-05,
	"loss": 1.366,
	"step": 5000
	},
	{
	"epoch": 0.26,
	"grad_norm": 6.374185562133789,
	"learning_rate": 1.9075778894472363e-05,
	"loss": 1.3377,
	"step": 5100
	},
	{
	"epoch": 0.26,
	"grad_norm": 6.3521575927734375,
	"learning_rate": 1.90556783919598e-05,
	"loss": 1.3632,
	"step": 5200
	},
	{
	"epoch": 0.27,
	"grad_norm": 4.51761531829834,
	"learning_rate": 1.903557788944724e-05,
	"loss": 1.3505,
	"step": 5300
	},
	{
	"epoch": 0.27,
	"grad_norm": 6.074390411376953,
	"learning_rate": 1.9015477386934674e-05,
	"loss": 1.3644,
	"step": 5400
	},
	{
	"epoch": 0.28,
	"grad_norm": 4.369632244110107,
	"learning_rate": 1.8995376884422112e-05,
	"loss": 1.3807,
	"step": 5500
	},
	{
	"epoch": 0.28,
	"grad_norm": 7.657780170440674,
	"learning_rate": 1.897527638190955e-05,
	"loss": 1.3125,
	"step": 5600
	},
	{
	"epoch": 0.28,
	"grad_norm": 9.048200607299805,
	"learning_rate": 1.8955175879396988e-05,
	"loss": 1.3216,
	"step": 5700
	},
	{
	"epoch": 0.29,
	"grad_norm": 5.997036933898926,
	"learning_rate": 1.8935075376884426e-05,
	"loss": 1.3262,
	"step": 5800
	},
	{
	"epoch": 0.29,
	"grad_norm": 4.751107692718506,
	"learning_rate": 1.891497487437186e-05,
	"loss": 1.3566,
	"step": 5900
	},
	{
	"epoch": 0.3,
	"grad_norm": 5.662681579589844,
	"learning_rate": 1.88948743718593e-05,
	"loss": 1.3645,
	"step": 6000
	},
	{
	"epoch": 0.3,
	"grad_norm": 5.755290508270264,
	"learning_rate": 1.887497487437186e-05,
	"loss": 1.2714,
	"step": 6100
	},
	{
	"epoch": 0.31,
	"grad_norm": 5.199550151824951,
	"learning_rate": 1.88548743718593e-05,
	"loss": 1.3427,
	"step": 6200
	},
	{
	"epoch": 0.32,
	"grad_norm": 7.531371116638184,
	"learning_rate": 1.8834773869346733e-05,
	"loss": 1.3198,
	"step": 6300
	},
	{
	"epoch": 0.32,
	"grad_norm": 4.267923831939697,
	"learning_rate": 1.881467336683417e-05,
	"loss": 1.334,
	"step": 6400
	},
	{
	"epoch": 0.33,
	"grad_norm": 5.429295063018799,
	"learning_rate": 1.879457286432161e-05,
	"loss": 1.2949,
	"step": 6500
	},
	{
	"epoch": 0.33,
	"grad_norm": 4.842006206512451,
	"learning_rate": 1.8774472361809047e-05,
	"loss": 1.3123,
	"step": 6600
	},
	{
	"epoch": 0.34,
	"grad_norm": 4.693381309509277,
	"learning_rate": 1.8754371859296482e-05,
	"loss": 1.3218,
	"step": 6700
	},
	{
	"epoch": 0.34,
	"grad_norm": 3.555487632751465,
	"learning_rate": 1.8734271356783923e-05,
	"loss": 1.3077,
	"step": 6800
	},
	{
	"epoch": 0.34,
	"grad_norm": 7.314678192138672,
	"learning_rate": 1.8714170854271358e-05,
	"loss": 1.2855,
	"step": 6900
	},
	{
	"epoch": 0.35,
	"grad_norm": 6.160294532775879,
	"learning_rate": 1.8694070351758796e-05,
	"loss": 1.2901,
	"step": 7000
	},
	{
	"epoch": 0.35,
	"grad_norm": 7.399959087371826,
	"learning_rate": 1.867396984924623e-05,
	"loss": 1.264,
	"step": 7100
	},
	{
	"epoch": 0.36,
	"grad_norm": 4.204007625579834,
	"learning_rate": 1.8653869346733672e-05,
	"loss": 1.323,
	"step": 7200
	},
	{
	"epoch": 0.36,
	"grad_norm": 5.531479358673096,
	"learning_rate": 1.8633768844221106e-05,
	"loss": 1.3211,
	"step": 7300
	},
	{
	"epoch": 0.37,
	"grad_norm": 4.645538806915283,
	"learning_rate": 1.8613668341708544e-05,
	"loss": 1.2941,
	"step": 7400
	},
	{
	"epoch": 0.38,
	"grad_norm": 6.326472282409668,
	"learning_rate": 1.8593567839195982e-05,
	"loss": 1.3025,
	"step": 7500
	},
	{
	"epoch": 0.38,
	"grad_norm": 6.338307857513428,
	"learning_rate": 1.857346733668342e-05,
	"loss": 1.2924,
	"step": 7600
	},
	{
	"epoch": 0.39,
	"grad_norm": 7.802080154418945,
	"learning_rate": 1.8553366834170855e-05,
	"loss": 1.3061,
	"step": 7700
	},
	{
	"epoch": 0.39,
	"grad_norm": 4.98875093460083,
	"learning_rate": 1.8533266331658293e-05,
	"loss": 1.321,
	"step": 7800
	},
	{
	"epoch": 0.4,
	"grad_norm": 5.888318061828613,
	"learning_rate": 1.851316582914573e-05,
	"loss": 1.2746,
	"step": 7900
	},
	{
	"epoch": 0.4,
	"grad_norm": 6.636387825012207,
	"learning_rate": 1.849306532663317e-05,
	"loss": 1.2653,
	"step": 8000
	},
	{
	"epoch": 0.41,
	"grad_norm": 6.1142449378967285,
	"learning_rate": 1.8473165829145728e-05,
	"loss": 1.2347,
	"step": 8100
	},
	{
	"epoch": 0.41,
	"grad_norm": 5.41117525100708,
	"learning_rate": 1.845306532663317e-05,
	"loss": 1.3062,
	"step": 8200
	},
	{
	"epoch": 0.41,
	"grad_norm": 5.025302886962891,
	"learning_rate": 1.8432964824120604e-05,
	"loss": 1.3162,
	"step": 8300
	},
	{
	"epoch": 0.42,
	"grad_norm": 7.1088972091674805,
	"learning_rate": 1.8412864321608042e-05,
	"loss": 1.2573,
	"step": 8400
	},
	{
	"epoch": 0.42,
	"grad_norm": 5.86447811126709,
	"learning_rate": 1.839276381909548e-05,
	"loss": 1.2855,
	"step": 8500
	},
	{
	"epoch": 0.43,
	"grad_norm": 4.323820114135742,
	"learning_rate": 1.8372663316582918e-05,
	"loss": 1.2272,
	"step": 8600
	},
	{
	"epoch": 0.43,
	"grad_norm": 7.335355758666992,
	"learning_rate": 1.8352562814070352e-05,
	"loss": 1.2718,
	"step": 8700
	},
	{
	"epoch": 0.44,
	"grad_norm": 5.308874130249023,
	"learning_rate": 1.833246231155779e-05,
	"loss": 1.2727,
	"step": 8800
	},
	{
	"epoch": 0.45,
	"grad_norm": 3.919790506362915,
	"learning_rate": 1.8312361809045228e-05,
	"loss": 1.28,
	"step": 8900
	},
	{
	"epoch": 0.45,
	"grad_norm": 7.291688442230225,
	"learning_rate": 1.8292261306532663e-05,
	"loss": 1.2768,
	"step": 9000
	},
	{
	"epoch": 0.46,
	"grad_norm": 5.098793029785156,
	"learning_rate": 1.8272160804020104e-05,
	"loss": 1.2441,
	"step": 9100
	},
	{
	"epoch": 0.46,
	"grad_norm": 5.242636203765869,
	"learning_rate": 1.825206030150754e-05,
	"loss": 1.2534,
	"step": 9200
	},
	{
	"epoch": 0.47,
	"grad_norm": 5.310051918029785,
	"learning_rate": 1.8231959798994977e-05,
	"loss": 1.2878,
	"step": 9300
	},
	{
	"epoch": 0.47,
	"grad_norm": 6.058734893798828,
	"learning_rate": 1.821185929648241e-05,
	"loss": 1.2964,
	"step": 9400
	},
	{
	"epoch": 0.47,
	"grad_norm": 6.912698745727539,
	"learning_rate": 1.8191758793969853e-05,
	"loss": 1.2511,
	"step": 9500
	},
	{
	"epoch": 0.48,
	"grad_norm": 6.428102016448975,
	"learning_rate": 1.8171658291457287e-05,
	"loss": 1.2605,
	"step": 9600
	},
	{
	"epoch": 0.48,
	"grad_norm": 5.642975807189941,
	"learning_rate": 1.8151557788944725e-05,
	"loss": 1.264,
	"step": 9700
	},
	{
	"epoch": 0.49,
	"grad_norm": 6.23274040222168,
	"learning_rate": 1.813145728643216e-05,
	"loss": 1.2583,
	"step": 9800
	},
	{
	"epoch": 0.49,
	"grad_norm": 7.3280792236328125,
	"learning_rate": 1.81113567839196e-05,
	"loss": 1.2324,
	"step": 9900
	},
	{
	"epoch": 0.5,
	"grad_norm": 6.048460483551025,
	"learning_rate": 1.8091256281407036e-05,
	"loss": 1.2477,
	"step": 10000
	},
	{
	"epoch": 0.5,
	"eval_loss": 1.2569069862365723,
	"eval_runtime": 21.5797,
	"eval_samples_per_second": 46.34,
	"eval_steps_per_second": 5.792,
	"step": 10000
	},
	{
	"epoch": 0.51,
	"grad_norm": 5.294989109039307,
	"learning_rate": 1.80713567839196e-05,
	"loss": 1.3038,
	"step": 10100
	},
	{
	"epoch": 0.51,
	"grad_norm": 6.7187981605529785,
	"learning_rate": 1.8051256281407036e-05,
	"loss": 1.2584,
	"step": 10200
	},
	{
	"epoch": 0.52,
	"grad_norm": 7.11021089553833,
	"learning_rate": 1.8031155778894474e-05,
	"loss": 1.2612,
	"step": 10300
	},
	{
	"epoch": 0.52,
	"grad_norm": 6.111474990844727,
	"learning_rate": 1.801105527638191e-05,
	"loss": 1.2638,
	"step": 10400
	},
	{
	"epoch": 0.53,
	"grad_norm": 6.04983377456665,
	"learning_rate": 1.799095477386935e-05,
	"loss": 1.2381,
	"step": 10500
	},
	{
	"epoch": 0.53,
	"grad_norm": 5.682928562164307,
	"learning_rate": 1.7970854271356785e-05,
	"loss": 1.233,
	"step": 10600
	},
	{
	"epoch": 0.54,
	"grad_norm": 6.028292179107666,
	"learning_rate": 1.7950753768844223e-05,
	"loss": 1.2572,
	"step": 10700
	},
	{
	"epoch": 0.54,
	"grad_norm": 4.738650798797607,
	"learning_rate": 1.793065326633166e-05,
	"loss": 1.2125,
	"step": 10800
	},
	{
	"epoch": 0.55,
	"grad_norm": 5.227931976318359,
	"learning_rate": 1.7910753768844223e-05,
	"loss": 1.2862,
	"step": 10900
	},
	{
	"epoch": 0.55,
	"grad_norm": 6.476836204528809,
	"learning_rate": 1.7890653266331658e-05,
	"loss": 1.243,
	"step": 11000
	},
	{
	"epoch": 0.56,
	"grad_norm": 4.261963844299316,
	"learning_rate": 1.78705527638191e-05,
	"loss": 1.2118,
	"step": 11100
	},
	{
	"epoch": 0.56,
	"grad_norm": 6.414599418640137,
	"learning_rate": 1.7850452261306534e-05,
	"loss": 1.222,
	"step": 11200
	},
	{
	"epoch": 0.56,
	"grad_norm": 5.642942905426025,
	"learning_rate": 1.783035175879397e-05,
	"loss": 1.1809,
	"step": 11300
	},
	{
	"epoch": 0.57,
	"grad_norm": 4.094428539276123,
	"learning_rate": 1.781025125628141e-05,
	"loss": 1.2362,
	"step": 11400
	},
	{
	"epoch": 0.57,
	"grad_norm": 5.5772881507873535,
	"learning_rate": 1.7790150753768847e-05,
	"loss": 1.2005,
	"step": 11500
	},
	{
	"epoch": 0.58,
	"grad_norm": 4.420604705810547,
	"learning_rate": 1.7770050251256282e-05,
	"loss": 1.2138,
	"step": 11600
	},
	{
	"epoch": 0.58,
	"grad_norm": 5.298806667327881,
	"learning_rate": 1.774994974874372e-05,
	"loss": 1.1693,
	"step": 11700
	},
	{
	"epoch": 0.59,
	"grad_norm": 5.862612247467041,
	"learning_rate": 1.7729849246231158e-05,
	"loss": 1.1728,
	"step": 11800
	},
	{
	"epoch": 0.59,
	"grad_norm": 3.835301637649536,
	"learning_rate": 1.7709748743718593e-05,
	"loss": 1.2159,
	"step": 11900
	},
	{
	"epoch": 0.6,
	"grad_norm": 5.67401123046875,
	"learning_rate": 1.768964824120603e-05,
	"loss": 1.2393,
	"step": 12000
	},
	{
	"epoch": 0.6,
	"grad_norm": 5.424498558044434,
	"learning_rate": 1.766954773869347e-05,
	"loss": 1.2255,
	"step": 12100
	},
	{
	"epoch": 0.61,
	"grad_norm": 5.532503604888916,
	"learning_rate": 1.7649447236180907e-05,
	"loss": 1.2024,
	"step": 12200
	},
	{
	"epoch": 0.61,
	"grad_norm": 5.404232501983643,
	"learning_rate": 1.762934673366834e-05,
	"loss": 1.2202,
	"step": 12300
	},
	{
	"epoch": 0.62,
	"grad_norm": 3.9564428329467773,
	"learning_rate": 1.7609246231155782e-05,
	"loss": 1.1655,
	"step": 12400
	},
	{
	"epoch": 0.62,
	"grad_norm": 3.2090141773223877,
	"learning_rate": 1.7589145728643217e-05,
	"loss": 1.1563,
	"step": 12500
	},
	{
	"epoch": 0.63,
	"grad_norm": 6.341458320617676,
	"learning_rate": 1.7569045226130655e-05,
	"loss": 1.1982,
	"step": 12600
	},
	{
	"epoch": 0.64,
	"grad_norm": 7.190246105194092,
	"learning_rate": 1.754894472361809e-05,
	"loss": 1.1817,
	"step": 12700
	},
	{
	"epoch": 0.64,
	"grad_norm": 6.108299255371094,
	"learning_rate": 1.752884422110553e-05,
	"loss": 1.2123,
	"step": 12800
	},
	{
	"epoch": 0.65,
	"grad_norm": 5.769379615783691,
	"learning_rate": 1.7508743718592966e-05,
	"loss": 1.1964,
	"step": 12900
	},
	{
	"epoch": 0.65,
	"grad_norm": 5.177648067474365,
	"learning_rate": 1.7488643216080404e-05,
	"loss": 1.2103,
	"step": 13000
	},
	{
	"epoch": 0.66,
	"grad_norm": 5.531684875488281,
	"learning_rate": 1.7468542713567838e-05,
	"loss": 1.1801,
	"step": 13100
	},
	{
	"epoch": 0.66,
	"grad_norm": 5.700603008270264,
	"learning_rate": 1.744844221105528e-05,
	"loss": 1.1943,
	"step": 13200
	},
	{
	"epoch": 0.67,
	"grad_norm": 9.25114917755127,
	"learning_rate": 1.7428341708542714e-05,
	"loss": 1.2286,
	"step": 13300
	},
	{
	"epoch": 0.67,
	"grad_norm": 4.238541126251221,
	"learning_rate": 1.7408241206030152e-05,
	"loss": 1.1869,
	"step": 13400
	},
	{
	"epoch": 0.68,
	"grad_norm": 5.6147260665893555,
	"learning_rate": 1.738814070351759e-05,
	"loss": 1.1854,
	"step": 13500
	},
	{
	"epoch": 0.68,
	"grad_norm": 4.879734039306641,
	"learning_rate": 1.7368040201005028e-05,
	"loss": 1.1941,
	"step": 13600
	},
	{
	"epoch": 0.69,
	"grad_norm": 3.612379312515259,
	"learning_rate": 1.7347939698492463e-05,
	"loss": 1.1649,
	"step": 13700
	},
	{
	"epoch": 0.69,
	"grad_norm": 4.583663463592529,
	"learning_rate": 1.73278391959799e-05,
	"loss": 1.1796,
	"step": 13800
	},
	{
	"epoch": 0.69,
	"grad_norm": 4.3080339431762695,
	"learning_rate": 1.7307939698492463e-05,
	"loss": 1.2092,
	"step": 13900
	},
	{
	"epoch": 0.7,
	"grad_norm": 5.9151506423950195,
	"learning_rate": 1.72878391959799e-05,
	"loss": 1.1809,
	"step": 14000
	},
	{
	"epoch": 0.7,
	"grad_norm": 5.167910575866699,
	"learning_rate": 1.726773869346734e-05,
	"loss": 1.2063,
	"step": 14100
	},
	{
	"epoch": 0.71,
	"grad_norm": 7.372837543487549,
	"learning_rate": 1.7247638190954777e-05,
	"loss": 1.147,
	"step": 14200
	},
	{
	"epoch": 0.71,
	"grad_norm": 3.6992413997650146,
	"learning_rate": 1.722753768844221e-05,
	"loss": 1.2312,
	"step": 14300
	},
	{
	"epoch": 0.72,
	"grad_norm": 6.654348850250244,
	"learning_rate": 1.720743718592965e-05,
	"loss": 1.1956,
	"step": 14400
	},
	{
	"epoch": 0.72,
	"grad_norm": 4.683749675750732,
	"learning_rate": 1.7187336683417087e-05,
	"loss": 1.1598,
	"step": 14500
	},
	{
	"epoch": 0.73,
	"grad_norm": 5.769094467163086,
	"learning_rate": 1.7167236180904522e-05,
	"loss": 1.1387,
	"step": 14600
	},
	{
	"epoch": 0.73,
	"grad_norm": 7.586219310760498,
	"learning_rate": 1.7147135678391963e-05,
	"loss": 1.1994,
	"step": 14700
	},
	{
	"epoch": 0.74,
	"grad_norm": 5.573954105377197,
	"learning_rate": 1.7127035175879398e-05,
	"loss": 1.1887,
	"step": 14800
	},
	{
	"epoch": 0.74,
	"grad_norm": 6.4866251945495605,
	"learning_rate": 1.7106934673366836e-05,
	"loss": 1.1892,
	"step": 14900
	},
	{
	"epoch": 0.75,
	"grad_norm": 4.954825401306152,
	"learning_rate": 1.708683417085427e-05,
	"loss": 1.1742,
	"step": 15000
	},
	{
	"epoch": 0.76,
	"grad_norm": 3.952847480773926,
	"learning_rate": 1.7066733668341712e-05,
	"loss": 1.143,
	"step": 15100
	},
	{
	"epoch": 0.76,
	"grad_norm": 5.170006275177002,
	"learning_rate": 1.7046633165829146e-05,
	"loss": 1.1881,
	"step": 15200
	},
	{
	"epoch": 0.77,
	"grad_norm": 4.910400390625,
	"learning_rate": 1.7026532663316584e-05,
	"loss": 1.131,
	"step": 15300
	},
	{
	"epoch": 0.77,
	"grad_norm": 4.728166580200195,
	"learning_rate": 1.700643216080402e-05,
	"loss": 1.1854,
	"step": 15400
	},
	{
	"epoch": 0.78,
	"grad_norm": 6.516223430633545,
	"learning_rate": 1.698633165829146e-05,
	"loss": 1.2069,
	"step": 15500
	},
	{
	"epoch": 0.78,
	"grad_norm": 5.914300918579102,
	"learning_rate": 1.6966231155778895e-05,
	"loss": 1.1663,
	"step": 15600
	},
	{
	"epoch": 0.79,
	"grad_norm": 4.6894378662109375,
	"learning_rate": 1.6946130653266333e-05,
	"loss": 1.145,
	"step": 15700
	},
	{
	"epoch": 0.79,
	"grad_norm": 4.994019031524658,
	"learning_rate": 1.692603015075377e-05,
	"loss": 1.1156,
	"step": 15800
	},
	{
	"epoch": 0.8,
	"grad_norm": 5.994630813598633,
	"learning_rate": 1.690592964824121e-05,
	"loss": 1.1583,
	"step": 15900
	},
	{
	"epoch": 0.8,
	"grad_norm": 6.7444562911987305,
	"learning_rate": 1.6885829145728643e-05,
	"loss": 1.1821,
	"step": 16000
	},
	{
	"epoch": 0.81,
	"grad_norm": 5.461032867431641,
	"learning_rate": 1.686572864321608e-05,
	"loss": 1.1388,
	"step": 16100
	},
	{
	"epoch": 0.81,
	"grad_norm": 5.0775251388549805,
	"learning_rate": 1.684562814070352e-05,
	"loss": 1.1576,
	"step": 16200
	},
	{
	"epoch": 0.81,
	"grad_norm": 4.469027042388916,
	"learning_rate": 1.6825527638190957e-05,
	"loss": 1.1792,
	"step": 16300
	},
	{
	"epoch": 0.82,
	"grad_norm": 6.780773639678955,
	"learning_rate": 1.6805427135678395e-05,
	"loss": 1.1441,
	"step": 16400
	},
	{
	"epoch": 0.82,
	"grad_norm": 6.338268756866455,
	"learning_rate": 1.678532663316583e-05,
	"loss": 1.1087,
	"step": 16500
	},
	{
	"epoch": 0.83,
	"grad_norm": 4.28759241104126,
	"learning_rate": 1.6765226130653268e-05,
	"loss": 1.1616,
	"step": 16600
	},
	{
	"epoch": 0.83,
	"grad_norm": 4.656599998474121,
	"learning_rate": 1.6745125628140706e-05,
	"loss": 1.1086,
	"step": 16700
	},
	{
	"epoch": 0.84,
	"grad_norm": 4.506341457366943,
	"learning_rate": 1.6725025125628144e-05,
	"loss": 1.1821,
	"step": 16800
	},
	{
	"epoch": 0.84,
	"grad_norm": 5.074087142944336,
	"learning_rate": 1.670492462311558e-05,
	"loss": 1.1376,
	"step": 16900
	},
	{
	"epoch": 0.85,
	"grad_norm": 4.427557468414307,
	"learning_rate": 1.6684824120603016e-05,
	"loss": 1.1608,
	"step": 17000
	},
	{
	"epoch": 0.85,
	"grad_norm": 4.684313774108887,
	"learning_rate": 1.666472361809045e-05,
	"loss": 1.1374,
	"step": 17100
	},
	{
	"epoch": 0.86,
	"grad_norm": 4.981125354766846,
	"learning_rate": 1.6644623115577892e-05,
	"loss": 1.1157,
	"step": 17200
	},
	{
	"epoch": 0.86,
	"grad_norm": 6.36452579498291,
	"learning_rate": 1.6624522613065327e-05,
	"loss": 1.1547,
	"step": 17300
	},
	{
	"epoch": 0.87,
	"grad_norm": 4.986701011657715,
	"learning_rate": 1.6604422110552765e-05,
	"loss": 1.147,
	"step": 17400
	},
	{
	"epoch": 0.88,
	"grad_norm": 6.206230640411377,
	"learning_rate": 1.6584321608040203e-05,
	"loss": 1.1235,
	"step": 17500
	},
	{
	"epoch": 0.88,
	"grad_norm": 5.597214221954346,
	"learning_rate": 1.656422110552764e-05,
	"loss": 1.1472,
	"step": 17600
	},
	{
	"epoch": 0.89,
	"grad_norm": 5.753964424133301,
	"learning_rate": 1.6544120603015076e-05,
	"loss": 1.0838,
	"step": 17700
	},
	{
	"epoch": 0.89,
	"grad_norm": 5.263125896453857,
	"learning_rate": 1.6524020100502513e-05,
	"loss": 1.1149,
	"step": 17800
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.9451704025268555,
	"learning_rate": 1.6504120603015076e-05,
	"loss": 1.1162,
	"step": 17900
	},
	{
	"epoch": 0.9,
	"grad_norm": 6.694633960723877,
	"learning_rate": 1.6484020100502514e-05,
	"loss": 1.1268,
	"step": 18000
	},
	{
	"epoch": 0.91,
	"grad_norm": 5.449553489685059,
	"learning_rate": 1.6463919597989952e-05,
	"loss": 1.1307,
	"step": 18100
	},
	{
	"epoch": 0.91,
	"grad_norm": 5.502272129058838,
	"learning_rate": 1.644381909547739e-05,
	"loss": 1.1031,
	"step": 18200
	},
	{
	"epoch": 0.92,
	"grad_norm": 6.899608612060547,
	"learning_rate": 1.6423718592964824e-05,
	"loss": 1.1389,
	"step": 18300
	},
	{
	"epoch": 0.92,
	"grad_norm": 4.675032615661621,
	"learning_rate": 1.6403618090452262e-05,
	"loss": 1.1541,
	"step": 18400
	},
	{
	"epoch": 0.93,
	"grad_norm": 7.353012561798096,
	"learning_rate": 1.63835175879397e-05,
	"loss": 1.1213,
	"step": 18500
	},
	{
	"epoch": 0.93,
	"grad_norm": 4.253681659698486,
	"learning_rate": 1.636341708542714e-05,
	"loss": 1.1672,
	"step": 18600
	},
	{
	"epoch": 0.94,
	"grad_norm": 6.5902018547058105,
	"learning_rate": 1.6343316582914573e-05,
	"loss": 1.1349,
	"step": 18700
	},
	{
	"epoch": 0.94,
	"grad_norm": 5.40578556060791,
	"learning_rate": 1.632321608040201e-05,
	"loss": 1.1283,
	"step": 18800
	},
	{
	"epoch": 0.94,
	"grad_norm": 3.9744160175323486,
	"learning_rate": 1.630311557788945e-05,
	"loss": 1.1463,
	"step": 18900
	},
	{
	"epoch": 0.95,
	"grad_norm": 6.115358352661133,
	"learning_rate": 1.6283015075376887e-05,
	"loss": 1.1443,
	"step": 19000
	},
	{
	"epoch": 0.95,
	"grad_norm": 2.9785940647125244,
	"learning_rate": 1.6262914572864325e-05,
	"loss": 1.1409,
	"step": 19100
	},
	{
	"epoch": 0.96,
	"grad_norm": 5.200758934020996,
	"learning_rate": 1.6243015075376887e-05,
	"loss": 1.1629,
	"step": 19200
	},
	{
	"epoch": 0.96,
	"grad_norm": 5.975739479064941,
	"learning_rate": 1.6222914572864322e-05,
	"loss": 1.083,
	"step": 19300
	},
	{
	"epoch": 0.97,
	"grad_norm": 6.220870018005371,
	"learning_rate": 1.620281407035176e-05,
	"loss": 1.1305,
	"step": 19400
	},
	{
	"epoch": 0.97,
	"grad_norm": 4.187997341156006,
	"learning_rate": 1.6182713567839198e-05,
	"loss": 1.1028,
	"step": 19500
	},
	{
	"epoch": 0.98,
	"grad_norm": 5.540648937225342,
	"learning_rate": 1.6162613065326636e-05,
	"loss": 1.1176,
	"step": 19600
	},
	{
	"epoch": 0.98,
	"grad_norm": 5.99765157699585,
	"learning_rate": 1.6142512562814074e-05,
	"loss": 1.0932,
	"step": 19700
	},
	{
	"epoch": 0.99,
	"grad_norm": 4.647700786590576,
	"learning_rate": 1.6122412060301508e-05,
	"loss": 1.1294,
	"step": 19800
	},
	{
	"epoch": 0.99,
	"grad_norm": 6.05048131942749,
	"learning_rate": 1.6102311557788946e-05,
	"loss": 1.0828,
	"step": 19900
	},
	{
	"epoch": 1.0,
	"grad_norm": 4.912966251373291,
	"learning_rate": 1.608221105527638e-05,
	"loss": 1.0975,
	"step": 20000
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.132000207901001,
	"eval_runtime": 21.5853,
	"eval_samples_per_second": 46.328,
	"eval_steps_per_second": 5.791,
	"step": 20000
	},
	{
	"epoch": 1.0,
	"grad_norm": 5.5869340896606445,
	"learning_rate": 1.6062110552763822e-05,
	"loss": 1.1428,
	"step": 20100
	},
	{
	"epoch": 1.01,
	"grad_norm": 4.5555739402771,
	"learning_rate": 1.6042010050251257e-05,
	"loss": 1.0939,
	"step": 20200
	},
	{
	"epoch": 1.01,
	"grad_norm": 3.527172803878784,
	"learning_rate": 1.6021909547738695e-05,
	"loss": 1.1184,
	"step": 20300
	},
	{
	"epoch": 1.02,
	"grad_norm": 2.7429285049438477,
	"learning_rate": 1.600180904522613e-05,
	"loss": 1.1028,
	"step": 20400
	},
	{
	"epoch": 1.02,
	"grad_norm": 3.6536190509796143,
	"learning_rate": 1.598170854271357e-05,
	"loss": 1.0954,
	"step": 20500
	},
	{
	"epoch": 1.03,
	"grad_norm": 4.48521089553833,
	"learning_rate": 1.5961608040201005e-05,
	"loss": 1.1001,
	"step": 20600
	},
	{
	"epoch": 1.03,
	"grad_norm": 7.937503814697266,
	"learning_rate": 1.5941507537688443e-05,
	"loss": 1.0676,
	"step": 20700
	},
	{
	"epoch": 1.04,
	"grad_norm": 7.802252769470215,
	"learning_rate": 1.592140703517588e-05,
	"loss": 1.1007,
	"step": 20800
	},
	{
	"epoch": 1.04,
	"grad_norm": 6.141603469848633,
	"learning_rate": 1.590130653266332e-05,
	"loss": 1.0749,
	"step": 20900
	},
	{
	"epoch": 1.05,
	"grad_norm": 5.166286945343018,
	"learning_rate": 1.5881206030150754e-05,
	"loss": 1.0704,
	"step": 21000
	},
	{
	"epoch": 1.05,
	"grad_norm": 5.407045364379883,
	"learning_rate": 1.5861105527638192e-05,
	"loss": 1.0852,
	"step": 21100
	},
	{
	"epoch": 1.06,
	"grad_norm": 5.4536967277526855,
	"learning_rate": 1.584100502512563e-05,
	"loss": 1.1152,
	"step": 21200
	},
	{
	"epoch": 1.06,
	"grad_norm": 5.464064121246338,
	"learning_rate": 1.5820904522613068e-05,
	"loss": 1.0546,
	"step": 21300
	},
	{
	"epoch": 1.07,
	"grad_norm": 3.853875160217285,
	"learning_rate": 1.580100502512563e-05,
	"loss": 1.0858,
	"step": 21400
	},
	{
	"epoch": 1.07,
	"grad_norm": 4.8497443199157715,
	"learning_rate": 1.5780904522613068e-05,
	"loss": 1.0973,
	"step": 21500
	},
	{
	"epoch": 1.08,
	"grad_norm": 4.255434513092041,
	"learning_rate": 1.5760804020100503e-05,
	"loss": 1.0872,
	"step": 21600
	},
	{
	"epoch": 1.08,
	"grad_norm": 4.134657382965088,
	"learning_rate": 1.574070351758794e-05,
	"loss": 1.1127,
	"step": 21700
	},
	{
	"epoch": 1.09,
	"grad_norm": 9.425840377807617,
	"learning_rate": 1.572060301507538e-05,
	"loss": 1.1147,
	"step": 21800
	},
	{
	"epoch": 1.09,
	"grad_norm": 5.42075777053833,
	"learning_rate": 1.5700502512562817e-05,
	"loss": 1.0719,
	"step": 21900
	},
	{
	"epoch": 1.1,
	"grad_norm": 5.076992988586426,
	"learning_rate": 1.5680402010050255e-05,
	"loss": 1.095,
	"step": 22000
	},
	{
	"epoch": 1.1,
	"grad_norm": 5.668195724487305,
	"learning_rate": 1.566030150753769e-05,
	"loss": 1.0799,
	"step": 22100
	},
	{
	"epoch": 1.11,
	"grad_norm": 5.9342474937438965,
	"learning_rate": 1.5640201005025127e-05,
	"loss": 1.0965,
	"step": 22200
	},
	{
	"epoch": 1.11,
	"grad_norm": 5.112601280212402,
	"learning_rate": 1.5620100502512565e-05,
	"loss": 1.0951,
	"step": 22300
	},
	{
	"epoch": 1.12,
	"grad_norm": 10.206339836120605,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 1.0837,
	"step": 22400
	},
	{
	"epoch": 1.12,
	"grad_norm": 3.8015480041503906,
	"learning_rate": 1.5579899497487438e-05,
	"loss": 1.0871,
	"step": 22500
	},
	{
	"epoch": 1.13,
	"grad_norm": 4.524369239807129,
	"learning_rate": 1.5559798994974876e-05,
	"loss": 1.1263,
	"step": 22600
	},
	{
	"epoch": 1.14,
	"grad_norm": 5.1671671867370605,
	"learning_rate": 1.553969849246231e-05,
	"loss": 1.085,
	"step": 22700
	},
	{
	"epoch": 1.14,
	"grad_norm": 4.96006965637207,
	"learning_rate": 1.551959798994975e-05,
	"loss": 1.0893,
	"step": 22800
	},
	{
	"epoch": 1.15,
	"grad_norm": 6.482675075531006,
	"learning_rate": 1.5499497487437186e-05,
	"loss": 1.0667,
	"step": 22900
	},
	{
	"epoch": 1.15,
	"grad_norm": 4.591585636138916,
	"learning_rate": 1.5479396984924624e-05,
	"loss": 1.0861,
	"step": 23000
	},
	{
	"epoch": 1.16,
	"grad_norm": 4.026520729064941,
	"learning_rate": 1.5459296482412062e-05,
	"loss": 1.0772,
	"step": 23100
	},
	{
	"epoch": 1.16,
	"grad_norm": 5.972117900848389,
	"learning_rate": 1.54391959798995e-05,
	"loss": 1.0818,
	"step": 23200
	},
	{
	"epoch": 1.17,
	"grad_norm": 4.737887382507324,
	"learning_rate": 1.5419095477386935e-05,
	"loss": 1.0752,
	"step": 23300
	},
	{
	"epoch": 1.17,
	"grad_norm": 4.748262882232666,
	"learning_rate": 1.5398994974874373e-05,
	"loss": 1.0803,
	"step": 23400
	},
	{
	"epoch": 1.18,
	"grad_norm": 4.94175386428833,
	"learning_rate": 1.537889447236181e-05,
	"loss": 1.0754,
	"step": 23500
	},
	{
	"epoch": 1.18,
	"grad_norm": 4.3259172439575195,
	"learning_rate": 1.535879396984925e-05,
	"loss": 1.0463,
	"step": 23600
	},
	{
	"epoch": 1.19,
	"grad_norm": 5.240546703338623,
	"learning_rate": 1.5338693467336687e-05,
	"loss": 1.0547,
	"step": 23700
	},
	{
	"epoch": 1.19,
	"grad_norm": 6.120886325836182,
	"learning_rate": 1.531859296482412e-05,
	"loss": 1.0861,
	"step": 23800
	},
	{
	"epoch": 1.2,
	"grad_norm": 5.634921550750732,
	"learning_rate": 1.529849246231156e-05,
	"loss": 1.0722,
	"step": 23900
	},
	{
	"epoch": 1.2,
	"grad_norm": 5.39201021194458,
	"learning_rate": 1.5278391959798997e-05,
	"loss": 1.07,
	"step": 24000
	},
	{
	"epoch": 1.21,
	"grad_norm": 6.85221004486084,
	"learning_rate": 1.5258291457286433e-05,
	"loss": 1.0578,
	"step": 24100
	},
	{
	"epoch": 1.21,
	"grad_norm": 4.522882461547852,
	"learning_rate": 1.523819095477387e-05,
	"loss": 1.0895,
	"step": 24200
	},
	{
	"epoch": 1.22,
	"grad_norm": 4.020057201385498,
	"learning_rate": 1.5218090452261308e-05,
	"loss": 1.0377,
	"step": 24300
	},
	{
	"epoch": 1.22,
	"grad_norm": 4.188474655151367,
	"learning_rate": 1.5197989949748746e-05,
	"loss": 1.0469,
	"step": 24400
	},
	{
	"epoch": 1.23,
	"grad_norm": 6.872804164886475,
	"learning_rate": 1.5177889447236182e-05,
	"loss": 1.0795,
	"step": 24500
	},
	{
	"epoch": 1.23,
	"grad_norm": 5.834617614746094,
	"learning_rate": 1.515778894472362e-05,
	"loss": 1.0827,
	"step": 24600
	},
	{
	"epoch": 1.23,
	"grad_norm": 4.008932590484619,
	"learning_rate": 1.5137688442211056e-05,
	"loss": 1.069,
	"step": 24700
	},
	{
	"epoch": 1.24,
	"grad_norm": 5.309475898742676,
	"learning_rate": 1.5117587939698494e-05,
	"loss": 1.0668,
	"step": 24800
	},
	{
	"epoch": 1.25,
	"grad_norm": 6.02021598815918,
	"learning_rate": 1.5097487437185932e-05,
	"loss": 1.0611,
	"step": 24900
	},
	{
	"epoch": 1.25,
	"grad_norm": 4.143280029296875,
	"learning_rate": 1.5077587939698495e-05,
	"loss": 1.0526,
	"step": 25000
	},
	{
	"epoch": 1.25,
	"grad_norm": 4.231622695922852,
	"learning_rate": 1.505748743718593e-05,
	"loss": 1.0706,
	"step": 25100
	},
	{
	"epoch": 1.26,
	"grad_norm": 4.0399322509765625,
	"learning_rate": 1.5037386934673369e-05,
	"loss": 1.0878,
	"step": 25200
	},
	{
	"epoch": 1.27,
	"grad_norm": 4.2283759117126465,
	"learning_rate": 1.5017286432160805e-05,
	"loss": 1.0903,
	"step": 25300
	},
	{
	"epoch": 1.27,
	"grad_norm": 6.159567356109619,
	"learning_rate": 1.4997185929648241e-05,
	"loss": 1.069,
	"step": 25400
	},
	{
	"epoch": 1.27,
	"grad_norm": 5.181605815887451,
	"learning_rate": 1.4977085427135681e-05,
	"loss": 1.0712,
	"step": 25500
	},
	{
	"epoch": 1.28,
	"grad_norm": 4.90966796875,
	"learning_rate": 1.4956984924623117e-05,
	"loss": 1.0672,
	"step": 25600
	},
	{
	"epoch": 1.28,
	"grad_norm": 4.765697479248047,
	"learning_rate": 1.4936884422110554e-05,
	"loss": 1.0338,
	"step": 25700
	},
	{
	"epoch": 1.29,
	"grad_norm": 4.3462018966674805,
	"learning_rate": 1.491678391959799e-05,
	"loss": 1.0408,
	"step": 25800
	},
	{
	"epoch": 1.29,
	"grad_norm": 5.249480247497559,
	"learning_rate": 1.489668341708543e-05,
	"loss": 1.0576,
	"step": 25900
	},
	{
	"epoch": 1.3,
	"grad_norm": 5.543900489807129,
	"learning_rate": 1.4876582914572866e-05,
	"loss": 1.0651,
	"step": 26000
	},
	{
	"epoch": 1.3,
	"grad_norm": 6.526113033294678,
	"learning_rate": 1.4856482412060302e-05,
	"loss": 1.0596,
	"step": 26100
	},
	{
	"epoch": 1.31,
	"grad_norm": 4.725895404815674,
	"learning_rate": 1.4836381909547738e-05,
	"loss": 1.0969,
	"step": 26200
	},
	{
	"epoch": 1.31,
	"grad_norm": 6.068490028381348,
	"learning_rate": 1.4816281407035178e-05,
	"loss": 1.0284,
	"step": 26300
	},
	{
	"epoch": 1.32,
	"grad_norm": 4.363389015197754,
	"learning_rate": 1.4796180904522614e-05,
	"loss": 1.0589,
	"step": 26400
	},
	{
	"epoch": 1.32,
	"grad_norm": 6.8659257888793945,
	"learning_rate": 1.477608040201005e-05,
	"loss": 1.0803,
	"step": 26500
	},
	{
	"epoch": 1.33,
	"grad_norm": 5.061355113983154,
	"learning_rate": 1.4755979899497489e-05,
	"loss": 1.066,
	"step": 26600
	},
	{
	"epoch": 1.33,
	"grad_norm": 4.511940956115723,
	"learning_rate": 1.4735879396984927e-05,
	"loss": 1.0447,
	"step": 26700
	},
	{
	"epoch": 1.34,
	"grad_norm": 4.449003219604492,
	"learning_rate": 1.4715778894472363e-05,
	"loss": 1.0532,
	"step": 26800
	},
	{
	"epoch": 1.34,
	"grad_norm": 5.1782307624816895,
	"learning_rate": 1.46956783919598e-05,
	"loss": 1.0608,
	"step": 26900
	},
	{
	"epoch": 1.35,
	"grad_norm": 5.087260723114014,
	"learning_rate": 1.4675577889447237e-05,
	"loss": 1.0371,
	"step": 27000
	},
	{
	"epoch": 1.35,
	"grad_norm": 4.387496471405029,
	"learning_rate": 1.4655477386934675e-05,
	"loss": 1.055,
	"step": 27100
	},
	{
	"epoch": 1.36,
	"grad_norm": 4.9253010749816895,
	"learning_rate": 1.4635376884422113e-05,
	"loss": 1.0385,
	"step": 27200
	},
	{
	"epoch": 1.36,
	"grad_norm": 4.611992835998535,
	"learning_rate": 1.461527638190955e-05,
	"loss": 1.0338,
	"step": 27300
	},
	{
	"epoch": 1.37,
	"grad_norm": 2.981304168701172,
	"learning_rate": 1.4595175879396986e-05,
	"loss": 1.0516,
	"step": 27400
	},
	{
	"epoch": 1.38,
	"grad_norm": 5.678966045379639,
	"learning_rate": 1.4575075376884422e-05,
	"loss": 1.0788,
	"step": 27500
	},
	{
	"epoch": 1.38,
	"grad_norm": 5.3079752922058105,
	"learning_rate": 1.4554974874371862e-05,
	"loss": 1.0853,
	"step": 27600
	},
	{
	"epoch": 1.39,
	"grad_norm": 5.990561485290527,
	"learning_rate": 1.4534874371859298e-05,
	"loss": 1.0187,
	"step": 27700
	},
	{
	"epoch": 1.39,
	"grad_norm": 7.396142482757568,
	"learning_rate": 1.4514773869346734e-05,
	"loss": 1.0694,
	"step": 27800
	},
	{
	"epoch": 1.4,
	"grad_norm": 4.319200038909912,
	"learning_rate": 1.449467336683417e-05,
	"loss": 1.0668,
	"step": 27900
	},
	{
	"epoch": 1.4,
	"grad_norm": 2.7691450119018555,
	"learning_rate": 1.447457286432161e-05,
	"loss": 1.0652,
	"step": 28000
	},
	{
	"epoch": 1.41,
	"grad_norm": 8.814241409301758,
	"learning_rate": 1.4454472361809046e-05,
	"loss": 1.0423,
	"step": 28100
	},
	{
	"epoch": 1.41,
	"grad_norm": 5.264801979064941,
	"learning_rate": 1.4434371859296483e-05,
	"loss": 1.0918,
	"step": 28200
	},
	{
	"epoch": 1.42,
	"grad_norm": 4.573727130889893,
	"learning_rate": 1.441427135678392e-05,
	"loss": 1.0822,
	"step": 28300
	},
	{
	"epoch": 1.42,
	"grad_norm": 3.6568844318389893,
	"learning_rate": 1.4394170854271359e-05,
	"loss": 1.0492,
	"step": 28400
	},
	{
	"epoch": 1.43,
	"grad_norm": 4.999285697937012,
	"learning_rate": 1.437427135678392e-05,
	"loss": 1.0583,
	"step": 28500
	},
	{
	"epoch": 1.43,
	"grad_norm": 4.125443458557129,
	"learning_rate": 1.4354170854271359e-05,
	"loss": 1.0422,
	"step": 28600
	},
	{
	"epoch": 1.44,
	"grad_norm": 6.014279365539551,
	"learning_rate": 1.4334070351758795e-05,
	"loss": 1.0347,
	"step": 28700
	},
	{
	"epoch": 1.44,
	"grad_norm": 8.18229866027832,
	"learning_rate": 1.4313969849246232e-05,
	"loss": 1.0133,
	"step": 28800
	},
	{
	"epoch": 1.45,
	"grad_norm": 3.3756470680236816,
	"learning_rate": 1.4294070351758796e-05,
	"loss": 1.0684,
	"step": 28900
	},
	{
	"epoch": 1.45,
	"grad_norm": 5.568530559539795,
	"learning_rate": 1.4273969849246232e-05,
	"loss": 1.0666,
	"step": 29000
	},
	{
	"epoch": 1.46,
	"grad_norm": 4.440110683441162,
	"learning_rate": 1.4253869346733668e-05,
	"loss": 1.057,
	"step": 29100
	},
	{
	"epoch": 1.46,
	"grad_norm": 6.835775852203369,
	"learning_rate": 1.4233768844221108e-05,
	"loss": 1.0176,
	"step": 29200
	},
	{
	"epoch": 1.47,
	"grad_norm": 5.715722560882568,
	"learning_rate": 1.4213668341708544e-05,
	"loss": 1.0996,
	"step": 29300
	},
	{
	"epoch": 1.47,
	"grad_norm": 6.401480674743652,
	"learning_rate": 1.419356783919598e-05,
	"loss": 1.0459,
	"step": 29400
	},
	{
	"epoch": 1.48,
	"grad_norm": 7.125598430633545,
	"learning_rate": 1.4173467336683417e-05,
	"loss": 1.0067,
	"step": 29500
	},
	{
	"epoch": 1.48,
	"grad_norm": 5.287647724151611,
	"learning_rate": 1.4153366834170856e-05,
	"loss": 1.0475,
	"step": 29600
	},
	{
	"epoch": 1.48,
	"grad_norm": 5.175357818603516,
	"learning_rate": 1.4133266331658293e-05,
	"loss": 1.0361,
	"step": 29700
	},
	{
	"epoch": 1.49,
	"grad_norm": 4.676697731018066,
	"learning_rate": 1.4113165829145729e-05,
	"loss": 0.9925,
	"step": 29800
	},
	{
	"epoch": 1.5,
	"grad_norm": 4.375120162963867,
	"learning_rate": 1.4093065326633167e-05,
	"loss": 1.0145,
	"step": 29900
	},
	{
	"epoch": 1.5,
	"grad_norm": 4.380770683288574,
	"learning_rate": 1.4072964824120605e-05,
	"loss": 1.0763,
	"step": 30000
	},
	{
	"epoch": 1.5,
	"eval_loss": 1.0519436597824097,
	"eval_runtime": 21.613,
	"eval_samples_per_second": 46.269,
	"eval_steps_per_second": 5.784,
	"step": 30000
	},
	{
	"epoch": 1.5,
	"grad_norm": 5.796531677246094,
	"learning_rate": 1.4052864321608041e-05,
	"loss": 1.0563,
	"step": 30100
	},
	{
	"epoch": 1.51,
	"grad_norm": 2.713714361190796,
	"learning_rate": 1.4032763819095479e-05,
	"loss": 1.0549,
	"step": 30200
	},
	{
	"epoch": 1.52,
	"grad_norm": 6.333755016326904,
	"learning_rate": 1.4012663316582915e-05,
	"loss": 1.042,
	"step": 30300
	},
	{
	"epoch": 1.52,
	"grad_norm": 3.8109474182128906,
	"learning_rate": 1.3992562814070353e-05,
	"loss": 1.0773,
	"step": 30400
	},
	{
	"epoch": 1.52,
	"grad_norm": 6.425621509552002,
	"learning_rate": 1.3972462311557791e-05,
	"loss": 1.0066,
	"step": 30500
	},
	{
	"epoch": 1.53,
	"grad_norm": 4.9127607345581055,
	"learning_rate": 1.3952361809045228e-05,
	"loss": 1.0022,
	"step": 30600
	},
	{
	"epoch": 1.54,
	"grad_norm": 4.212081432342529,
	"learning_rate": 1.3932261306532664e-05,
	"loss": 1.0358,
	"step": 30700
	},
	{
	"epoch": 1.54,
	"grad_norm": 7.6413187980651855,
	"learning_rate": 1.39121608040201e-05,
	"loss": 1.0413,
	"step": 30800
	},
	{
	"epoch": 1.54,
	"grad_norm": 4.2576494216918945,
	"learning_rate": 1.389206030150754e-05,
	"loss": 1.0332,
	"step": 30900
	},
	{
	"epoch": 1.55,
	"grad_norm": 4.797669887542725,
	"learning_rate": 1.3871959798994976e-05,
	"loss": 1.0396,
	"step": 31000
	},
	{
	"epoch": 1.56,
	"grad_norm": 5.891973972320557,
	"learning_rate": 1.3851859296482412e-05,
	"loss": 1.0281,
	"step": 31100
	},
	{
	"epoch": 1.56,
	"grad_norm": 5.9344964027404785,
	"learning_rate": 1.3831758793969849e-05,
	"loss": 1.024,
	"step": 31200
	},
	{
	"epoch": 1.56,
	"grad_norm": 4.902309417724609,
	"learning_rate": 1.3811658291457288e-05,
	"loss": 1.027,
	"step": 31300
	},
	{
	"epoch": 1.57,
	"grad_norm": 6.387609958648682,
	"learning_rate": 1.3791557788944725e-05,
	"loss": 1.0207,
	"step": 31400
	},
	{
	"epoch": 1.57,
	"grad_norm": 5.870815277099609,
	"learning_rate": 1.3771457286432161e-05,
	"loss": 1.0128,
	"step": 31500
	},
	{
	"epoch": 1.58,
	"grad_norm": 6.101361274719238,
	"learning_rate": 1.3751356783919599e-05,
	"loss": 1.0412,
	"step": 31600
	},
	{
	"epoch": 1.58,
	"grad_norm": 5.250607967376709,
	"learning_rate": 1.3731256281407037e-05,
	"loss": 1.0146,
	"step": 31700
	},
	{
	"epoch": 1.59,
	"grad_norm": 5.449378967285156,
	"learning_rate": 1.3711155778894473e-05,
	"loss": 1.03,
	"step": 31800
	},
	{
	"epoch": 1.59,
	"grad_norm": 4.564045429229736,
	"learning_rate": 1.3691055276381911e-05,
	"loss": 1.0567,
	"step": 31900
	},
	{
	"epoch": 1.6,
	"grad_norm": 5.84417200088501,
	"learning_rate": 1.3670954773869347e-05,
	"loss": 1.0782,
	"step": 32000
	},
	{
	"epoch": 1.6,
	"grad_norm": 4.725462436676025,
	"learning_rate": 1.3650854271356785e-05,
	"loss": 1.0327,
	"step": 32100
	},
	{
	"epoch": 1.61,
	"grad_norm": 6.999115943908691,
	"learning_rate": 1.3630753768844223e-05,
	"loss": 1.0405,
	"step": 32200
	},
	{
	"epoch": 1.61,
	"grad_norm": 4.241363525390625,
	"learning_rate": 1.361065326633166e-05,
	"loss": 1.02,
	"step": 32300
	},
	{
	"epoch": 1.62,
	"grad_norm": 5.884255886077881,
	"learning_rate": 1.3590552763819096e-05,
	"loss": 1.0634,
	"step": 32400
	},
	{
	"epoch": 1.62,
	"grad_norm": 3.674698829650879,
	"learning_rate": 1.3570452261306536e-05,
	"loss": 1.0389,
	"step": 32500
	},
	{
	"epoch": 1.63,
	"grad_norm": 4.227616310119629,
	"learning_rate": 1.3550351758793972e-05,
	"loss": 0.9992,
	"step": 32600
	},
	{
	"epoch": 1.64,
	"grad_norm": 4.682816982269287,
	"learning_rate": 1.3530251256281408e-05,
	"loss": 1.0111,
	"step": 32700
	},
	{
	"epoch": 1.64,
	"grad_norm": 4.632464408874512,
	"learning_rate": 1.3510150753768844e-05,
	"loss": 1.0223,
	"step": 32800
	},
	{
	"epoch": 1.65,
	"grad_norm": 6.061766147613525,
	"learning_rate": 1.349005025125628e-05,
	"loss": 0.9837,
	"step": 32900
	},
	{
	"epoch": 1.65,
	"grad_norm": 5.4998908042907715,
	"learning_rate": 1.346994974874372e-05,
	"loss": 1.041,
	"step": 33000
	},
	{
	"epoch": 1.66,
	"grad_norm": 6.294175624847412,
	"learning_rate": 1.3449849246231157e-05,
	"loss": 1.0311,
	"step": 33100
	},
	{
	"epoch": 1.66,
	"grad_norm": 5.177206039428711,
	"learning_rate": 1.3429748743718593e-05,
	"loss": 1.0435,
	"step": 33200
	},
	{
	"epoch": 1.67,
	"grad_norm": 4.389501571655273,
	"learning_rate": 1.3409648241206031e-05,
	"loss": 1.0104,
	"step": 33300
	},
	{
	"epoch": 1.67,
	"grad_norm": 5.105901718139648,
	"learning_rate": 1.3389547738693469e-05,
	"loss": 0.9868,
	"step": 33400
	},
	{
	"epoch": 1.68,
	"grad_norm": 3.407482147216797,
	"learning_rate": 1.3369447236180905e-05,
	"loss": 1.0559,
	"step": 33500
	},
	{
	"epoch": 1.68,
	"grad_norm": 6.496652126312256,
	"learning_rate": 1.3349346733668343e-05,
	"loss": 0.9849,
	"step": 33600
	},
	{
	"epoch": 1.69,
	"grad_norm": 6.241397857666016,
	"learning_rate": 1.332924623115578e-05,
	"loss": 0.9995,
	"step": 33700
	},
	{
	"epoch": 1.69,
	"grad_norm": 5.998499870300293,
	"learning_rate": 1.3309145728643217e-05,
	"loss": 1.0355,
	"step": 33800
	},
	{
	"epoch": 1.69,
	"grad_norm": 5.380569934844971,
	"learning_rate": 1.3289045226130655e-05,
	"loss": 1.0082,
	"step": 33900
	},
	{
	"epoch": 1.7,
	"grad_norm": 5.168824195861816,
	"learning_rate": 1.3268944723618092e-05,
	"loss": 1.052,
	"step": 34000
	},
	{
	"epoch": 1.71,
	"grad_norm": 5.691008567810059,
	"learning_rate": 1.3248844221105528e-05,
	"loss": 1.0424,
	"step": 34100
	},
	{
	"epoch": 1.71,
	"grad_norm": 5.678094387054443,
	"learning_rate": 1.3228743718592968e-05,
	"loss": 1.0083,
	"step": 34200
	},
	{
	"epoch": 1.71,
	"grad_norm": 6.432235240936279,
	"learning_rate": 1.3208643216080404e-05,
	"loss": 0.9766,
	"step": 34300
	},
	{
	"epoch": 1.72,
	"grad_norm": 6.016462326049805,
	"learning_rate": 1.318854271356784e-05,
	"loss": 1.0059,
	"step": 34400
	},
	{
	"epoch": 1.73,
	"grad_norm": 4.596778392791748,
	"learning_rate": 1.3168442211055276e-05,
	"loss": 0.9462,
	"step": 34500
	},
	{
	"epoch": 1.73,
	"grad_norm": 7.2965850830078125,
	"learning_rate": 1.3148341708542716e-05,
	"loss": 0.972,
	"step": 34600
	},
	{
	"epoch": 1.73,
	"grad_norm": 5.232773780822754,
	"learning_rate": 1.3128241206030152e-05,
	"loss": 1.0532,
	"step": 34700
	},
	{
	"epoch": 1.74,
	"grad_norm": 5.5057783126831055,
	"learning_rate": 1.3108140703517589e-05,
	"loss": 0.9835,
	"step": 34800
	},
	{
	"epoch": 1.75,
	"grad_norm": 3.0561375617980957,
	"learning_rate": 1.3088040201005025e-05,
	"loss": 1.0293,
	"step": 34900
	},
	{
	"epoch": 1.75,
	"grad_norm": 4.761837959289551,
	"learning_rate": 1.3068140703517589e-05,
	"loss": 1.0232,
	"step": 35000
	},
	{
	"epoch": 1.75,
	"grad_norm": 7.006007671356201,
	"learning_rate": 1.3048040201005025e-05,
	"loss": 0.9945,
	"step": 35100
	},
	{
	"epoch": 1.76,
	"grad_norm": 4.829462051391602,
	"learning_rate": 1.3027939698492465e-05,
	"loss": 1.0589,
	"step": 35200
	},
	{
	"epoch": 1.77,
	"grad_norm": 3.8825013637542725,
	"learning_rate": 1.3007839195979901e-05,
	"loss": 0.9984,
	"step": 35300
	},
	{
	"epoch": 1.77,
	"grad_norm": 5.655978202819824,
	"learning_rate": 1.2987738693467338e-05,
	"loss": 1.0004,
	"step": 35400
	},
	{
	"epoch": 1.77,
	"grad_norm": 5.612642765045166,
	"learning_rate": 1.2967638190954774e-05,
	"loss": 0.9874,
	"step": 35500
	},
	{
	"epoch": 1.78,
	"grad_norm": 17.78661346435547,
	"learning_rate": 1.2947537688442212e-05,
	"loss": 1.0322,
	"step": 35600
	},
	{
	"epoch": 1.79,
	"grad_norm": 4.723743915557861,
	"learning_rate": 1.292743718592965e-05,
	"loss": 0.9984,
	"step": 35700
	},
	{
	"epoch": 1.79,
	"grad_norm": 5.048336982727051,
	"learning_rate": 1.2907336683417086e-05,
	"loss": 1.0588,
	"step": 35800
	},
	{
	"epoch": 1.79,
	"grad_norm": 6.086093425750732,
	"learning_rate": 1.2887236180904524e-05,
	"loss": 1.0075,
	"step": 35900
	},
	{
	"epoch": 1.8,
	"grad_norm": 6.542403697967529,
	"learning_rate": 1.286713567839196e-05,
	"loss": 1.0219,
	"step": 36000
	},
	{
	"epoch": 1.81,
	"grad_norm": 5.013860702514648,
	"learning_rate": 1.2847035175879398e-05,
	"loss": 1.0307,
	"step": 36100
	},
	{
	"epoch": 1.81,
	"grad_norm": 5.978675365447998,
	"learning_rate": 1.2826934673366835e-05,
	"loss": 1.0026,
	"step": 36200
	},
	{
	"epoch": 1.81,
	"grad_norm": 6.217547416687012,
	"learning_rate": 1.2806834170854273e-05,
	"loss": 1.0196,
	"step": 36300
	},
	{
	"epoch": 1.82,
	"grad_norm": 4.577905654907227,
	"learning_rate": 1.2786733668341709e-05,
	"loss": 0.9767,
	"step": 36400
	},
	{
	"epoch": 1.82,
	"grad_norm": 4.999172210693359,
	"learning_rate": 1.2766633165829147e-05,
	"loss": 1.0261,
	"step": 36500
	},
	{
	"epoch": 1.83,
	"grad_norm": 3.3435771465301514,
	"learning_rate": 1.2746532663316585e-05,
	"loss": 0.9751,
	"step": 36600
	},
	{
	"epoch": 1.83,
	"grad_norm": 6.218837261199951,
	"learning_rate": 1.2726432160804021e-05,
	"loss": 0.9887,
	"step": 36700
	},
	{
	"epoch": 1.84,
	"grad_norm": 2.914499044418335,
	"learning_rate": 1.2706331658291457e-05,
	"loss": 1.0172,
	"step": 36800
	},
	{
	"epoch": 1.84,
	"grad_norm": 4.287944793701172,
	"learning_rate": 1.2686231155778897e-05,
	"loss": 1.0336,
	"step": 36900
	},
	{
	"epoch": 1.85,
	"grad_norm": 9.045112609863281,
	"learning_rate": 1.2666331658291458e-05,
	"loss": 0.9966,
	"step": 37000
	},
	{
	"epoch": 1.85,
	"grad_norm": 3.9664063453674316,
	"learning_rate": 1.2646231155778896e-05,
	"loss": 1.0315,
	"step": 37100
	},
	{
	"epoch": 1.86,
	"grad_norm": 5.26336145401001,
	"learning_rate": 1.2626130653266334e-05,
	"loss": 1.031,
	"step": 37200
	},
	{
	"epoch": 1.86,
	"grad_norm": 5.820954322814941,
	"learning_rate": 1.260603015075377e-05,
	"loss": 0.9786,
	"step": 37300
	},
	{
	"epoch": 1.87,
	"grad_norm": 3.7999236583709717,
	"learning_rate": 1.2585929648241206e-05,
	"loss": 1.0008,
	"step": 37400
	},
	{
	"epoch": 1.88,
	"grad_norm": 4.96231746673584,
	"learning_rate": 1.2565829145728646e-05,
	"loss": 0.9823,
	"step": 37500
	},
	{
	"epoch": 1.88,
	"grad_norm": 5.442008018493652,
	"learning_rate": 1.2545728643216082e-05,
	"loss": 0.9993,
	"step": 37600
	},
	{
	"epoch": 1.89,
	"grad_norm": 3.0178353786468506,
	"learning_rate": 1.2525628140703518e-05,
	"loss": 1.009,
	"step": 37700
	},
	{
	"epoch": 1.89,
	"grad_norm": 4.0404052734375,
	"learning_rate": 1.2505527638190955e-05,
	"loss": 1.0047,
	"step": 37800
	},
	{
	"epoch": 1.9,
	"grad_norm": 3.924924850463867,
	"learning_rate": 1.2485427135678394e-05,
	"loss": 0.9681,
	"step": 37900
	},
	{
	"epoch": 1.9,
	"grad_norm": 6.560153961181641,
	"learning_rate": 1.246532663316583e-05,
	"loss": 0.9346,
	"step": 38000
	},
	{
	"epoch": 1.91,
	"grad_norm": 4.826027870178223,
	"learning_rate": 1.2445226130653267e-05,
	"loss": 0.9878,
	"step": 38100
	},
	{
	"epoch": 1.91,
	"grad_norm": 3.489680767059326,
	"learning_rate": 1.2425125628140703e-05,
	"loss": 0.9943,
	"step": 38200
	},
	{
	"epoch": 1.92,
	"grad_norm": 4.7767014503479,
	"learning_rate": 1.2405025125628141e-05,
	"loss": 1.02,
	"step": 38300
	},
	{
	"epoch": 1.92,
	"grad_norm": 7.311853408813477,
	"learning_rate": 1.238492462311558e-05,
	"loss": 0.946,
	"step": 38400
	},
	{
	"epoch": 1.93,
	"grad_norm": 4.217949390411377,
	"learning_rate": 1.236502512562814e-05,
	"loss": 0.974,
	"step": 38500
	},
	{
	"epoch": 1.93,
	"grad_norm": 8.919093132019043,
	"learning_rate": 1.234492462311558e-05,
	"loss": 0.9628,
	"step": 38600
	},
	{
	"epoch": 1.94,
	"grad_norm": 4.355369567871094,
	"learning_rate": 1.2324824120603016e-05,
	"loss": 0.9325,
	"step": 38700
	},
	{
	"epoch": 1.94,
	"grad_norm": 5.474518775939941,
	"learning_rate": 1.2304723618090452e-05,
	"loss": 0.9505,
	"step": 38800
	},
	{
	"epoch": 1.94,
	"grad_norm": 6.389540195465088,
	"learning_rate": 1.228462311557789e-05,
	"loss": 0.9574,
	"step": 38900
	},
	{
	"epoch": 1.95,
	"grad_norm": 6.9164719581604,
	"learning_rate": 1.2264522613065328e-05,
	"loss": 0.9644,
	"step": 39000
	},
	{
	"epoch": 1.96,
	"grad_norm": 4.559136390686035,
	"learning_rate": 1.2244422110552764e-05,
	"loss": 1.0306,
	"step": 39100
	},
	{
	"epoch": 1.96,
	"grad_norm": 6.381926536560059,
	"learning_rate": 1.2224321608040202e-05,
	"loss": 0.9542,
	"step": 39200
	},
	{
	"epoch": 1.96,
	"grad_norm": 7.826279163360596,
	"learning_rate": 1.2204221105527639e-05,
	"loss": 0.9818,
	"step": 39300
	},
	{
	"epoch": 1.97,
	"grad_norm": 5.7296929359436035,
	"learning_rate": 1.2184120603015077e-05,
	"loss": 0.9591,
	"step": 39400
	},
	{
	"epoch": 1.98,
	"grad_norm": 6.479053974151611,
	"learning_rate": 1.2164020100502515e-05,
	"loss": 1.0083,
	"step": 39500
	},
	{
	"epoch": 1.98,
	"grad_norm": 5.9377241134643555,
	"learning_rate": 1.2144120603015077e-05,
	"loss": 0.9969,
	"step": 39600
	},
	{
	"epoch": 1.98,
	"grad_norm": 4.59481143951416,
	"learning_rate": 1.2124020100502513e-05,
	"loss": 1.015,
	"step": 39700
	},
	{
	"epoch": 1.99,
	"grad_norm": 4.979703903198242,
	"learning_rate": 1.2103919597989951e-05,
	"loss": 0.977,
	"step": 39800
	},
	{
	"epoch": 2.0,
	"grad_norm": 6.539973735809326,
	"learning_rate": 1.2083819095477388e-05,
	"loss": 0.9938,
	"step": 39900
	},
	{
	"epoch": 2.0,
	"grad_norm": 5.971490383148193,
	"learning_rate": 1.2063718592964825e-05,
	"loss": 0.9848,
	"step": 40000
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.9915822744369507,
	"eval_runtime": 21.5957,
	"eval_samples_per_second": 46.305,
	"eval_steps_per_second": 5.788,
	"step": 40000
	},
	{
	"epoch": 2.0,
	"grad_norm": 5.639512538909912,
	"learning_rate": 1.2043618090452262e-05,
	"loss": 0.9401,
	"step": 40100
	},
	{
	"epoch": 2.01,
	"grad_norm": 3.0007824897766113,
	"learning_rate": 1.20235175879397e-05,
	"loss": 0.9769,
	"step": 40200
	},
	{
	"epoch": 2.02,
	"grad_norm": 4.346365451812744,
	"learning_rate": 1.2003417085427136e-05,
	"loss": 0.9247,
	"step": 40300
	},
	{
	"epoch": 2.02,
	"grad_norm": 6.308602809906006,
	"learning_rate": 1.1983316582914574e-05,
	"loss": 0.9685,
	"step": 40400
	},
	{
	"epoch": 2.02,
	"grad_norm": 4.597143173217773,
	"learning_rate": 1.1963216080402012e-05,
	"loss": 0.907,
	"step": 40500
	},
	{
	"epoch": 2.03,
	"grad_norm": 6.000264644622803,
	"learning_rate": 1.1943115577889448e-05,
	"loss": 0.9311,
	"step": 40600
	},
	{
	"epoch": 2.04,
	"grad_norm": 4.718263149261475,
	"learning_rate": 1.1923015075376885e-05,
	"loss": 0.9707,
	"step": 40700
	},
	{
	"epoch": 2.04,
	"grad_norm": 3.7472355365753174,
	"learning_rate": 1.1902914572864324e-05,
	"loss": 0.9812,
	"step": 40800
	},
	{
	"epoch": 2.04,
	"grad_norm": 4.8061017990112305,
	"learning_rate": 1.188281407035176e-05,
	"loss": 0.9461,
	"step": 40900
	},
	{
	"epoch": 2.05,
	"grad_norm": 5.2381391525268555,
	"learning_rate": 1.1862713567839197e-05,
	"loss": 0.9972,
	"step": 41000
	},
	{
	"epoch": 2.06,
	"grad_norm": 6.1567583084106445,
	"learning_rate": 1.1842613065326633e-05,
	"loss": 0.9611,
	"step": 41100
	},
	{
	"epoch": 2.06,
	"grad_norm": 5.496160984039307,
	"learning_rate": 1.1822512562814071e-05,
	"loss": 0.9612,
	"step": 41200
	},
	{
	"epoch": 2.06,
	"grad_norm": 6.659996509552002,
	"learning_rate": 1.1802412060301509e-05,
	"loss": 0.9593,
	"step": 41300
	},
	{
	"epoch": 2.07,
	"grad_norm": 7.010763645172119,
	"learning_rate": 1.1782311557788945e-05,
	"loss": 0.9079,
	"step": 41400
	},
	{
	"epoch": 2.08,
	"grad_norm": 5.539340496063232,
	"learning_rate": 1.1762211055276383e-05,
	"loss": 0.946,
	"step": 41500
	},
	{
	"epoch": 2.08,
	"grad_norm": 4.7269368171691895,
	"learning_rate": 1.174211055276382e-05,
	"loss": 0.9702,
	"step": 41600
	},
	{
	"epoch": 2.08,
	"grad_norm": 6.573697090148926,
	"learning_rate": 1.1722010050251257e-05,
	"loss": 0.9166,
	"step": 41700
	},
	{
	"epoch": 2.09,
	"grad_norm": 5.467616558074951,
	"learning_rate": 1.1701909547738694e-05,
	"loss": 0.9479,
	"step": 41800
	},
	{
	"epoch": 2.1,
	"grad_norm": 7.292219638824463,
	"learning_rate": 1.1681809045226132e-05,
	"loss": 0.9694,
	"step": 41900
	},
	{
	"epoch": 2.1,
	"grad_norm": 5.9063849449157715,
	"learning_rate": 1.1661708542713568e-05,
	"loss": 0.9467,
	"step": 42000
	},
	{
	"epoch": 2.1,
	"grad_norm": 7.106956958770752,
	"learning_rate": 1.1641608040201006e-05,
	"loss": 0.9344,
	"step": 42100
	},
	{
	"epoch": 2.11,
	"grad_norm": 2.7898268699645996,
	"learning_rate": 1.1621507537688444e-05,
	"loss": 0.9174,
	"step": 42200
	},
	{
	"epoch": 2.12,
	"grad_norm": 5.543144226074219,
	"learning_rate": 1.160140703517588e-05,
	"loss": 0.9399,
	"step": 42300
	},
	{
	"epoch": 2.12,
	"grad_norm": 4.507541656494141,
	"learning_rate": 1.1581306532663317e-05,
	"loss": 0.8989,
	"step": 42400
	},
	{
	"epoch": 2.12,
	"grad_norm": 7.4493937492370605,
	"learning_rate": 1.1561206030150756e-05,
	"loss": 0.9663,
	"step": 42500
	},
	{
	"epoch": 2.13,
	"grad_norm": 5.758662700653076,
	"learning_rate": 1.1541105527638192e-05,
	"loss": 0.983,
	"step": 42600
	},
	{
	"epoch": 2.13,
	"grad_norm": 4.6601386070251465,
	"learning_rate": 1.1521005025125629e-05,
	"loss": 0.936,
	"step": 42700
	},
	{
	"epoch": 2.14,
	"grad_norm": 6.687641620635986,
	"learning_rate": 1.1500904522613065e-05,
	"loss": 0.9452,
	"step": 42800
	},
	{
	"epoch": 2.15,
	"grad_norm": 6.454759120941162,
	"learning_rate": 1.1480804020100505e-05,
	"loss": 0.9494,
	"step": 42900
	},
	{
	"epoch": 2.15,
	"grad_norm": 6.235274314880371,
	"learning_rate": 1.1460703517587941e-05,
	"loss": 0.9107,
	"step": 43000
	},
	{
	"epoch": 2.15,
	"grad_norm": 6.445216655731201,
	"learning_rate": 1.1440603015075377e-05,
	"loss": 0.9448,
	"step": 43100
	},
	{
	"epoch": 2.16,
	"grad_norm": 4.565326690673828,
	"learning_rate": 1.1420502512562814e-05,
	"loss": 0.9435,
	"step": 43200
	},
	{
	"epoch": 2.17,
	"grad_norm": 4.653913497924805,
	"learning_rate": 1.1400402010050253e-05,
	"loss": 0.9492,
	"step": 43300
	},
	{
	"epoch": 2.17,
	"grad_norm": 4.022702693939209,
	"learning_rate": 1.138030150753769e-05,
	"loss": 0.9365,
	"step": 43400
	},
	{
	"epoch": 2.17,
	"grad_norm": 6.998848915100098,
	"learning_rate": 1.1360201005025126e-05,
	"loss": 0.9215,
	"step": 43500
	},
	{
	"epoch": 2.18,
	"grad_norm": 3.925429344177246,
	"learning_rate": 1.1340100502512564e-05,
	"loss": 0.9408,
	"step": 43600
	},
	{
	"epoch": 2.19,
	"grad_norm": 5.22701358795166,
	"learning_rate": 1.132e-05,
	"loss": 0.9755,
	"step": 43700
	},
	{
	"epoch": 2.19,
	"grad_norm": 5.142667293548584,
	"learning_rate": 1.1299899497487438e-05,
	"loss": 0.8938,
	"step": 43800
	},
	{
	"epoch": 2.19,
	"grad_norm": 5.2655158042907715,
	"learning_rate": 1.1279798994974876e-05,
	"loss": 0.9751,
	"step": 43900
	},
	{
	"epoch": 2.2,
	"grad_norm": 5.084207057952881,
	"learning_rate": 1.1259698492462312e-05,
	"loss": 0.9141,
	"step": 44000
	},
	{
	"epoch": 2.21,
	"grad_norm": 4.578594207763672,
	"learning_rate": 1.1239597989949749e-05,
	"loss": 0.9403,
	"step": 44100
	},
	{
	"epoch": 2.21,
	"grad_norm": 3.3010849952697754,
	"learning_rate": 1.1219497487437188e-05,
	"loss": 0.9657,
	"step": 44200
	},
	{
	"epoch": 2.21,
	"grad_norm": 6.451618194580078,
	"learning_rate": 1.1199396984924624e-05,
	"loss": 0.9297,
	"step": 44300
	},
	{
	"epoch": 2.22,
	"grad_norm": 5.8492655754089355,
	"learning_rate": 1.117929648241206e-05,
	"loss": 0.9157,
	"step": 44400
	},
	{
	"epoch": 2.23,
	"grad_norm": 5.015758037567139,
	"learning_rate": 1.1159195979899497e-05,
	"loss": 0.9508,
	"step": 44500
	},
	{
	"epoch": 2.23,
	"grad_norm": 4.814078330993652,
	"learning_rate": 1.1139095477386937e-05,
	"loss": 0.9361,
	"step": 44600
	},
	{
	"epoch": 2.23,
	"grad_norm": 5.004156112670898,
	"learning_rate": 1.1118994974874373e-05,
	"loss": 0.958,
	"step": 44700
	},
	{
	"epoch": 2.24,
	"grad_norm": 5.016057968139648,
	"learning_rate": 1.109889447236181e-05,
	"loss": 0.9755,
	"step": 44800
	},
	{
	"epoch": 2.25,
	"grad_norm": 5.041826248168945,
	"learning_rate": 1.1078793969849246e-05,
	"loss": 0.9082,
	"step": 44900
	},
	{
	"epoch": 2.25,
	"grad_norm": 5.787368297576904,
	"learning_rate": 1.1058693467336685e-05,
	"loss": 0.9076,
	"step": 45000
	},
	{
	"epoch": 2.25,
	"grad_norm": 5.170538902282715,
	"learning_rate": 1.1038592964824122e-05,
	"loss": 0.9117,
	"step": 45100
	},
	{
	"epoch": 2.26,
	"grad_norm": 7.477475643157959,
	"learning_rate": 1.1018492462311558e-05,
	"loss": 0.8987,
	"step": 45200
	},
	{
	"epoch": 2.27,
	"grad_norm": 4.626328945159912,
	"learning_rate": 1.0998391959798996e-05,
	"loss": 0.9197,
	"step": 45300
	},
	{
	"epoch": 2.27,
	"grad_norm": 5.800539016723633,
	"learning_rate": 1.0978291457286434e-05,
	"loss": 0.9025,
	"step": 45400
	},
	{
	"epoch": 2.27,
	"grad_norm": 4.291562080383301,
	"learning_rate": 1.0958391959798994e-05,
	"loss": 0.9348,
	"step": 45500
	},
	{
	"epoch": 2.28,
	"grad_norm": 5.439847946166992,
	"learning_rate": 1.0938291457286434e-05,
	"loss": 0.9416,
	"step": 45600
	},
	{
	"epoch": 2.29,
	"grad_norm": 5.728611946105957,
	"learning_rate": 1.091819095477387e-05,
	"loss": 0.9124,
	"step": 45700
	},
	{
	"epoch": 2.29,
	"grad_norm": 3.7975008487701416,
	"learning_rate": 1.0898090452261307e-05,
	"loss": 0.9345,
	"step": 45800
	},
	{
	"epoch": 2.29,
	"grad_norm": 7.625438690185547,
	"learning_rate": 1.0877989949748745e-05,
	"loss": 0.8925,
	"step": 45900
	},
	{
	"epoch": 2.3,
	"grad_norm": 4.858023643493652,
	"learning_rate": 1.0857889447236183e-05,
	"loss": 0.9103,
	"step": 46000
	},
	{
	"epoch": 2.31,
	"grad_norm": 6.363548755645752,
	"learning_rate": 1.0837788944723619e-05,
	"loss": 0.9523,
	"step": 46100
	},
	{
	"epoch": 2.31,
	"grad_norm": 4.639822959899902,
	"learning_rate": 1.0817688442211057e-05,
	"loss": 0.9322,
	"step": 46200
	},
	{
	"epoch": 2.31,
	"grad_norm": 4.796472072601318,
	"learning_rate": 1.0797587939698493e-05,
	"loss": 0.9242,
	"step": 46300
	},
	{
	"epoch": 2.32,
	"grad_norm": 3.8870980739593506,
	"learning_rate": 1.077748743718593e-05,
	"loss": 0.9048,
	"step": 46400
	},
	{
	"epoch": 2.33,
	"grad_norm": 6.010646343231201,
	"learning_rate": 1.0757386934673369e-05,
	"loss": 0.9566,
	"step": 46500
	},
	{
	"epoch": 2.33,
	"grad_norm": 3.925715684890747,
	"learning_rate": 1.0737286432160805e-05,
	"loss": 0.9274,
	"step": 46600
	},
	{
	"epoch": 2.33,
	"grad_norm": 5.222326278686523,
	"learning_rate": 1.0717185929648242e-05,
	"loss": 0.8914,
	"step": 46700
	},
	{
	"epoch": 2.34,
	"grad_norm": 5.363781929016113,
	"learning_rate": 1.0697085427135678e-05,
	"loss": 0.922,
	"step": 46800
	},
	{
	"epoch": 2.34,
	"grad_norm": 6.332427024841309,
	"learning_rate": 1.0676984924623118e-05,
	"loss": 0.9017,
	"step": 46900
	},
	{
	"epoch": 2.35,
	"grad_norm": 4.68159818649292,
	"learning_rate": 1.0656884422110554e-05,
	"loss": 0.9089,
	"step": 47000
	},
	{
	"epoch": 2.35,
	"grad_norm": 4.770488739013672,
	"learning_rate": 1.063678391959799e-05,
	"loss": 0.9738,
	"step": 47100
	},
	{
	"epoch": 2.36,
	"grad_norm": 6.209041595458984,
	"learning_rate": 1.0616683417085426e-05,
	"loss": 0.9301,
	"step": 47200
	},
	{
	"epoch": 2.37,
	"grad_norm": 5.330206394195557,
	"learning_rate": 1.0596582914572866e-05,
	"loss": 0.9515,
	"step": 47300
	},
	{
	"epoch": 2.37,
	"grad_norm": 7.701655387878418,
	"learning_rate": 1.0576482412060302e-05,
	"loss": 0.9072,
	"step": 47400
	},
	{
	"epoch": 2.38,
	"grad_norm": 4.921889305114746,
	"learning_rate": 1.0556381909547739e-05,
	"loss": 0.9326,
	"step": 47500
	},
	{
	"epoch": 2.38,
	"grad_norm": 5.353864669799805,
	"learning_rate": 1.0536281407035177e-05,
	"loss": 0.902,
	"step": 47600
	},
	{
	"epoch": 2.38,
	"grad_norm": 4.63252592086792,
	"learning_rate": 1.0516180904522615e-05,
	"loss": 0.9357,
	"step": 47700
	},
	{
	"epoch": 2.39,
	"grad_norm": 5.968425750732422,
	"learning_rate": 1.0496281407035175e-05,
	"loss": 0.9416,
	"step": 47800
	},
	{
	"epoch": 2.4,
	"grad_norm": 5.979503154754639,
	"learning_rate": 1.0476180904522615e-05,
	"loss": 0.9461,
	"step": 47900
	},
	{
	"epoch": 2.4,
	"grad_norm": 5.928488731384277,
	"learning_rate": 1.0456080402010051e-05,
	"loss": 0.9045,
	"step": 48000
	},
	{
	"epoch": 2.41,
	"grad_norm": 12.569512367248535,
	"learning_rate": 1.0435979899497488e-05,
	"loss": 0.9205,
	"step": 48100
	},
	{
	"epoch": 2.41,
	"grad_norm": 4.5606865882873535,
	"learning_rate": 1.0415879396984926e-05,
	"loss": 0.9005,
	"step": 48200
	},
	{
	"epoch": 2.42,
	"grad_norm": 5.511040210723877,
	"learning_rate": 1.0395778894472364e-05,
	"loss": 0.9105,
	"step": 48300
	},
	{
	"epoch": 2.42,
	"grad_norm": 5.660979747772217,
	"learning_rate": 1.03756783919598e-05,
	"loss": 0.8911,
	"step": 48400
	},
	{
	"epoch": 2.42,
	"grad_norm": 3.5720648765563965,
	"learning_rate": 1.0355577889447238e-05,
	"loss": 0.9468,
	"step": 48500
	},
	{
	"epoch": 2.43,
	"grad_norm": 5.770594120025635,
	"learning_rate": 1.0335477386934674e-05,
	"loss": 0.9296,
	"step": 48600
	},
	{
	"epoch": 2.44,
	"grad_norm": 4.0545477867126465,
	"learning_rate": 1.0315376884422112e-05,
	"loss": 0.9133,
	"step": 48700
	},
	{
	"epoch": 2.44,
	"grad_norm": 4.586203575134277,
	"learning_rate": 1.0295276381909548e-05,
	"loss": 0.906,
	"step": 48800
	},
	{
	"epoch": 2.44,
	"grad_norm": 5.315196514129639,
	"learning_rate": 1.0275175879396986e-05,
	"loss": 0.9065,
	"step": 48900
	},
	{
	"epoch": 2.45,
	"grad_norm": 5.344489574432373,
	"learning_rate": 1.0255075376884423e-05,
	"loss": 0.9363,
	"step": 49000
	},
	{
	"epoch": 2.46,
	"grad_norm": 6.762577533721924,
	"learning_rate": 1.0234974874371859e-05,
	"loss": 0.9366,
	"step": 49100
	},
	{
	"epoch": 2.46,
	"grad_norm": 4.087870121002197,
	"learning_rate": 1.0214874371859299e-05,
	"loss": 0.8812,
	"step": 49200
	},
	{
	"epoch": 2.46,
	"grad_norm": 5.586741924285889,
	"learning_rate": 1.0194773869346735e-05,
	"loss": 0.9341,
	"step": 49300
	},
	{
	"epoch": 2.47,
	"grad_norm": 8.180070877075195,
	"learning_rate": 1.0174673366834171e-05,
	"loss": 0.9381,
	"step": 49400
	},
	{
	"epoch": 2.48,
	"grad_norm": 4.389576435089111,
	"learning_rate": 1.0154572864321607e-05,
	"loss": 0.9288,
	"step": 49500
	},
	{
	"epoch": 2.48,
	"grad_norm": 4.339807033538818,
	"learning_rate": 1.0134472361809047e-05,
	"loss": 0.9282,
	"step": 49600
	},
	{
	"epoch": 2.48,
	"grad_norm": 7.801273345947266,
	"learning_rate": 1.0114371859296483e-05,
	"loss": 0.9657,
	"step": 49700
	},
	{
	"epoch": 2.49,
	"grad_norm": 6.016520977020264,
	"learning_rate": 1.009427135678392e-05,
	"loss": 0.8704,
	"step": 49800
	},
	{
	"epoch": 2.5,
	"grad_norm": 5.2764506340026855,
	"learning_rate": 1.0074170854271358e-05,
	"loss": 0.9226,
	"step": 49900
	},
	{
	"epoch": 2.5,
	"grad_norm": 4.923444747924805,
	"learning_rate": 1.0054070351758796e-05,
	"loss": 0.9084,
	"step": 50000
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.9846327900886536,
	"eval_runtime": 21.5925,
	"eval_samples_per_second": 46.312,
	"eval_steps_per_second": 5.789,
	"step": 50000
	},
	{
	"epoch": 2.5,
	"grad_norm": 6.061006546020508,
	"learning_rate": 1.0033969849246232e-05,
	"loss": 0.9218,
	"step": 50100
	},
	{
	"epoch": 2.51,
	"grad_norm": 4.1440348625183105,
	"learning_rate": 1.0013869346733668e-05,
	"loss": 0.9324,
	"step": 50200
	},
	{
	"epoch": 2.52,
	"grad_norm": 4.084045886993408,
	"learning_rate": 9.993768844221106e-06,
	"loss": 0.8859,
	"step": 50300
	},
	{
	"epoch": 2.52,
	"grad_norm": 3.723971366882324,
	"learning_rate": 9.973668341708544e-06,
	"loss": 0.9128,
	"step": 50400
	},
	{
	"epoch": 2.52,
	"grad_norm": 3.9887030124664307,
	"learning_rate": 9.95356783919598e-06,
	"loss": 0.8987,
	"step": 50500
	},
	{
	"epoch": 2.53,
	"grad_norm": 5.572610855102539,
	"learning_rate": 9.933467336683418e-06,
	"loss": 0.9287,
	"step": 50600
	},
	{
	"epoch": 2.54,
	"grad_norm": 5.956911087036133,
	"learning_rate": 9.913366834170856e-06,
	"loss": 0.8808,
	"step": 50700
	},
	{
	"epoch": 2.54,
	"grad_norm": 3.948564052581787,
	"learning_rate": 9.893266331658293e-06,
	"loss": 0.9243,
	"step": 50800
	},
	{
	"epoch": 2.54,
	"grad_norm": 5.561892509460449,
	"learning_rate": 9.87316582914573e-06,
	"loss": 0.9174,
	"step": 50900
	},
	{
	"epoch": 2.55,
	"grad_norm": 5.9155755043029785,
	"learning_rate": 9.853065326633167e-06,
	"loss": 0.8951,
	"step": 51000
	},
	{
	"epoch": 2.56,
	"grad_norm": 5.4488348960876465,
	"learning_rate": 9.832964824120603e-06,
	"loss": 0.8864,
	"step": 51100
	},
	{
	"epoch": 2.56,
	"grad_norm": 4.52565860748291,
	"learning_rate": 9.812864321608041e-06,
	"loss": 0.9103,
	"step": 51200
	},
	{
	"epoch": 2.56,
	"grad_norm": 3.995807647705078,
	"learning_rate": 9.792763819095477e-06,
	"loss": 0.8999,
	"step": 51300
	},
	{
	"epoch": 2.57,
	"grad_norm": 9.156529426574707,
	"learning_rate": 9.772663316582915e-06,
	"loss": 0.9383,
	"step": 51400
	},
	{
	"epoch": 2.58,
	"grad_norm": 6.388377666473389,
	"learning_rate": 9.752562814070352e-06,
	"loss": 0.908,
	"step": 51500
	},
	{
	"epoch": 2.58,
	"grad_norm": 3.975545644760132,
	"learning_rate": 9.73246231155779e-06,
	"loss": 0.9006,
	"step": 51600
	},
	{
	"epoch": 2.58,
	"grad_norm": 4.579479694366455,
	"learning_rate": 9.712361809045226e-06,
	"loss": 0.9443,
	"step": 51700
	},
	{
	"epoch": 2.59,
	"grad_norm": 5.22560977935791,
	"learning_rate": 9.69246231155779e-06,
	"loss": 0.909,
	"step": 51800
	},
	{
	"epoch": 2.59,
	"grad_norm": 5.2606587409973145,
	"learning_rate": 9.672361809045226e-06,
	"loss": 0.9255,
	"step": 51900
	},
	{
	"epoch": 2.6,
	"grad_norm": 4.772227764129639,
	"learning_rate": 9.652261306532664e-06,
	"loss": 0.9161,
	"step": 52000
	},
	{
	"epoch": 2.6,
	"grad_norm": 4.636828899383545,
	"learning_rate": 9.6321608040201e-06,
	"loss": 0.874,
	"step": 52100
	},
	{
	"epoch": 2.61,
	"grad_norm": 4.5946784019470215,
	"learning_rate": 9.612060301507538e-06,
	"loss": 0.902,
	"step": 52200
	},
	{
	"epoch": 2.62,
	"grad_norm": 4.0993266105651855,
	"learning_rate": 9.591959798994975e-06,
	"loss": 0.9369,
	"step": 52300
	},
	{
	"epoch": 2.62,
	"grad_norm": 5.468399524688721,
	"learning_rate": 9.571859296482413e-06,
	"loss": 0.9359,
	"step": 52400
	},
	{
	"epoch": 2.62,
	"grad_norm": 10.92428970336914,
	"learning_rate": 9.551758793969849e-06,
	"loss": 0.8889,
	"step": 52500
	},
	{
	"epoch": 2.63,
	"grad_norm": 6.2350029945373535,
	"learning_rate": 9.531658291457287e-06,
	"loss": 0.9304,
	"step": 52600
	},
	{
	"epoch": 2.63,
	"grad_norm": 4.780547618865967,
	"learning_rate": 9.511557788944725e-06,
	"loss": 0.9396,
	"step": 52700
	},
	{
	"epoch": 2.64,
	"grad_norm": 3.1009738445281982,
	"learning_rate": 9.491457286432161e-06,
	"loss": 0.9077,
	"step": 52800
	},
	{
	"epoch": 2.65,
	"grad_norm": 7.036947727203369,
	"learning_rate": 9.4713567839196e-06,
	"loss": 0.8753,
	"step": 52900
	},
	{
	"epoch": 2.65,
	"grad_norm": 4.945110321044922,
	"learning_rate": 9.451256281407035e-06,
	"loss": 0.9157,
	"step": 53000
	},
	{
	"epoch": 2.66,
	"grad_norm": 5.361321926116943,
	"learning_rate": 9.431155778894473e-06,
	"loss": 0.8929,
	"step": 53100
	},
	{
	"epoch": 2.66,
	"grad_norm": 3.351379632949829,
	"learning_rate": 9.411055276381911e-06,
	"loss": 0.8636,
	"step": 53200
	},
	{
	"epoch": 2.67,
	"grad_norm": 5.34309720993042,
	"learning_rate": 9.390954773869348e-06,
	"loss": 0.8865,
	"step": 53300
	},
	{
	"epoch": 2.67,
	"grad_norm": 5.316425800323486,
	"learning_rate": 9.370854271356786e-06,
	"loss": 0.9178,
	"step": 53400
	},
	{
	"epoch": 2.67,
	"grad_norm": 4.478712558746338,
	"learning_rate": 9.350753768844222e-06,
	"loss": 0.9181,
	"step": 53500
	},
	{
	"epoch": 2.68,
	"grad_norm": 5.095877647399902,
	"learning_rate": 9.33065326633166e-06,
	"loss": 0.902,
	"step": 53600
	},
	{
	"epoch": 2.69,
	"grad_norm": 4.4164862632751465,
	"learning_rate": 9.310552763819096e-06,
	"loss": 0.887,
	"step": 53700
	},
	{
	"epoch": 2.69,
	"grad_norm": 6.3961591720581055,
	"learning_rate": 9.290452261306533e-06,
	"loss": 0.8778,
	"step": 53800
	},
	{
	"epoch": 2.69,
	"grad_norm": 7.141729354858398,
	"learning_rate": 9.270552763819097e-06,
	"loss": 0.9144,
	"step": 53900
	},
	{
	"epoch": 2.7,
	"grad_norm": 5.858211040496826,
	"learning_rate": 9.250452261306535e-06,
	"loss": 0.8889,
	"step": 54000
	},
	{
	"epoch": 2.71,
	"grad_norm": 5.192725658416748,
	"learning_rate": 9.230351758793971e-06,
	"loss": 0.8928,
	"step": 54100
	},
	{
	"epoch": 2.71,
	"grad_norm": 6.190788745880127,
	"learning_rate": 9.210251256281407e-06,
	"loss": 0.8683,
	"step": 54200
	},
	{
	"epoch": 2.71,
	"grad_norm": 4.610683441162109,
	"learning_rate": 9.190150753768845e-06,
	"loss": 0.9473,
	"step": 54300
	},
	{
	"epoch": 2.72,
	"grad_norm": 5.043734550476074,
	"learning_rate": 9.170050251256281e-06,
	"loss": 0.9142,
	"step": 54400
	},
	{
	"epoch": 2.73,
	"grad_norm": 5.166931629180908,
	"learning_rate": 9.14994974874372e-06,
	"loss": 0.8894,
	"step": 54500
	},
	{
	"epoch": 2.73,
	"grad_norm": 5.05250358581543,
	"learning_rate": 9.129849246231156e-06,
	"loss": 0.8799,
	"step": 54600
	},
	{
	"epoch": 2.73,
	"grad_norm": 5.468914031982422,
	"learning_rate": 9.109748743718594e-06,
	"loss": 0.9099,
	"step": 54700
	},
	{
	"epoch": 2.74,
	"grad_norm": 4.162414073944092,
	"learning_rate": 9.08964824120603e-06,
	"loss": 0.8859,
	"step": 54800
	},
	{
	"epoch": 2.75,
	"grad_norm": 5.149291515350342,
	"learning_rate": 9.069547738693468e-06,
	"loss": 0.9096,
	"step": 54900
	},
	{
	"epoch": 2.75,
	"grad_norm": 4.889472961425781,
	"learning_rate": 9.049447236180904e-06,
	"loss": 0.8953,
	"step": 55000
	},
	{
	"epoch": 2.75,
	"grad_norm": 4.146818161010742,
	"learning_rate": 9.029346733668342e-06,
	"loss": 0.8917,
	"step": 55100
	},
	{
	"epoch": 2.76,
	"grad_norm": 5.937385559082031,
	"learning_rate": 9.00924623115578e-06,
	"loss": 0.9295,
	"step": 55200
	},
	{
	"epoch": 2.77,
	"grad_norm": 4.749314785003662,
	"learning_rate": 8.989145728643216e-06,
	"loss": 0.8776,
	"step": 55300
	},
	{
	"epoch": 2.77,
	"grad_norm": 6.271254539489746,
	"learning_rate": 8.969045226130654e-06,
	"loss": 0.8593,
	"step": 55400
	},
	{
	"epoch": 2.77,
	"grad_norm": 5.769760608673096,
	"learning_rate": 8.948944723618092e-06,
	"loss": 0.891,
	"step": 55500
	},
	{
	"epoch": 2.78,
	"grad_norm": 4.185112476348877,
	"learning_rate": 8.928844221105529e-06,
	"loss": 0.8869,
	"step": 55600
	},
	{
	"epoch": 2.79,
	"grad_norm": 3.2164394855499268,
	"learning_rate": 8.908743718592967e-06,
	"loss": 0.8992,
	"step": 55700
	},
	{
	"epoch": 2.79,
	"grad_norm": 4.406613349914551,
	"learning_rate": 8.888643216080403e-06,
	"loss": 0.8971,
	"step": 55800
	},
	{
	"epoch": 2.79,
	"grad_norm": 5.101110458374023,
	"learning_rate": 8.868542713567841e-06,
	"loss": 0.9066,
	"step": 55900
	},
	{
	"epoch": 2.8,
	"grad_norm": 4.963405132293701,
	"learning_rate": 8.848643216080403e-06,
	"loss": 0.881,
	"step": 56000
	},
	{
	"epoch": 2.81,
	"grad_norm": 7.5268683433532715,
	"learning_rate": 8.82854271356784e-06,
	"loss": 0.8692,
	"step": 56100
	},
	{
	"epoch": 2.81,
	"grad_norm": 5.325132369995117,
	"learning_rate": 8.808442211055278e-06,
	"loss": 0.895,
	"step": 56200
	},
	{
	"epoch": 2.81,
	"grad_norm": 4.687073707580566,
	"learning_rate": 8.788341708542715e-06,
	"loss": 0.9007,
	"step": 56300
	},
	{
	"epoch": 2.82,
	"grad_norm": 4.215831279754639,
	"learning_rate": 8.768241206030152e-06,
	"loss": 0.8783,
	"step": 56400
	},
	{
	"epoch": 2.83,
	"grad_norm": 6.363833427429199,
	"learning_rate": 8.74814070351759e-06,
	"loss": 0.9276,
	"step": 56500
	},
	{
	"epoch": 2.83,
	"grad_norm": 4.2875518798828125,
	"learning_rate": 8.728040201005026e-06,
	"loss": 0.8758,
	"step": 56600
	},
	{
	"epoch": 2.83,
	"grad_norm": 4.461952209472656,
	"learning_rate": 8.707939698492464e-06,
	"loss": 0.8789,
	"step": 56700
	},
	{
	"epoch": 2.84,
	"grad_norm": 7.590397834777832,
	"learning_rate": 8.6878391959799e-06,
	"loss": 0.8726,
	"step": 56800
	},
	{
	"epoch": 2.84,
	"grad_norm": 5.754077911376953,
	"learning_rate": 8.667738693467337e-06,
	"loss": 0.9022,
	"step": 56900
	},
	{
	"epoch": 2.85,
	"grad_norm": 4.305074214935303,
	"learning_rate": 8.647638190954775e-06,
	"loss": 0.8933,
	"step": 57000
	},
	{
	"epoch": 2.85,
	"grad_norm": 4.451827526092529,
	"learning_rate": 8.627738693467337e-06,
	"loss": 0.934,
	"step": 57100
	},
	{
	"epoch": 2.86,
	"grad_norm": 6.323834419250488,
	"learning_rate": 8.607638190954775e-06,
	"loss": 0.8858,
	"step": 57200
	},
	{
	"epoch": 2.87,
	"grad_norm": 6.937102317810059,
	"learning_rate": 8.587537688442211e-06,
	"loss": 0.9263,
	"step": 57300
	},
	{
	"epoch": 2.87,
	"grad_norm": 7.153318881988525,
	"learning_rate": 8.56743718592965e-06,
	"loss": 0.8868,
	"step": 57400
	},
	{
	"epoch": 2.88,
	"grad_norm": 4.7994842529296875,
	"learning_rate": 8.547336683417085e-06,
	"loss": 0.877,
	"step": 57500
	},
	{
	"epoch": 2.88,
	"grad_norm": 6.6480793952941895,
	"learning_rate": 8.527236180904523e-06,
	"loss": 0.8774,
	"step": 57600
	},
	{
	"epoch": 2.88,
	"grad_norm": 7.170138835906982,
	"learning_rate": 8.50713567839196e-06,
	"loss": 0.8704,
	"step": 57700
	},
	{
	"epoch": 2.89,
	"grad_norm": 4.006447792053223,
	"learning_rate": 8.487035175879398e-06,
	"loss": 0.8736,
	"step": 57800
	},
	{
	"epoch": 2.9,
	"grad_norm": 4.998128414154053,
	"learning_rate": 8.466934673366834e-06,
	"loss": 0.8653,
	"step": 57900
	},
	{
	"epoch": 2.9,
	"grad_norm": 5.756192207336426,
	"learning_rate": 8.446834170854272e-06,
	"loss": 0.8756,
	"step": 58000
	},
	{
	"epoch": 2.91,
	"grad_norm": 5.486929893493652,
	"learning_rate": 8.426733668341708e-06,
	"loss": 0.9047,
	"step": 58100
	},
	{
	"epoch": 2.91,
	"grad_norm": 4.589926242828369,
	"learning_rate": 8.406633165829146e-06,
	"loss": 0.8766,
	"step": 58200
	},
	{
	"epoch": 2.92,
	"grad_norm": 4.535083293914795,
	"learning_rate": 8.386532663316584e-06,
	"loss": 0.8758,
	"step": 58300
	},
	{
	"epoch": 2.92,
	"grad_norm": 3.2254798412323,
	"learning_rate": 8.36643216080402e-06,
	"loss": 0.8813,
	"step": 58400
	},
	{
	"epoch": 2.92,
	"grad_norm": 6.055229187011719,
	"learning_rate": 8.346331658291458e-06,
	"loss": 0.8779,
	"step": 58500
	},
	{
	"epoch": 2.93,
	"grad_norm": 4.221169471740723,
	"learning_rate": 8.326231155778895e-06,
	"loss": 0.9325,
	"step": 58600
	},
	{
	"epoch": 2.94,
	"grad_norm": 5.035799026489258,
	"learning_rate": 8.306130653266333e-06,
	"loss": 0.8896,
	"step": 58700
	},
	{
	"epoch": 2.94,
	"grad_norm": 6.551968574523926,
	"learning_rate": 8.28603015075377e-06,
	"loss": 0.8644,
	"step": 58800
	},
	{
	"epoch": 2.94,
	"grad_norm": 4.297557353973389,
	"learning_rate": 8.265929648241207e-06,
	"loss": 0.8853,
	"step": 58900
	},
	{
	"epoch": 2.95,
	"grad_norm": 6.603255271911621,
	"learning_rate": 8.245829145728645e-06,
	"loss": 0.9237,
	"step": 59000
	},
	{
	"epoch": 2.96,
	"grad_norm": 6.272432804107666,
	"learning_rate": 8.225728643216081e-06,
	"loss": 0.8708,
	"step": 59100
	},
	{
	"epoch": 2.96,
	"grad_norm": 5.919680595397949,
	"learning_rate": 8.20562814070352e-06,
	"loss": 0.8525,
	"step": 59200
	},
	{
	"epoch": 2.96,
	"grad_norm": 4.834166049957275,
	"learning_rate": 8.185527638190955e-06,
	"loss": 0.8576,
	"step": 59300
	},
	{
	"epoch": 2.97,
	"grad_norm": 5.948410987854004,
	"learning_rate": 8.165427135678393e-06,
	"loss": 0.9017,
	"step": 59400
	},
	{
	"epoch": 2.98,
	"grad_norm": 7.001020431518555,
	"learning_rate": 8.14532663316583e-06,
	"loss": 0.891,
	"step": 59500
	},
	{
	"epoch": 2.98,
	"grad_norm": 5.623896598815918,
	"learning_rate": 8.125226130653266e-06,
	"loss": 0.8255,
	"step": 59600
	},
	{
	"epoch": 2.98,
	"grad_norm": 5.0935468673706055,
	"learning_rate": 8.105125628140704e-06,
	"loss": 0.8709,
	"step": 59700
	},
	{
	"epoch": 2.99,
	"grad_norm": 6.403896808624268,
	"learning_rate": 8.08502512562814e-06,
	"loss": 0.8957,
	"step": 59800
	},
	{
	"epoch": 3.0,
	"grad_norm": 5.92683744430542,
	"learning_rate": 8.064924623115578e-06,
	"loss": 0.9102,
	"step": 59900
	},
	{
	"epoch": 3.0,
	"grad_norm": 3.4657108783721924,
	"learning_rate": 8.04502512562814e-06,
	"loss": 0.916,
	"step": 60000
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.9292559623718262,
	"eval_runtime": 21.5879,
	"eval_samples_per_second": 46.322,
	"eval_steps_per_second": 5.79,
	"step": 60000
	},
	{
	"epoch": 3.0,
	"grad_norm": 5.614874839782715,
	"learning_rate": 8.024924623115579e-06,
	"loss": 0.8151,
	"step": 60100
	},
	{
	"epoch": 3.01,
	"grad_norm": 6.177361011505127,
	"learning_rate": 8.004824120603015e-06,
	"loss": 0.8266,
	"step": 60200
	},
	{
	"epoch": 3.02,
	"grad_norm": 5.4862213134765625,
	"learning_rate": 7.984723618090453e-06,
	"loss": 0.7741,
	"step": 60300
	},
	{
	"epoch": 3.02,
	"grad_norm": 6.674380779266357,
	"learning_rate": 7.964623115577889e-06,
	"loss": 0.8134,
	"step": 60400
	},
	{
	"epoch": 3.02,
	"grad_norm": 6.712404251098633,
	"learning_rate": 7.944522613065327e-06,
	"loss": 0.8332,
	"step": 60500
	},
	{
	"epoch": 3.03,
	"grad_norm": 4.442228317260742,
	"learning_rate": 7.924422110552763e-06,
	"loss": 0.832,
	"step": 60600
	},
	{
	"epoch": 3.04,
	"grad_norm": 5.503748416900635,
	"learning_rate": 7.904321608040201e-06,
	"loss": 0.844,
	"step": 60700
	},
	{
	"epoch": 3.04,
	"grad_norm": 4.290737628936768,
	"learning_rate": 7.88422110552764e-06,
	"loss": 0.8593,
	"step": 60800
	},
	{
	"epoch": 3.04,
	"grad_norm": 4.687915802001953,
	"learning_rate": 7.864120603015076e-06,
	"loss": 0.8506,
	"step": 60900
	},
	{
	"epoch": 3.05,
	"grad_norm": 5.838376998901367,
	"learning_rate": 7.844020100502514e-06,
	"loss": 0.8297,
	"step": 61000
	},
	{
	"epoch": 3.06,
	"grad_norm": 7.26198148727417,
	"learning_rate": 7.823919597989952e-06,
	"loss": 0.8463,
	"step": 61100
	},
	{
	"epoch": 3.06,
	"grad_norm": 5.693443298339844,
	"learning_rate": 7.803819095477388e-06,
	"loss": 0.8405,
	"step": 61200
	},
	{
	"epoch": 3.06,
	"grad_norm": 5.379219055175781,
	"learning_rate": 7.783718592964826e-06,
	"loss": 0.8431,
	"step": 61300
	},
	{
	"epoch": 3.07,
	"grad_norm": 5.703670501708984,
	"learning_rate": 7.763618090452262e-06,
	"loss": 0.8484,
	"step": 61400
	},
	{
	"epoch": 3.08,
	"grad_norm": 5.679072380065918,
	"learning_rate": 7.7435175879397e-06,
	"loss": 0.8272,
	"step": 61500
	},
	{
	"epoch": 3.08,
	"grad_norm": 4.1109113693237305,
	"learning_rate": 7.723417085427136e-06,
	"loss": 0.83,
	"step": 61600
	},
	{
	"epoch": 3.08,
	"grad_norm": 5.94366979598999,
	"learning_rate": 7.703316582914574e-06,
	"loss": 0.8102,
	"step": 61700
	},
	{
	"epoch": 3.09,
	"grad_norm": 8.418631553649902,
	"learning_rate": 7.68321608040201e-06,
	"loss": 0.8396,
	"step": 61800
	},
	{
	"epoch": 3.1,
	"grad_norm": 5.8859100341796875,
	"learning_rate": 7.663115577889449e-06,
	"loss": 0.8142,
	"step": 61900
	},
	{
	"epoch": 3.1,
	"grad_norm": 5.267168045043945,
	"learning_rate": 7.643015075376885e-06,
	"loss": 0.8087,
	"step": 62000
	},
	{
	"epoch": 3.1,
	"grad_norm": 5.58022403717041,
	"learning_rate": 7.622914572864322e-06,
	"loss": 0.8407,
	"step": 62100
	},
	{
	"epoch": 3.11,
	"grad_norm": 5.999646186828613,
	"learning_rate": 7.602814070351759e-06,
	"loss": 0.8214,
	"step": 62200
	},
	{
	"epoch": 3.12,
	"grad_norm": 4.449764251708984,
	"learning_rate": 7.582713567839196e-06,
	"loss": 0.8562,
	"step": 62300
	},
	{
	"epoch": 3.12,
	"grad_norm": 6.2914137840271,
	"learning_rate": 7.562613065326634e-06,
	"loss": 0.8359,
	"step": 62400
	},
	{
	"epoch": 3.12,
	"grad_norm": 5.262882709503174,
	"learning_rate": 7.5425125628140705e-06,
	"loss": 0.8368,
	"step": 62500
	},
	{
	"epoch": 3.13,
	"grad_norm": 4.981582164764404,
	"learning_rate": 7.5224120603015085e-06,
	"loss": 0.8138,
	"step": 62600
	},
	{
	"epoch": 3.13,
	"grad_norm": 5.330999374389648,
	"learning_rate": 7.502311557788945e-06,
	"loss": 0.8292,
	"step": 62700
	},
	{
	"epoch": 3.14,
	"grad_norm": 5.176852226257324,
	"learning_rate": 7.482211055276383e-06,
	"loss": 0.8108,
	"step": 62800
	},
	{
	"epoch": 3.15,
	"grad_norm": 8.819506645202637,
	"learning_rate": 7.462110552763819e-06,
	"loss": 0.854,
	"step": 62900
	},
	{
	"epoch": 3.15,
	"grad_norm": 5.1937642097473145,
	"learning_rate": 7.442010050251257e-06,
	"loss": 0.7943,
	"step": 63000
	},
	{
	"epoch": 3.15,
	"grad_norm": 4.399514675140381,
	"learning_rate": 7.421909547738694e-06,
	"loss": 0.7815,
	"step": 63100
	},
	{
	"epoch": 3.16,
	"grad_norm": 5.575798034667969,
	"learning_rate": 7.402010050251257e-06,
	"loss": 0.8481,
	"step": 63200
	},
	{
	"epoch": 3.17,
	"grad_norm": 5.097688674926758,
	"learning_rate": 7.381909547738694e-06,
	"loss": 0.8412,
	"step": 63300
	},
	{
	"epoch": 3.17,
	"grad_norm": 4.748641490936279,
	"learning_rate": 7.361809045226132e-06,
	"loss": 0.8058,
	"step": 63400
	},
	{
	"epoch": 3.17,
	"grad_norm": 7.151881694793701,
	"learning_rate": 7.341708542713568e-06,
	"loss": 0.7944,
	"step": 63500
	},
	{
	"epoch": 3.18,
	"grad_norm": 4.642664909362793,
	"learning_rate": 7.321608040201006e-06,
	"loss": 0.8185,
	"step": 63600
	},
	{
	"epoch": 3.19,
	"grad_norm": 5.354043483734131,
	"learning_rate": 7.301507537688442e-06,
	"loss": 0.7833,
	"step": 63700
	},
	{
	"epoch": 3.19,
	"grad_norm": 5.168720245361328,
	"learning_rate": 7.28140703517588e-06,
	"loss": 0.7966,
	"step": 63800
	},
	{
	"epoch": 3.19,
	"grad_norm": 4.343645095825195,
	"learning_rate": 7.261306532663317e-06,
	"loss": 0.7851,
	"step": 63900
	},
	{
	"epoch": 3.2,
	"grad_norm": 4.882009506225586,
	"learning_rate": 7.241206030150754e-06,
	"loss": 0.8069,
	"step": 64000
	},
	{
	"epoch": 3.21,
	"grad_norm": 4.954422473907471,
	"learning_rate": 7.2211055276381915e-06,
	"loss": 0.8029,
	"step": 64100
	},
	{
	"epoch": 3.21,
	"grad_norm": 3.5329108238220215,
	"learning_rate": 7.2010050251256295e-06,
	"loss": 0.8262,
	"step": 64200
	},
	{
	"epoch": 3.21,
	"grad_norm": 4.995691776275635,
	"learning_rate": 7.180904522613066e-06,
	"loss": 0.7899,
	"step": 64300
	},
	{
	"epoch": 3.22,
	"grad_norm": 4.367786884307861,
	"learning_rate": 7.160804020100504e-06,
	"loss": 0.8014,
	"step": 64400
	},
	{
	"epoch": 3.23,
	"grad_norm": 3.8841774463653564,
	"learning_rate": 7.14070351758794e-06,
	"loss": 0.8207,
	"step": 64500
	},
	{
	"epoch": 3.23,
	"grad_norm": 4.118581295013428,
	"learning_rate": 7.120603015075378e-06,
	"loss": 0.8399,
	"step": 64600
	},
	{
	"epoch": 3.23,
	"grad_norm": 5.320229530334473,
	"learning_rate": 7.100502512562814e-06,
	"loss": 0.8407,
	"step": 64700
	},
	{
	"epoch": 3.24,
	"grad_norm": 4.324894428253174,
	"learning_rate": 7.080402010050251e-06,
	"loss": 0.7897,
	"step": 64800
	},
	{
	"epoch": 3.25,
	"grad_norm": 6.917771816253662,
	"learning_rate": 7.060301507537689e-06,
	"loss": 0.8019,
	"step": 64900
	},
	{
	"epoch": 3.25,
	"grad_norm": 7.098691463470459,
	"learning_rate": 7.040201005025126e-06,
	"loss": 0.8058,
	"step": 65000
	},
	{
	"epoch": 3.25,
	"grad_norm": 5.166707992553711,
	"learning_rate": 7.020100502512564e-06,
	"loss": 0.7839,
	"step": 65100
	},
	{
	"epoch": 3.26,
	"grad_norm": 5.616134166717529,
	"learning_rate": 7e-06,
	"loss": 0.7821,
	"step": 65200
	},
	{
	"epoch": 3.27,
	"grad_norm": 7.216468334197998,
	"learning_rate": 6.979899497487438e-06,
	"loss": 0.7974,
	"step": 65300
	},
	{
	"epoch": 3.27,
	"grad_norm": 7.116774082183838,
	"learning_rate": 6.959798994974874e-06,
	"loss": 0.8446,
	"step": 65400
	},
	{
	"epoch": 3.27,
	"grad_norm": 6.275495529174805,
	"learning_rate": 6.939698492462312e-06,
	"loss": 0.8185,
	"step": 65500
	},
	{
	"epoch": 3.28,
	"grad_norm": 4.431950092315674,
	"learning_rate": 6.919597989949749e-06,
	"loss": 0.8203,
	"step": 65600
	},
	{
	"epoch": 3.29,
	"grad_norm": 6.8355302810668945,
	"learning_rate": 6.899497487437186e-06,
	"loss": 0.789,
	"step": 65700
	},
	{
	"epoch": 3.29,
	"grad_norm": 4.217498779296875,
	"learning_rate": 6.8793969849246235e-06,
	"loss": 0.7909,
	"step": 65800
	},
	{
	"epoch": 3.29,
	"grad_norm": 9.218932151794434,
	"learning_rate": 6.859899497487438e-06,
	"loss": 0.8387,
	"step": 65900
	},
	{
	"epoch": 3.3,
	"grad_norm": 5.607006072998047,
	"learning_rate": 6.8397989949748745e-06,
	"loss": 0.787,
	"step": 66000
	},
	{
	"epoch": 3.31,
	"grad_norm": 5.220907688140869,
	"learning_rate": 6.8196984924623124e-06,
	"loss": 0.8274,
	"step": 66100
	},
	{
	"epoch": 3.31,
	"grad_norm": 4.795065402984619,
	"learning_rate": 6.799597989949749e-06,
	"loss": 0.7833,
	"step": 66200
	},
	{
	"epoch": 3.31,
	"grad_norm": 5.653503894805908,
	"learning_rate": 6.779497487437187e-06,
	"loss": 0.7919,
	"step": 66300
	},
	{
	"epoch": 3.32,
	"grad_norm": 5.359546184539795,
	"learning_rate": 6.759396984924623e-06,
	"loss": 0.8,
	"step": 66400
	},
	{
	"epoch": 3.33,
	"grad_norm": 3.9278500080108643,
	"learning_rate": 6.739296482412061e-06,
	"loss": 0.816,
	"step": 66500
	},
	{
	"epoch": 3.33,
	"grad_norm": 6.889082908630371,
	"learning_rate": 6.719195979899498e-06,
	"loss": 0.8559,
	"step": 66600
	},
	{
	"epoch": 3.33,
	"grad_norm": 6.555418491363525,
	"learning_rate": 6.699095477386935e-06,
	"loss": 0.8084,
	"step": 66700
	},
	{
	"epoch": 3.34,
	"grad_norm": 5.0188798904418945,
	"learning_rate": 6.678994974874372e-06,
	"loss": 0.8199,
	"step": 66800
	},
	{
	"epoch": 3.34,
	"grad_norm": 5.341757297515869,
	"learning_rate": 6.6588944723618094e-06,
	"loss": 0.8301,
	"step": 66900
	},
	{
	"epoch": 3.35,
	"grad_norm": 7.638245105743408,
	"learning_rate": 6.6387939698492466e-06,
	"loss": 0.8156,
	"step": 67000
	},
	{
	"epoch": 3.35,
	"grad_norm": 4.004561424255371,
	"learning_rate": 6.6186934673366845e-06,
	"loss": 0.779,
	"step": 67100
	},
	{
	"epoch": 3.36,
	"grad_norm": 5.197673320770264,
	"learning_rate": 6.598592964824121e-06,
	"loss": 0.8086,
	"step": 67200
	},
	{
	"epoch": 3.37,
	"grad_norm": 5.757644176483154,
	"learning_rate": 6.578492462311559e-06,
	"loss": 0.8609,
	"step": 67300
	},
	{
	"epoch": 3.37,
	"grad_norm": 3.9802143573760986,
	"learning_rate": 6.558391959798995e-06,
	"loss": 0.814,
	"step": 67400
	},
	{
	"epoch": 3.38,
	"grad_norm": 4.6707892417907715,
	"learning_rate": 6.538291457286433e-06,
	"loss": 0.809,
	"step": 67500
	},
	{
	"epoch": 3.38,
	"grad_norm": 6.902073860168457,
	"learning_rate": 6.51819095477387e-06,
	"loss": 0.7862,
	"step": 67600
	},
	{
	"epoch": 3.38,
	"grad_norm": 4.793231010437012,
	"learning_rate": 6.498090452261307e-06,
	"loss": 0.8139,
	"step": 67700
	},
	{
	"epoch": 3.39,
	"grad_norm": 10.16287612915039,
	"learning_rate": 6.4779899497487444e-06,
	"loss": 0.78,
	"step": 67800
	},
	{
	"epoch": 3.4,
	"grad_norm": 5.308049201965332,
	"learning_rate": 6.4578894472361816e-06,
	"loss": 0.8235,
	"step": 67900
	},
	{
	"epoch": 3.4,
	"grad_norm": 5.0899271965026855,
	"learning_rate": 6.437788944723619e-06,
	"loss": 0.8222,
	"step": 68000
	},
	{
	"epoch": 3.41,
	"grad_norm": 5.174381732940674,
	"learning_rate": 6.417688442211055e-06,
	"loss": 0.7985,
	"step": 68100
	},
	{
	"epoch": 3.41,
	"grad_norm": 4.858529090881348,
	"learning_rate": 6.397587939698493e-06,
	"loss": 0.8224,
	"step": 68200
	},
	{
	"epoch": 3.42,
	"grad_norm": 8.091994285583496,
	"learning_rate": 6.37748743718593e-06,
	"loss": 0.8078,
	"step": 68300
	},
	{
	"epoch": 3.42,
	"grad_norm": 5.269526481628418,
	"learning_rate": 6.357386934673367e-06,
	"loss": 0.8006,
	"step": 68400
	},
	{
	"epoch": 3.42,
	"grad_norm": 5.161372184753418,
	"learning_rate": 6.337286432160804e-06,
	"loss": 0.814,
	"step": 68500
	},
	{
	"epoch": 3.43,
	"grad_norm": 4.547713279724121,
	"learning_rate": 6.3171859296482415e-06,
	"loss": 0.8024,
	"step": 68600
	},
	{
	"epoch": 3.44,
	"grad_norm": 5.171160697937012,
	"learning_rate": 6.297085427135679e-06,
	"loss": 0.7936,
	"step": 68700
	},
	{
	"epoch": 3.44,
	"grad_norm": 6.406951904296875,
	"learning_rate": 6.2769849246231166e-06,
	"loss": 0.7627,
	"step": 68800
	},
	{
	"epoch": 3.44,
	"grad_norm": 6.404531955718994,
	"learning_rate": 6.256884422110553e-06,
	"loss": 0.8081,
	"step": 68900
	},
	{
	"epoch": 3.45,
	"grad_norm": 4.409193992614746,
	"learning_rate": 6.236783919597991e-06,
	"loss": 0.8284,
	"step": 69000
	},
	{
	"epoch": 3.46,
	"grad_norm": 6.643680572509766,
	"learning_rate": 6.216683417085427e-06,
	"loss": 0.7908,
	"step": 69100
	},
	{
	"epoch": 3.46,
	"grad_norm": 6.344150543212891,
	"learning_rate": 6.196582914572865e-06,
	"loss": 0.8028,
	"step": 69200
	},
	{
	"epoch": 3.46,
	"grad_norm": 4.83349609375,
	"learning_rate": 6.176482412060301e-06,
	"loss": 0.7946,
	"step": 69300
	},
	{
	"epoch": 3.47,
	"grad_norm": 4.103985786437988,
	"learning_rate": 6.156381909547739e-06,
	"loss": 0.8089,
	"step": 69400
	},
	{
	"epoch": 3.48,
	"grad_norm": 4.681515693664551,
	"learning_rate": 6.1362814070351764e-06,
	"loss": 0.8104,
	"step": 69500
	},
	{
	"epoch": 3.48,
	"grad_norm": 3.5046350955963135,
	"learning_rate": 6.1161809045226136e-06,
	"loss": 0.8024,
	"step": 69600
	},
	{
	"epoch": 3.48,
	"grad_norm": 5.06920051574707,
	"learning_rate": 6.096080402010051e-06,
	"loss": 0.8043,
	"step": 69700
	},
	{
	"epoch": 3.49,
	"grad_norm": 6.419402599334717,
	"learning_rate": 6.075979899497489e-06,
	"loss": 0.8218,
	"step": 69800
	},
	{
	"epoch": 3.5,
	"grad_norm": 4.9620184898376465,
	"learning_rate": 6.055879396984925e-06,
	"loss": 0.7904,
	"step": 69900
	},
	{
	"epoch": 3.5,
	"grad_norm": 6.6012349128723145,
	"learning_rate": 6.035778894472363e-06,
	"loss": 0.8021,
	"step": 70000
	},
	{
	"epoch": 3.5,
	"eval_loss": 0.913910448551178,
	"eval_runtime": 21.5858,
	"eval_samples_per_second": 46.327,
	"eval_steps_per_second": 5.791,
	"step": 70000
	},
	{
	"epoch": 3.5,
	"grad_norm": 8.278429985046387,
	"learning_rate": 6.015678391959799e-06,
	"loss": 0.8255,
	"step": 70100
	},
	{
	"epoch": 3.51,
	"grad_norm": 5.309919834136963,
	"learning_rate": 5.995577889447237e-06,
	"loss": 0.8048,
	"step": 70200
	},
	{
	"epoch": 3.52,
	"grad_norm": 5.3151535987854,
	"learning_rate": 5.9754773869346735e-06,
	"loss": 0.796,
	"step": 70300
	},
	{
	"epoch": 3.52,
	"grad_norm": 6.962722301483154,
	"learning_rate": 5.9553768844221114e-06,
	"loss": 0.8448,
	"step": 70400
	},
	{
	"epoch": 3.52,
	"grad_norm": 6.564899444580078,
	"learning_rate": 5.9352763819095486e-06,
	"loss": 0.7782,
	"step": 70500
	},
	{
	"epoch": 3.53,
	"grad_norm": 4.522327423095703,
	"learning_rate": 5.915175879396985e-06,
	"loss": 0.8306,
	"step": 70600
	},
	{
	"epoch": 3.54,
	"grad_norm": 4.783290863037109,
	"learning_rate": 5.895075376884423e-06,
	"loss": 0.8448,
	"step": 70700
	},
	{
	"epoch": 3.54,
	"grad_norm": 8.016778945922852,
	"learning_rate": 5.874974874371859e-06,
	"loss": 0.805,
	"step": 70800
	},
	{
	"epoch": 3.54,
	"grad_norm": 6.962314605712891,
	"learning_rate": 5.854874371859297e-06,
	"loss": 0.7802,
	"step": 70900
	},
	{
	"epoch": 3.55,
	"grad_norm": 4.056068420410156,
	"learning_rate": 5.834773869346733e-06,
	"loss": 0.8146,
	"step": 71000
	},
	{
	"epoch": 3.56,
	"grad_norm": 4.548468589782715,
	"learning_rate": 5.814673366834171e-06,
	"loss": 0.7631,
	"step": 71100
	},
	{
	"epoch": 3.56,
	"grad_norm": 4.344750881195068,
	"learning_rate": 5.7945728643216085e-06,
	"loss": 0.8032,
	"step": 71200
	},
	{
	"epoch": 3.56,
	"grad_norm": 6.746843338012695,
	"learning_rate": 5.774472361809046e-06,
	"loss": 0.7622,
	"step": 71300
	},
	{
	"epoch": 3.57,
	"grad_norm": 5.048290729522705,
	"learning_rate": 5.754371859296483e-06,
	"loss": 0.8133,
	"step": 71400
	},
	{
	"epoch": 3.58,
	"grad_norm": 5.74857759475708,
	"learning_rate": 5.734271356783921e-06,
	"loss": 0.7834,
	"step": 71500
	},
	{
	"epoch": 3.58,
	"grad_norm": 4.5277934074401855,
	"learning_rate": 5.714170854271357e-06,
	"loss": 0.789,
	"step": 71600
	},
	{
	"epoch": 3.58,
	"grad_norm": 8.23270034790039,
	"learning_rate": 5.694070351758795e-06,
	"loss": 0.7613,
	"step": 71700
	},
	{
	"epoch": 3.59,
	"grad_norm": 3.9528987407684326,
	"learning_rate": 5.673969849246231e-06,
	"loss": 0.8081,
	"step": 71800
	},
	{
	"epoch": 3.59,
	"grad_norm": 5.704257965087891,
	"learning_rate": 5.653869346733669e-06,
	"loss": 0.8164,
	"step": 71900
	},
	{
	"epoch": 3.6,
	"grad_norm": 4.676042079925537,
	"learning_rate": 5.6337688442211055e-06,
	"loss": 0.8202,
	"step": 72000
	},
	{
	"epoch": 3.6,
	"grad_norm": 5.20451021194458,
	"learning_rate": 5.6136683417085434e-06,
	"loss": 0.7953,
	"step": 72100
	},
	{
	"epoch": 3.61,
	"grad_norm": 7.501960277557373,
	"learning_rate": 5.5935678391959806e-06,
	"loss": 0.8168,
	"step": 72200
	},
	{
	"epoch": 3.62,
	"grad_norm": 7.015203475952148,
	"learning_rate": 5.573467336683418e-06,
	"loss": 0.789,
	"step": 72300
	},
	{
	"epoch": 3.62,
	"grad_norm": 4.428484916687012,
	"learning_rate": 5.553366834170855e-06,
	"loss": 0.8092,
	"step": 72400
	},
	{
	"epoch": 3.62,
	"grad_norm": 4.477147102355957,
	"learning_rate": 5.533266331658293e-06,
	"loss": 0.7843,
	"step": 72500
	},
	{
	"epoch": 3.63,
	"grad_norm": 5.1699748039245605,
	"learning_rate": 5.513165829145729e-06,
	"loss": 0.7996,
	"step": 72600
	},
	{
	"epoch": 3.63,
	"grad_norm": 5.133453369140625,
	"learning_rate": 5.493065326633167e-06,
	"loss": 0.8233,
	"step": 72700
	},
	{
	"epoch": 3.64,
	"grad_norm": 4.902942657470703,
	"learning_rate": 5.472964824120603e-06,
	"loss": 0.7586,
	"step": 72800
	},
	{
	"epoch": 3.65,
	"grad_norm": 6.46637487411499,
	"learning_rate": 5.4528643216080405e-06,
	"loss": 0.7959,
	"step": 72900
	},
	{
	"epoch": 3.65,
	"grad_norm": 7.144857406616211,
	"learning_rate": 5.432763819095478e-06,
	"loss": 0.8197,
	"step": 73000
	},
	{
	"epoch": 3.66,
	"grad_norm": 6.084510326385498,
	"learning_rate": 5.412663316582915e-06,
	"loss": 0.8133,
	"step": 73100
	},
	{
	"epoch": 3.66,
	"grad_norm": 5.132942199707031,
	"learning_rate": 5.392562814070353e-06,
	"loss": 0.7482,
	"step": 73200
	},
	{
	"epoch": 3.67,
	"grad_norm": 6.69909143447876,
	"learning_rate": 5.372462311557789e-06,
	"loss": 0.7498,
	"step": 73300
	},
	{
	"epoch": 3.67,
	"grad_norm": 7.99722146987915,
	"learning_rate": 5.352361809045227e-06,
	"loss": 0.7857,
	"step": 73400
	},
	{
	"epoch": 3.67,
	"grad_norm": 7.380476951599121,
	"learning_rate": 5.332261306532663e-06,
	"loss": 0.8081,
	"step": 73500
	},
	{
	"epoch": 3.68,
	"grad_norm": 6.441634178161621,
	"learning_rate": 5.312160804020101e-06,
	"loss": 0.7737,
	"step": 73600
	},
	{
	"epoch": 3.69,
	"grad_norm": 5.027355194091797,
	"learning_rate": 5.2920603015075375e-06,
	"loss": 0.7991,
	"step": 73700
	},
	{
	"epoch": 3.69,
	"grad_norm": 8.128876686096191,
	"learning_rate": 5.2719597989949755e-06,
	"loss": 0.8271,
	"step": 73800
	},
	{
	"epoch": 3.69,
	"grad_norm": 4.09487247467041,
	"learning_rate": 5.251859296482413e-06,
	"loss": 0.775,
	"step": 73900
	},
	{
	"epoch": 3.7,
	"grad_norm": 6.368048667907715,
	"learning_rate": 5.231959798994976e-06,
	"loss": 0.7872,
	"step": 74000
	},
	{
	"epoch": 3.71,
	"grad_norm": 4.72104549407959,
	"learning_rate": 5.211859296482412e-06,
	"loss": 0.8057,
	"step": 74100
	},
	{
	"epoch": 3.71,
	"grad_norm": 5.083056926727295,
	"learning_rate": 5.19175879396985e-06,
	"loss": 0.7839,
	"step": 74200
	},
	{
	"epoch": 3.71,
	"grad_norm": 5.289855003356934,
	"learning_rate": 5.171658291457286e-06,
	"loss": 0.7829,
	"step": 74300
	},
	{
	"epoch": 3.72,
	"grad_norm": 5.842662811279297,
	"learning_rate": 5.151557788944724e-06,
	"loss": 0.7782,
	"step": 74400
	},
	{
	"epoch": 3.73,
	"grad_norm": 6.445068836212158,
	"learning_rate": 5.131457286432161e-06,
	"loss": 0.8335,
	"step": 74500
	},
	{
	"epoch": 3.73,
	"grad_norm": 4.2318220138549805,
	"learning_rate": 5.111356783919599e-06,
	"loss": 0.7942,
	"step": 74600
	},
	{
	"epoch": 3.73,
	"grad_norm": 8.975232124328613,
	"learning_rate": 5.091256281407036e-06,
	"loss": 0.8284,
	"step": 74700
	},
	{
	"epoch": 3.74,
	"grad_norm": 4.482039451599121,
	"learning_rate": 5.071155778894473e-06,
	"loss": 0.8281,
	"step": 74800
	},
	{
	"epoch": 3.75,
	"grad_norm": 4.330044269561768,
	"learning_rate": 5.05105527638191e-06,
	"loss": 0.7737,
	"step": 74900
	},
	{
	"epoch": 3.75,
	"grad_norm": 4.636693000793457,
	"learning_rate": 5.030954773869348e-06,
	"loss": 0.7882,
	"step": 75000
	},
	{
	"epoch": 3.75,
	"grad_norm": 4.175960540771484,
	"learning_rate": 5.010854271356784e-06,
	"loss": 0.7417,
	"step": 75100
	},
	{
	"epoch": 3.76,
	"grad_norm": 4.081864833831787,
	"learning_rate": 4.990753768844221e-06,
	"loss": 0.7579,
	"step": 75200
	},
	{
	"epoch": 3.77,
	"grad_norm": 4.608290672302246,
	"learning_rate": 4.9706532663316585e-06,
	"loss": 0.799,
	"step": 75300
	},
	{
	"epoch": 3.77,
	"grad_norm": 4.851296901702881,
	"learning_rate": 4.950552763819096e-06,
	"loss": 0.7998,
	"step": 75400
	},
	{
	"epoch": 3.77,
	"grad_norm": 4.3285112380981445,
	"learning_rate": 4.930452261306533e-06,
	"loss": 0.8093,
	"step": 75500
	},
	{
	"epoch": 3.78,
	"grad_norm": 4.927236080169678,
	"learning_rate": 4.910552763819096e-06,
	"loss": 0.7793,
	"step": 75600
	},
	{
	"epoch": 3.79,
	"grad_norm": 6.193936824798584,
	"learning_rate": 4.890452261306533e-06,
	"loss": 0.8072,
	"step": 75700
	},
	{
	"epoch": 3.79,
	"grad_norm": 4.687440872192383,
	"learning_rate": 4.87035175879397e-06,
	"loss": 0.8,
	"step": 75800
	},
	{
	"epoch": 3.79,
	"grad_norm": 4.473381519317627,
	"learning_rate": 4.850251256281407e-06,
	"loss": 0.8027,
	"step": 75900
	},
	{
	"epoch": 3.8,
	"grad_norm": 4.676540374755859,
	"learning_rate": 4.8301507537688445e-06,
	"loss": 0.8029,
	"step": 76000
	},
	{
	"epoch": 3.81,
	"grad_norm": 4.967388153076172,
	"learning_rate": 4.810050251256282e-06,
	"loss": 0.7539,
	"step": 76100
	},
	{
	"epoch": 3.81,
	"grad_norm": 4.699183940887451,
	"learning_rate": 4.789949748743719e-06,
	"loss": 0.7651,
	"step": 76200
	},
	{
	"epoch": 3.81,
	"grad_norm": 4.629420757293701,
	"learning_rate": 4.769849246231156e-06,
	"loss": 0.7803,
	"step": 76300
	},
	{
	"epoch": 3.82,
	"grad_norm": 5.920188903808594,
	"learning_rate": 4.749748743718594e-06,
	"loss": 0.8017,
	"step": 76400
	},
	{
	"epoch": 3.83,
	"grad_norm": 6.677817344665527,
	"learning_rate": 4.729648241206031e-06,
	"loss": 0.8216,
	"step": 76500
	},
	{
	"epoch": 3.83,
	"grad_norm": 5.312260627746582,
	"learning_rate": 4.709547738693468e-06,
	"loss": 0.7827,
	"step": 76600
	},
	{
	"epoch": 3.83,
	"grad_norm": 4.119052410125732,
	"learning_rate": 4.689447236180905e-06,
	"loss": 0.7483,
	"step": 76700
	},
	{
	"epoch": 3.84,
	"grad_norm": 4.5976715087890625,
	"learning_rate": 4.669346733668342e-06,
	"loss": 0.7657,
	"step": 76800
	},
	{
	"epoch": 3.84,
	"grad_norm": 5.721061706542969,
	"learning_rate": 4.649246231155779e-06,
	"loss": 0.7817,
	"step": 76900
	},
	{
	"epoch": 3.85,
	"grad_norm": 7.369571208953857,
	"learning_rate": 4.629145728643216e-06,
	"loss": 0.7402,
	"step": 77000
	},
	{
	"epoch": 3.85,
	"grad_norm": 5.615093231201172,
	"learning_rate": 4.609045226130654e-06,
	"loss": 0.811,
	"step": 77100
	},
	{
	"epoch": 3.86,
	"grad_norm": 6.276815414428711,
	"learning_rate": 4.588944723618091e-06,
	"loss": 0.7909,
	"step": 77200
	},
	{
	"epoch": 3.87,
	"grad_norm": 4.287708759307861,
	"learning_rate": 4.568844221105528e-06,
	"loss": 0.8012,
	"step": 77300
	},
	{
	"epoch": 3.87,
	"grad_norm": 4.280378818511963,
	"learning_rate": 4.548743718592965e-06,
	"loss": 0.8205,
	"step": 77400
	},
	{
	"epoch": 3.88,
	"grad_norm": 8.309846878051758,
	"learning_rate": 4.528643216080402e-06,
	"loss": 0.7785,
	"step": 77500
	},
	{
	"epoch": 3.88,
	"grad_norm": 5.504384517669678,
	"learning_rate": 4.508542713567839e-06,
	"loss": 0.7678,
	"step": 77600
	},
	{
	"epoch": 3.88,
	"grad_norm": 4.6738996505737305,
	"learning_rate": 4.4884422110552765e-06,
	"loss": 0.8207,
	"step": 77700
	},
	{
	"epoch": 3.89,
	"grad_norm": 8.038127899169922,
	"learning_rate": 4.468341708542714e-06,
	"loss": 0.7788,
	"step": 77800
	},
	{
	"epoch": 3.9,
	"grad_norm": 6.898759365081787,
	"learning_rate": 4.448241206030151e-06,
	"loss": 0.7575,
	"step": 77900
	},
	{
	"epoch": 3.9,
	"grad_norm": 5.893388271331787,
	"learning_rate": 4.428140703517588e-06,
	"loss": 0.7842,
	"step": 78000
	},
	{
	"epoch": 3.91,
	"grad_norm": 7.37433385848999,
	"learning_rate": 4.408040201005026e-06,
	"loss": 0.756,
	"step": 78100
	},
	{
	"epoch": 3.91,
	"grad_norm": 6.226987838745117,
	"learning_rate": 4.387939698492463e-06,
	"loss": 0.7818,
	"step": 78200
	},
	{
	"epoch": 3.92,
	"grad_norm": 6.20886754989624,
	"learning_rate": 4.368040201005025e-06,
	"loss": 0.8057,
	"step": 78300
	},
	{
	"epoch": 3.92,
	"grad_norm": 3.9309849739074707,
	"learning_rate": 4.3479396984924625e-06,
	"loss": 0.8052,
	"step": 78400
	},
	{
	"epoch": 3.92,
	"grad_norm": 4.972345352172852,
	"learning_rate": 4.3278391959799e-06,
	"loss": 0.7666,
	"step": 78500
	},
	{
	"epoch": 3.93,
	"grad_norm": 8.730260848999023,
	"learning_rate": 4.307738693467337e-06,
	"loss": 0.7897,
	"step": 78600
	},
	{
	"epoch": 3.94,
	"grad_norm": 6.734485626220703,
	"learning_rate": 4.287638190954774e-06,
	"loss": 0.7595,
	"step": 78700
	},
	{
	"epoch": 3.94,
	"grad_norm": 6.456557750701904,
	"learning_rate": 4.267537688442212e-06,
	"loss": 0.7924,
	"step": 78800
	},
	{
	"epoch": 3.94,
	"grad_norm": 4.421884059906006,
	"learning_rate": 4.247437185929649e-06,
	"loss": 0.7821,
	"step": 78900
	},
	{
	"epoch": 3.95,
	"grad_norm": 7.825852394104004,
	"learning_rate": 4.227336683417086e-06,
	"loss": 0.7834,
	"step": 79000
	},
	{
	"epoch": 3.96,
	"grad_norm": 6.445671081542969,
	"learning_rate": 4.207236180904523e-06,
	"loss": 0.7794,
	"step": 79100
	},
	{
	"epoch": 3.96,
	"grad_norm": 3.7435953617095947,
	"learning_rate": 4.18713567839196e-06,
	"loss": 0.7218,
	"step": 79200
	},
	{
	"epoch": 3.96,
	"grad_norm": 10.594905853271484,
	"learning_rate": 4.1670351758793975e-06,
	"loss": 0.7957,
	"step": 79300
	},
	{
	"epoch": 3.97,
	"grad_norm": 7.166194438934326,
	"learning_rate": 4.146934673366835e-06,
	"loss": 0.7936,
	"step": 79400
	},
	{
	"epoch": 3.98,
	"grad_norm": 4.773101329803467,
	"learning_rate": 4.126834170854272e-06,
	"loss": 0.7721,
	"step": 79500
	},
	{
	"epoch": 3.98,
	"grad_norm": 5.979006767272949,
	"learning_rate": 4.106733668341709e-06,
	"loss": 0.7899,
	"step": 79600
	},
	{
	"epoch": 3.98,
	"grad_norm": 6.46978235244751,
	"learning_rate": 4.086633165829146e-06,
	"loss": 0.7874,
	"step": 79700
	},
	{
	"epoch": 3.99,
	"grad_norm": 5.1106977462768555,
	"learning_rate": 4.066532663316583e-06,
	"loss": 0.7644,
	"step": 79800
	},
	{
	"epoch": 4.0,
	"grad_norm": 7.125823974609375,
	"learning_rate": 4.0466331658291464e-06,
	"loss": 0.792,
	"step": 79900
	},
	{
	"epoch": 4.0,
	"grad_norm": 5.539035797119141,
	"learning_rate": 4.026532663316583e-06,
	"loss": 0.7779,
	"step": 80000
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.8846080303192139,
	"eval_runtime": 21.6073,
	"eval_samples_per_second": 46.281,
	"eval_steps_per_second": 5.785,
	"step": 80000
	},
	{
	"epoch": 4.0,
	"grad_norm": 5.7579193115234375,
	"learning_rate": 4.00643216080402e-06,
	"loss": 0.6947,
	"step": 80100
	},
	{
	"epoch": 4.01,
	"grad_norm": 5.583180904388428,
	"learning_rate": 3.986331658291458e-06,
	"loss": 0.6614,
	"step": 80200
	},
	{
	"epoch": 4.01,
	"grad_norm": 5.107233047485352,
	"learning_rate": 3.966231155778895e-06,
	"loss": 0.6936,
	"step": 80300
	},
	{
	"epoch": 4.02,
	"grad_norm": 5.804276466369629,
	"learning_rate": 3.946130653266332e-06,
	"loss": 0.6946,
	"step": 80400
	},
	{
	"epoch": 4.03,
	"grad_norm": 6.738204479217529,
	"learning_rate": 3.926030150753769e-06,
	"loss": 0.6681,
	"step": 80500
	},
	{
	"epoch": 4.03,
	"grad_norm": 6.331192970275879,
	"learning_rate": 3.905929648241206e-06,
	"loss": 0.6839,
	"step": 80600
	},
	{
	"epoch": 4.04,
	"grad_norm": 5.382104873657227,
	"learning_rate": 3.8858291457286434e-06,
	"loss": 0.6566,
	"step": 80700
	},
	{
	"epoch": 4.04,
	"grad_norm": 6.394933223724365,
	"learning_rate": 3.8657286432160806e-06,
	"loss": 0.7378,
	"step": 80800
	},
	{
	"epoch": 4.04,
	"grad_norm": 5.813870429992676,
	"learning_rate": 3.845628140703518e-06,
	"loss": 0.7112,
	"step": 80900
	},
	{
	"epoch": 4.05,
	"grad_norm": 6.095046520233154,
	"learning_rate": 3.825527638190955e-06,
	"loss": 0.6885,
	"step": 81000
	},
	{
	"epoch": 4.05,
	"grad_norm": 6.212576866149902,
	"learning_rate": 3.8054271356783924e-06,
	"loss": 0.6658,
	"step": 81100
	},
	{
	"epoch": 4.06,
	"grad_norm": 4.426722526550293,
	"learning_rate": 3.7853266331658295e-06,
	"loss": 0.6915,
	"step": 81200
	},
	{
	"epoch": 4.07,
	"grad_norm": 7.474303722381592,
	"learning_rate": 3.7652261306532666e-06,
	"loss": 0.6486,
	"step": 81300
	},
	{
	"epoch": 4.07,
	"grad_norm": 7.347512245178223,
	"learning_rate": 3.7451256281407038e-06,
	"loss": 0.7078,
	"step": 81400
	},
	{
	"epoch": 4.08,
	"grad_norm": 9.426233291625977,
	"learning_rate": 3.7250251256281413e-06,
	"loss": 0.6951,
	"step": 81500
	},
	{
	"epoch": 4.08,
	"grad_norm": 5.577968597412109,
	"learning_rate": 3.7049246231155784e-06,
	"loss": 0.6905,
	"step": 81600
	},
	{
	"epoch": 4.08,
	"grad_norm": 6.477217197418213,
	"learning_rate": 3.6848241206030156e-06,
	"loss": 0.663,
	"step": 81700
	},
	{
	"epoch": 4.09,
	"grad_norm": 6.228948593139648,
	"learning_rate": 3.6647236180904527e-06,
	"loss": 0.6677,
	"step": 81800
	},
	{
	"epoch": 4.09,
	"grad_norm": 5.777594089508057,
	"learning_rate": 3.64462311557789e-06,
	"loss": 0.6905,
	"step": 81900
	},
	{
	"epoch": 4.1,
	"grad_norm": 6.7552080154418945,
	"learning_rate": 3.624522613065327e-06,
	"loss": 0.7086,
	"step": 82000
	},
	{
	"epoch": 4.11,
	"grad_norm": 5.3912553787231445,
	"learning_rate": 3.6044221105527645e-06,
	"loss": 0.6833,
	"step": 82100
	},
	{
	"epoch": 4.11,
	"grad_norm": 7.366456508636475,
	"learning_rate": 3.5843216080402016e-06,
	"loss": 0.6618,
	"step": 82200
	},
	{
	"epoch": 4.12,
	"grad_norm": 4.593729019165039,
	"learning_rate": 3.5642211055276383e-06,
	"loss": 0.6397,
	"step": 82300
	},
	{
	"epoch": 4.12,
	"grad_norm": 6.743685722351074,
	"learning_rate": 3.5441206030150755e-06,
	"loss": 0.7233,
	"step": 82400
	},
	{
	"epoch": 4.12,
	"grad_norm": 6.125808238983154,
	"learning_rate": 3.5240201005025126e-06,
	"loss": 0.6804,
	"step": 82500
	},
	{
	"epoch": 4.13,
	"grad_norm": 7.0340752601623535,
	"learning_rate": 3.5039195979899497e-06,
	"loss": 0.699,
	"step": 82600
	},
	{
	"epoch": 4.13,
	"grad_norm": 7.293619632720947,
	"learning_rate": 3.4838190954773873e-06,
	"loss": 0.6572,
	"step": 82700
	},
	{
	"epoch": 4.14,
	"grad_norm": 6.3135552406311035,
	"learning_rate": 3.4637185929648244e-06,
	"loss": 0.6364,
	"step": 82800
	},
	{
	"epoch": 4.14,
	"grad_norm": 5.138033390045166,
	"learning_rate": 3.4436180904522615e-06,
	"loss": 0.6815,
	"step": 82900
	},
	{
	"epoch": 4.15,
	"grad_norm": 6.240560054779053,
	"learning_rate": 3.4235175879396986e-06,
	"loss": 0.6919,
	"step": 83000
	},
	{
	"epoch": 4.16,
	"grad_norm": 4.19957971572876,
	"learning_rate": 3.4034170854271358e-06,
	"loss": 0.6845,
	"step": 83100
	},
	{
	"epoch": 4.16,
	"grad_norm": 6.340314865112305,
	"learning_rate": 3.383316582914573e-06,
	"loss": 0.653,
	"step": 83200
	},
	{
	"epoch": 4.17,
	"grad_norm": 3.309894323348999,
	"learning_rate": 3.3632160804020104e-06,
	"loss": 0.6612,
	"step": 83300
	},
	{
	"epoch": 4.17,
	"grad_norm": 5.189826011657715,
	"learning_rate": 3.3431155778894476e-06,
	"loss": 0.6871,
	"step": 83400
	},
	{
	"epoch": 4.17,
	"grad_norm": 6.599611759185791,
	"learning_rate": 3.3230150753768847e-06,
	"loss": 0.6743,
	"step": 83500
	},
	{
	"epoch": 4.18,
	"grad_norm": 26.47356414794922,
	"learning_rate": 3.302914572864322e-06,
	"loss": 0.6312,
	"step": 83600
	},
	{
	"epoch": 4.18,
	"grad_norm": 8.280220985412598,
	"learning_rate": 3.282814070351759e-06,
	"loss": 0.6276,
	"step": 83700
	},
	{
	"epoch": 4.19,
	"grad_norm": 7.8088555335998535,
	"learning_rate": 3.2627135678391965e-06,
	"loss": 0.6514,
	"step": 83800
	},
	{
	"epoch": 4.2,
	"grad_norm": 5.11159086227417,
	"learning_rate": 3.2426130653266336e-06,
	"loss": 0.6262,
	"step": 83900
	},
	{
	"epoch": 4.2,
	"grad_norm": 6.656592845916748,
	"learning_rate": 3.2225125628140708e-06,
	"loss": 0.6889,
	"step": 84000
	},
	{
	"epoch": 4.21,
	"grad_norm": 7.140279769897461,
	"learning_rate": 3.202412060301508e-06,
	"loss": 0.6435,
	"step": 84100
	},
	{
	"epoch": 4.21,
	"grad_norm": 6.478577613830566,
	"learning_rate": 3.182311557788945e-06,
	"loss": 0.6593,
	"step": 84200
	},
	{
	"epoch": 4.21,
	"grad_norm": 6.854846477508545,
	"learning_rate": 3.1622110552763826e-06,
	"loss": 0.7097,
	"step": 84300
	},
	{
	"epoch": 4.22,
	"grad_norm": 5.070549488067627,
	"learning_rate": 3.1421105527638197e-06,
	"loss": 0.6736,
	"step": 84400
	},
	{
	"epoch": 4.22,
	"grad_norm": 7.519010543823242,
	"learning_rate": 3.122010050251257e-06,
	"loss": 0.6518,
	"step": 84500
	},
	{
	"epoch": 4.23,
	"grad_norm": 6.662156105041504,
	"learning_rate": 3.1019095477386935e-06,
	"loss": 0.675,
	"step": 84600
	},
	{
	"epoch": 4.24,
	"grad_norm": 7.687413215637207,
	"learning_rate": 3.0818090452261307e-06,
	"loss": 0.6477,
	"step": 84700
	},
	{
	"epoch": 4.24,
	"grad_norm": 5.934724807739258,
	"learning_rate": 3.0617085427135678e-06,
	"loss": 0.6492,
	"step": 84800
	},
	{
	"epoch": 4.25,
	"grad_norm": 9.457836151123047,
	"learning_rate": 3.041608040201005e-06,
	"loss": 0.633,
	"step": 84900
	},
	{
	"epoch": 4.25,
	"grad_norm": 6.666748523712158,
	"learning_rate": 3.0215075376884425e-06,
	"loss": 0.6693,
	"step": 85000
	},
	{
	"epoch": 4.25,
	"grad_norm": 6.439404487609863,
	"learning_rate": 3.0014070351758796e-06,
	"loss": 0.6643,
	"step": 85100
	},
	{
	"epoch": 4.26,
	"grad_norm": 7.257474422454834,
	"learning_rate": 2.9813065326633167e-06,
	"loss": 0.6623,
	"step": 85200
	},
	{
	"epoch": 4.26,
	"grad_norm": 4.707270622253418,
	"learning_rate": 2.961206030150754e-06,
	"loss": 0.6471,
	"step": 85300
	},
	{
	"epoch": 4.27,
	"grad_norm": 5.7160844802856445,
	"learning_rate": 2.941105527638191e-06,
	"loss": 0.683,
	"step": 85400
	},
	{
	"epoch": 4.28,
	"grad_norm": 6.038240432739258,
	"learning_rate": 2.9210050251256285e-06,
	"loss": 0.6742,
	"step": 85500
	},
	{
	"epoch": 4.28,
	"grad_norm": 6.851832866668701,
	"learning_rate": 2.9009045226130656e-06,
	"loss": 0.6748,
	"step": 85600
	},
	{
	"epoch": 4.29,
	"grad_norm": 5.691901683807373,
	"learning_rate": 2.8808040201005028e-06,
	"loss": 0.6703,
	"step": 85700
	},
	{
	"epoch": 4.29,
	"grad_norm": 6.378291130065918,
	"learning_rate": 2.86070351758794e-06,
	"loss": 0.6487,
	"step": 85800
	},
	{
	"epoch": 4.29,
	"grad_norm": 4.439263343811035,
	"learning_rate": 2.840603015075377e-06,
	"loss": 0.6598,
	"step": 85900
	},
	{
	"epoch": 4.3,
	"grad_norm": 6.466790199279785,
	"learning_rate": 2.8205025125628146e-06,
	"loss": 0.6914,
	"step": 86000
	},
	{
	"epoch": 4.3,
	"grad_norm": 6.0331902503967285,
	"learning_rate": 2.8004020100502517e-06,
	"loss": 0.6929,
	"step": 86100
	},
	{
	"epoch": 4.31,
	"grad_norm": 4.750064849853516,
	"learning_rate": 2.780301507537689e-06,
	"loss": 0.6715,
	"step": 86200
	},
	{
	"epoch": 4.32,
	"grad_norm": 8.289958953857422,
	"learning_rate": 2.760201005025126e-06,
	"loss": 0.6975,
	"step": 86300
	},
	{
	"epoch": 4.32,
	"grad_norm": 10.746756553649902,
	"learning_rate": 2.740100502512563e-06,
	"loss": 0.6454,
	"step": 86400
	},
	{
	"epoch": 4.33,
	"grad_norm": 6.792548656463623,
	"learning_rate": 2.720201005025126e-06,
	"loss": 0.7056,
	"step": 86500
	},
	{
	"epoch": 4.33,
	"grad_norm": 5.030031204223633,
	"learning_rate": 2.700100502512563e-06,
	"loss": 0.6711,
	"step": 86600
	},
	{
	"epoch": 4.33,
	"grad_norm": 4.626148223876953,
	"learning_rate": 2.680201005025126e-06,
	"loss": 0.676,
	"step": 86700
	},
	{
	"epoch": 4.34,
	"grad_norm": 8.56241512298584,
	"learning_rate": 2.660100502512563e-06,
	"loss": 0.6548,
	"step": 86800
	},
	{
	"epoch": 4.34,
	"grad_norm": 9.747623443603516,
	"learning_rate": 2.64e-06,
	"loss": 0.6883,
	"step": 86900
	},
	{
	"epoch": 4.35,
	"grad_norm": 8.002108573913574,
	"learning_rate": 2.6198994974874377e-06,
	"loss": 0.7166,
	"step": 87000
	},
	{
	"epoch": 4.36,
	"grad_norm": 6.09249210357666,
	"learning_rate": 2.599798994974875e-06,
	"loss": 0.6841,
	"step": 87100
	},
	{
	"epoch": 4.36,
	"grad_norm": 5.512220859527588,
	"learning_rate": 2.579698492462312e-06,
	"loss": 0.6816,
	"step": 87200
	},
	{
	"epoch": 4.37,
	"grad_norm": 5.139577388763428,
	"learning_rate": 2.559597989949749e-06,
	"loss": 0.6475,
	"step": 87300
	},
	{
	"epoch": 4.37,
	"grad_norm": 11.360005378723145,
	"learning_rate": 2.539497487437186e-06,
	"loss": 0.7434,
	"step": 87400
	},
	{
	"epoch": 4.38,
	"grad_norm": 5.06545877456665,
	"learning_rate": 2.5193969849246237e-06,
	"loss": 0.6626,
	"step": 87500
	},
	{
	"epoch": 4.38,
	"grad_norm": 4.432734966278076,
	"learning_rate": 2.4992964824120604e-06,
	"loss": 0.6357,
	"step": 87600
	},
	{
	"epoch": 4.38,
	"grad_norm": 7.90862512588501,
	"learning_rate": 2.4791959798994976e-06,
	"loss": 0.6039,
	"step": 87700
	},
	{
	"epoch": 4.39,
	"grad_norm": 4.959092617034912,
	"learning_rate": 2.459095477386935e-06,
	"loss": 0.6699,
	"step": 87800
	},
	{
	"epoch": 4.39,
	"grad_norm": 7.495928764343262,
	"learning_rate": 2.4389949748743723e-06,
	"loss": 0.6648,
	"step": 87900
	},
	{
	"epoch": 4.4,
	"grad_norm": 10.80557918548584,
	"learning_rate": 2.4188944723618094e-06,
	"loss": 0.6532,
	"step": 88000
	},
	{
	"epoch": 4.41,
	"grad_norm": 7.1374006271362305,
	"learning_rate": 2.3987939698492465e-06,
	"loss": 0.6903,
	"step": 88100
	},
	{
	"epoch": 4.41,
	"grad_norm": 12.275821685791016,
	"learning_rate": 2.3786934673366836e-06,
	"loss": 0.6433,
	"step": 88200
	},
	{
	"epoch": 4.42,
	"grad_norm": 8.747936248779297,
	"learning_rate": 2.3585929648241208e-06,
	"loss": 0.62,
	"step": 88300
	},
	{
	"epoch": 4.42,
	"grad_norm": 5.3552985191345215,
	"learning_rate": 2.338492462311558e-06,
	"loss": 0.6525,
	"step": 88400
	},
	{
	"epoch": 4.42,
	"grad_norm": 7.049367427825928,
	"learning_rate": 2.318391959798995e-06,
	"loss": 0.6742,
	"step": 88500
	},
	{
	"epoch": 4.43,
	"grad_norm": 8.841930389404297,
	"learning_rate": 2.298291457286432e-06,
	"loss": 0.6806,
	"step": 88600
	},
	{
	"epoch": 4.43,
	"grad_norm": 4.58371114730835,
	"learning_rate": 2.2781909547738697e-06,
	"loss": 0.6469,
	"step": 88700
	},
	{
	"epoch": 4.44,
	"grad_norm": 8.08278751373291,
	"learning_rate": 2.258090452261307e-06,
	"loss": 0.6918,
	"step": 88800
	},
	{
	"epoch": 4.45,
	"grad_norm": 5.989361763000488,
	"learning_rate": 2.237989949748744e-06,
	"loss": 0.7048,
	"step": 88900
	},
	{
	"epoch": 4.45,
	"grad_norm": 8.200750350952148,
	"learning_rate": 2.217889447236181e-06,
	"loss": 0.6222,
	"step": 89000
	},
	{
	"epoch": 4.46,
	"grad_norm": 7.658218860626221,
	"learning_rate": 2.197788944723618e-06,
	"loss": 0.653,
	"step": 89100
	},
	{
	"epoch": 4.46,
	"grad_norm": 6.744418621063232,
	"learning_rate": 2.177889447236181e-06,
	"loss": 0.6698,
	"step": 89200
	},
	{
	"epoch": 4.46,
	"grad_norm": 4.423871994018555,
	"learning_rate": 2.157788944723618e-06,
	"loss": 0.6665,
	"step": 89300
	},
	{
	"epoch": 4.47,
	"grad_norm": 7.368816375732422,
	"learning_rate": 2.1376884422110557e-06,
	"loss": 0.6766,
	"step": 89400
	},
	{
	"epoch": 4.47,
	"grad_norm": 4.649584770202637,
	"learning_rate": 2.117587939698493e-06,
	"loss": 0.6464,
	"step": 89500
	},
	{
	"epoch": 4.48,
	"grad_norm": 7.77773904800415,
	"learning_rate": 2.09748743718593e-06,
	"loss": 0.6721,
	"step": 89600
	},
	{
	"epoch": 4.49,
	"grad_norm": 6.5589280128479,
	"learning_rate": 2.0773869346733667e-06,
	"loss": 0.6817,
	"step": 89700
	},
	{
	"epoch": 4.49,
	"grad_norm": 10.153287887573242,
	"learning_rate": 2.0572864321608042e-06,
	"loss": 0.645,
	"step": 89800
	},
	{
	"epoch": 4.5,
	"grad_norm": 8.705924987792969,
	"learning_rate": 2.0371859296482414e-06,
	"loss": 0.707,
	"step": 89900
	},
	{
	"epoch": 4.5,
	"grad_norm": 5.7329511642456055,
	"learning_rate": 2.0170854271356785e-06,
	"loss": 0.6834,
	"step": 90000
	},
	{
	"epoch": 4.5,
	"eval_loss": 0.9503761529922485,
	"eval_runtime": 21.641,
	"eval_samples_per_second": 46.209,
	"eval_steps_per_second": 5.776,
	"step": 90000
	},
	{
	"epoch": 4.5,
	"grad_norm": 6.902284622192383,
	"learning_rate": 1.9969849246231156e-06,
	"loss": 0.6237,
	"step": 90100
	},
	{
	"epoch": 4.51,
	"grad_norm": 5.6710710525512695,
	"learning_rate": 1.9768844221105527e-06,
	"loss": 0.6638,
	"step": 90200
	},
	{
	"epoch": 4.51,
	"grad_norm": 6.364370346069336,
	"learning_rate": 1.9567839195979903e-06,
	"loss": 0.6537,
	"step": 90300
	},
	{
	"epoch": 4.52,
	"grad_norm": 5.928137302398682,
	"learning_rate": 1.9366834170854274e-06,
	"loss": 0.6266,
	"step": 90400
	},
	{
	"epoch": 4.53,
	"grad_norm": 8.740313529968262,
	"learning_rate": 1.9165829145728645e-06,
	"loss": 0.6198,
	"step": 90500
	},
	{
	"epoch": 4.53,
	"grad_norm": 8.339399337768555,
	"learning_rate": 1.8964824120603017e-06,
	"loss": 0.6482,
	"step": 90600
	},
	{
	"epoch": 4.54,
	"grad_norm": 8.13129997253418,
	"learning_rate": 1.876381909547739e-06,
	"loss": 0.6521,
	"step": 90700
	},
	{
	"epoch": 4.54,
	"grad_norm": 10.06900405883789,
	"learning_rate": 1.856281407035176e-06,
	"loss": 0.6472,
	"step": 90800
	},
	{
	"epoch": 4.54,
	"grad_norm": 6.953003406524658,
	"learning_rate": 1.836180904522613e-06,
	"loss": 0.6185,
	"step": 90900
	},
	{
	"epoch": 4.55,
	"grad_norm": 7.572219371795654,
	"learning_rate": 1.8160804020100504e-06,
	"loss": 0.664,
	"step": 91000
	},
	{
	"epoch": 4.55,
	"grad_norm": 8.318469047546387,
	"learning_rate": 1.7959798994974875e-06,
	"loss": 0.6442,
	"step": 91100
	},
	{
	"epoch": 4.56,
	"grad_norm": 6.608754634857178,
	"learning_rate": 1.7758793969849246e-06,
	"loss": 0.6398,
	"step": 91200
	},
	{
	"epoch": 4.56,
	"grad_norm": 7.397676467895508,
	"learning_rate": 1.755778894472362e-06,
	"loss": 0.6689,
	"step": 91300
	},
	{
	"epoch": 4.57,
	"grad_norm": 10.482325553894043,
	"learning_rate": 1.7356783919597991e-06,
	"loss": 0.6792,
	"step": 91400
	},
	{
	"epoch": 4.58,
	"grad_norm": 5.926417827606201,
	"learning_rate": 1.7155778894472364e-06,
	"loss": 0.6774,
	"step": 91500
	},
	{
	"epoch": 4.58,
	"grad_norm": 8.223274230957031,
	"learning_rate": 1.6954773869346736e-06,
	"loss": 0.6528,
	"step": 91600
	},
	{
	"epoch": 4.58,
	"grad_norm": 7.564822196960449,
	"learning_rate": 1.6753768844221107e-06,
	"loss": 0.6224,
	"step": 91700
	},
	{
	"epoch": 4.59,
	"grad_norm": 6.845765113830566,
	"learning_rate": 1.655276381909548e-06,
	"loss": 0.6984,
	"step": 91800
	},
	{
	"epoch": 4.59,
	"grad_norm": 6.044042587280273,
	"learning_rate": 1.6353768844221107e-06,
	"loss": 0.6211,
	"step": 91900
	},
	{
	"epoch": 4.6,
	"grad_norm": 12.825979232788086,
	"learning_rate": 1.615276381909548e-06,
	"loss": 0.6851,
	"step": 92000
	},
	{
	"epoch": 4.61,
	"grad_norm": 6.73763370513916,
	"learning_rate": 1.5951758793969851e-06,
	"loss": 0.6161,
	"step": 92100
	},
	{
	"epoch": 4.61,
	"grad_norm": 6.827399730682373,
	"learning_rate": 1.5750753768844223e-06,
	"loss": 0.6525,
	"step": 92200
	},
	{
	"epoch": 4.62,
	"grad_norm": 6.6664228439331055,
	"learning_rate": 1.5549748743718594e-06,
	"loss": 0.6617,
	"step": 92300
	},
	{
	"epoch": 4.62,
	"grad_norm": 9.772034645080566,
	"learning_rate": 1.5348743718592965e-06,
	"loss": 0.6687,
	"step": 92400
	},
	{
	"epoch": 4.62,
	"grad_norm": 6.625182151794434,
	"learning_rate": 1.5147738693467336e-06,
	"loss": 0.6545,
	"step": 92500
	},
	{
	"epoch": 4.63,
	"grad_norm": 10.207441329956055,
	"learning_rate": 1.494673366834171e-06,
	"loss": 0.6332,
	"step": 92600
	},
	{
	"epoch": 4.63,
	"grad_norm": 9.929265975952148,
	"learning_rate": 1.474572864321608e-06,
	"loss": 0.6391,
	"step": 92700
	},
	{
	"epoch": 4.64,
	"grad_norm": 6.050763130187988,
	"learning_rate": 1.4544723618090452e-06,
	"loss": 0.6708,
	"step": 92800
	},
	{
	"epoch": 4.64,
	"grad_norm": 5.504277229309082,
	"learning_rate": 1.4343718592964826e-06,
	"loss": 0.6578,
	"step": 92900
	},
	{
	"epoch": 4.65,
	"grad_norm": 7.113737106323242,
	"learning_rate": 1.4142713567839197e-06,
	"loss": 0.6419,
	"step": 93000
	},
	{
	"epoch": 4.66,
	"grad_norm": 7.181005001068115,
	"learning_rate": 1.394170854271357e-06,
	"loss": 0.6298,
	"step": 93100
	},
	{
	"epoch": 4.66,
	"grad_norm": 8.930741310119629,
	"learning_rate": 1.3740703517587942e-06,
	"loss": 0.6734,
	"step": 93200
	},
	{
	"epoch": 4.67,
	"grad_norm": 6.288244724273682,
	"learning_rate": 1.3539698492462313e-06,
	"loss": 0.6307,
	"step": 93300
	},
	{
	"epoch": 4.67,
	"grad_norm": 6.91972017288208,
	"learning_rate": 1.3338693467336686e-06,
	"loss": 0.676,
	"step": 93400
	},
	{
	"epoch": 4.67,
	"grad_norm": 8.017012596130371,
	"learning_rate": 1.3137688442211055e-06,
	"loss": 0.6157,
	"step": 93500
	},
	{
	"epoch": 4.68,
	"grad_norm": 4.738548755645752,
	"learning_rate": 1.2936683417085427e-06,
	"loss": 0.679,
	"step": 93600
	},
	{
	"epoch": 4.69,
	"grad_norm": 6.201863765716553,
	"learning_rate": 1.27356783919598e-06,
	"loss": 0.6542,
	"step": 93700
	},
	{
	"epoch": 4.69,
	"grad_norm": 7.595000267028809,
	"learning_rate": 1.2534673366834171e-06,
	"loss": 0.6659,
	"step": 93800
	},
	{
	"epoch": 4.7,
	"grad_norm": 5.57780647277832,
	"learning_rate": 1.2333668341708543e-06,
	"loss": 0.6381,
	"step": 93900
	},
	{
	"epoch": 4.7,
	"grad_norm": 8.426780700683594,
	"learning_rate": 1.2132663316582916e-06,
	"loss": 0.6705,
	"step": 94000
	},
	{
	"epoch": 4.71,
	"grad_norm": 7.012176990509033,
	"learning_rate": 1.1931658291457287e-06,
	"loss": 0.6874,
	"step": 94100
	},
	{
	"epoch": 4.71,
	"grad_norm": 7.747401237487793,
	"learning_rate": 1.173065326633166e-06,
	"loss": 0.6317,
	"step": 94200
	},
	{
	"epoch": 4.71,
	"grad_norm": 4.817531108856201,
	"learning_rate": 1.1529648241206032e-06,
	"loss": 0.6083,
	"step": 94300
	},
	{
	"epoch": 4.72,
	"grad_norm": 6.916783332824707,
	"learning_rate": 1.1328643216080403e-06,
	"loss": 0.6619,
	"step": 94400
	},
	{
	"epoch": 4.72,
	"grad_norm": 7.570366382598877,
	"learning_rate": 1.1127638190954775e-06,
	"loss": 0.6471,
	"step": 94500
	},
	{
	"epoch": 4.73,
	"grad_norm": 8.70361328125,
	"learning_rate": 1.0926633165829146e-06,
	"loss": 0.6483,
	"step": 94600
	},
	{
	"epoch": 4.74,
	"grad_norm": 9.341569900512695,
	"learning_rate": 1.072562814070352e-06,
	"loss": 0.6194,
	"step": 94700
	},
	{
	"epoch": 4.74,
	"grad_norm": 4.283209800720215,
	"learning_rate": 1.052462311557789e-06,
	"loss": 0.6111,
	"step": 94800
	},
	{
	"epoch": 4.75,
	"grad_norm": 8.134038925170898,
	"learning_rate": 1.0323618090452262e-06,
	"loss": 0.632,
	"step": 94900
	},
	{
	"epoch": 4.75,
	"grad_norm": 8.605172157287598,
	"learning_rate": 1.0122613065326633e-06,
	"loss": 0.6341,
	"step": 95000
	},
	{
	"epoch": 4.75,
	"grad_norm": 8.067020416259766,
	"learning_rate": 9.921608040201006e-07,
	"loss": 0.6694,
	"step": 95100
	},
	{
	"epoch": 4.76,
	"grad_norm": 6.967876434326172,
	"learning_rate": 9.720603015075378e-07,
	"loss": 0.648,
	"step": 95200
	},
	{
	"epoch": 4.76,
	"grad_norm": 8.443940162658691,
	"learning_rate": 9.51959798994975e-07,
	"loss": 0.6174,
	"step": 95300
	},
	{
	"epoch": 4.77,
	"grad_norm": 8.791583061218262,
	"learning_rate": 9.318592964824122e-07,
	"loss": 0.6463,
	"step": 95400
	},
	{
	"epoch": 4.78,
	"grad_norm": 8.055484771728516,
	"learning_rate": 9.117587939698493e-07,
	"loss": 0.5966,
	"step": 95500
	},
	{
	"epoch": 4.78,
	"grad_norm": 5.009509563446045,
	"learning_rate": 8.916582914572865e-07,
	"loss": 0.6147,
	"step": 95600
	},
	{
	"epoch": 4.79,
	"grad_norm": 5.755350589752197,
	"learning_rate": 8.715577889447237e-07,
	"loss": 0.6101,
	"step": 95700
	},
	{
	"epoch": 4.79,
	"grad_norm": 8.774045944213867,
	"learning_rate": 8.514572864321608e-07,
	"loss": 0.6332,
	"step": 95800
	},
	{
	"epoch": 4.79,
	"grad_norm": 6.463279724121094,
	"learning_rate": 8.315577889447237e-07,
	"loss": 0.6705,
	"step": 95900
	},
	{
	"epoch": 4.8,
	"grad_norm": 5.299009323120117,
	"learning_rate": 8.114572864321608e-07,
	"loss": 0.6605,
	"step": 96000
	},
	{
	"epoch": 4.8,
	"grad_norm": 6.5152130126953125,
	"learning_rate": 7.91356783919598e-07,
	"loss": 0.6456,
	"step": 96100
	},
	{
	"epoch": 4.81,
	"grad_norm": 8.499478340148926,
	"learning_rate": 7.712562814070353e-07,
	"loss": 0.6454,
	"step": 96200
	},
	{
	"epoch": 4.81,
	"grad_norm": 8.317819595336914,
	"learning_rate": 7.511557788944725e-07,
	"loss": 0.5961,
	"step": 96300
	},
	{
	"epoch": 4.82,
	"grad_norm": 7.257504940032959,
	"learning_rate": 7.310552763819095e-07,
	"loss": 0.614,
	"step": 96400
	},
	{
	"epoch": 4.83,
	"grad_norm": 3.862578868865967,
	"learning_rate": 7.109547738693468e-07,
	"loss": 0.6388,
	"step": 96500
	},
	{
	"epoch": 4.83,
	"grad_norm": 8.748353958129883,
	"learning_rate": 6.90854271356784e-07,
	"loss": 0.6222,
	"step": 96600
	},
	{
	"epoch": 4.83,
	"grad_norm": 8.883009910583496,
	"learning_rate": 6.707537688442211e-07,
	"loss": 0.639,
	"step": 96700
	},
	{
	"epoch": 4.84,
	"grad_norm": 7.332880973815918,
	"learning_rate": 6.506532663316584e-07,
	"loss": 0.6341,
	"step": 96800
	},
	{
	"epoch": 4.84,
	"grad_norm": 7.421239852905273,
	"learning_rate": 6.305527638190956e-07,
	"loss": 0.6378,
	"step": 96900
	},
	{
	"epoch": 4.85,
	"grad_norm": 6.633522033691406,
	"learning_rate": 6.104522613065327e-07,
	"loss": 0.6587,
	"step": 97000
	},
	{
	"epoch": 4.86,
	"grad_norm": 6.347668170928955,
	"learning_rate": 5.903517587939699e-07,
	"loss": 0.6355,
	"step": 97100
	},
	{
	"epoch": 4.86,
	"grad_norm": 5.266615390777588,
	"learning_rate": 5.702512562814071e-07,
	"loss": 0.5976,
	"step": 97200
	},
	{
	"epoch": 4.87,
	"grad_norm": 5.0562286376953125,
	"learning_rate": 5.501507537688443e-07,
	"loss": 0.6426,
	"step": 97300
	},
	{
	"epoch": 4.87,
	"grad_norm": 9.852864265441895,
	"learning_rate": 5.300502512562814e-07,
	"loss": 0.6434,
	"step": 97400
	},
	{
	"epoch": 4.88,
	"grad_norm": 5.227302551269531,
	"learning_rate": 5.099497487437187e-07,
	"loss": 0.674,
	"step": 97500
	},
	{
	"epoch": 4.88,
	"grad_norm": 7.586268424987793,
	"learning_rate": 4.900502512562814e-07,
	"loss": 0.6826,
	"step": 97600
	},
	{
	"epoch": 4.88,
	"grad_norm": 7.512186527252197,
	"learning_rate": 4.699497487437187e-07,
	"loss": 0.6428,
	"step": 97700
	},
	{
	"epoch": 4.89,
	"grad_norm": 8.383907318115234,
	"learning_rate": 4.498492462311558e-07,
	"loss": 0.6215,
	"step": 97800
	},
	{
	"epoch": 4.89,
	"grad_norm": 6.214056968688965,
	"learning_rate": 4.29748743718593e-07,
	"loss": 0.6066,
	"step": 97900
	},
	{
	"epoch": 4.9,
	"grad_norm": 8.587347030639648,
	"learning_rate": 4.096482412060302e-07,
	"loss": 0.6213,
	"step": 98000
	},
	{
	"epoch": 4.91,
	"grad_norm": 14.060787200927734,
	"learning_rate": 3.8954773869346735e-07,
	"loss": 0.6151,
	"step": 98100
	},
	{
	"epoch": 4.91,
	"grad_norm": 11.65833568572998,
	"learning_rate": 3.694472361809046e-07,
	"loss": 0.6226,
	"step": 98200
	},
	{
	"epoch": 4.92,
	"grad_norm": 5.729846477508545,
	"learning_rate": 3.4934673366834176e-07,
	"loss": 0.6265,
	"step": 98300
	},
	{
	"epoch": 4.92,
	"grad_norm": 5.596776485443115,
	"learning_rate": 3.292462311557789e-07,
	"loss": 0.6048,
	"step": 98400
	},
	{
	"epoch": 4.92,
	"grad_norm": 5.834877967834473,
	"learning_rate": 3.091457286432161e-07,
	"loss": 0.6358,
	"step": 98500
	},
	{
	"epoch": 4.93,
	"grad_norm": 7.830298900604248,
	"learning_rate": 2.890452261306533e-07,
	"loss": 0.6381,
	"step": 98600
	},
	{
	"epoch": 4.94,
	"grad_norm": 7.147890567779541,
	"learning_rate": 2.689447236180905e-07,
	"loss": 0.6428,
	"step": 98700
	},
	{
	"epoch": 4.94,
	"grad_norm": 5.18765926361084,
	"learning_rate": 2.4884422110552766e-07,
	"loss": 0.6098,
	"step": 98800
	},
	{
	"epoch": 4.95,
	"grad_norm": 7.276676654815674,
	"learning_rate": 2.2874371859296484e-07,
	"loss": 0.6329,
	"step": 98900
	},
	{
	"epoch": 4.95,
	"grad_norm": 7.58540678024292,
	"learning_rate": 2.0864321608040202e-07,
	"loss": 0.6095,
	"step": 99000
	},
	{
	"epoch": 4.96,
	"grad_norm": 5.402534008026123,
	"learning_rate": 1.8854271356783923e-07,
	"loss": 0.605,
	"step": 99100
	},
	{
	"epoch": 4.96,
	"grad_norm": 7.289499282836914,
	"learning_rate": 1.684422110552764e-07,
	"loss": 0.6694,
	"step": 99200
	},
	{
	"epoch": 4.96,
	"grad_norm": 7.618215560913086,
	"learning_rate": 1.483417085427136e-07,
	"loss": 0.6313,
	"step": 99300
	},
	{
	"epoch": 4.97,
	"grad_norm": 7.560898780822754,
	"learning_rate": 1.2824120603015077e-07,
	"loss": 0.6073,
	"step": 99400
	},
	{
	"epoch": 4.97,
	"grad_norm": 5.637300968170166,
	"learning_rate": 1.0834170854271359e-07,
	"loss": 0.6211,
	"step": 99500
	},
	{
	"epoch": 4.98,
	"grad_norm": 8.691441535949707,
	"learning_rate": 8.824120603015076e-08,
	"loss": 0.6085,
	"step": 99600
	},
	{
	"epoch": 4.99,
	"grad_norm": 4.510754585266113,
	"learning_rate": 6.814070351758795e-08,
	"loss": 0.6193,
	"step": 99700
	},
	{
	"epoch": 4.99,
	"grad_norm": 7.4050703048706055,
	"learning_rate": 4.804020100502513e-08,
	"loss": 0.6642,
	"step": 99800
	},
	{
	"epoch": 5.0,
	"grad_norm": 9.641931533813477,
	"learning_rate": 2.7939698492462312e-08,
	"loss": 0.6304,
	"step": 99900
	},
	{
	"epoch": 5.0,
	"grad_norm": 7.846133232116699,
	"learning_rate": 7.839195979899499e-09,
	"loss": 0.6181,
	"step": 100000
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.9481298923492432,
	"eval_runtime": 21.6157,
	"eval_samples_per_second": 46.263,
	"eval_steps_per_second": 5.783,
	"step": 100000
	}
	],
	"logging_steps": 100,
	"max_steps": 100000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 10000,
	"total_flos": 1.1800273747968e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}