Upload trainer_state.json with huggingface_hub

e75c876 verified 11 months ago

66.4 kB

	{
	"best_global_step": 375,
	"best_metric": 2.8448235988616943,
	"best_model_checkpoint": "outputs/checkpoint-375",
	"epoch": 14.970873786407767,
	"eval_steps": 500,
	"global_step": 375,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.038834951456310676,
	"grad_norm": 21.30242156982422,
	"learning_rate": 0.0,
	"loss": 6.5474,
	"step": 1
	},
	{
	"epoch": 0.07766990291262135,
	"grad_norm": 20.775470733642578,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 6.5613,
	"step": 2
	},
	{
	"epoch": 0.11650485436893204,
	"grad_norm": 20.96541976928711,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 6.5127,
	"step": 3
	},
	{
	"epoch": 0.1553398058252427,
	"grad_norm": 20.376543045043945,
	"learning_rate": 6.000000000000001e-07,
	"loss": 6.4569,
	"step": 4
	},
	{
	"epoch": 0.1941747572815534,
	"grad_norm": 19.54267692565918,
	"learning_rate": 8.000000000000001e-07,
	"loss": 6.3743,
	"step": 5
	},
	{
	"epoch": 0.23300970873786409,
	"grad_norm": 19.233882904052734,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 6.3899,
	"step": 6
	},
	{
	"epoch": 0.27184466019417475,
	"grad_norm": 20.25909423828125,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 6.4415,
	"step": 7
	},
	{
	"epoch": 0.3106796116504854,
	"grad_norm": 19.33000373840332,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 6.3191,
	"step": 8
	},
	{
	"epoch": 0.34951456310679613,
	"grad_norm": 18.305322647094727,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 6.2681,
	"step": 9
	},
	{
	"epoch": 0.3883495145631068,
	"grad_norm": 17.74665069580078,
	"learning_rate": 1.8e-06,
	"loss": 6.4206,
	"step": 10
	},
	{
	"epoch": 0.42718446601941745,
	"grad_norm": 14.93736457824707,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 6.2288,
	"step": 11
	},
	{
	"epoch": 0.46601941747572817,
	"grad_norm": 14.914277076721191,
	"learning_rate": 2.2e-06,
	"loss": 6.3961,
	"step": 12
	},
	{
	"epoch": 0.5048543689320388,
	"grad_norm": 13.266161918640137,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 6.0076,
	"step": 13
	},
	{
	"epoch": 0.5436893203883495,
	"grad_norm": 12.377790451049805,
	"learning_rate": 2.6e-06,
	"loss": 6.2259,
	"step": 14
	},
	{
	"epoch": 0.5825242718446602,
	"grad_norm": 11.322343826293945,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 6.1832,
	"step": 15
	},
	{
	"epoch": 0.6213592233009708,
	"grad_norm": 10.584484100341797,
	"learning_rate": 3e-06,
	"loss": 6.0051,
	"step": 16
	},
	{
	"epoch": 0.6601941747572816,
	"grad_norm": 10.82979965209961,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 5.9786,
	"step": 17
	},
	{
	"epoch": 0.6990291262135923,
	"grad_norm": 10.112428665161133,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 5.9778,
	"step": 18
	},
	{
	"epoch": 0.7378640776699029,
	"grad_norm": 9.44952392578125,
	"learning_rate": 3.6e-06,
	"loss": 5.9459,
	"step": 19
	},
	{
	"epoch": 0.7766990291262136,
	"grad_norm": 9.057659149169922,
	"learning_rate": 3.8e-06,
	"loss": 6.0317,
	"step": 20
	},
	{
	"epoch": 0.8155339805825242,
	"grad_norm": 9.000926971435547,
	"learning_rate": 4.000000000000001e-06,
	"loss": 5.9749,
	"step": 21
	},
	{
	"epoch": 0.8543689320388349,
	"grad_norm": 7.747213840484619,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 5.8036,
	"step": 22
	},
	{
	"epoch": 0.8932038834951457,
	"grad_norm": 6.968072891235352,
	"learning_rate": 4.4e-06,
	"loss": 5.7705,
	"step": 23
	},
	{
	"epoch": 0.9320388349514563,
	"grad_norm": 7.167684555053711,
	"learning_rate": 4.6e-06,
	"loss": 5.7804,
	"step": 24
	},
	{
	"epoch": 0.970873786407767,
	"grad_norm": 6.384294033050537,
	"learning_rate": 4.800000000000001e-06,
	"loss": 5.6137,
	"step": 25
	},
	{
	"epoch": 0.970873786407767,
	"eval_loss": 5.6718363761901855,
	"eval_runtime": 2.435,
	"eval_samples_per_second": 9.035,
	"eval_steps_per_second": 2.464,
	"step": 25
	},
	{
	"epoch": 1.0388349514563107,
	"grad_norm": 12.656047821044922,
	"learning_rate": 5e-06,
	"loss": 11.4741,
	"step": 26
	},
	{
	"epoch": 1.0776699029126213,
	"grad_norm": 6.408062934875488,
	"learning_rate": 5.2e-06,
	"loss": 5.7835,
	"step": 27
	},
	{
	"epoch": 1.116504854368932,
	"grad_norm": 6.457642078399658,
	"learning_rate": 5.4e-06,
	"loss": 5.7659,
	"step": 28
	},
	{
	"epoch": 1.1553398058252426,
	"grad_norm": 6.716769218444824,
	"learning_rate": 5.600000000000001e-06,
	"loss": 5.6133,
	"step": 29
	},
	{
	"epoch": 1.1941747572815533,
	"grad_norm": 5.562079906463623,
	"learning_rate": 5.8e-06,
	"loss": 5.6588,
	"step": 30
	},
	{
	"epoch": 1.233009708737864,
	"grad_norm": 5.209117412567139,
	"learning_rate": 6e-06,
	"loss": 5.6118,
	"step": 31
	},
	{
	"epoch": 1.2718446601941746,
	"grad_norm": 5.505391597747803,
	"learning_rate": 6.2e-06,
	"loss": 5.6468,
	"step": 32
	},
	{
	"epoch": 1.3106796116504853,
	"grad_norm": 4.989831924438477,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 5.5483,
	"step": 33
	},
	{
	"epoch": 1.3495145631067962,
	"grad_norm": 5.000854015350342,
	"learning_rate": 6.6e-06,
	"loss": 5.4522,
	"step": 34
	},
	{
	"epoch": 1.3883495145631068,
	"grad_norm": 4.343570232391357,
	"learning_rate": 6.800000000000001e-06,
	"loss": 5.3562,
	"step": 35
	},
	{
	"epoch": 1.4271844660194175,
	"grad_norm": 4.40326452255249,
	"learning_rate": 7.000000000000001e-06,
	"loss": 5.4561,
	"step": 36
	},
	{
	"epoch": 1.4660194174757282,
	"grad_norm": 4.1591901779174805,
	"learning_rate": 7.2e-06,
	"loss": 5.3806,
	"step": 37
	},
	{
	"epoch": 1.5048543689320388,
	"grad_norm": 4.1347246170043945,
	"learning_rate": 7.4e-06,
	"loss": 5.419,
	"step": 38
	},
	{
	"epoch": 1.5436893203883495,
	"grad_norm": 4.123111248016357,
	"learning_rate": 7.6e-06,
	"loss": 5.2831,
	"step": 39
	},
	{
	"epoch": 1.5825242718446602,
	"grad_norm": 4.009028911590576,
	"learning_rate": 7.8e-06,
	"loss": 5.332,
	"step": 40
	},
	{
	"epoch": 1.6213592233009708,
	"grad_norm": 4.013438701629639,
	"learning_rate": 8.000000000000001e-06,
	"loss": 5.2177,
	"step": 41
	},
	{
	"epoch": 1.6601941747572817,
	"grad_norm": 3.698003053665161,
	"learning_rate": 8.200000000000001e-06,
	"loss": 5.3019,
	"step": 42
	},
	{
	"epoch": 1.6990291262135924,
	"grad_norm": 3.66217041015625,
	"learning_rate": 8.400000000000001e-06,
	"loss": 5.1967,
	"step": 43
	},
	{
	"epoch": 1.737864077669903,
	"grad_norm": 3.455019235610962,
	"learning_rate": 8.599999999999999e-06,
	"loss": 5.1573,
	"step": 44
	},
	{
	"epoch": 1.7766990291262137,
	"grad_norm": 3.5593278408050537,
	"learning_rate": 8.8e-06,
	"loss": 5.1463,
	"step": 45
	},
	{
	"epoch": 1.8155339805825244,
	"grad_norm": 3.332477331161499,
	"learning_rate": 9e-06,
	"loss": 5.1732,
	"step": 46
	},
	{
	"epoch": 1.854368932038835,
	"grad_norm": 3.2428054809570312,
	"learning_rate": 9.2e-06,
	"loss": 5.0962,
	"step": 47
	},
	{
	"epoch": 1.8932038834951457,
	"grad_norm": 3.339063882827759,
	"learning_rate": 9.4e-06,
	"loss": 5.0253,
	"step": 48
	},
	{
	"epoch": 1.9320388349514563,
	"grad_norm": 3.4746124744415283,
	"learning_rate": 9.600000000000001e-06,
	"loss": 5.1363,
	"step": 49
	},
	{
	"epoch": 1.970873786407767,
	"grad_norm": 3.371466875076294,
	"learning_rate": 9.800000000000001e-06,
	"loss": 5.1445,
	"step": 50
	},
	{
	"epoch": 1.970873786407767,
	"eval_loss": 5.052736282348633,
	"eval_runtime": 0.9737,
	"eval_samples_per_second": 22.593,
	"eval_steps_per_second": 6.162,
	"step": 50
	},
	{
	"epoch": 2.0388349514563107,
	"grad_norm": 5.6498637199401855,
	"learning_rate": 1e-05,
	"loss": 10.112,
	"step": 51
	},
	{
	"epoch": 2.0776699029126213,
	"grad_norm": 3.1301138401031494,
	"learning_rate": 1.02e-05,
	"loss": 5.1063,
	"step": 52
	},
	{
	"epoch": 2.116504854368932,
	"grad_norm": 3.452958345413208,
	"learning_rate": 1.04e-05,
	"loss": 5.0082,
	"step": 53
	},
	{
	"epoch": 2.1553398058252426,
	"grad_norm": 3.1977169513702393,
	"learning_rate": 1.06e-05,
	"loss": 4.9698,
	"step": 54
	},
	{
	"epoch": 2.1941747572815533,
	"grad_norm": 2.6776535511016846,
	"learning_rate": 1.08e-05,
	"loss": 4.9449,
	"step": 55
	},
	{
	"epoch": 2.233009708737864,
	"grad_norm": 3.5574913024902344,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 5.0442,
	"step": 56
	},
	{
	"epoch": 2.2718446601941746,
	"grad_norm": 2.867915391921997,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 4.8769,
	"step": 57
	},
	{
	"epoch": 2.3106796116504853,
	"grad_norm": 2.764223098754883,
	"learning_rate": 1.1400000000000001e-05,
	"loss": 4.9286,
	"step": 58
	},
	{
	"epoch": 2.349514563106796,
	"grad_norm": 3.816723585128784,
	"learning_rate": 1.16e-05,
	"loss": 4.8921,
	"step": 59
	},
	{
	"epoch": 2.3883495145631066,
	"grad_norm": 3.161980152130127,
	"learning_rate": 1.18e-05,
	"loss": 4.916,
	"step": 60
	},
	{
	"epoch": 2.4271844660194173,
	"grad_norm": 2.8373942375183105,
	"learning_rate": 1.2e-05,
	"loss": 4.8942,
	"step": 61
	},
	{
	"epoch": 2.466019417475728,
	"grad_norm": 2.8898000717163086,
	"learning_rate": 1.22e-05,
	"loss": 4.8206,
	"step": 62
	},
	{
	"epoch": 2.5048543689320386,
	"grad_norm": 2.726362943649292,
	"learning_rate": 1.24e-05,
	"loss": 4.846,
	"step": 63
	},
	{
	"epoch": 2.5436893203883493,
	"grad_norm": 2.73665714263916,
	"learning_rate": 1.2600000000000001e-05,
	"loss": 4.8375,
	"step": 64
	},
	{
	"epoch": 2.58252427184466,
	"grad_norm": 3.1228106021881104,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 4.7526,
	"step": 65
	},
	{
	"epoch": 2.6213592233009706,
	"grad_norm": 2.9702351093292236,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 4.8024,
	"step": 66
	},
	{
	"epoch": 2.6601941747572817,
	"grad_norm": 3.0533952713012695,
	"learning_rate": 1.32e-05,
	"loss": 4.7883,
	"step": 67
	},
	{
	"epoch": 2.6990291262135924,
	"grad_norm": 3.1949095726013184,
	"learning_rate": 1.3400000000000002e-05,
	"loss": 4.8197,
	"step": 68
	},
	{
	"epoch": 2.737864077669903,
	"grad_norm": 3.399998426437378,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 4.6677,
	"step": 69
	},
	{
	"epoch": 2.7766990291262137,
	"grad_norm": 2.80118465423584,
	"learning_rate": 1.3800000000000002e-05,
	"loss": 4.6291,
	"step": 70
	},
	{
	"epoch": 2.8155339805825244,
	"grad_norm": 2.8477330207824707,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 4.7767,
	"step": 71
	},
	{
	"epoch": 2.854368932038835,
	"grad_norm": 2.6895911693573,
	"learning_rate": 1.42e-05,
	"loss": 4.7057,
	"step": 72
	},
	{
	"epoch": 2.8932038834951457,
	"grad_norm": 2.914586067199707,
	"learning_rate": 1.44e-05,
	"loss": 4.6386,
	"step": 73
	},
	{
	"epoch": 2.9320388349514563,
	"grad_norm": 2.6184370517730713,
	"learning_rate": 1.4599999999999999e-05,
	"loss": 4.6679,
	"step": 74
	},
	{
	"epoch": 2.970873786407767,
	"grad_norm": 3.00891375541687,
	"learning_rate": 1.48e-05,
	"loss": 4.6319,
	"step": 75
	},
	{
	"epoch": 2.970873786407767,
	"eval_loss": 4.614713668823242,
	"eval_runtime": 0.9702,
	"eval_samples_per_second": 22.675,
	"eval_steps_per_second": 6.184,
	"step": 75
	},
	{
	"epoch": 3.0388349514563107,
	"grad_norm": 5.222214221954346,
	"learning_rate": 1.5e-05,
	"loss": 9.2212,
	"step": 76
	},
	{
	"epoch": 3.0776699029126213,
	"grad_norm": 2.716062307357788,
	"learning_rate": 1.52e-05,
	"loss": 4.6294,
	"step": 77
	},
	{
	"epoch": 3.116504854368932,
	"grad_norm": 2.503143548965454,
	"learning_rate": 1.54e-05,
	"loss": 4.5572,
	"step": 78
	},
	{
	"epoch": 3.1553398058252426,
	"grad_norm": 2.9183573722839355,
	"learning_rate": 1.56e-05,
	"loss": 4.453,
	"step": 79
	},
	{
	"epoch": 3.1941747572815533,
	"grad_norm": 2.7854349613189697,
	"learning_rate": 1.58e-05,
	"loss": 4.5746,
	"step": 80
	},
	{
	"epoch": 3.233009708737864,
	"grad_norm": 2.8391106128692627,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 4.5228,
	"step": 81
	},
	{
	"epoch": 3.2718446601941746,
	"grad_norm": 2.5229265689849854,
	"learning_rate": 1.62e-05,
	"loss": 4.4692,
	"step": 82
	},
	{
	"epoch": 3.3106796116504853,
	"grad_norm": 2.643170118331909,
	"learning_rate": 1.6400000000000002e-05,
	"loss": 4.498,
	"step": 83
	},
	{
	"epoch": 3.349514563106796,
	"grad_norm": 2.542393922805786,
	"learning_rate": 1.66e-05,
	"loss": 4.4816,
	"step": 84
	},
	{
	"epoch": 3.3883495145631066,
	"grad_norm": 2.563282012939453,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 4.4824,
	"step": 85
	},
	{
	"epoch": 3.4271844660194173,
	"grad_norm": 2.698516368865967,
	"learning_rate": 1.7000000000000003e-05,
	"loss": 4.4717,
	"step": 86
	},
	{
	"epoch": 3.466019417475728,
	"grad_norm": 2.936776638031006,
	"learning_rate": 1.7199999999999998e-05,
	"loss": 4.346,
	"step": 87
	},
	{
	"epoch": 3.5048543689320386,
	"grad_norm": 2.9594175815582275,
	"learning_rate": 1.74e-05,
	"loss": 4.3689,
	"step": 88
	},
	{
	"epoch": 3.5436893203883493,
	"grad_norm": 3.02431583404541,
	"learning_rate": 1.76e-05,
	"loss": 4.3922,
	"step": 89
	},
	{
	"epoch": 3.58252427184466,
	"grad_norm": 3.238933563232422,
	"learning_rate": 1.78e-05,
	"loss": 4.4046,
	"step": 90
	},
	{
	"epoch": 3.6213592233009706,
	"grad_norm": 3.368084192276001,
	"learning_rate": 1.8e-05,
	"loss": 4.3768,
	"step": 91
	},
	{
	"epoch": 3.6601941747572817,
	"grad_norm": 3.8072586059570312,
	"learning_rate": 1.8200000000000002e-05,
	"loss": 4.3188,
	"step": 92
	},
	{
	"epoch": 3.6990291262135924,
	"grad_norm": 3.2370452880859375,
	"learning_rate": 1.84e-05,
	"loss": 4.3368,
	"step": 93
	},
	{
	"epoch": 3.737864077669903,
	"grad_norm": 3.302961826324463,
	"learning_rate": 1.86e-05,
	"loss": 4.3339,
	"step": 94
	},
	{
	"epoch": 3.7766990291262137,
	"grad_norm": 3.5947256088256836,
	"learning_rate": 1.88e-05,
	"loss": 4.2763,
	"step": 95
	},
	{
	"epoch": 3.8155339805825244,
	"grad_norm": 2.955308437347412,
	"learning_rate": 1.9e-05,
	"loss": 4.3941,
	"step": 96
	},
	{
	"epoch": 3.854368932038835,
	"grad_norm": 3.303628444671631,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 4.2748,
	"step": 97
	},
	{
	"epoch": 3.8932038834951457,
	"grad_norm": 2.7507269382476807,
	"learning_rate": 1.94e-05,
	"loss": 4.2881,
	"step": 98
	},
	{
	"epoch": 3.9320388349514563,
	"grad_norm": 2.6451849937438965,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 4.3818,
	"step": 99
	},
	{
	"epoch": 3.970873786407767,
	"grad_norm": 4.112302780151367,
	"learning_rate": 1.9800000000000004e-05,
	"loss": 4.2882,
	"step": 100
	},
	{
	"epoch": 3.970873786407767,
	"eval_loss": 4.266085624694824,
	"eval_runtime": 1.036,
	"eval_samples_per_second": 21.235,
	"eval_steps_per_second": 5.791,
	"step": 100
	},
	{
	"epoch": 4.038834951456311,
	"grad_norm": 5.2990498542785645,
	"learning_rate": 2e-05,
	"loss": 8.631,
	"step": 101
	},
	{
	"epoch": 4.077669902912621,
	"grad_norm": 3.757814407348633,
	"learning_rate": 2.0200000000000003e-05,
	"loss": 4.2183,
	"step": 102
	},
	{
	"epoch": 4.116504854368932,
	"grad_norm": 2.905704975128174,
	"learning_rate": 2.04e-05,
	"loss": 4.1782,
	"step": 103
	},
	{
	"epoch": 4.155339805825243,
	"grad_norm": 3.7264492511749268,
	"learning_rate": 2.06e-05,
	"loss": 4.2959,
	"step": 104
	},
	{
	"epoch": 4.194174757281553,
	"grad_norm": 3.9989054203033447,
	"learning_rate": 2.08e-05,
	"loss": 4.1876,
	"step": 105
	},
	{
	"epoch": 4.233009708737864,
	"grad_norm": 2.978239059448242,
	"learning_rate": 2.1e-05,
	"loss": 4.1484,
	"step": 106
	},
	{
	"epoch": 4.271844660194175,
	"grad_norm": 3.223487138748169,
	"learning_rate": 2.12e-05,
	"loss": 4.1501,
	"step": 107
	},
	{
	"epoch": 4.310679611650485,
	"grad_norm": 3.035008668899536,
	"learning_rate": 2.1400000000000002e-05,
	"loss": 4.1316,
	"step": 108
	},
	{
	"epoch": 4.349514563106796,
	"grad_norm": 2.878307819366455,
	"learning_rate": 2.16e-05,
	"loss": 4.1824,
	"step": 109
	},
	{
	"epoch": 4.388349514563107,
	"grad_norm": 3.095815420150757,
	"learning_rate": 2.18e-05,
	"loss": 4.1726,
	"step": 110
	},
	{
	"epoch": 4.427184466019417,
	"grad_norm": 3.0754470825195312,
	"learning_rate": 2.2000000000000003e-05,
	"loss": 3.9618,
	"step": 111
	},
	{
	"epoch": 4.466019417475728,
	"grad_norm": 3.4234559535980225,
	"learning_rate": 2.22e-05,
	"loss": 4.0646,
	"step": 112
	},
	{
	"epoch": 4.504854368932039,
	"grad_norm": 3.2128183841705322,
	"learning_rate": 2.2400000000000002e-05,
	"loss": 4.0639,
	"step": 113
	},
	{
	"epoch": 4.543689320388349,
	"grad_norm": 2.9789934158325195,
	"learning_rate": 2.26e-05,
	"loss": 4.1373,
	"step": 114
	},
	{
	"epoch": 4.58252427184466,
	"grad_norm": 2.5928032398223877,
	"learning_rate": 2.2800000000000002e-05,
	"loss": 3.9855,
	"step": 115
	},
	{
	"epoch": 4.621359223300971,
	"grad_norm": 3.082489252090454,
	"learning_rate": 2.3000000000000003e-05,
	"loss": 4.1163,
	"step": 116
	},
	{
	"epoch": 4.660194174757281,
	"grad_norm": 3.028413772583008,
	"learning_rate": 2.32e-05,
	"loss": 4.0571,
	"step": 117
	},
	{
	"epoch": 4.699029126213592,
	"grad_norm": 2.8744428157806396,
	"learning_rate": 2.3400000000000003e-05,
	"loss": 4.027,
	"step": 118
	},
	{
	"epoch": 4.737864077669903,
	"grad_norm": 2.866056442260742,
	"learning_rate": 2.36e-05,
	"loss": 4.0299,
	"step": 119
	},
	{
	"epoch": 4.776699029126213,
	"grad_norm": 2.75072979927063,
	"learning_rate": 2.38e-05,
	"loss": 3.993,
	"step": 120
	},
	{
	"epoch": 4.815533980582524,
	"grad_norm": 2.8751604557037354,
	"learning_rate": 2.4e-05,
	"loss": 3.9961,
	"step": 121
	},
	{
	"epoch": 4.854368932038835,
	"grad_norm": 2.5905075073242188,
	"learning_rate": 2.4200000000000002e-05,
	"loss": 3.9582,
	"step": 122
	},
	{
	"epoch": 4.893203883495145,
	"grad_norm": 3.143044948577881,
	"learning_rate": 2.44e-05,
	"loss": 3.9464,
	"step": 123
	},
	{
	"epoch": 4.932038834951456,
	"grad_norm": 2.6397016048431396,
	"learning_rate": 2.46e-05,
	"loss": 4.0075,
	"step": 124
	},
	{
	"epoch": 4.970873786407767,
	"grad_norm": 3.2383229732513428,
	"learning_rate": 2.48e-05,
	"loss": 3.9822,
	"step": 125
	},
	{
	"epoch": 4.970873786407767,
	"eval_loss": 3.980665445327759,
	"eval_runtime": 1.0248,
	"eval_samples_per_second": 21.467,
	"eval_steps_per_second": 5.855,
	"step": 125
	},
	{
	"epoch": 5.038834951456311,
	"grad_norm": 5.962584495544434,
	"learning_rate": 2.5e-05,
	"loss": 7.7604,
	"step": 126
	},
	{
	"epoch": 5.077669902912621,
	"grad_norm": 3.243708610534668,
	"learning_rate": 2.5200000000000003e-05,
	"loss": 3.9438,
	"step": 127
	},
	{
	"epoch": 5.116504854368932,
	"grad_norm": 2.763148307800293,
	"learning_rate": 2.54e-05,
	"loss": 3.8661,
	"step": 128
	},
	{
	"epoch": 5.155339805825243,
	"grad_norm": 2.6233339309692383,
	"learning_rate": 2.5600000000000002e-05,
	"loss": 3.9006,
	"step": 129
	},
	{
	"epoch": 5.194174757281553,
	"grad_norm": 3.1037437915802,
	"learning_rate": 2.58e-05,
	"loss": 3.9066,
	"step": 130
	},
	{
	"epoch": 5.233009708737864,
	"grad_norm": 3.3434383869171143,
	"learning_rate": 2.6000000000000002e-05,
	"loss": 3.8425,
	"step": 131
	},
	{
	"epoch": 5.271844660194175,
	"grad_norm": 3.0016958713531494,
	"learning_rate": 2.6200000000000003e-05,
	"loss": 3.8723,
	"step": 132
	},
	{
	"epoch": 5.310679611650485,
	"grad_norm": 3.2040951251983643,
	"learning_rate": 2.64e-05,
	"loss": 3.8326,
	"step": 133
	},
	{
	"epoch": 5.349514563106796,
	"grad_norm": 3.892890453338623,
	"learning_rate": 2.6600000000000003e-05,
	"loss": 3.9277,
	"step": 134
	},
	{
	"epoch": 5.388349514563107,
	"grad_norm": 3.3505635261535645,
	"learning_rate": 2.6800000000000004e-05,
	"loss": 3.7381,
	"step": 135
	},
	{
	"epoch": 5.427184466019417,
	"grad_norm": 3.60493803024292,
	"learning_rate": 2.7000000000000002e-05,
	"loss": 3.9003,
	"step": 136
	},
	{
	"epoch": 5.466019417475728,
	"grad_norm": 3.3468196392059326,
	"learning_rate": 2.7200000000000004e-05,
	"loss": 3.829,
	"step": 137
	},
	{
	"epoch": 5.504854368932039,
	"grad_norm": 2.7208919525146484,
	"learning_rate": 2.7400000000000002e-05,
	"loss": 3.7987,
	"step": 138
	},
	{
	"epoch": 5.543689320388349,
	"grad_norm": 4.0348920822143555,
	"learning_rate": 2.7600000000000003e-05,
	"loss": 3.8318,
	"step": 139
	},
	{
	"epoch": 5.58252427184466,
	"grad_norm": 3.560403347015381,
	"learning_rate": 2.7800000000000005e-05,
	"loss": 3.763,
	"step": 140
	},
	{
	"epoch": 5.621359223300971,
	"grad_norm": 3.262423515319824,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 3.7441,
	"step": 141
	},
	{
	"epoch": 5.660194174757281,
	"grad_norm": 2.7930023670196533,
	"learning_rate": 2.8199999999999998e-05,
	"loss": 3.7323,
	"step": 142
	},
	{
	"epoch": 5.699029126213592,
	"grad_norm": 2.5322391986846924,
	"learning_rate": 2.84e-05,
	"loss": 3.6681,
	"step": 143
	},
	{
	"epoch": 5.737864077669903,
	"grad_norm": 4.258012294769287,
	"learning_rate": 2.86e-05,
	"loss": 3.7049,
	"step": 144
	},
	{
	"epoch": 5.776699029126213,
	"grad_norm": 3.0756101608276367,
	"learning_rate": 2.88e-05,
	"loss": 3.7184,
	"step": 145
	},
	{
	"epoch": 5.815533980582524,
	"grad_norm": 3.0040361881256104,
	"learning_rate": 2.9e-05,
	"loss": 3.6077,
	"step": 146
	},
	{
	"epoch": 5.854368932038835,
	"grad_norm": 4.292761325836182,
	"learning_rate": 2.9199999999999998e-05,
	"loss": 3.7214,
	"step": 147
	},
	{
	"epoch": 5.893203883495145,
	"grad_norm": 2.876159906387329,
	"learning_rate": 2.94e-05,
	"loss": 3.6643,
	"step": 148
	},
	{
	"epoch": 5.932038834951456,
	"grad_norm": 3.1686434745788574,
	"learning_rate": 2.96e-05,
	"loss": 3.68,
	"step": 149
	},
	{
	"epoch": 5.970873786407767,
	"grad_norm": 3.1515626907348633,
	"learning_rate": 2.98e-05,
	"loss": 3.6581,
	"step": 150
	},
	{
	"epoch": 5.970873786407767,
	"eval_loss": 3.7385447025299072,
	"eval_runtime": 1.0393,
	"eval_samples_per_second": 21.169,
	"eval_steps_per_second": 5.773,
	"step": 150
	},
	{
	"epoch": 6.038834951456311,
	"grad_norm": 6.013641834259033,
	"learning_rate": 3e-05,
	"loss": 7.2601,
	"step": 151
	},
	{
	"epoch": 6.077669902912621,
	"grad_norm": 3.0433292388916016,
	"learning_rate": 3.02e-05,
	"loss": 3.626,
	"step": 152
	},
	{
	"epoch": 6.116504854368932,
	"grad_norm": 2.9623515605926514,
	"learning_rate": 3.04e-05,
	"loss": 3.5856,
	"step": 153
	},
	{
	"epoch": 6.155339805825243,
	"grad_norm": 3.333615779876709,
	"learning_rate": 3.06e-05,
	"loss": 3.6268,
	"step": 154
	},
	{
	"epoch": 6.194174757281553,
	"grad_norm": 3.0843307971954346,
	"learning_rate": 3.08e-05,
	"loss": 3.5651,
	"step": 155
	},
	{
	"epoch": 6.233009708737864,
	"grad_norm": 2.859063148498535,
	"learning_rate": 3.1e-05,
	"loss": 3.5464,
	"step": 156
	},
	{
	"epoch": 6.271844660194175,
	"grad_norm": 2.92948842048645,
	"learning_rate": 3.12e-05,
	"loss": 3.6385,
	"step": 157
	},
	{
	"epoch": 6.310679611650485,
	"grad_norm": 3.552112340927124,
	"learning_rate": 3.1400000000000004e-05,
	"loss": 3.5479,
	"step": 158
	},
	{
	"epoch": 6.349514563106796,
	"grad_norm": 2.9934771060943604,
	"learning_rate": 3.16e-05,
	"loss": 3.5697,
	"step": 159
	},
	{
	"epoch": 6.388349514563107,
	"grad_norm": 2.595054864883423,
	"learning_rate": 3.18e-05,
	"loss": 3.4817,
	"step": 160
	},
	{
	"epoch": 6.427184466019417,
	"grad_norm": 3.077573537826538,
	"learning_rate": 3.2000000000000005e-05,
	"loss": 3.5286,
	"step": 161
	},
	{
	"epoch": 6.466019417475728,
	"grad_norm": 2.5149052143096924,
	"learning_rate": 3.2200000000000003e-05,
	"loss": 3.6065,
	"step": 162
	},
	{
	"epoch": 6.504854368932039,
	"grad_norm": 2.6401753425598145,
	"learning_rate": 3.24e-05,
	"loss": 3.4707,
	"step": 163
	},
	{
	"epoch": 6.543689320388349,
	"grad_norm": 2.725781202316284,
	"learning_rate": 3.26e-05,
	"loss": 3.5645,
	"step": 164
	},
	{
	"epoch": 6.58252427184466,
	"grad_norm": 2.7084786891937256,
	"learning_rate": 3.2800000000000004e-05,
	"loss": 3.5482,
	"step": 165
	},
	{
	"epoch": 6.621359223300971,
	"grad_norm": 2.6076486110687256,
	"learning_rate": 3.3e-05,
	"loss": 3.4842,
	"step": 166
	},
	{
	"epoch": 6.660194174757281,
	"grad_norm": 3.0237390995025635,
	"learning_rate": 3.32e-05,
	"loss": 3.5313,
	"step": 167
	},
	{
	"epoch": 6.699029126213592,
	"grad_norm": 2.807459831237793,
	"learning_rate": 3.3400000000000005e-05,
	"loss": 3.5354,
	"step": 168
	},
	{
	"epoch": 6.737864077669903,
	"grad_norm": 3.13301420211792,
	"learning_rate": 3.3600000000000004e-05,
	"loss": 3.4923,
	"step": 169
	},
	{
	"epoch": 6.776699029126213,
	"grad_norm": 2.5862674713134766,
	"learning_rate": 3.38e-05,
	"loss": 3.5315,
	"step": 170
	},
	{
	"epoch": 6.815533980582524,
	"grad_norm": 3.192603588104248,
	"learning_rate": 3.4000000000000007e-05,
	"loss": 3.4937,
	"step": 171
	},
	{
	"epoch": 6.854368932038835,
	"grad_norm": 2.440667152404785,
	"learning_rate": 3.4200000000000005e-05,
	"loss": 3.4632,
	"step": 172
	},
	{
	"epoch": 6.893203883495145,
	"grad_norm": 3.0425989627838135,
	"learning_rate": 3.4399999999999996e-05,
	"loss": 3.4456,
	"step": 173
	},
	{
	"epoch": 6.932038834951456,
	"grad_norm": 3.369929313659668,
	"learning_rate": 3.46e-05,
	"loss": 3.4061,
	"step": 174
	},
	{
	"epoch": 6.970873786407767,
	"grad_norm": 2.883514165878296,
	"learning_rate": 3.48e-05,
	"loss": 3.4312,
	"step": 175
	},
	{
	"epoch": 6.970873786407767,
	"eval_loss": 3.5276877880096436,
	"eval_runtime": 0.9695,
	"eval_samples_per_second": 22.692,
	"eval_steps_per_second": 6.189,
	"step": 175
	},
	{
	"epoch": 7.038834951456311,
	"grad_norm": 5.757262706756592,
	"learning_rate": 3.5e-05,
	"loss": 6.8588,
	"step": 176
	},
	{
	"epoch": 7.077669902912621,
	"grad_norm": 2.7623355388641357,
	"learning_rate": 3.52e-05,
	"loss": 3.389,
	"step": 177
	},
	{
	"epoch": 7.116504854368932,
	"grad_norm": 3.601408004760742,
	"learning_rate": 3.54e-05,
	"loss": 3.4136,
	"step": 178
	},
	{
	"epoch": 7.155339805825243,
	"grad_norm": 2.4193849563598633,
	"learning_rate": 3.56e-05,
	"loss": 3.3387,
	"step": 179
	},
	{
	"epoch": 7.194174757281553,
	"grad_norm": 3.1988773345947266,
	"learning_rate": 3.58e-05,
	"loss": 3.3565,
	"step": 180
	},
	{
	"epoch": 7.233009708737864,
	"grad_norm": 3.6124112606048584,
	"learning_rate": 3.6e-05,
	"loss": 3.3662,
	"step": 181
	},
	{
	"epoch": 7.271844660194175,
	"grad_norm": 2.836766242980957,
	"learning_rate": 3.62e-05,
	"loss": 3.2874,
	"step": 182
	},
	{
	"epoch": 7.310679611650485,
	"grad_norm": 3.2610206604003906,
	"learning_rate": 3.6400000000000004e-05,
	"loss": 3.2984,
	"step": 183
	},
	{
	"epoch": 7.349514563106796,
	"grad_norm": 2.8655757904052734,
	"learning_rate": 3.66e-05,
	"loss": 3.2584,
	"step": 184
	},
	{
	"epoch": 7.388349514563107,
	"grad_norm": 3.4718809127807617,
	"learning_rate": 3.68e-05,
	"loss": 3.2489,
	"step": 185
	},
	{
	"epoch": 7.427184466019417,
	"grad_norm": 3.2131571769714355,
	"learning_rate": 3.7e-05,
	"loss": 3.3321,
	"step": 186
	},
	{
	"epoch": 7.466019417475728,
	"grad_norm": 3.1714115142822266,
	"learning_rate": 3.72e-05,
	"loss": 3.3489,
	"step": 187
	},
	{
	"epoch": 7.504854368932039,
	"grad_norm": 2.877065658569336,
	"learning_rate": 3.74e-05,
	"loss": 3.245,
	"step": 188
	},
	{
	"epoch": 7.543689320388349,
	"grad_norm": 3.1105806827545166,
	"learning_rate": 3.76e-05,
	"loss": 3.272,
	"step": 189
	},
	{
	"epoch": 7.58252427184466,
	"grad_norm": 3.5332155227661133,
	"learning_rate": 3.7800000000000004e-05,
	"loss": 3.3132,
	"step": 190
	},
	{
	"epoch": 7.621359223300971,
	"grad_norm": 2.8226609230041504,
	"learning_rate": 3.8e-05,
	"loss": 3.2721,
	"step": 191
	},
	{
	"epoch": 7.660194174757281,
	"grad_norm": 2.5367422103881836,
	"learning_rate": 3.82e-05,
	"loss": 3.3234,
	"step": 192
	},
	{
	"epoch": 7.699029126213592,
	"grad_norm": 2.9826626777648926,
	"learning_rate": 3.8400000000000005e-05,
	"loss": 3.2643,
	"step": 193
	},
	{
	"epoch": 7.737864077669903,
	"grad_norm": 3.456496477127075,
	"learning_rate": 3.86e-05,
	"loss": 3.2105,
	"step": 194
	},
	{
	"epoch": 7.776699029126213,
	"grad_norm": 3.286680221557617,
	"learning_rate": 3.88e-05,
	"loss": 3.2156,
	"step": 195
	},
	{
	"epoch": 7.815533980582524,
	"grad_norm": 2.996983528137207,
	"learning_rate": 3.9000000000000006e-05,
	"loss": 3.3637,
	"step": 196
	},
	{
	"epoch": 7.854368932038835,
	"grad_norm": 3.129873037338257,
	"learning_rate": 3.9200000000000004e-05,
	"loss": 3.2444,
	"step": 197
	},
	{
	"epoch": 7.893203883495145,
	"grad_norm": 2.591716766357422,
	"learning_rate": 3.94e-05,
	"loss": 3.2831,
	"step": 198
	},
	{
	"epoch": 7.932038834951456,
	"grad_norm": 2.664017677307129,
	"learning_rate": 3.960000000000001e-05,
	"loss": 3.1692,
	"step": 199
	},
	{
	"epoch": 7.970873786407767,
	"grad_norm": 2.8941309452056885,
	"learning_rate": 3.9800000000000005e-05,
	"loss": 3.2986,
	"step": 200
	},
	{
	"epoch": 7.970873786407767,
	"eval_loss": 3.3523428440093994,
	"eval_runtime": 0.9896,
	"eval_samples_per_second": 22.23,
	"eval_steps_per_second": 6.063,
	"step": 200
	},
	{
	"epoch": 8.03883495145631,
	"grad_norm": 6.677456378936768,
	"learning_rate": 4e-05,
	"loss": 6.5052,
	"step": 201
	},
	{
	"epoch": 8.077669902912621,
	"grad_norm": 3.38222599029541,
	"learning_rate": 4.02e-05,
	"loss": 3.1682,
	"step": 202
	},
	{
	"epoch": 8.116504854368932,
	"grad_norm": 2.9144835472106934,
	"learning_rate": 4.0400000000000006e-05,
	"loss": 3.1505,
	"step": 203
	},
	{
	"epoch": 8.155339805825243,
	"grad_norm": 2.837830066680908,
	"learning_rate": 4.0600000000000004e-05,
	"loss": 3.1576,
	"step": 204
	},
	{
	"epoch": 8.194174757281553,
	"grad_norm": 3.3070290088653564,
	"learning_rate": 4.08e-05,
	"loss": 3.1545,
	"step": 205
	},
	{
	"epoch": 8.233009708737864,
	"grad_norm": 2.6031386852264404,
	"learning_rate": 4.1e-05,
	"loss": 3.1598,
	"step": 206
	},
	{
	"epoch": 8.271844660194175,
	"grad_norm": 2.879425525665283,
	"learning_rate": 4.12e-05,
	"loss": 3.1222,
	"step": 207
	},
	{
	"epoch": 8.310679611650485,
	"grad_norm": 3.14932918548584,
	"learning_rate": 4.14e-05,
	"loss": 3.0743,
	"step": 208
	},
	{
	"epoch": 8.349514563106796,
	"grad_norm": 3.3993191719055176,
	"learning_rate": 4.16e-05,
	"loss": 3.1589,
	"step": 209
	},
	{
	"epoch": 8.388349514563107,
	"grad_norm": 3.2141942977905273,
	"learning_rate": 4.18e-05,
	"loss": 3.0428,
	"step": 210
	},
	{
	"epoch": 8.427184466019417,
	"grad_norm": 2.791717290878296,
	"learning_rate": 4.2e-05,
	"loss": 3.1158,
	"step": 211
	},
	{
	"epoch": 8.466019417475728,
	"grad_norm": 3.1668970584869385,
	"learning_rate": 4.22e-05,
	"loss": 3.0463,
	"step": 212
	},
	{
	"epoch": 8.504854368932039,
	"grad_norm": 2.4356696605682373,
	"learning_rate": 4.24e-05,
	"loss": 3.1434,
	"step": 213
	},
	{
	"epoch": 8.54368932038835,
	"grad_norm": 2.9241132736206055,
	"learning_rate": 4.26e-05,
	"loss": 3.0292,
	"step": 214
	},
	{
	"epoch": 8.58252427184466,
	"grad_norm": 2.4170773029327393,
	"learning_rate": 4.2800000000000004e-05,
	"loss": 3.0923,
	"step": 215
	},
	{
	"epoch": 8.62135922330097,
	"grad_norm": 2.4428963661193848,
	"learning_rate": 4.3e-05,
	"loss": 3.0588,
	"step": 216
	},
	{
	"epoch": 8.660194174757281,
	"grad_norm": 3.0066943168640137,
	"learning_rate": 4.32e-05,
	"loss": 3.0815,
	"step": 217
	},
	{
	"epoch": 8.699029126213592,
	"grad_norm": 3.0532405376434326,
	"learning_rate": 4.3400000000000005e-05,
	"loss": 3.1377,
	"step": 218
	},
	{
	"epoch": 8.737864077669903,
	"grad_norm": 2.9405910968780518,
	"learning_rate": 4.36e-05,
	"loss": 3.081,
	"step": 219
	},
	{
	"epoch": 8.776699029126213,
	"grad_norm": 2.82438325881958,
	"learning_rate": 4.38e-05,
	"loss": 3.0538,
	"step": 220
	},
	{
	"epoch": 8.815533980582524,
	"grad_norm": 2.899946928024292,
	"learning_rate": 4.4000000000000006e-05,
	"loss": 3.0664,
	"step": 221
	},
	{
	"epoch": 8.854368932038835,
	"grad_norm": 2.4132299423217773,
	"learning_rate": 4.4200000000000004e-05,
	"loss": 3.0723,
	"step": 222
	},
	{
	"epoch": 8.893203883495145,
	"grad_norm": 3.2833642959594727,
	"learning_rate": 4.44e-05,
	"loss": 3.0445,
	"step": 223
	},
	{
	"epoch": 8.932038834951456,
	"grad_norm": 2.60457706451416,
	"learning_rate": 4.46e-05,
	"loss": 3.0134,
	"step": 224
	},
	{
	"epoch": 8.970873786407767,
	"grad_norm": 2.7552649974823,
	"learning_rate": 4.4800000000000005e-05,
	"loss": 3.0772,
	"step": 225
	},
	{
	"epoch": 8.970873786407767,
	"eval_loss": 3.2081830501556396,
	"eval_runtime": 0.971,
	"eval_samples_per_second": 22.657,
	"eval_steps_per_second": 6.179,
	"step": 225
	},
	{
	"epoch": 9.03883495145631,
	"grad_norm": 6.834669589996338,
	"learning_rate": 4.5e-05,
	"loss": 6.0,
	"step": 226
	},
	{
	"epoch": 9.077669902912621,
	"grad_norm": 2.7431795597076416,
	"learning_rate": 4.52e-05,
	"loss": 2.8938,
	"step": 227
	},
	{
	"epoch": 9.116504854368932,
	"grad_norm": 3.5260982513427734,
	"learning_rate": 4.5400000000000006e-05,
	"loss": 2.955,
	"step": 228
	},
	{
	"epoch": 9.155339805825243,
	"grad_norm": 2.705111026763916,
	"learning_rate": 4.5600000000000004e-05,
	"loss": 2.9586,
	"step": 229
	},
	{
	"epoch": 9.194174757281553,
	"grad_norm": 3.2462103366851807,
	"learning_rate": 4.58e-05,
	"loss": 2.8973,
	"step": 230
	},
	{
	"epoch": 9.233009708737864,
	"grad_norm": 2.788363218307495,
	"learning_rate": 4.600000000000001e-05,
	"loss": 2.9328,
	"step": 231
	},
	{
	"epoch": 9.271844660194175,
	"grad_norm": 2.4145243167877197,
	"learning_rate": 4.6200000000000005e-05,
	"loss": 2.9653,
	"step": 232
	},
	{
	"epoch": 9.310679611650485,
	"grad_norm": 3.2271153926849365,
	"learning_rate": 4.64e-05,
	"loss": 2.922,
	"step": 233
	},
	{
	"epoch": 9.349514563106796,
	"grad_norm": 2.3625218868255615,
	"learning_rate": 4.660000000000001e-05,
	"loss": 3.0413,
	"step": 234
	},
	{
	"epoch": 9.388349514563107,
	"grad_norm": 3.17262864112854,
	"learning_rate": 4.6800000000000006e-05,
	"loss": 2.9962,
	"step": 235
	},
	{
	"epoch": 9.427184466019417,
	"grad_norm": 2.906003475189209,
	"learning_rate": 4.7e-05,
	"loss": 2.9422,
	"step": 236
	},
	{
	"epoch": 9.466019417475728,
	"grad_norm": 2.1498398780822754,
	"learning_rate": 4.72e-05,
	"loss": 2.9061,
	"step": 237
	},
	{
	"epoch": 9.504854368932039,
	"grad_norm": 2.9519286155700684,
	"learning_rate": 4.74e-05,
	"loss": 2.967,
	"step": 238
	},
	{
	"epoch": 9.54368932038835,
	"grad_norm": 2.561063528060913,
	"learning_rate": 4.76e-05,
	"loss": 2.9191,
	"step": 239
	},
	{
	"epoch": 9.58252427184466,
	"grad_norm": 3.8291261196136475,
	"learning_rate": 4.78e-05,
	"loss": 2.9071,
	"step": 240
	},
	{
	"epoch": 9.62135922330097,
	"grad_norm": 3.4280309677124023,
	"learning_rate": 4.8e-05,
	"loss": 2.9384,
	"step": 241
	},
	{
	"epoch": 9.660194174757281,
	"grad_norm": 3.460054397583008,
	"learning_rate": 4.82e-05,
	"loss": 2.9387,
	"step": 242
	},
	{
	"epoch": 9.699029126213592,
	"grad_norm": 3.3750805854797363,
	"learning_rate": 4.8400000000000004e-05,
	"loss": 2.9552,
	"step": 243
	},
	{
	"epoch": 9.737864077669903,
	"grad_norm": 2.6689562797546387,
	"learning_rate": 4.86e-05,
	"loss": 2.8809,
	"step": 244
	},
	{
	"epoch": 9.776699029126213,
	"grad_norm": 2.9314560890197754,
	"learning_rate": 4.88e-05,
	"loss": 2.7902,
	"step": 245
	},
	{
	"epoch": 9.815533980582524,
	"grad_norm": 2.630530595779419,
	"learning_rate": 4.9e-05,
	"loss": 2.8857,
	"step": 246
	},
	{
	"epoch": 9.854368932038835,
	"grad_norm": 2.546659231185913,
	"learning_rate": 4.92e-05,
	"loss": 2.8896,
	"step": 247
	},
	{
	"epoch": 9.893203883495145,
	"grad_norm": 2.795778751373291,
	"learning_rate": 4.94e-05,
	"loss": 2.9516,
	"step": 248
	},
	{
	"epoch": 9.932038834951456,
	"grad_norm": 3.0504794120788574,
	"learning_rate": 4.96e-05,
	"loss": 2.9132,
	"step": 249
	},
	{
	"epoch": 9.970873786407767,
	"grad_norm": 3.444287061691284,
	"learning_rate": 4.9800000000000004e-05,
	"loss": 2.973,
	"step": 250
	},
	{
	"epoch": 9.970873786407767,
	"eval_loss": 3.089428186416626,
	"eval_runtime": 0.9754,
	"eval_samples_per_second": 22.555,
	"eval_steps_per_second": 6.151,
	"step": 250
	},
	{
	"epoch": 10.03883495145631,
	"grad_norm": 5.480017185211182,
	"learning_rate": 5e-05,
	"loss": 5.6196,
	"step": 251
	},
	{
	"epoch": 10.077669902912621,
	"grad_norm": 3.3957669734954834,
	"learning_rate": 4.999997563061038e-05,
	"loss": 2.8152,
	"step": 252
	},
	{
	"epoch": 10.116504854368932,
	"grad_norm": 2.6747496128082275,
	"learning_rate": 4.9999902522489015e-05,
	"loss": 2.8624,
	"step": 253
	},
	{
	"epoch": 10.155339805825243,
	"grad_norm": 3.2186131477355957,
	"learning_rate": 4.999978067577844e-05,
	"loss": 2.7587,
	"step": 254
	},
	{
	"epoch": 10.194174757281553,
	"grad_norm": 3.7385358810424805,
	"learning_rate": 4.999961009071621e-05,
	"loss": 2.8117,
	"step": 255
	},
	{
	"epoch": 10.233009708737864,
	"grad_norm": 2.586005926132202,
	"learning_rate": 4.999939076763487e-05,
	"loss": 2.7617,
	"step": 256
	},
	{
	"epoch": 10.271844660194175,
	"grad_norm": 2.7468533515930176,
	"learning_rate": 4.999912270696202e-05,
	"loss": 2.802,
	"step": 257
	},
	{
	"epoch": 10.310679611650485,
	"grad_norm": 2.7268691062927246,
	"learning_rate": 4.999880590922025e-05,
	"loss": 2.7928,
	"step": 258
	},
	{
	"epoch": 10.349514563106796,
	"grad_norm": 2.6305949687957764,
	"learning_rate": 4.9998440375027166e-05,
	"loss": 2.8245,
	"step": 259
	},
	{
	"epoch": 10.388349514563107,
	"grad_norm": 2.8977084159851074,
	"learning_rate": 4.9998026105095405e-05,
	"loss": 2.7525,
	"step": 260
	},
	{
	"epoch": 10.427184466019417,
	"grad_norm": 2.394578218460083,
	"learning_rate": 4.999756310023261e-05,
	"loss": 2.731,
	"step": 261
	},
	{
	"epoch": 10.466019417475728,
	"grad_norm": 3.0859174728393555,
	"learning_rate": 4.9997051361341425e-05,
	"loss": 2.7902,
	"step": 262
	},
	{
	"epoch": 10.504854368932039,
	"grad_norm": 2.929978370666504,
	"learning_rate": 4.9996490889419514e-05,
	"loss": 2.7723,
	"step": 263
	},
	{
	"epoch": 10.54368932038835,
	"grad_norm": 2.6215100288391113,
	"learning_rate": 4.999588168555954e-05,
	"loss": 2.7892,
	"step": 264
	},
	{
	"epoch": 10.58252427184466,
	"grad_norm": 2.744954824447632,
	"learning_rate": 4.999522375094919e-05,
	"loss": 2.8024,
	"step": 265
	},
	{
	"epoch": 10.62135922330097,
	"grad_norm": 2.775912046432495,
	"learning_rate": 4.999451708687114e-05,
	"loss": 2.642,
	"step": 266
	},
	{
	"epoch": 10.660194174757281,
	"grad_norm": 2.5821340084075928,
	"learning_rate": 4.999376169470306e-05,
	"loss": 2.7808,
	"step": 267
	},
	{
	"epoch": 10.699029126213592,
	"grad_norm": 2.4101083278656006,
	"learning_rate": 4.999295757591762e-05,
	"loss": 2.7318,
	"step": 268
	},
	{
	"epoch": 10.737864077669903,
	"grad_norm": 2.4816181659698486,
	"learning_rate": 4.99921047320825e-05,
	"loss": 2.7707,
	"step": 269
	},
	{
	"epoch": 10.776699029126213,
	"grad_norm": 2.366009473800659,
	"learning_rate": 4.9991203164860365e-05,
	"loss": 2.7481,
	"step": 270
	},
	{
	"epoch": 10.815533980582524,
	"grad_norm": 2.9792630672454834,
	"learning_rate": 4.999025287600886e-05,
	"loss": 2.7204,
	"step": 271
	},
	{
	"epoch": 10.854368932038835,
	"grad_norm": 3.0781967639923096,
	"learning_rate": 4.998925386738063e-05,
	"loss": 2.7248,
	"step": 272
	},
	{
	"epoch": 10.893203883495145,
	"grad_norm": 2.6866307258605957,
	"learning_rate": 4.998820614092328e-05,
	"loss": 2.7456,
	"step": 273
	},
	{
	"epoch": 10.932038834951456,
	"grad_norm": 2.789808988571167,
	"learning_rate": 4.998710969867942e-05,
	"loss": 2.7224,
	"step": 274
	},
	{
	"epoch": 10.970873786407767,
	"grad_norm": 2.4948067665100098,
	"learning_rate": 4.9985964542786614e-05,
	"loss": 2.6724,
	"step": 275
	},
	{
	"epoch": 10.970873786407767,
	"eval_loss": 2.9974570274353027,
	"eval_runtime": 0.9771,
	"eval_samples_per_second": 22.516,
	"eval_steps_per_second": 6.141,
	"step": 275
	},
	{
	"epoch": 11.03883495145631,
	"grad_norm": 4.32741117477417,
	"learning_rate": 4.99847706754774e-05,
	"loss": 5.4423,
	"step": 276
	},
	{
	"epoch": 11.077669902912621,
	"grad_norm": 2.3572208881378174,
	"learning_rate": 4.998352809907928e-05,
	"loss": 2.6372,
	"step": 277
	},
	{
	"epoch": 11.116504854368932,
	"grad_norm": 2.4045934677124023,
	"learning_rate": 4.998223681601473e-05,
	"loss": 2.6205,
	"step": 278
	},
	{
	"epoch": 11.155339805825243,
	"grad_norm": 2.5755131244659424,
	"learning_rate": 4.998089682880117e-05,
	"loss": 2.5939,
	"step": 279
	},
	{
	"epoch": 11.194174757281553,
	"grad_norm": 2.5768463611602783,
	"learning_rate": 4.997950814005098e-05,
	"loss": 2.6925,
	"step": 280
	},
	{
	"epoch": 11.233009708737864,
	"grad_norm": 2.5549166202545166,
	"learning_rate": 4.997807075247146e-05,
	"loss": 2.6172,
	"step": 281
	},
	{
	"epoch": 11.271844660194175,
	"grad_norm": 2.761068344116211,
	"learning_rate": 4.997658466886489e-05,
	"loss": 2.6572,
	"step": 282
	},
	{
	"epoch": 11.310679611650485,
	"grad_norm": 2.5051231384277344,
	"learning_rate": 4.9975049892128455e-05,
	"loss": 2.6549,
	"step": 283
	},
	{
	"epoch": 11.349514563106796,
	"grad_norm": 2.7434117794036865,
	"learning_rate": 4.9973466425254286e-05,
	"loss": 2.5632,
	"step": 284
	},
	{
	"epoch": 11.388349514563107,
	"grad_norm": 2.328563928604126,
	"learning_rate": 4.997183427132943e-05,
	"loss": 2.5751,
	"step": 285
	},
	{
	"epoch": 11.427184466019417,
	"grad_norm": 2.7668466567993164,
	"learning_rate": 4.997015343353585e-05,
	"loss": 2.6609,
	"step": 286
	},
	{
	"epoch": 11.466019417475728,
	"grad_norm": 2.0831525325775146,
	"learning_rate": 4.996842391515044e-05,
	"loss": 2.6428,
	"step": 287
	},
	{
	"epoch": 11.504854368932039,
	"grad_norm": 2.4443278312683105,
	"learning_rate": 4.996664571954497e-05,
	"loss": 2.6012,
	"step": 288
	},
	{
	"epoch": 11.54368932038835,
	"grad_norm": 2.4806153774261475,
	"learning_rate": 4.9964818850186135e-05,
	"loss": 2.6649,
	"step": 289
	},
	{
	"epoch": 11.58252427184466,
	"grad_norm": 2.539933919906616,
	"learning_rate": 4.99629433106355e-05,
	"loss": 2.6253,
	"step": 290
	},
	{
	"epoch": 11.62135922330097,
	"grad_norm": 2.7404544353485107,
	"learning_rate": 4.996101910454953e-05,
	"loss": 2.6224,
	"step": 291
	},
	{
	"epoch": 11.660194174757281,
	"grad_norm": 2.5377357006073,
	"learning_rate": 4.9959046235679565e-05,
	"loss": 2.6249,
	"step": 292
	},
	{
	"epoch": 11.699029126213592,
	"grad_norm": 2.8488271236419678,
	"learning_rate": 4.9957024707871806e-05,
	"loss": 2.6232,
	"step": 293
	},
	{
	"epoch": 11.737864077669903,
	"grad_norm": 2.4895827770233154,
	"learning_rate": 4.9954954525067334e-05,
	"loss": 2.5983,
	"step": 294
	},
	{
	"epoch": 11.776699029126213,
	"grad_norm": 3.038975954055786,
	"learning_rate": 4.995283569130207e-05,
	"loss": 2.5715,
	"step": 295
	},
	{
	"epoch": 11.815533980582524,
	"grad_norm": 2.674245595932007,
	"learning_rate": 4.995066821070679e-05,
	"loss": 2.6201,
	"step": 296
	},
	{
	"epoch": 11.854368932038835,
	"grad_norm": 3.5277645587921143,
	"learning_rate": 4.9948452087507116e-05,
	"loss": 2.6376,
	"step": 297
	},
	{
	"epoch": 11.893203883495145,
	"grad_norm": 3.0974984169006348,
	"learning_rate": 4.994618732602349e-05,
	"loss": 2.6268,
	"step": 298
	},
	{
	"epoch": 11.932038834951456,
	"grad_norm": 2.309119462966919,
	"learning_rate": 4.994387393067117e-05,
	"loss": 2.5594,
	"step": 299
	},
	{
	"epoch": 11.970873786407767,
	"grad_norm": 2.540464162826538,
	"learning_rate": 4.994151190596025e-05,
	"loss": 2.5765,
	"step": 300
	},
	{
	"epoch": 11.970873786407767,
	"eval_loss": 2.9208481311798096,
	"eval_runtime": 1.0115,
	"eval_samples_per_second": 21.749,
	"eval_steps_per_second": 5.932,
	"step": 300
	},
	{
	"epoch": 12.03883495145631,
	"grad_norm": 5.542501449584961,
	"learning_rate": 4.993910125649561e-05,
	"loss": 5.1943,
	"step": 301
	},
	{
	"epoch": 12.077669902912621,
	"grad_norm": 2.2998414039611816,
	"learning_rate": 4.993664198697694e-05,
	"loss": 2.5311,
	"step": 302
	},
	{
	"epoch": 12.116504854368932,
	"grad_norm": 3.0827107429504395,
	"learning_rate": 4.993413410219871e-05,
	"loss": 2.5587,
	"step": 303
	},
	{
	"epoch": 12.155339805825243,
	"grad_norm": 2.7742204666137695,
	"learning_rate": 4.9931577607050175e-05,
	"loss": 2.4549,
	"step": 304
	},
	{
	"epoch": 12.194174757281553,
	"grad_norm": 2.5605695247650146,
	"learning_rate": 4.992897250651535e-05,
	"loss": 2.5602,
	"step": 305
	},
	{
	"epoch": 12.233009708737864,
	"grad_norm": 2.8852667808532715,
	"learning_rate": 4.992631880567301e-05,
	"loss": 2.5069,
	"step": 306
	},
	{
	"epoch": 12.271844660194175,
	"grad_norm": 3.006777048110962,
	"learning_rate": 4.9923616509696683e-05,
	"loss": 2.5326,
	"step": 307
	},
	{
	"epoch": 12.310679611650485,
	"grad_norm": 2.1645665168762207,
	"learning_rate": 4.9920865623854615e-05,
	"loss": 2.4739,
	"step": 308
	},
	{
	"epoch": 12.349514563106796,
	"grad_norm": 2.941042423248291,
	"learning_rate": 4.9918066153509834e-05,
	"loss": 2.5149,
	"step": 309
	},
	{
	"epoch": 12.388349514563107,
	"grad_norm": 2.598097562789917,
	"learning_rate": 4.991521810412002e-05,
	"loss": 2.5214,
	"step": 310
	},
	{
	"epoch": 12.427184466019417,
	"grad_norm": 2.408721446990967,
	"learning_rate": 4.991232148123761e-05,
	"loss": 2.4747,
	"step": 311
	},
	{
	"epoch": 12.466019417475728,
	"grad_norm": 2.39508318901062,
	"learning_rate": 4.990937629050971e-05,
	"loss": 2.5304,
	"step": 312
	},
	{
	"epoch": 12.504854368932039,
	"grad_norm": 2.9436190128326416,
	"learning_rate": 4.990638253767812e-05,
	"loss": 2.5046,
	"step": 313
	},
	{
	"epoch": 12.54368932038835,
	"grad_norm": 2.6037611961364746,
	"learning_rate": 4.990334022857932e-05,
	"loss": 2.4537,
	"step": 314
	},
	{
	"epoch": 12.58252427184466,
	"grad_norm": 2.892789602279663,
	"learning_rate": 4.9900249369144434e-05,
	"loss": 2.4817,
	"step": 315
	},
	{
	"epoch": 12.62135922330097,
	"grad_norm": 2.6804611682891846,
	"learning_rate": 4.989710996539926e-05,
	"loss": 2.5012,
	"step": 316
	},
	{
	"epoch": 12.660194174757281,
	"grad_norm": 2.458824396133423,
	"learning_rate": 4.9893922023464236e-05,
	"loss": 2.4661,
	"step": 317
	},
	{
	"epoch": 12.699029126213592,
	"grad_norm": 2.6641952991485596,
	"learning_rate": 4.989068554955439e-05,
	"loss": 2.4971,
	"step": 318
	},
	{
	"epoch": 12.737864077669903,
	"grad_norm": 2.421142101287842,
	"learning_rate": 4.988740054997943e-05,
	"loss": 2.4014,
	"step": 319
	},
	{
	"epoch": 12.776699029126213,
	"grad_norm": 2.4107542037963867,
	"learning_rate": 4.98840670311436e-05,
	"loss": 2.4636,
	"step": 320
	},
	{
	"epoch": 12.815533980582524,
	"grad_norm": 2.5701303482055664,
	"learning_rate": 4.988068499954578e-05,
	"loss": 2.4564,
	"step": 321
	},
	{
	"epoch": 12.854368932038835,
	"grad_norm": 2.3998067378997803,
	"learning_rate": 4.987725446177941e-05,
	"loss": 2.4561,
	"step": 322
	},
	{
	"epoch": 12.893203883495145,
	"grad_norm": 2.6888773441314697,
	"learning_rate": 4.987377542453251e-05,
	"loss": 2.4392,
	"step": 323
	},
	{
	"epoch": 12.932038834951456,
	"grad_norm": 2.313508987426758,
	"learning_rate": 4.987024789458762e-05,
	"loss": 2.4438,
	"step": 324
	},
	{
	"epoch": 12.970873786407767,
	"grad_norm": 2.5614566802978516,
	"learning_rate": 4.986667187882186e-05,
	"loss": 2.557,
	"step": 325
	},
	{
	"epoch": 12.970873786407767,
	"eval_loss": 2.8833444118499756,
	"eval_runtime": 1.0479,
	"eval_samples_per_second": 20.995,
	"eval_steps_per_second": 5.726,
	"step": 325
	},
	{
	"epoch": 13.03883495145631,
	"grad_norm": 5.110360145568848,
	"learning_rate": 4.9863047384206835e-05,
	"loss": 4.9144,
	"step": 326
	},
	{
	"epoch": 13.077669902912621,
	"grad_norm": 2.7373085021972656,
	"learning_rate": 4.98593744178087e-05,
	"loss": 2.3994,
	"step": 327
	},
	{
	"epoch": 13.116504854368932,
	"grad_norm": 2.542954206466675,
	"learning_rate": 4.985565298678809e-05,
	"loss": 2.3535,
	"step": 328
	},
	{
	"epoch": 13.155339805825243,
	"grad_norm": 2.6374223232269287,
	"learning_rate": 4.985188309840012e-05,
	"loss": 2.3894,
	"step": 329
	},
	{
	"epoch": 13.194174757281553,
	"grad_norm": 2.541004180908203,
	"learning_rate": 4.984806475999437e-05,
	"loss": 2.391,
	"step": 330
	},
	{
	"epoch": 13.233009708737864,
	"grad_norm": 2.6150271892547607,
	"learning_rate": 4.984419797901491e-05,
	"loss": 2.3927,
	"step": 331
	},
	{
	"epoch": 13.271844660194175,
	"grad_norm": 2.47719144821167,
	"learning_rate": 4.984028276300021e-05,
	"loss": 2.3751,
	"step": 332
	},
	{
	"epoch": 13.310679611650485,
	"grad_norm": 2.679882764816284,
	"learning_rate": 4.983631911958319e-05,
	"loss": 2.374,
	"step": 333
	},
	{
	"epoch": 13.349514563106796,
	"grad_norm": 2.784619092941284,
	"learning_rate": 4.983230705649118e-05,
	"loss": 2.3539,
	"step": 334
	},
	{
	"epoch": 13.388349514563107,
	"grad_norm": 2.188197135925293,
	"learning_rate": 4.982824658154589e-05,
	"loss": 2.3553,
	"step": 335
	},
	{
	"epoch": 13.427184466019417,
	"grad_norm": 2.232978582382202,
	"learning_rate": 4.982413770266342e-05,
	"loss": 2.3389,
	"step": 336
	},
	{
	"epoch": 13.466019417475728,
	"grad_norm": 2.563889980316162,
	"learning_rate": 4.981998042785427e-05,
	"loss": 2.3623,
	"step": 337
	},
	{
	"epoch": 13.504854368932039,
	"grad_norm": 2.9053828716278076,
	"learning_rate": 4.9815774765223226e-05,
	"loss": 2.3705,
	"step": 338
	},
	{
	"epoch": 13.54368932038835,
	"grad_norm": 2.5447866916656494,
	"learning_rate": 4.9811520722969465e-05,
	"loss": 2.3216,
	"step": 339
	},
	{
	"epoch": 13.58252427184466,
	"grad_norm": 3.22255277633667,
	"learning_rate": 4.9807218309386444e-05,
	"loss": 2.3418,
	"step": 340
	},
	{
	"epoch": 13.62135922330097,
	"grad_norm": 3.154477119445801,
	"learning_rate": 4.980286753286195e-05,
	"loss": 2.3843,
	"step": 341
	},
	{
	"epoch": 13.660194174757281,
	"grad_norm": 3.3448827266693115,
	"learning_rate": 4.979846840187804e-05,
	"loss": 2.419,
	"step": 342
	},
	{
	"epoch": 13.699029126213592,
	"grad_norm": 3.275527238845825,
	"learning_rate": 4.9794020925011044e-05,
	"loss": 2.3756,
	"step": 343
	},
	{
	"epoch": 13.737864077669903,
	"grad_norm": 2.3320887088775635,
	"learning_rate": 4.9789525110931545e-05,
	"loss": 2.3201,
	"step": 344
	},
	{
	"epoch": 13.776699029126213,
	"grad_norm": 2.804107427597046,
	"learning_rate": 4.978498096840436e-05,
	"loss": 2.3461,
	"step": 345
	},
	{
	"epoch": 13.815533980582524,
	"grad_norm": 2.809633255004883,
	"learning_rate": 4.978038850628854e-05,
	"loss": 2.3418,
	"step": 346
	},
	{
	"epoch": 13.854368932038835,
	"grad_norm": 2.9983737468719482,
	"learning_rate": 4.977574773353732e-05,
	"loss": 2.4238,
	"step": 347
	},
	{
	"epoch": 13.893203883495145,
	"grad_norm": 2.892005443572998,
	"learning_rate": 4.977105865919812e-05,
	"loss": 2.4266,
	"step": 348
	},
	{
	"epoch": 13.932038834951456,
	"grad_norm": 2.766019821166992,
	"learning_rate": 4.976632129241252e-05,
	"loss": 2.3937,
	"step": 349
	},
	{
	"epoch": 13.970873786407767,
	"grad_norm": 2.5251376628875732,
	"learning_rate": 4.976153564241628e-05,
	"loss": 2.3557,
	"step": 350
	},
	{
	"epoch": 13.970873786407767,
	"eval_loss": 2.855170965194702,
	"eval_runtime": 1.0307,
	"eval_samples_per_second": 21.345,
	"eval_steps_per_second": 5.821,
	"step": 350
	},
	{
	"epoch": 14.03883495145631,
	"grad_norm": 5.263445854187012,
	"learning_rate": 4.975670171853926e-05,
	"loss": 4.6103,
	"step": 351
	},
	{
	"epoch": 14.077669902912621,
	"grad_norm": 2.6694159507751465,
	"learning_rate": 4.975181953020544e-05,
	"loss": 2.2714,
	"step": 352
	},
	{
	"epoch": 14.116504854368932,
	"grad_norm": 3.4369680881500244,
	"learning_rate": 4.9746889086932895e-05,
	"loss": 2.2303,
	"step": 353
	},
	{
	"epoch": 14.155339805825243,
	"grad_norm": 3.053704023361206,
	"learning_rate": 4.974191039833378e-05,
	"loss": 2.2659,
	"step": 354
	},
	{
	"epoch": 14.194174757281553,
	"grad_norm": 2.9966983795166016,
	"learning_rate": 4.973688347411431e-05,
	"loss": 2.3092,
	"step": 355
	},
	{
	"epoch": 14.233009708737864,
	"grad_norm": 2.965481758117676,
	"learning_rate": 4.9731808324074717e-05,
	"loss": 2.2537,
	"step": 356
	},
	{
	"epoch": 14.271844660194175,
	"grad_norm": 2.9761455059051514,
	"learning_rate": 4.9726684958109266e-05,
	"loss": 2.2865,
	"step": 357
	},
	{
	"epoch": 14.310679611650485,
	"grad_norm": 2.936624050140381,
	"learning_rate": 4.972151338620623e-05,
	"loss": 2.2589,
	"step": 358
	},
	{
	"epoch": 14.349514563106796,
	"grad_norm": 3.4442408084869385,
	"learning_rate": 4.971629361844785e-05,
	"loss": 2.2636,
	"step": 359
	},
	{
	"epoch": 14.388349514563107,
	"grad_norm": 3.0097110271453857,
	"learning_rate": 4.971102566501034e-05,
	"loss": 2.204,
	"step": 360
	},
	{
	"epoch": 14.427184466019417,
	"grad_norm": 3.7276322841644287,
	"learning_rate": 4.9705709536163824e-05,
	"loss": 2.2811,
	"step": 361
	},
	{
	"epoch": 14.466019417475728,
	"grad_norm": 2.8004868030548096,
	"learning_rate": 4.970034524227238e-05,
	"loss": 2.1964,
	"step": 362
	},
	{
	"epoch": 14.504854368932039,
	"grad_norm": 3.1439263820648193,
	"learning_rate": 4.969493279379398e-05,
	"loss": 2.294,
	"step": 363
	},
	{
	"epoch": 14.54368932038835,
	"grad_norm": 2.971735954284668,
	"learning_rate": 4.968947220128045e-05,
	"loss": 2.2882,
	"step": 364
	},
	{
	"epoch": 14.58252427184466,
	"grad_norm": 2.860797166824341,
	"learning_rate": 4.968396347537751e-05,
	"loss": 2.1807,
	"step": 365
	},
	{
	"epoch": 14.62135922330097,
	"grad_norm": 2.8869500160217285,
	"learning_rate": 4.96784066268247e-05,
	"loss": 2.267,
	"step": 366
	},
	{
	"epoch": 14.660194174757281,
	"grad_norm": 3.185670852661133,
	"learning_rate": 4.967280166645538e-05,
	"loss": 2.2956,
	"step": 367
	},
	{
	"epoch": 14.699029126213592,
	"grad_norm": 2.750898838043213,
	"learning_rate": 4.96671486051967e-05,
	"loss": 2.2429,
	"step": 368
	},
	{
	"epoch": 14.737864077669903,
	"grad_norm": 2.690889596939087,
	"learning_rate": 4.966144745406961e-05,
	"loss": 2.2645,
	"step": 369
	},
	{
	"epoch": 14.776699029126213,
	"grad_norm": 2.5257797241210938,
	"learning_rate": 4.965569822418877e-05,
	"loss": 2.1714,
	"step": 370
	},
	{
	"epoch": 14.815533980582524,
	"grad_norm": 2.550966739654541,
	"learning_rate": 4.964990092676263e-05,
	"loss": 2.2281,
	"step": 371
	},
	{
	"epoch": 14.854368932038835,
	"grad_norm": 2.6299831867218018,
	"learning_rate": 4.964405557309328e-05,
	"loss": 2.2925,
	"step": 372
	},
	{
	"epoch": 14.893203883495145,
	"grad_norm": 2.8115315437316895,
	"learning_rate": 4.963816217457657e-05,
	"loss": 2.3404,
	"step": 373
	},
	{
	"epoch": 14.932038834951456,
	"grad_norm": 2.646278142929077,
	"learning_rate": 4.9632220742701965e-05,
	"loss": 2.2326,
	"step": 374
	},
	{
	"epoch": 14.970873786407767,
	"grad_norm": 2.667069435119629,
	"learning_rate": 4.9626231289052596e-05,
	"loss": 2.318,
	"step": 375
	},
	{
	"epoch": 14.970873786407767,
	"eval_loss": 2.8448235988616943,
	"eval_runtime": 0.9921,
	"eval_samples_per_second": 22.176,
	"eval_steps_per_second": 6.048,
	"step": 375
	}
	],
	"logging_steps": 1,
	"max_steps": 2500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3395309036544000.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}