llama2_truth_model / trainer_state.json

Initial commit

13d2f79 verified over 1 year ago

164 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.98793242156074,
	"eval_steps": 500,
	"global_step": 775,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.006436041834271922,
	"grad_norm": 181.50096130371094,
	"learning_rate": 8.333333333333335e-09,
	"loss": 8.4196,
	"num_input_tokens_seen": 6848,
	"step": 1
	},
	{
	"epoch": 0.012872083668543845,
	"grad_norm": 187.05642700195312,
	"learning_rate": 1.666666666666667e-08,
	"loss": 8.44,
	"num_input_tokens_seen": 14000,
	"step": 2
	},
	{
	"epoch": 0.019308125502815767,
	"grad_norm": 182.92320251464844,
	"learning_rate": 2.5000000000000002e-08,
	"loss": 8.3839,
	"num_input_tokens_seen": 21152,
	"step": 3
	},
	{
	"epoch": 0.02574416733708769,
	"grad_norm": 186.71311950683594,
	"learning_rate": 3.333333333333334e-08,
	"loss": 8.4024,
	"num_input_tokens_seen": 28224,
	"step": 4
	},
	{
	"epoch": 0.032180209171359615,
	"grad_norm": 180.32656860351562,
	"learning_rate": 4.166666666666667e-08,
	"loss": 8.4594,
	"num_input_tokens_seen": 35360,
	"step": 5
	},
	{
	"epoch": 0.038616251005631534,
	"grad_norm": 189.87557983398438,
	"learning_rate": 5.0000000000000004e-08,
	"loss": 8.4107,
	"num_input_tokens_seen": 42192,
	"step": 6
	},
	{
	"epoch": 0.04505229283990346,
	"grad_norm": 185.89984130859375,
	"learning_rate": 5.833333333333334e-08,
	"loss": 8.4551,
	"num_input_tokens_seen": 49088,
	"step": 7
	},
	{
	"epoch": 0.05148833467417538,
	"grad_norm": 188.8160400390625,
	"learning_rate": 6.666666666666668e-08,
	"loss": 8.4415,
	"num_input_tokens_seen": 55856,
	"step": 8
	},
	{
	"epoch": 0.057924376508447305,
	"grad_norm": 190.1417236328125,
	"learning_rate": 7.500000000000001e-08,
	"loss": 8.4965,
	"num_input_tokens_seen": 63120,
	"step": 9
	},
	{
	"epoch": 0.06436041834271923,
	"grad_norm": 185.3598175048828,
	"learning_rate": 8.333333333333334e-08,
	"loss": 8.4251,
	"num_input_tokens_seen": 69968,
	"step": 10
	},
	{
	"epoch": 0.07079646017699115,
	"grad_norm": 183.81944274902344,
	"learning_rate": 9.166666666666668e-08,
	"loss": 8.4291,
	"num_input_tokens_seen": 77168,
	"step": 11
	},
	{
	"epoch": 0.07723250201126307,
	"grad_norm": 196.39779663085938,
	"learning_rate": 1.0000000000000001e-07,
	"loss": 8.4463,
	"num_input_tokens_seen": 84272,
	"step": 12
	},
	{
	"epoch": 0.083668543845535,
	"grad_norm": 181.4925994873047,
	"learning_rate": 1.0833333333333335e-07,
	"loss": 8.5116,
	"num_input_tokens_seen": 91232,
	"step": 13
	},
	{
	"epoch": 0.09010458567980692,
	"grad_norm": 190.0314178466797,
	"learning_rate": 1.1666666666666668e-07,
	"loss": 8.4749,
	"num_input_tokens_seen": 97968,
	"step": 14
	},
	{
	"epoch": 0.09654062751407884,
	"grad_norm": 188.7615203857422,
	"learning_rate": 1.2500000000000002e-07,
	"loss": 8.3311,
	"num_input_tokens_seen": 104864,
	"step": 15
	},
	{
	"epoch": 0.10297666934835076,
	"grad_norm": 184.1820526123047,
	"learning_rate": 1.3333333333333336e-07,
	"loss": 8.3729,
	"num_input_tokens_seen": 111488,
	"step": 16
	},
	{
	"epoch": 0.10941271118262269,
	"grad_norm": 181.39308166503906,
	"learning_rate": 1.4166666666666668e-07,
	"loss": 8.4261,
	"num_input_tokens_seen": 118384,
	"step": 17
	},
	{
	"epoch": 0.11584875301689461,
	"grad_norm": 181.79583740234375,
	"learning_rate": 1.5000000000000002e-07,
	"loss": 8.3051,
	"num_input_tokens_seen": 125360,
	"step": 18
	},
	{
	"epoch": 0.12228479485116653,
	"grad_norm": 181.36965942382812,
	"learning_rate": 1.5833333333333336e-07,
	"loss": 8.2461,
	"num_input_tokens_seen": 132320,
	"step": 19
	},
	{
	"epoch": 0.12872083668543846,
	"grad_norm": 182.36839294433594,
	"learning_rate": 1.6666666666666668e-07,
	"loss": 8.2894,
	"num_input_tokens_seen": 139376,
	"step": 20
	},
	{
	"epoch": 0.13515687851971037,
	"grad_norm": 189.7889404296875,
	"learning_rate": 1.7500000000000002e-07,
	"loss": 8.2484,
	"num_input_tokens_seen": 146544,
	"step": 21
	},
	{
	"epoch": 0.1415929203539823,
	"grad_norm": 190.1185302734375,
	"learning_rate": 1.8333333333333336e-07,
	"loss": 8.3034,
	"num_input_tokens_seen": 153472,
	"step": 22
	},
	{
	"epoch": 0.14802896218825423,
	"grad_norm": 183.1331024169922,
	"learning_rate": 1.9166666666666668e-07,
	"loss": 8.054,
	"num_input_tokens_seen": 159856,
	"step": 23
	},
	{
	"epoch": 0.15446500402252614,
	"grad_norm": 168.13046264648438,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 7.9583,
	"num_input_tokens_seen": 166528,
	"step": 24
	},
	{
	"epoch": 0.16090104585679807,
	"grad_norm": 167.57830810546875,
	"learning_rate": 2.0833333333333333e-07,
	"loss": 7.9626,
	"num_input_tokens_seen": 173056,
	"step": 25
	},
	{
	"epoch": 0.16733708769107,
	"grad_norm": 170.6557159423828,
	"learning_rate": 2.166666666666667e-07,
	"loss": 7.8761,
	"num_input_tokens_seen": 179616,
	"step": 26
	},
	{
	"epoch": 0.1737731295253419,
	"grad_norm": 179.7693328857422,
	"learning_rate": 2.2500000000000002e-07,
	"loss": 7.8896,
	"num_input_tokens_seen": 186912,
	"step": 27
	},
	{
	"epoch": 0.18020917135961384,
	"grad_norm": 180.4197998046875,
	"learning_rate": 2.3333333333333336e-07,
	"loss": 7.8352,
	"num_input_tokens_seen": 193936,
	"step": 28
	},
	{
	"epoch": 0.18664521319388577,
	"grad_norm": 164.2944793701172,
	"learning_rate": 2.416666666666667e-07,
	"loss": 7.691,
	"num_input_tokens_seen": 200672,
	"step": 29
	},
	{
	"epoch": 0.19308125502815768,
	"grad_norm": 167.71722412109375,
	"learning_rate": 2.5000000000000004e-07,
	"loss": 7.7851,
	"num_input_tokens_seen": 207536,
	"step": 30
	},
	{
	"epoch": 0.1995172968624296,
	"grad_norm": 169.2217254638672,
	"learning_rate": 2.5833333333333333e-07,
	"loss": 7.7249,
	"num_input_tokens_seen": 214640,
	"step": 31
	},
	{
	"epoch": 0.20595333869670152,
	"grad_norm": 155.74537658691406,
	"learning_rate": 2.666666666666667e-07,
	"loss": 6.8838,
	"num_input_tokens_seen": 221744,
	"step": 32
	},
	{
	"epoch": 0.21238938053097345,
	"grad_norm": 148.12120056152344,
	"learning_rate": 2.75e-07,
	"loss": 6.7173,
	"num_input_tokens_seen": 228624,
	"step": 33
	},
	{
	"epoch": 0.21882542236524538,
	"grad_norm": 150.97012329101562,
	"learning_rate": 2.8333333333333336e-07,
	"loss": 6.6793,
	"num_input_tokens_seen": 235456,
	"step": 34
	},
	{
	"epoch": 0.2252614641995173,
	"grad_norm": 149.623291015625,
	"learning_rate": 2.916666666666667e-07,
	"loss": 6.725,
	"num_input_tokens_seen": 242768,
	"step": 35
	},
	{
	"epoch": 0.23169750603378922,
	"grad_norm": 147.1656036376953,
	"learning_rate": 3.0000000000000004e-07,
	"loss": 6.6905,
	"num_input_tokens_seen": 249552,
	"step": 36
	},
	{
	"epoch": 0.23813354786806115,
	"grad_norm": 151.0162811279297,
	"learning_rate": 3.083333333333334e-07,
	"loss": 6.6179,
	"num_input_tokens_seen": 256160,
	"step": 37
	},
	{
	"epoch": 0.24456958970233306,
	"grad_norm": 150.03030395507812,
	"learning_rate": 3.166666666666667e-07,
	"loss": 6.501,
	"num_input_tokens_seen": 262912,
	"step": 38
	},
	{
	"epoch": 0.251005631536605,
	"grad_norm": 145.5784149169922,
	"learning_rate": 3.25e-07,
	"loss": 6.4588,
	"num_input_tokens_seen": 269600,
	"step": 39
	},
	{
	"epoch": 0.2574416733708769,
	"grad_norm": 143.5873565673828,
	"learning_rate": 3.3333333333333335e-07,
	"loss": 6.3614,
	"num_input_tokens_seen": 276560,
	"step": 40
	},
	{
	"epoch": 0.26387771520514886,
	"grad_norm": 144.9624481201172,
	"learning_rate": 3.416666666666667e-07,
	"loss": 6.2775,
	"num_input_tokens_seen": 283696,
	"step": 41
	},
	{
	"epoch": 0.27031375703942073,
	"grad_norm": 146.71554565429688,
	"learning_rate": 3.5000000000000004e-07,
	"loss": 5.9868,
	"num_input_tokens_seen": 290832,
	"step": 42
	},
	{
	"epoch": 0.27674979887369267,
	"grad_norm": 138.25450134277344,
	"learning_rate": 3.583333333333334e-07,
	"loss": 5.2286,
	"num_input_tokens_seen": 298096,
	"step": 43
	},
	{
	"epoch": 0.2831858407079646,
	"grad_norm": 156.28713989257812,
	"learning_rate": 3.666666666666667e-07,
	"loss": 4.5076,
	"num_input_tokens_seen": 305120,
	"step": 44
	},
	{
	"epoch": 0.28962188254223653,
	"grad_norm": 178.4820556640625,
	"learning_rate": 3.75e-07,
	"loss": 4.1167,
	"num_input_tokens_seen": 312000,
	"step": 45
	},
	{
	"epoch": 0.29605792437650846,
	"grad_norm": 317.7680358886719,
	"learning_rate": 3.8333333333333335e-07,
	"loss": 3.6585,
	"num_input_tokens_seen": 319008,
	"step": 46
	},
	{
	"epoch": 0.3024939662107804,
	"grad_norm": 282.17803955078125,
	"learning_rate": 3.9166666666666675e-07,
	"loss": 3.3613,
	"num_input_tokens_seen": 326192,
	"step": 47
	},
	{
	"epoch": 0.3089300080450523,
	"grad_norm": 257.7794494628906,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 3.1068,
	"num_input_tokens_seen": 333664,
	"step": 48
	},
	{
	"epoch": 0.3153660498793242,
	"grad_norm": 255.1024169921875,
	"learning_rate": 4.083333333333334e-07,
	"loss": 2.9368,
	"num_input_tokens_seen": 340912,
	"step": 49
	},
	{
	"epoch": 0.32180209171359614,
	"grad_norm": 259.47015380859375,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 2.3466,
	"num_input_tokens_seen": 347712,
	"step": 50
	},
	{
	"epoch": 0.32823813354786807,
	"grad_norm": 263.3533935546875,
	"learning_rate": 4.2500000000000006e-07,
	"loss": 2.0645,
	"num_input_tokens_seen": 355232,
	"step": 51
	},
	{
	"epoch": 0.33467417538214,
	"grad_norm": 239.1399688720703,
	"learning_rate": 4.333333333333334e-07,
	"loss": 1.7729,
	"num_input_tokens_seen": 361968,
	"step": 52
	},
	{
	"epoch": 0.3411102172164119,
	"grad_norm": 257.4410095214844,
	"learning_rate": 4.416666666666667e-07,
	"loss": 1.6199,
	"num_input_tokens_seen": 369136,
	"step": 53
	},
	{
	"epoch": 0.3475462590506838,
	"grad_norm": 169.56935119628906,
	"learning_rate": 4.5000000000000003e-07,
	"loss": 1.1593,
	"num_input_tokens_seen": 375904,
	"step": 54
	},
	{
	"epoch": 0.35398230088495575,
	"grad_norm": 95.25677490234375,
	"learning_rate": 4.583333333333333e-07,
	"loss": 0.7199,
	"num_input_tokens_seen": 382848,
	"step": 55
	},
	{
	"epoch": 0.3604183427192277,
	"grad_norm": 48.7137451171875,
	"learning_rate": 4.666666666666667e-07,
	"loss": 0.4394,
	"num_input_tokens_seen": 389680,
	"step": 56
	},
	{
	"epoch": 0.3668543845534996,
	"grad_norm": 62.34474563598633,
	"learning_rate": 4.7500000000000006e-07,
	"loss": 0.3806,
	"num_input_tokens_seen": 396192,
	"step": 57
	},
	{
	"epoch": 0.37329042638777155,
	"grad_norm": 30.711780548095703,
	"learning_rate": 4.833333333333334e-07,
	"loss": 0.3185,
	"num_input_tokens_seen": 403104,
	"step": 58
	},
	{
	"epoch": 0.3797264682220434,
	"grad_norm": 34.46913528442383,
	"learning_rate": 4.916666666666667e-07,
	"loss": 0.3056,
	"num_input_tokens_seen": 410176,
	"step": 59
	},
	{
	"epoch": 0.38616251005631536,
	"grad_norm": 25.92363166809082,
	"learning_rate": 5.000000000000001e-07,
	"loss": 0.2981,
	"num_input_tokens_seen": 416928,
	"step": 60
	},
	{
	"epoch": 0.3925985518905873,
	"grad_norm": 11.064619064331055,
	"learning_rate": 5.083333333333334e-07,
	"loss": 0.2473,
	"num_input_tokens_seen": 424128,
	"step": 61
	},
	{
	"epoch": 0.3990345937248592,
	"grad_norm": 55.367347717285156,
	"learning_rate": 5.166666666666667e-07,
	"loss": 0.2924,
	"num_input_tokens_seen": 430864,
	"step": 62
	},
	{
	"epoch": 0.40547063555913115,
	"grad_norm": 42.00873947143555,
	"learning_rate": 5.250000000000001e-07,
	"loss": 0.2656,
	"num_input_tokens_seen": 437744,
	"step": 63
	},
	{
	"epoch": 0.41190667739340303,
	"grad_norm": 13.313591003417969,
	"learning_rate": 5.333333333333335e-07,
	"loss": 0.2335,
	"num_input_tokens_seen": 444624,
	"step": 64
	},
	{
	"epoch": 0.41834271922767496,
	"grad_norm": 60.489715576171875,
	"learning_rate": 5.416666666666667e-07,
	"loss": 0.2647,
	"num_input_tokens_seen": 451696,
	"step": 65
	},
	{
	"epoch": 0.4247787610619469,
	"grad_norm": 77.01821899414062,
	"learning_rate": 5.5e-07,
	"loss": 0.3003,
	"num_input_tokens_seen": 458784,
	"step": 66
	},
	{
	"epoch": 0.43121480289621883,
	"grad_norm": 58.067596435546875,
	"learning_rate": 5.583333333333333e-07,
	"loss": 0.2656,
	"num_input_tokens_seen": 465920,
	"step": 67
	},
	{
	"epoch": 0.43765084473049076,
	"grad_norm": 12.40570068359375,
	"learning_rate": 5.666666666666667e-07,
	"loss": 0.2212,
	"num_input_tokens_seen": 473152,
	"step": 68
	},
	{
	"epoch": 0.4440868865647627,
	"grad_norm": 35.392276763916016,
	"learning_rate": 5.750000000000001e-07,
	"loss": 0.2532,
	"num_input_tokens_seen": 480544,
	"step": 69
	},
	{
	"epoch": 0.4505229283990346,
	"grad_norm": 51.42181396484375,
	"learning_rate": 5.833333333333334e-07,
	"loss": 0.2799,
	"num_input_tokens_seen": 487552,
	"step": 70
	},
	{
	"epoch": 0.4569589702333065,
	"grad_norm": 45.73934555053711,
	"learning_rate": 5.916666666666667e-07,
	"loss": 0.2876,
	"num_input_tokens_seen": 494256,
	"step": 71
	},
	{
	"epoch": 0.46339501206757844,
	"grad_norm": 20.654096603393555,
	"learning_rate": 6.000000000000001e-07,
	"loss": 0.2191,
	"num_input_tokens_seen": 500768,
	"step": 72
	},
	{
	"epoch": 0.46983105390185037,
	"grad_norm": 21.078027725219727,
	"learning_rate": 6.083333333333334e-07,
	"loss": 0.2344,
	"num_input_tokens_seen": 507136,
	"step": 73
	},
	{
	"epoch": 0.4762670957361223,
	"grad_norm": 36.7335205078125,
	"learning_rate": 6.166666666666668e-07,
	"loss": 0.2547,
	"num_input_tokens_seen": 514208,
	"step": 74
	},
	{
	"epoch": 0.4827031375703942,
	"grad_norm": 34.47271728515625,
	"learning_rate": 6.25e-07,
	"loss": 0.2349,
	"num_input_tokens_seen": 521120,
	"step": 75
	},
	{
	"epoch": 0.4891391794046661,
	"grad_norm": 5.103244781494141,
	"learning_rate": 6.333333333333334e-07,
	"loss": 0.2045,
	"num_input_tokens_seen": 527824,
	"step": 76
	},
	{
	"epoch": 0.49557522123893805,
	"grad_norm": 22.47526741027832,
	"learning_rate": 6.416666666666667e-07,
	"loss": 0.2262,
	"num_input_tokens_seen": 534832,
	"step": 77
	},
	{
	"epoch": 0.50201126307321,
	"grad_norm": 30.610803604125977,
	"learning_rate": 6.5e-07,
	"loss": 0.2393,
	"num_input_tokens_seen": 541696,
	"step": 78
	},
	{
	"epoch": 0.5084473049074819,
	"grad_norm": 10.922965049743652,
	"learning_rate": 6.583333333333333e-07,
	"loss": 0.2206,
	"num_input_tokens_seen": 548608,
	"step": 79
	},
	{
	"epoch": 0.5148833467417538,
	"grad_norm": 17.484182357788086,
	"learning_rate": 6.666666666666667e-07,
	"loss": 0.2029,
	"num_input_tokens_seen": 555456,
	"step": 80
	},
	{
	"epoch": 0.5213193885760258,
	"grad_norm": 16.49226188659668,
	"learning_rate": 6.750000000000001e-07,
	"loss": 0.2125,
	"num_input_tokens_seen": 562768,
	"step": 81
	},
	{
	"epoch": 0.5277554304102977,
	"grad_norm": 9.977084159851074,
	"learning_rate": 6.833333333333334e-07,
	"loss": 0.2023,
	"num_input_tokens_seen": 569536,
	"step": 82
	},
	{
	"epoch": 0.5341914722445696,
	"grad_norm": 17.79197120666504,
	"learning_rate": 6.916666666666668e-07,
	"loss": 0.2262,
	"num_input_tokens_seen": 576096,
	"step": 83
	},
	{
	"epoch": 0.5406275140788415,
	"grad_norm": 16.699260711669922,
	"learning_rate": 7.000000000000001e-07,
	"loss": 0.2003,
	"num_input_tokens_seen": 583472,
	"step": 84
	},
	{
	"epoch": 0.5470635559131134,
	"grad_norm": 25.02164077758789,
	"learning_rate": 7.083333333333334e-07,
	"loss": 0.2351,
	"num_input_tokens_seen": 590304,
	"step": 85
	},
	{
	"epoch": 0.5534995977473853,
	"grad_norm": 3.8612709045410156,
	"learning_rate": 7.166666666666668e-07,
	"loss": 0.1839,
	"num_input_tokens_seen": 597152,
	"step": 86
	},
	{
	"epoch": 0.5599356395816573,
	"grad_norm": 31.555482864379883,
	"learning_rate": 7.25e-07,
	"loss": 0.2315,
	"num_input_tokens_seen": 604208,
	"step": 87
	},
	{
	"epoch": 0.5663716814159292,
	"grad_norm": 54.94756317138672,
	"learning_rate": 7.333333333333334e-07,
	"loss": 0.2732,
	"num_input_tokens_seen": 610896,
	"step": 88
	},
	{
	"epoch": 0.5728077232502011,
	"grad_norm": 30.55241584777832,
	"learning_rate": 7.416666666666668e-07,
	"loss": 0.2405,
	"num_input_tokens_seen": 618112,
	"step": 89
	},
	{
	"epoch": 0.5792437650844731,
	"grad_norm": 16.687997817993164,
	"learning_rate": 7.5e-07,
	"loss": 0.2005,
	"num_input_tokens_seen": 625040,
	"step": 90
	},
	{
	"epoch": 0.585679806918745,
	"grad_norm": 10.350790977478027,
	"learning_rate": 7.583333333333334e-07,
	"loss": 0.2005,
	"num_input_tokens_seen": 631840,
	"step": 91
	},
	{
	"epoch": 0.5921158487530169,
	"grad_norm": 25.88368797302246,
	"learning_rate": 7.666666666666667e-07,
	"loss": 0.2115,
	"num_input_tokens_seen": 638752,
	"step": 92
	},
	{
	"epoch": 0.5985518905872889,
	"grad_norm": 17.11625099182129,
	"learning_rate": 7.750000000000001e-07,
	"loss": 0.2141,
	"num_input_tokens_seen": 645968,
	"step": 93
	},
	{
	"epoch": 0.6049879324215608,
	"grad_norm": 12.70864200592041,
	"learning_rate": 7.833333333333335e-07,
	"loss": 0.1898,
	"num_input_tokens_seen": 652752,
	"step": 94
	},
	{
	"epoch": 0.6114239742558326,
	"grad_norm": 3.674001455307007,
	"learning_rate": 7.916666666666667e-07,
	"loss": 0.2099,
	"num_input_tokens_seen": 660048,
	"step": 95
	},
	{
	"epoch": 0.6178600160901045,
	"grad_norm": 20.51032066345215,
	"learning_rate": 8.000000000000001e-07,
	"loss": 0.2014,
	"num_input_tokens_seen": 666752,
	"step": 96
	},
	{
	"epoch": 0.6242960579243765,
	"grad_norm": 47.562381744384766,
	"learning_rate": 8.083333333333334e-07,
	"loss": 0.2349,
	"num_input_tokens_seen": 673856,
	"step": 97
	},
	{
	"epoch": 0.6307320997586484,
	"grad_norm": 35.69169998168945,
	"learning_rate": 8.166666666666668e-07,
	"loss": 0.2205,
	"num_input_tokens_seen": 681104,
	"step": 98
	},
	{
	"epoch": 0.6371681415929203,
	"grad_norm": 10.080629348754883,
	"learning_rate": 8.250000000000001e-07,
	"loss": 0.199,
	"num_input_tokens_seen": 688128,
	"step": 99
	},
	{
	"epoch": 0.6436041834271923,
	"grad_norm": 26.242666244506836,
	"learning_rate": 8.333333333333333e-07,
	"loss": 0.236,
	"num_input_tokens_seen": 695216,
	"step": 100
	},
	{
	"epoch": 0.6500402252614642,
	"grad_norm": 22.0434627532959,
	"learning_rate": 8.416666666666667e-07,
	"loss": 0.2265,
	"num_input_tokens_seen": 701968,
	"step": 101
	},
	{
	"epoch": 0.6564762670957361,
	"grad_norm": 27.378408432006836,
	"learning_rate": 8.500000000000001e-07,
	"loss": 0.2443,
	"num_input_tokens_seen": 708928,
	"step": 102
	},
	{
	"epoch": 0.6629123089300081,
	"grad_norm": 11.929069519042969,
	"learning_rate": 8.583333333333334e-07,
	"loss": 0.2086,
	"num_input_tokens_seen": 715952,
	"step": 103
	},
	{
	"epoch": 0.66934835076428,
	"grad_norm": 6.677243232727051,
	"learning_rate": 8.666666666666668e-07,
	"loss": 0.1915,
	"num_input_tokens_seen": 722928,
	"step": 104
	},
	{
	"epoch": 0.6757843925985519,
	"grad_norm": 17.033658981323242,
	"learning_rate": 8.75e-07,
	"loss": 0.1967,
	"num_input_tokens_seen": 730160,
	"step": 105
	},
	{
	"epoch": 0.6822204344328238,
	"grad_norm": 6.806990146636963,
	"learning_rate": 8.833333333333334e-07,
	"loss": 0.188,
	"num_input_tokens_seen": 737088,
	"step": 106
	},
	{
	"epoch": 0.6886564762670957,
	"grad_norm": 4.871335506439209,
	"learning_rate": 8.916666666666668e-07,
	"loss": 0.1895,
	"num_input_tokens_seen": 743744,
	"step": 107
	},
	{
	"epoch": 0.6950925181013676,
	"grad_norm": 9.054122924804688,
	"learning_rate": 9.000000000000001e-07,
	"loss": 0.1667,
	"num_input_tokens_seen": 750496,
	"step": 108
	},
	{
	"epoch": 0.7015285599356396,
	"grad_norm": 15.78903579711914,
	"learning_rate": 9.083333333333335e-07,
	"loss": 0.1976,
	"num_input_tokens_seen": 757792,
	"step": 109
	},
	{
	"epoch": 0.7079646017699115,
	"grad_norm": 10.51429271697998,
	"learning_rate": 9.166666666666666e-07,
	"loss": 0.2057,
	"num_input_tokens_seen": 764992,
	"step": 110
	},
	{
	"epoch": 0.7144006436041834,
	"grad_norm": 24.346830368041992,
	"learning_rate": 9.25e-07,
	"loss": 0.2002,
	"num_input_tokens_seen": 771648,
	"step": 111
	},
	{
	"epoch": 0.7208366854384554,
	"grad_norm": 46.50392532348633,
	"learning_rate": 9.333333333333334e-07,
	"loss": 0.2173,
	"num_input_tokens_seen": 778480,
	"step": 112
	},
	{
	"epoch": 0.7272727272727273,
	"grad_norm": 22.505762100219727,
	"learning_rate": 9.416666666666667e-07,
	"loss": 0.1756,
	"num_input_tokens_seen": 785328,
	"step": 113
	},
	{
	"epoch": 0.7337087691069992,
	"grad_norm": 5.675211429595947,
	"learning_rate": 9.500000000000001e-07,
	"loss": 0.1786,
	"num_input_tokens_seen": 792592,
	"step": 114
	},
	{
	"epoch": 0.7401448109412712,
	"grad_norm": 14.814651489257812,
	"learning_rate": 9.583333333333334e-07,
	"loss": 0.1879,
	"num_input_tokens_seen": 799808,
	"step": 115
	},
	{
	"epoch": 0.7465808527755431,
	"grad_norm": 13.106173515319824,
	"learning_rate": 9.666666666666668e-07,
	"loss": 0.173,
	"num_input_tokens_seen": 806896,
	"step": 116
	},
	{
	"epoch": 0.7530168946098149,
	"grad_norm": 24.56918716430664,
	"learning_rate": 9.750000000000002e-07,
	"loss": 0.1714,
	"num_input_tokens_seen": 813536,
	"step": 117
	},
	{
	"epoch": 0.7594529364440868,
	"grad_norm": 27.256954193115234,
	"learning_rate": 9.833333333333334e-07,
	"loss": 0.2015,
	"num_input_tokens_seen": 820608,
	"step": 118
	},
	{
	"epoch": 0.7658889782783588,
	"grad_norm": 4.209413051605225,
	"learning_rate": 9.916666666666668e-07,
	"loss": 0.1847,
	"num_input_tokens_seen": 827776,
	"step": 119
	},
	{
	"epoch": 0.7723250201126307,
	"grad_norm": 18.684349060058594,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 0.1876,
	"num_input_tokens_seen": 834704,
	"step": 120
	},
	{
	"epoch": 0.7787610619469026,
	"grad_norm": 19.470041275024414,
	"learning_rate": 1.0083333333333333e-06,
	"loss": 0.1937,
	"num_input_tokens_seen": 841568,
	"step": 121
	},
	{
	"epoch": 0.7851971037811746,
	"grad_norm": 11.242873191833496,
	"learning_rate": 1.0166666666666667e-06,
	"loss": 0.1974,
	"num_input_tokens_seen": 848704,
	"step": 122
	},
	{
	"epoch": 0.7916331456154465,
	"grad_norm": 26.72730255126953,
	"learning_rate": 1.025e-06,
	"loss": 0.2099,
	"num_input_tokens_seen": 855664,
	"step": 123
	},
	{
	"epoch": 0.7980691874497184,
	"grad_norm": 41.4288215637207,
	"learning_rate": 1.0333333333333333e-06,
	"loss": 0.2239,
	"num_input_tokens_seen": 862464,
	"step": 124
	},
	{
	"epoch": 0.8045052292839904,
	"grad_norm": 27.283327102661133,
	"learning_rate": 1.0416666666666667e-06,
	"loss": 0.1953,
	"num_input_tokens_seen": 869376,
	"step": 125
	},
	{
	"epoch": 0.8109412711182623,
	"grad_norm": 4.882501602172852,
	"learning_rate": 1.0500000000000001e-06,
	"loss": 0.1906,
	"num_input_tokens_seen": 876848,
	"step": 126
	},
	{
	"epoch": 0.8173773129525342,
	"grad_norm": 8.478296279907227,
	"learning_rate": 1.0583333333333335e-06,
	"loss": 0.1852,
	"num_input_tokens_seen": 883664,
	"step": 127
	},
	{
	"epoch": 0.8238133547868061,
	"grad_norm": 6.773479461669922,
	"learning_rate": 1.066666666666667e-06,
	"loss": 0.198,
	"num_input_tokens_seen": 890592,
	"step": 128
	},
	{
	"epoch": 0.830249396621078,
	"grad_norm": 21.877212524414062,
	"learning_rate": 1.075e-06,
	"loss": 0.2105,
	"num_input_tokens_seen": 898048,
	"step": 129
	},
	{
	"epoch": 0.8366854384553499,
	"grad_norm": 12.123941421508789,
	"learning_rate": 1.0833333333333335e-06,
	"loss": 0.1899,
	"num_input_tokens_seen": 905040,
	"step": 130
	},
	{
	"epoch": 0.8431214802896219,
	"grad_norm": 15.84151554107666,
	"learning_rate": 1.0916666666666667e-06,
	"loss": 0.1742,
	"num_input_tokens_seen": 912080,
	"step": 131
	},
	{
	"epoch": 0.8495575221238938,
	"grad_norm": 8.174356460571289,
	"learning_rate": 1.1e-06,
	"loss": 0.1585,
	"num_input_tokens_seen": 919424,
	"step": 132
	},
	{
	"epoch": 0.8559935639581657,
	"grad_norm": 14.87348461151123,
	"learning_rate": 1.1083333333333335e-06,
	"loss": 0.1878,
	"num_input_tokens_seen": 926608,
	"step": 133
	},
	{
	"epoch": 0.8624296057924377,
	"grad_norm": 11.989315032958984,
	"learning_rate": 1.1166666666666666e-06,
	"loss": 0.1748,
	"num_input_tokens_seen": 933712,
	"step": 134
	},
	{
	"epoch": 0.8688656476267096,
	"grad_norm": 9.659666061401367,
	"learning_rate": 1.125e-06,
	"loss": 0.1944,
	"num_input_tokens_seen": 940304,
	"step": 135
	},
	{
	"epoch": 0.8753016894609815,
	"grad_norm": 20.558237075805664,
	"learning_rate": 1.1333333333333334e-06,
	"loss": 0.1727,
	"num_input_tokens_seen": 947008,
	"step": 136
	},
	{
	"epoch": 0.8817377312952535,
	"grad_norm": 8.66232967376709,
	"learning_rate": 1.1416666666666668e-06,
	"loss": 0.1748,
	"num_input_tokens_seen": 954112,
	"step": 137
	},
	{
	"epoch": 0.8881737731295254,
	"grad_norm": 16.516559600830078,
	"learning_rate": 1.1500000000000002e-06,
	"loss": 0.1625,
	"num_input_tokens_seen": 961120,
	"step": 138
	},
	{
	"epoch": 0.8946098149637972,
	"grad_norm": 6.140871047973633,
	"learning_rate": 1.1583333333333334e-06,
	"loss": 0.1649,
	"num_input_tokens_seen": 967792,
	"step": 139
	},
	{
	"epoch": 0.9010458567980691,
	"grad_norm": 11.593804359436035,
	"learning_rate": 1.1666666666666668e-06,
	"loss": 0.1738,
	"num_input_tokens_seen": 974496,
	"step": 140
	},
	{
	"epoch": 0.9074818986323411,
	"grad_norm": 26.92620849609375,
	"learning_rate": 1.175e-06,
	"loss": 0.2221,
	"num_input_tokens_seen": 981344,
	"step": 141
	},
	{
	"epoch": 0.913917940466613,
	"grad_norm": 26.845230102539062,
	"learning_rate": 1.1833333333333334e-06,
	"loss": 0.1989,
	"num_input_tokens_seen": 988224,
	"step": 142
	},
	{
	"epoch": 0.9203539823008849,
	"grad_norm": 12.823030471801758,
	"learning_rate": 1.1916666666666668e-06,
	"loss": 0.1569,
	"num_input_tokens_seen": 995552,
	"step": 143
	},
	{
	"epoch": 0.9267900241351569,
	"grad_norm": 14.508877754211426,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 0.1594,
	"num_input_tokens_seen": 1002224,
	"step": 144
	},
	{
	"epoch": 0.9332260659694288,
	"grad_norm": 13.097854614257812,
	"learning_rate": 1.2083333333333333e-06,
	"loss": 0.1609,
	"num_input_tokens_seen": 1009312,
	"step": 145
	},
	{
	"epoch": 0.9396621078037007,
	"grad_norm": 12.183431625366211,
	"learning_rate": 1.2166666666666667e-06,
	"loss": 0.1649,
	"num_input_tokens_seen": 1016256,
	"step": 146
	},
	{
	"epoch": 0.9460981496379727,
	"grad_norm": 10.628469467163086,
	"learning_rate": 1.2250000000000001e-06,
	"loss": 0.1412,
	"num_input_tokens_seen": 1022880,
	"step": 147
	},
	{
	"epoch": 0.9525341914722446,
	"grad_norm": 11.713327407836914,
	"learning_rate": 1.2333333333333335e-06,
	"loss": 0.165,
	"num_input_tokens_seen": 1029856,
	"step": 148
	},
	{
	"epoch": 0.9589702333065165,
	"grad_norm": 10.031126976013184,
	"learning_rate": 1.2416666666666667e-06,
	"loss": 0.1971,
	"num_input_tokens_seen": 1036928,
	"step": 149
	},
	{
	"epoch": 0.9654062751407884,
	"grad_norm": 34.122074127197266,
	"learning_rate": 1.25e-06,
	"loss": 0.1843,
	"num_input_tokens_seen": 1044000,
	"step": 150
	},
	{
	"epoch": 0.9718423169750603,
	"grad_norm": 13.707520484924316,
	"learning_rate": 1.2583333333333333e-06,
	"loss": 0.1628,
	"num_input_tokens_seen": 1050928,
	"step": 151
	},
	{
	"epoch": 0.9782783588093322,
	"grad_norm": 8.588343620300293,
	"learning_rate": 1.2666666666666669e-06,
	"loss": 0.1878,
	"num_input_tokens_seen": 1057920,
	"step": 152
	},
	{
	"epoch": 0.9847144006436042,
	"grad_norm": 4.411599159240723,
	"learning_rate": 1.275e-06,
	"loss": 0.1153,
	"num_input_tokens_seen": 1064704,
	"step": 153
	},
	{
	"epoch": 0.9911504424778761,
	"grad_norm": 13.095698356628418,
	"learning_rate": 1.2833333333333335e-06,
	"loss": 0.1622,
	"num_input_tokens_seen": 1071760,
	"step": 154
	},
	{
	"epoch": 0.997586484312148,
	"grad_norm": 14.093315124511719,
	"learning_rate": 1.2916666666666669e-06,
	"loss": 0.1549,
	"num_input_tokens_seen": 1078912,
	"step": 155
	},
	{
	"epoch": 1.00402252614642,
	"grad_norm": 17.082075119018555,
	"learning_rate": 1.3e-06,
	"loss": 0.1729,
	"num_input_tokens_seen": 1086288,
	"step": 156
	},
	{
	"epoch": 1.010458567980692,
	"grad_norm": 4.992012977600098,
	"learning_rate": 1.3083333333333334e-06,
	"loss": 0.1198,
	"num_input_tokens_seen": 1093584,
	"step": 157
	},
	{
	"epoch": 1.0168946098149638,
	"grad_norm": 5.45336389541626,
	"learning_rate": 1.3166666666666666e-06,
	"loss": 0.1723,
	"num_input_tokens_seen": 1100432,
	"step": 158
	},
	{
	"epoch": 1.0233306516492358,
	"grad_norm": 7.4880757331848145,
	"learning_rate": 1.3250000000000002e-06,
	"loss": 0.1485,
	"num_input_tokens_seen": 1107280,
	"step": 159
	},
	{
	"epoch": 1.0297666934835077,
	"grad_norm": 40.28890609741211,
	"learning_rate": 1.3333333333333334e-06,
	"loss": 0.1757,
	"num_input_tokens_seen": 1113968,
	"step": 160
	},
	{
	"epoch": 1.0362027353177796,
	"grad_norm": 39.24993896484375,
	"learning_rate": 1.3416666666666666e-06,
	"loss": 0.1907,
	"num_input_tokens_seen": 1120752,
	"step": 161
	},
	{
	"epoch": 1.0426387771520516,
	"grad_norm": 5.63855504989624,
	"learning_rate": 1.3500000000000002e-06,
	"loss": 0.1842,
	"num_input_tokens_seen": 1127712,
	"step": 162
	},
	{
	"epoch": 1.0490748189863235,
	"grad_norm": 5.1802754402160645,
	"learning_rate": 1.3583333333333334e-06,
	"loss": 0.1549,
	"num_input_tokens_seen": 1134592,
	"step": 163
	},
	{
	"epoch": 1.0555108608205954,
	"grad_norm": 4.200067043304443,
	"learning_rate": 1.3666666666666668e-06,
	"loss": 0.153,
	"num_input_tokens_seen": 1141888,
	"step": 164
	},
	{
	"epoch": 1.0619469026548674,
	"grad_norm": 6.892277240753174,
	"learning_rate": 1.3750000000000002e-06,
	"loss": 0.1532,
	"num_input_tokens_seen": 1148688,
	"step": 165
	},
	{
	"epoch": 1.068382944489139,
	"grad_norm": 11.852892875671387,
	"learning_rate": 1.3833333333333336e-06,
	"loss": 0.1629,
	"num_input_tokens_seen": 1155552,
	"step": 166
	},
	{
	"epoch": 1.074818986323411,
	"grad_norm": 8.346076011657715,
	"learning_rate": 1.3916666666666668e-06,
	"loss": 0.1708,
	"num_input_tokens_seen": 1162624,
	"step": 167
	},
	{
	"epoch": 1.081255028157683,
	"grad_norm": 7.836976528167725,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 0.1461,
	"num_input_tokens_seen": 1169904,
	"step": 168
	},
	{
	"epoch": 1.0876910699919549,
	"grad_norm": 15.59913158416748,
	"learning_rate": 1.4083333333333335e-06,
	"loss": 0.1402,
	"num_input_tokens_seen": 1176928,
	"step": 169
	},
	{
	"epoch": 1.0941271118262268,
	"grad_norm": 8.46536636352539,
	"learning_rate": 1.4166666666666667e-06,
	"loss": 0.143,
	"num_input_tokens_seen": 1184160,
	"step": 170
	},
	{
	"epoch": 1.1005631536604987,
	"grad_norm": 7.491546154022217,
	"learning_rate": 1.425e-06,
	"loss": 0.1454,
	"num_input_tokens_seen": 1191120,
	"step": 171
	},
	{
	"epoch": 1.1069991954947707,
	"grad_norm": 16.70829200744629,
	"learning_rate": 1.4333333333333335e-06,
	"loss": 0.1286,
	"num_input_tokens_seen": 1197920,
	"step": 172
	},
	{
	"epoch": 1.1134352373290426,
	"grad_norm": 16.273927688598633,
	"learning_rate": 1.4416666666666667e-06,
	"loss": 0.1523,
	"num_input_tokens_seen": 1204576,
	"step": 173
	},
	{
	"epoch": 1.1198712791633145,
	"grad_norm": 8.122928619384766,
	"learning_rate": 1.45e-06,
	"loss": 0.1345,
	"num_input_tokens_seen": 1211344,
	"step": 174
	},
	{
	"epoch": 1.1263073209975865,
	"grad_norm": 27.850522994995117,
	"learning_rate": 1.4583333333333335e-06,
	"loss": 0.1749,
	"num_input_tokens_seen": 1218432,
	"step": 175
	},
	{
	"epoch": 1.1327433628318584,
	"grad_norm": 30.498666763305664,
	"learning_rate": 1.4666666666666669e-06,
	"loss": 0.166,
	"num_input_tokens_seen": 1225728,
	"step": 176
	},
	{
	"epoch": 1.1391794046661303,
	"grad_norm": 26.916791915893555,
	"learning_rate": 1.475e-06,
	"loss": 0.1708,
	"num_input_tokens_seen": 1232784,
	"step": 177
	},
	{
	"epoch": 1.1456154465004023,
	"grad_norm": 13.593954086303711,
	"learning_rate": 1.4833333333333337e-06,
	"loss": 0.1363,
	"num_input_tokens_seen": 1239472,
	"step": 178
	},
	{
	"epoch": 1.1520514883346742,
	"grad_norm": 17.63590431213379,
	"learning_rate": 1.4916666666666669e-06,
	"loss": 0.1369,
	"num_input_tokens_seen": 1246864,
	"step": 179
	},
	{
	"epoch": 1.1584875301689461,
	"grad_norm": 12.465302467346191,
	"learning_rate": 1.5e-06,
	"loss": 0.1632,
	"num_input_tokens_seen": 1253936,
	"step": 180
	},
	{
	"epoch": 1.164923572003218,
	"grad_norm": 18.099266052246094,
	"learning_rate": 1.5083333333333336e-06,
	"loss": 0.1734,
	"num_input_tokens_seen": 1261120,
	"step": 181
	},
	{
	"epoch": 1.17135961383749,
	"grad_norm": 12.134090423583984,
	"learning_rate": 1.5166666666666668e-06,
	"loss": 0.135,
	"num_input_tokens_seen": 1268208,
	"step": 182
	},
	{
	"epoch": 1.177795655671762,
	"grad_norm": 5.747508525848389,
	"learning_rate": 1.525e-06,
	"loss": 0.1355,
	"num_input_tokens_seen": 1275296,
	"step": 183
	},
	{
	"epoch": 1.1842316975060339,
	"grad_norm": 16.193449020385742,
	"learning_rate": 1.5333333333333334e-06,
	"loss": 0.1324,
	"num_input_tokens_seen": 1282320,
	"step": 184
	},
	{
	"epoch": 1.1906677393403058,
	"grad_norm": 23.576427459716797,
	"learning_rate": 1.5416666666666668e-06,
	"loss": 0.1754,
	"num_input_tokens_seen": 1289008,
	"step": 185
	},
	{
	"epoch": 1.1971037811745777,
	"grad_norm": 4.542221546173096,
	"learning_rate": 1.5500000000000002e-06,
	"loss": 0.1484,
	"num_input_tokens_seen": 1296208,
	"step": 186
	},
	{
	"epoch": 1.2035398230088497,
	"grad_norm": 6.084584712982178,
	"learning_rate": 1.5583333333333334e-06,
	"loss": 0.1315,
	"num_input_tokens_seen": 1303072,
	"step": 187
	},
	{
	"epoch": 1.2099758648431216,
	"grad_norm": 18.8467960357666,
	"learning_rate": 1.566666666666667e-06,
	"loss": 0.1665,
	"num_input_tokens_seen": 1310320,
	"step": 188
	},
	{
	"epoch": 1.2164119066773935,
	"grad_norm": 6.79512882232666,
	"learning_rate": 1.5750000000000002e-06,
	"loss": 0.1406,
	"num_input_tokens_seen": 1317728,
	"step": 189
	},
	{
	"epoch": 1.2228479485116655,
	"grad_norm": 11.130036354064941,
	"learning_rate": 1.5833333333333333e-06,
	"loss": 0.1391,
	"num_input_tokens_seen": 1325216,
	"step": 190
	},
	{
	"epoch": 1.2292839903459372,
	"grad_norm": 17.00998306274414,
	"learning_rate": 1.591666666666667e-06,
	"loss": 0.1339,
	"num_input_tokens_seen": 1332272,
	"step": 191
	},
	{
	"epoch": 1.235720032180209,
	"grad_norm": 16.623762130737305,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 0.1613,
	"num_input_tokens_seen": 1339008,
	"step": 192
	},
	{
	"epoch": 1.242156074014481,
	"grad_norm": 15.660219192504883,
	"learning_rate": 1.6083333333333333e-06,
	"loss": 0.1274,
	"num_input_tokens_seen": 1345664,
	"step": 193
	},
	{
	"epoch": 1.248592115848753,
	"grad_norm": 21.379770278930664,
	"learning_rate": 1.6166666666666667e-06,
	"loss": 0.1882,
	"num_input_tokens_seen": 1352720,
	"step": 194
	},
	{
	"epoch": 1.255028157683025,
	"grad_norm": 8.196439743041992,
	"learning_rate": 1.6250000000000001e-06,
	"loss": 0.1106,
	"num_input_tokens_seen": 1359616,
	"step": 195
	},
	{
	"epoch": 1.2614641995172968,
	"grad_norm": 4.444194793701172,
	"learning_rate": 1.6333333333333335e-06,
	"loss": 0.1249,
	"num_input_tokens_seen": 1366656,
	"step": 196
	},
	{
	"epoch": 1.2679002413515688,
	"grad_norm": 10.585016250610352,
	"learning_rate": 1.6416666666666667e-06,
	"loss": 0.1499,
	"num_input_tokens_seen": 1373904,
	"step": 197
	},
	{
	"epoch": 1.2743362831858407,
	"grad_norm": 18.406293869018555,
	"learning_rate": 1.6500000000000003e-06,
	"loss": 0.1512,
	"num_input_tokens_seen": 1380528,
	"step": 198
	},
	{
	"epoch": 1.2807723250201126,
	"grad_norm": 5.323694229125977,
	"learning_rate": 1.6583333333333335e-06,
	"loss": 0.1166,
	"num_input_tokens_seen": 1386912,
	"step": 199
	},
	{
	"epoch": 1.2872083668543846,
	"grad_norm": 20.726289749145508,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.21,
	"num_input_tokens_seen": 1393648,
	"step": 200
	},
	{
	"epoch": 1.2936444086886565,
	"grad_norm": 24.05786895751953,
	"learning_rate": 1.6750000000000003e-06,
	"loss": 0.1915,
	"num_input_tokens_seen": 1400640,
	"step": 201
	},
	{
	"epoch": 1.3000804505229284,
	"grad_norm": 19.30237579345703,
	"learning_rate": 1.6833333333333335e-06,
	"loss": 0.1911,
	"num_input_tokens_seen": 1407984,
	"step": 202
	},
	{
	"epoch": 1.3065164923572004,
	"grad_norm": 6.517977714538574,
	"learning_rate": 1.6916666666666666e-06,
	"loss": 0.1487,
	"num_input_tokens_seen": 1414672,
	"step": 203
	},
	{
	"epoch": 1.3129525341914723,
	"grad_norm": 30.81540870666504,
	"learning_rate": 1.7000000000000002e-06,
	"loss": 0.2154,
	"num_input_tokens_seen": 1421872,
	"step": 204
	},
	{
	"epoch": 1.3193885760257442,
	"grad_norm": 44.00107955932617,
	"learning_rate": 1.7083333333333334e-06,
	"loss": 0.2909,
	"num_input_tokens_seen": 1428640,
	"step": 205
	},
	{
	"epoch": 1.3258246178600162,
	"grad_norm": 41.464210510253906,
	"learning_rate": 1.7166666666666668e-06,
	"loss": 0.271,
	"num_input_tokens_seen": 1435456,
	"step": 206
	},
	{
	"epoch": 1.332260659694288,
	"grad_norm": 12.14904499053955,
	"learning_rate": 1.725e-06,
	"loss": 0.1616,
	"num_input_tokens_seen": 1442592,
	"step": 207
	},
	{
	"epoch": 1.33869670152856,
	"grad_norm": 8.393083572387695,
	"learning_rate": 1.7333333333333336e-06,
	"loss": 0.1427,
	"num_input_tokens_seen": 1449200,
	"step": 208
	},
	{
	"epoch": 1.3451327433628317,
	"grad_norm": 11.04562759399414,
	"learning_rate": 1.7416666666666668e-06,
	"loss": 0.1602,
	"num_input_tokens_seen": 1455920,
	"step": 209
	},
	{
	"epoch": 1.3515687851971037,
	"grad_norm": 12.494465827941895,
	"learning_rate": 1.75e-06,
	"loss": 0.169,
	"num_input_tokens_seen": 1462624,
	"step": 210
	},
	{
	"epoch": 1.3580048270313756,
	"grad_norm": 5.395782470703125,
	"learning_rate": 1.7583333333333336e-06,
	"loss": 0.1285,
	"num_input_tokens_seen": 1469520,
	"step": 211
	},
	{
	"epoch": 1.3644408688656475,
	"grad_norm": 19.773469924926758,
	"learning_rate": 1.7666666666666668e-06,
	"loss": 0.1636,
	"num_input_tokens_seen": 1476592,
	"step": 212
	},
	{
	"epoch": 1.3708769106999195,
	"grad_norm": 28.318584442138672,
	"learning_rate": 1.7750000000000002e-06,
	"loss": 0.1702,
	"num_input_tokens_seen": 1483632,
	"step": 213
	},
	{
	"epoch": 1.3773129525341914,
	"grad_norm": 20.225502014160156,
	"learning_rate": 1.7833333333333336e-06,
	"loss": 0.1562,
	"num_input_tokens_seen": 1490528,
	"step": 214
	},
	{
	"epoch": 1.3837489943684633,
	"grad_norm": 5.386298179626465,
	"learning_rate": 1.7916666666666667e-06,
	"loss": 0.1537,
	"num_input_tokens_seen": 1497648,
	"step": 215
	},
	{
	"epoch": 1.3901850362027353,
	"grad_norm": 6.181918144226074,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 0.1114,
	"num_input_tokens_seen": 1504800,
	"step": 216
	},
	{
	"epoch": 1.3966210780370072,
	"grad_norm": 5.554294109344482,
	"learning_rate": 1.8083333333333335e-06,
	"loss": 0.1017,
	"num_input_tokens_seen": 1512240,
	"step": 217
	},
	{
	"epoch": 1.4030571198712791,
	"grad_norm": 5.2657880783081055,
	"learning_rate": 1.816666666666667e-06,
	"loss": 0.1184,
	"num_input_tokens_seen": 1519200,
	"step": 218
	},
	{
	"epoch": 1.409493161705551,
	"grad_norm": 8.627300262451172,
	"learning_rate": 1.825e-06,
	"loss": 0.1343,
	"num_input_tokens_seen": 1526272,
	"step": 219
	},
	{
	"epoch": 1.415929203539823,
	"grad_norm": 7.965896129608154,
	"learning_rate": 1.8333333333333333e-06,
	"loss": 0.1271,
	"num_input_tokens_seen": 1533440,
	"step": 220
	},
	{
	"epoch": 1.422365245374095,
	"grad_norm": 7.089397430419922,
	"learning_rate": 1.8416666666666669e-06,
	"loss": 0.1383,
	"num_input_tokens_seen": 1540272,
	"step": 221
	},
	{
	"epoch": 1.4288012872083669,
	"grad_norm": 4.354486465454102,
	"learning_rate": 1.85e-06,
	"loss": 0.1558,
	"num_input_tokens_seen": 1547632,
	"step": 222
	},
	{
	"epoch": 1.4352373290426388,
	"grad_norm": 7.841838836669922,
	"learning_rate": 1.8583333333333335e-06,
	"loss": 0.1312,
	"num_input_tokens_seen": 1554608,
	"step": 223
	},
	{
	"epoch": 1.4416733708769107,
	"grad_norm": 6.812905311584473,
	"learning_rate": 1.8666666666666669e-06,
	"loss": 0.1212,
	"num_input_tokens_seen": 1561472,
	"step": 224
	},
	{
	"epoch": 1.4481094127111827,
	"grad_norm": 5.038280963897705,
	"learning_rate": 1.8750000000000003e-06,
	"loss": 0.1342,
	"num_input_tokens_seen": 1568496,
	"step": 225
	},
	{
	"epoch": 1.4545454545454546,
	"grad_norm": 4.255394458770752,
	"learning_rate": 1.8833333333333334e-06,
	"loss": 0.096,
	"num_input_tokens_seen": 1575184,
	"step": 226
	},
	{
	"epoch": 1.4609814963797265,
	"grad_norm": 3.311915397644043,
	"learning_rate": 1.8916666666666668e-06,
	"loss": 0.0982,
	"num_input_tokens_seen": 1582080,
	"step": 227
	},
	{
	"epoch": 1.4674175382139985,
	"grad_norm": 4.303693771362305,
	"learning_rate": 1.9000000000000002e-06,
	"loss": 0.1099,
	"num_input_tokens_seen": 1588688,
	"step": 228
	},
	{
	"epoch": 1.4738535800482704,
	"grad_norm": 14.854019165039062,
	"learning_rate": 1.9083333333333334e-06,
	"loss": 0.1265,
	"num_input_tokens_seen": 1595216,
	"step": 229
	},
	{
	"epoch": 1.4802896218825423,
	"grad_norm": 10.509958267211914,
	"learning_rate": 1.916666666666667e-06,
	"loss": 0.1066,
	"num_input_tokens_seen": 1602336,
	"step": 230
	},
	{
	"epoch": 1.4867256637168142,
	"grad_norm": 9.096975326538086,
	"learning_rate": 1.925e-06,
	"loss": 0.1593,
	"num_input_tokens_seen": 1609024,
	"step": 231
	},
	{
	"epoch": 1.4931617055510862,
	"grad_norm": 18.944650650024414,
	"learning_rate": 1.9333333333333336e-06,
	"loss": 0.1891,
	"num_input_tokens_seen": 1615712,
	"step": 232
	},
	{
	"epoch": 1.4995977473853581,
	"grad_norm": 6.735738754272461,
	"learning_rate": 1.9416666666666666e-06,
	"loss": 0.0867,
	"num_input_tokens_seen": 1622608,
	"step": 233
	},
	{
	"epoch": 1.50603378921963,
	"grad_norm": 12.395522117614746,
	"learning_rate": 1.9500000000000004e-06,
	"loss": 0.1286,
	"num_input_tokens_seen": 1629520,
	"step": 234
	},
	{
	"epoch": 1.512469831053902,
	"grad_norm": 13.864114761352539,
	"learning_rate": 1.9583333333333334e-06,
	"loss": 0.1262,
	"num_input_tokens_seen": 1636320,
	"step": 235
	},
	{
	"epoch": 1.518905872888174,
	"grad_norm": 4.206810474395752,
	"learning_rate": 1.9666666666666668e-06,
	"loss": 0.0878,
	"num_input_tokens_seen": 1643216,
	"step": 236
	},
	{
	"epoch": 1.5253419147224458,
	"grad_norm": 9.294787406921387,
	"learning_rate": 1.975e-06,
	"loss": 0.1532,
	"num_input_tokens_seen": 1650256,
	"step": 237
	},
	{
	"epoch": 1.5317779565567178,
	"grad_norm": 5.397519111633301,
	"learning_rate": 1.9833333333333335e-06,
	"loss": 0.1232,
	"num_input_tokens_seen": 1657328,
	"step": 238
	},
	{
	"epoch": 1.5382139983909895,
	"grad_norm": 4.74614953994751,
	"learning_rate": 1.991666666666667e-06,
	"loss": 0.1119,
	"num_input_tokens_seen": 1664192,
	"step": 239
	},
	{
	"epoch": 1.5446500402252614,
	"grad_norm": 8.80385971069336,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 0.1334,
	"num_input_tokens_seen": 1670944,
	"step": 240
	},
	{
	"epoch": 1.5510860820595334,
	"grad_norm": 12.17174243927002,
	"learning_rate": 2.0083333333333337e-06,
	"loss": 0.1224,
	"num_input_tokens_seen": 1677792,
	"step": 241
	},
	{
	"epoch": 1.5575221238938053,
	"grad_norm": 6.9399800300598145,
	"learning_rate": 2.0166666666666667e-06,
	"loss": 0.106,
	"num_input_tokens_seen": 1684640,
	"step": 242
	},
	{
	"epoch": 1.5639581657280772,
	"grad_norm": 5.804976463317871,
	"learning_rate": 2.025e-06,
	"loss": 0.1237,
	"num_input_tokens_seen": 1691664,
	"step": 243
	},
	{
	"epoch": 1.5703942075623492,
	"grad_norm": 5.245293617248535,
	"learning_rate": 2.0333333333333335e-06,
	"loss": 0.095,
	"num_input_tokens_seen": 1698528,
	"step": 244
	},
	{
	"epoch": 1.576830249396621,
	"grad_norm": 2.9305763244628906,
	"learning_rate": 2.041666666666667e-06,
	"loss": 0.0741,
	"num_input_tokens_seen": 1705600,
	"step": 245
	},
	{
	"epoch": 1.583266291230893,
	"grad_norm": 10.269381523132324,
	"learning_rate": 2.05e-06,
	"loss": 0.1239,
	"num_input_tokens_seen": 1712704,
	"step": 246
	},
	{
	"epoch": 1.589702333065165,
	"grad_norm": 4.453558921813965,
	"learning_rate": 2.0583333333333337e-06,
	"loss": 0.091,
	"num_input_tokens_seen": 1719568,
	"step": 247
	},
	{
	"epoch": 1.5961383748994369,
	"grad_norm": 16.549911499023438,
	"learning_rate": 2.0666666666666666e-06,
	"loss": 0.1403,
	"num_input_tokens_seen": 1726480,
	"step": 248
	},
	{
	"epoch": 1.6025744167337088,
	"grad_norm": 17.650426864624023,
	"learning_rate": 2.075e-06,
	"loss": 0.1638,
	"num_input_tokens_seen": 1733936,
	"step": 249
	},
	{
	"epoch": 1.6090104585679805,
	"grad_norm": 5.322378158569336,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 0.1343,
	"num_input_tokens_seen": 1741008,
	"step": 250
	},
	{
	"epoch": 1.6154465004022525,
	"grad_norm": 11.570721626281738,
	"learning_rate": 2.091666666666667e-06,
	"loss": 0.1558,
	"num_input_tokens_seen": 1748240,
	"step": 251
	},
	{
	"epoch": 1.6218825422365244,
	"grad_norm": 2.901578426361084,
	"learning_rate": 2.1000000000000002e-06,
	"loss": 0.0809,
	"num_input_tokens_seen": 1755072,
	"step": 252
	},
	{
	"epoch": 1.6283185840707963,
	"grad_norm": 8.972208023071289,
	"learning_rate": 2.1083333333333336e-06,
	"loss": 0.1435,
	"num_input_tokens_seen": 1762048,
	"step": 253
	},
	{
	"epoch": 1.6347546259050683,
	"grad_norm": 2.364783525466919,
	"learning_rate": 2.116666666666667e-06,
	"loss": 0.0887,
	"num_input_tokens_seen": 1769200,
	"step": 254
	},
	{
	"epoch": 1.6411906677393402,
	"grad_norm": 3.7692675590515137,
	"learning_rate": 2.125e-06,
	"loss": 0.1038,
	"num_input_tokens_seen": 1776112,
	"step": 255
	},
	{
	"epoch": 1.6476267095736121,
	"grad_norm": 3.0572264194488525,
	"learning_rate": 2.133333333333334e-06,
	"loss": 0.0889,
	"num_input_tokens_seen": 1783664,
	"step": 256
	},
	{
	"epoch": 1.654062751407884,
	"grad_norm": 3.8316140174865723,
	"learning_rate": 2.1416666666666668e-06,
	"loss": 0.0751,
	"num_input_tokens_seen": 1790096,
	"step": 257
	},
	{
	"epoch": 1.660498793242156,
	"grad_norm": 5.133974552154541,
	"learning_rate": 2.15e-06,
	"loss": 0.0921,
	"num_input_tokens_seen": 1796912,
	"step": 258
	},
	{
	"epoch": 1.666934835076428,
	"grad_norm": 5.002286911010742,
	"learning_rate": 2.1583333333333336e-06,
	"loss": 0.1102,
	"num_input_tokens_seen": 1804144,
	"step": 259
	},
	{
	"epoch": 1.6733708769106999,
	"grad_norm": 8.221644401550293,
	"learning_rate": 2.166666666666667e-06,
	"loss": 0.1036,
	"num_input_tokens_seen": 1811040,
	"step": 260
	},
	{
	"epoch": 1.6798069187449718,
	"grad_norm": 6.029963493347168,
	"learning_rate": 2.1750000000000004e-06,
	"loss": 0.1093,
	"num_input_tokens_seen": 1818064,
	"step": 261
	},
	{
	"epoch": 1.6862429605792437,
	"grad_norm": 6.715224742889404,
	"learning_rate": 2.1833333333333333e-06,
	"loss": 0.1714,
	"num_input_tokens_seen": 1825056,
	"step": 262
	},
	{
	"epoch": 1.6926790024135157,
	"grad_norm": 6.136181354522705,
	"learning_rate": 2.191666666666667e-06,
	"loss": 0.1007,
	"num_input_tokens_seen": 1831968,
	"step": 263
	},
	{
	"epoch": 1.6991150442477876,
	"grad_norm": 5.392821788787842,
	"learning_rate": 2.2e-06,
	"loss": 0.109,
	"num_input_tokens_seen": 1838656,
	"step": 264
	},
	{
	"epoch": 1.7055510860820595,
	"grad_norm": 3.0743072032928467,
	"learning_rate": 2.2083333333333335e-06,
	"loss": 0.0574,
	"num_input_tokens_seen": 1845760,
	"step": 265
	},
	{
	"epoch": 1.7119871279163315,
	"grad_norm": 4.986932277679443,
	"learning_rate": 2.216666666666667e-06,
	"loss": 0.0697,
	"num_input_tokens_seen": 1852480,
	"step": 266
	},
	{
	"epoch": 1.7184231697506034,
	"grad_norm": 3.588496685028076,
	"learning_rate": 2.2250000000000003e-06,
	"loss": 0.1188,
	"num_input_tokens_seen": 1859312,
	"step": 267
	},
	{
	"epoch": 1.7248592115848753,
	"grad_norm": 3.850637912750244,
	"learning_rate": 2.2333333333333333e-06,
	"loss": 0.0998,
	"num_input_tokens_seen": 1866256,
	"step": 268
	},
	{
	"epoch": 1.7312952534191473,
	"grad_norm": 10.427441596984863,
	"learning_rate": 2.2416666666666667e-06,
	"loss": 0.1083,
	"num_input_tokens_seen": 1873104,
	"step": 269
	},
	{
	"epoch": 1.7377312952534192,
	"grad_norm": 6.516834259033203,
	"learning_rate": 2.25e-06,
	"loss": 0.0749,
	"num_input_tokens_seen": 1880192,
	"step": 270
	},
	{
	"epoch": 1.7441673370876911,
	"grad_norm": 5.243050575256348,
	"learning_rate": 2.2583333333333335e-06,
	"loss": 0.0771,
	"num_input_tokens_seen": 1887008,
	"step": 271
	},
	{
	"epoch": 1.750603378921963,
	"grad_norm": 3.874545097351074,
	"learning_rate": 2.266666666666667e-06,
	"loss": 0.0646,
	"num_input_tokens_seen": 1894096,
	"step": 272
	},
	{
	"epoch": 1.757039420756235,
	"grad_norm": 4.2995476722717285,
	"learning_rate": 2.2750000000000002e-06,
	"loss": 0.1147,
	"num_input_tokens_seen": 1901216,
	"step": 273
	},
	{
	"epoch": 1.763475462590507,
	"grad_norm": 9.720036506652832,
	"learning_rate": 2.2833333333333336e-06,
	"loss": 0.0917,
	"num_input_tokens_seen": 1908160,
	"step": 274
	},
	{
	"epoch": 1.7699115044247788,
	"grad_norm": 7.985558986663818,
	"learning_rate": 2.2916666666666666e-06,
	"loss": 0.106,
	"num_input_tokens_seen": 1915104,
	"step": 275
	},
	{
	"epoch": 1.7763475462590508,
	"grad_norm": 4.0768327713012695,
	"learning_rate": 2.3000000000000004e-06,
	"loss": 0.0849,
	"num_input_tokens_seen": 1922128,
	"step": 276
	},
	{
	"epoch": 1.7827835880933227,
	"grad_norm": 5.870975017547607,
	"learning_rate": 2.3083333333333334e-06,
	"loss": 0.1074,
	"num_input_tokens_seen": 1929200,
	"step": 277
	},
	{
	"epoch": 1.7892196299275946,
	"grad_norm": 3.490455389022827,
	"learning_rate": 2.316666666666667e-06,
	"loss": 0.0981,
	"num_input_tokens_seen": 1936144,
	"step": 278
	},
	{
	"epoch": 1.7956556717618666,
	"grad_norm": 4.1171183586120605,
	"learning_rate": 2.325e-06,
	"loss": 0.1008,
	"num_input_tokens_seen": 1943136,
	"step": 279
	},
	{
	"epoch": 1.8020917135961385,
	"grad_norm": 7.664264678955078,
	"learning_rate": 2.3333333333333336e-06,
	"loss": 0.1032,
	"num_input_tokens_seen": 1950208,
	"step": 280
	},
	{
	"epoch": 1.8085277554304104,
	"grad_norm": 4.865798473358154,
	"learning_rate": 2.341666666666667e-06,
	"loss": 0.0711,
	"num_input_tokens_seen": 1957056,
	"step": 281
	},
	{
	"epoch": 1.8149637972646824,
	"grad_norm": 2.5436036586761475,
	"learning_rate": 2.35e-06,
	"loss": 0.0901,
	"num_input_tokens_seen": 1964176,
	"step": 282
	},
	{
	"epoch": 1.8213998390989543,
	"grad_norm": 6.305140972137451,
	"learning_rate": 2.3583333333333338e-06,
	"loss": 0.0847,
	"num_input_tokens_seen": 1970736,
	"step": 283
	},
	{
	"epoch": 1.827835880933226,
	"grad_norm": 2.6688449382781982,
	"learning_rate": 2.3666666666666667e-06,
	"loss": 0.0752,
	"num_input_tokens_seen": 1977440,
	"step": 284
	},
	{
	"epoch": 1.834271922767498,
	"grad_norm": 2.5124077796936035,
	"learning_rate": 2.375e-06,
	"loss": 0.068,
	"num_input_tokens_seen": 1984464,
	"step": 285
	},
	{
	"epoch": 1.8407079646017699,
	"grad_norm": 6.168980121612549,
	"learning_rate": 2.3833333333333335e-06,
	"loss": 0.1088,
	"num_input_tokens_seen": 1991248,
	"step": 286
	},
	{
	"epoch": 1.8471440064360418,
	"grad_norm": 5.883851051330566,
	"learning_rate": 2.391666666666667e-06,
	"loss": 0.1017,
	"num_input_tokens_seen": 1998496,
	"step": 287
	},
	{
	"epoch": 1.8535800482703138,
	"grad_norm": 9.373373985290527,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 0.13,
	"num_input_tokens_seen": 2005552,
	"step": 288
	},
	{
	"epoch": 1.8600160901045857,
	"grad_norm": 9.111586570739746,
	"learning_rate": 2.4083333333333337e-06,
	"loss": 0.0998,
	"num_input_tokens_seen": 2012272,
	"step": 289
	},
	{
	"epoch": 1.8664521319388576,
	"grad_norm": 5.353252410888672,
	"learning_rate": 2.4166666666666667e-06,
	"loss": 0.0779,
	"num_input_tokens_seen": 2019056,
	"step": 290
	},
	{
	"epoch": 1.8728881737731295,
	"grad_norm": 6.586206436157227,
	"learning_rate": 2.425e-06,
	"loss": 0.0907,
	"num_input_tokens_seen": 2025760,
	"step": 291
	},
	{
	"epoch": 1.8793242156074015,
	"grad_norm": 5.485732555389404,
	"learning_rate": 2.4333333333333335e-06,
	"loss": 0.0911,
	"num_input_tokens_seen": 2032928,
	"step": 292
	},
	{
	"epoch": 1.8857602574416734,
	"grad_norm": 3.5151724815368652,
	"learning_rate": 2.441666666666667e-06,
	"loss": 0.0987,
	"num_input_tokens_seen": 2039856,
	"step": 293
	},
	{
	"epoch": 1.8921962992759453,
	"grad_norm": 3.680494546890259,
	"learning_rate": 2.4500000000000003e-06,
	"loss": 0.1254,
	"num_input_tokens_seen": 2046896,
	"step": 294
	},
	{
	"epoch": 1.898632341110217,
	"grad_norm": 3.302248001098633,
	"learning_rate": 2.4583333333333332e-06,
	"loss": 0.0494,
	"num_input_tokens_seen": 2053600,
	"step": 295
	},
	{
	"epoch": 1.905068382944489,
	"grad_norm": 3.605039119720459,
	"learning_rate": 2.466666666666667e-06,
	"loss": 0.1082,
	"num_input_tokens_seen": 2060240,
	"step": 296
	},
	{
	"epoch": 1.911504424778761,
	"grad_norm": 2.6599857807159424,
	"learning_rate": 2.475e-06,
	"loss": 0.0785,
	"num_input_tokens_seen": 2067936,
	"step": 297
	},
	{
	"epoch": 1.9179404666130329,
	"grad_norm": 7.149720191955566,
	"learning_rate": 2.4833333333333334e-06,
	"loss": 0.1026,
	"num_input_tokens_seen": 2074656,
	"step": 298
	},
	{
	"epoch": 1.9243765084473048,
	"grad_norm": 4.549108982086182,
	"learning_rate": 2.491666666666667e-06,
	"loss": 0.0617,
	"num_input_tokens_seen": 2081568,
	"step": 299
	},
	{
	"epoch": 1.9308125502815767,
	"grad_norm": 2.900601625442505,
	"learning_rate": 2.5e-06,
	"loss": 0.0659,
	"num_input_tokens_seen": 2088368,
	"step": 300
	},
	{
	"epoch": 1.9372485921158487,
	"grad_norm": 6.378200531005859,
	"learning_rate": 2.5083333333333336e-06,
	"loss": 0.088,
	"num_input_tokens_seen": 2095728,
	"step": 301
	},
	{
	"epoch": 1.9436846339501206,
	"grad_norm": 6.718885898590088,
	"learning_rate": 2.5166666666666666e-06,
	"loss": 0.0771,
	"num_input_tokens_seen": 2103104,
	"step": 302
	},
	{
	"epoch": 1.9501206757843925,
	"grad_norm": 3.587820291519165,
	"learning_rate": 2.5250000000000004e-06,
	"loss": 0.0642,
	"num_input_tokens_seen": 2110032,
	"step": 303
	},
	{
	"epoch": 1.9565567176186645,
	"grad_norm": 7.106460094451904,
	"learning_rate": 2.5333333333333338e-06,
	"loss": 0.0947,
	"num_input_tokens_seen": 2117056,
	"step": 304
	},
	{
	"epoch": 1.9629927594529364,
	"grad_norm": 3.480973243713379,
	"learning_rate": 2.5416666666666668e-06,
	"loss": 0.0975,
	"num_input_tokens_seen": 2123552,
	"step": 305
	},
	{
	"epoch": 1.9694288012872083,
	"grad_norm": 2.709892511367798,
	"learning_rate": 2.55e-06,
	"loss": 0.0527,
	"num_input_tokens_seen": 2130128,
	"step": 306
	},
	{
	"epoch": 1.9758648431214803,
	"grad_norm": 3.3756306171417236,
	"learning_rate": 2.558333333333334e-06,
	"loss": 0.0869,
	"num_input_tokens_seen": 2137232,
	"step": 307
	},
	{
	"epoch": 1.9823008849557522,
	"grad_norm": 6.785555839538574,
	"learning_rate": 2.566666666666667e-06,
	"loss": 0.0605,
	"num_input_tokens_seen": 2143776,
	"step": 308
	},
	{
	"epoch": 1.9887369267900241,
	"grad_norm": 3.4628372192382812,
	"learning_rate": 2.5750000000000003e-06,
	"loss": 0.0684,
	"num_input_tokens_seen": 2150976,
	"step": 309
	},
	{
	"epoch": 1.995172968624296,
	"grad_norm": 3.56925892829895,
	"learning_rate": 2.5833333333333337e-06,
	"loss": 0.0701,
	"num_input_tokens_seen": 2158080,
	"step": 310
	},
	{
	"epoch": 2.001609010458568,
	"grad_norm": 4.06324577331543,
	"learning_rate": 2.5916666666666667e-06,
	"loss": 0.0699,
	"num_input_tokens_seen": 2164992,
	"step": 311
	},
	{
	"epoch": 2.00804505229284,
	"grad_norm": 7.733395576477051,
	"learning_rate": 2.6e-06,
	"loss": 0.0949,
	"num_input_tokens_seen": 2171952,
	"step": 312
	},
	{
	"epoch": 2.014481094127112,
	"grad_norm": 7.6149139404296875,
	"learning_rate": 2.608333333333333e-06,
	"loss": 0.0911,
	"num_input_tokens_seen": 2179072,
	"step": 313
	},
	{
	"epoch": 2.020917135961384,
	"grad_norm": 2.538379192352295,
	"learning_rate": 2.616666666666667e-06,
	"loss": 0.0615,
	"num_input_tokens_seen": 2185872,
	"step": 314
	},
	{
	"epoch": 2.0273531777956557,
	"grad_norm": 2.5334603786468506,
	"learning_rate": 2.6250000000000003e-06,
	"loss": 0.0448,
	"num_input_tokens_seen": 2192656,
	"step": 315
	},
	{
	"epoch": 2.0337892196299276,
	"grad_norm": 4.8344340324401855,
	"learning_rate": 2.6333333333333332e-06,
	"loss": 0.0619,
	"num_input_tokens_seen": 2199728,
	"step": 316
	},
	{
	"epoch": 2.0402252614641996,
	"grad_norm": 4.393861770629883,
	"learning_rate": 2.6416666666666666e-06,
	"loss": 0.0475,
	"num_input_tokens_seen": 2206608,
	"step": 317
	},
	{
	"epoch": 2.0466613032984715,
	"grad_norm": 2.7922892570495605,
	"learning_rate": 2.6500000000000005e-06,
	"loss": 0.0438,
	"num_input_tokens_seen": 2213856,
	"step": 318
	},
	{
	"epoch": 2.0530973451327434,
	"grad_norm": 1.5408401489257812,
	"learning_rate": 2.6583333333333334e-06,
	"loss": 0.0245,
	"num_input_tokens_seen": 2220528,
	"step": 319
	},
	{
	"epoch": 2.0595333869670154,
	"grad_norm": 5.6088433265686035,
	"learning_rate": 2.666666666666667e-06,
	"loss": 0.0716,
	"num_input_tokens_seen": 2227616,
	"step": 320
	},
	{
	"epoch": 2.0659694288012873,
	"grad_norm": 9.311470985412598,
	"learning_rate": 2.6750000000000002e-06,
	"loss": 0.1015,
	"num_input_tokens_seen": 2234304,
	"step": 321
	},
	{
	"epoch": 2.0724054706355592,
	"grad_norm": 5.244096279144287,
	"learning_rate": 2.683333333333333e-06,
	"loss": 0.0753,
	"num_input_tokens_seen": 2241088,
	"step": 322
	},
	{
	"epoch": 2.078841512469831,
	"grad_norm": 3.443998098373413,
	"learning_rate": 2.691666666666667e-06,
	"loss": 0.0521,
	"num_input_tokens_seen": 2247632,
	"step": 323
	},
	{
	"epoch": 2.085277554304103,
	"grad_norm": 2.4997072219848633,
	"learning_rate": 2.7000000000000004e-06,
	"loss": 0.0287,
	"num_input_tokens_seen": 2254448,
	"step": 324
	},
	{
	"epoch": 2.091713596138375,
	"grad_norm": 4.817678928375244,
	"learning_rate": 2.7083333333333334e-06,
	"loss": 0.0471,
	"num_input_tokens_seen": 2261424,
	"step": 325
	},
	{
	"epoch": 2.098149637972647,
	"grad_norm": 6.326369285583496,
	"learning_rate": 2.7166666666666668e-06,
	"loss": 0.0697,
	"num_input_tokens_seen": 2268528,
	"step": 326
	},
	{
	"epoch": 2.104585679806919,
	"grad_norm": 3.599905490875244,
	"learning_rate": 2.7250000000000006e-06,
	"loss": 0.0438,
	"num_input_tokens_seen": 2275328,
	"step": 327
	},
	{
	"epoch": 2.111021721641191,
	"grad_norm": 2.8037264347076416,
	"learning_rate": 2.7333333333333336e-06,
	"loss": 0.0475,
	"num_input_tokens_seen": 2282400,
	"step": 328
	},
	{
	"epoch": 2.1174577634754628,
	"grad_norm": 2.7425622940063477,
	"learning_rate": 2.741666666666667e-06,
	"loss": 0.0601,
	"num_input_tokens_seen": 2289312,
	"step": 329
	},
	{
	"epoch": 2.1238938053097347,
	"grad_norm": 2.064824342727661,
	"learning_rate": 2.7500000000000004e-06,
	"loss": 0.0355,
	"num_input_tokens_seen": 2295824,
	"step": 330
	},
	{
	"epoch": 2.1303298471440066,
	"grad_norm": 3.695521593093872,
	"learning_rate": 2.7583333333333333e-06,
	"loss": 0.0515,
	"num_input_tokens_seen": 2303024,
	"step": 331
	},
	{
	"epoch": 2.136765888978278,
	"grad_norm": 3.3290112018585205,
	"learning_rate": 2.766666666666667e-06,
	"loss": 0.0601,
	"num_input_tokens_seen": 2309904,
	"step": 332
	},
	{
	"epoch": 2.14320193081255,
	"grad_norm": 2.751953363418579,
	"learning_rate": 2.7750000000000005e-06,
	"loss": 0.0288,
	"num_input_tokens_seen": 2316416,
	"step": 333
	},
	{
	"epoch": 2.149637972646822,
	"grad_norm": 4.679827690124512,
	"learning_rate": 2.7833333333333335e-06,
	"loss": 0.0563,
	"num_input_tokens_seen": 2323088,
	"step": 334
	},
	{
	"epoch": 2.156074014481094,
	"grad_norm": 9.301896095275879,
	"learning_rate": 2.791666666666667e-06,
	"loss": 0.1176,
	"num_input_tokens_seen": 2329968,
	"step": 335
	},
	{
	"epoch": 2.162510056315366,
	"grad_norm": 6.16165828704834,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 0.0965,
	"num_input_tokens_seen": 2336656,
	"step": 336
	},
	{
	"epoch": 2.168946098149638,
	"grad_norm": 2.442518711090088,
	"learning_rate": 2.8083333333333333e-06,
	"loss": 0.0359,
	"num_input_tokens_seen": 2343984,
	"step": 337
	},
	{
	"epoch": 2.1753821399839097,
	"grad_norm": 3.537282943725586,
	"learning_rate": 2.816666666666667e-06,
	"loss": 0.0609,
	"num_input_tokens_seen": 2350912,
	"step": 338
	},
	{
	"epoch": 2.1818181818181817,
	"grad_norm": 5.1499223709106445,
	"learning_rate": 2.825e-06,
	"loss": 0.0768,
	"num_input_tokens_seen": 2357680,
	"step": 339
	},
	{
	"epoch": 2.1882542236524536,
	"grad_norm": 8.193970680236816,
	"learning_rate": 2.8333333333333335e-06,
	"loss": 0.0849,
	"num_input_tokens_seen": 2364736,
	"step": 340
	},
	{
	"epoch": 2.1946902654867255,
	"grad_norm": 2.2035670280456543,
	"learning_rate": 2.841666666666667e-06,
	"loss": 0.0581,
	"num_input_tokens_seen": 2371568,
	"step": 341
	},
	{
	"epoch": 2.2011263073209975,
	"grad_norm": 2.7924435138702393,
	"learning_rate": 2.85e-06,
	"loss": 0.046,
	"num_input_tokens_seen": 2378384,
	"step": 342
	},
	{
	"epoch": 2.2075623491552694,
	"grad_norm": 4.6174445152282715,
	"learning_rate": 2.8583333333333336e-06,
	"loss": 0.0674,
	"num_input_tokens_seen": 2385584,
	"step": 343
	},
	{
	"epoch": 2.2139983909895413,
	"grad_norm": 2.4459989070892334,
	"learning_rate": 2.866666666666667e-06,
	"loss": 0.0563,
	"num_input_tokens_seen": 2392640,
	"step": 344
	},
	{
	"epoch": 2.2204344328238133,
	"grad_norm": 2.3443846702575684,
	"learning_rate": 2.875e-06,
	"loss": 0.0621,
	"num_input_tokens_seen": 2399936,
	"step": 345
	},
	{
	"epoch": 2.226870474658085,
	"grad_norm": 2.865879774093628,
	"learning_rate": 2.8833333333333334e-06,
	"loss": 0.0659,
	"num_input_tokens_seen": 2406928,
	"step": 346
	},
	{
	"epoch": 2.233306516492357,
	"grad_norm": 4.03169059753418,
	"learning_rate": 2.8916666666666672e-06,
	"loss": 0.039,
	"num_input_tokens_seen": 2413888,
	"step": 347
	},
	{
	"epoch": 2.239742558326629,
	"grad_norm": 1.693605899810791,
	"learning_rate": 2.9e-06,
	"loss": 0.0239,
	"num_input_tokens_seen": 2421104,
	"step": 348
	},
	{
	"epoch": 2.246178600160901,
	"grad_norm": 2.7058444023132324,
	"learning_rate": 2.9083333333333336e-06,
	"loss": 0.0521,
	"num_input_tokens_seen": 2428128,
	"step": 349
	},
	{
	"epoch": 2.252614641995173,
	"grad_norm": 3.9503567218780518,
	"learning_rate": 2.916666666666667e-06,
	"loss": 0.0561,
	"num_input_tokens_seen": 2434880,
	"step": 350
	},
	{
	"epoch": 2.259050683829445,
	"grad_norm": 4.444098472595215,
	"learning_rate": 2.925e-06,
	"loss": 0.0622,
	"num_input_tokens_seen": 2441824,
	"step": 351
	},
	{
	"epoch": 2.265486725663717,
	"grad_norm": 3.7014055252075195,
	"learning_rate": 2.9333333333333338e-06,
	"loss": 0.0875,
	"num_input_tokens_seen": 2448688,
	"step": 352
	},
	{
	"epoch": 2.2719227674979887,
	"grad_norm": 4.078037261962891,
	"learning_rate": 2.941666666666667e-06,
	"loss": 0.0307,
	"num_input_tokens_seen": 2455488,
	"step": 353
	},
	{
	"epoch": 2.2783588093322606,
	"grad_norm": 3.753711700439453,
	"learning_rate": 2.95e-06,
	"loss": 0.063,
	"num_input_tokens_seen": 2462240,
	"step": 354
	},
	{
	"epoch": 2.2847948511665326,
	"grad_norm": 2.9653706550598145,
	"learning_rate": 2.9583333333333335e-06,
	"loss": 0.0404,
	"num_input_tokens_seen": 2469408,
	"step": 355
	},
	{
	"epoch": 2.2912308930008045,
	"grad_norm": 3.8090925216674805,
	"learning_rate": 2.9666666666666673e-06,
	"loss": 0.0759,
	"num_input_tokens_seen": 2476240,
	"step": 356
	},
	{
	"epoch": 2.2976669348350764,
	"grad_norm": 2.4684033393859863,
	"learning_rate": 2.9750000000000003e-06,
	"loss": 0.0488,
	"num_input_tokens_seen": 2482864,
	"step": 357
	},
	{
	"epoch": 2.3041029766693484,
	"grad_norm": 2.0687243938446045,
	"learning_rate": 2.9833333333333337e-06,
	"loss": 0.0499,
	"num_input_tokens_seen": 2489664,
	"step": 358
	},
	{
	"epoch": 2.3105390185036203,
	"grad_norm": 3.223965883255005,
	"learning_rate": 2.991666666666667e-06,
	"loss": 0.0441,
	"num_input_tokens_seen": 2496704,
	"step": 359
	},
	{
	"epoch": 2.3169750603378922,
	"grad_norm": 2.1407270431518555,
	"learning_rate": 3e-06,
	"loss": 0.0485,
	"num_input_tokens_seen": 2503920,
	"step": 360
	},
	{
	"epoch": 2.323411102172164,
	"grad_norm": 2.632885217666626,
	"learning_rate": 3.0083333333333335e-06,
	"loss": 0.0674,
	"num_input_tokens_seen": 2510544,
	"step": 361
	},
	{
	"epoch": 2.329847144006436,
	"grad_norm": 3.258030652999878,
	"learning_rate": 3.0166666666666673e-06,
	"loss": 0.0689,
	"num_input_tokens_seen": 2517408,
	"step": 362
	},
	{
	"epoch": 2.336283185840708,
	"grad_norm": 6.024159908294678,
	"learning_rate": 3.0250000000000003e-06,
	"loss": 0.0618,
	"num_input_tokens_seen": 2524160,
	"step": 363
	},
	{
	"epoch": 2.34271922767498,
	"grad_norm": 4.7281999588012695,
	"learning_rate": 3.0333333333333337e-06,
	"loss": 0.0629,
	"num_input_tokens_seen": 2531072,
	"step": 364
	},
	{
	"epoch": 2.349155269509252,
	"grad_norm": 4.178661823272705,
	"learning_rate": 3.0416666666666666e-06,
	"loss": 0.0499,
	"num_input_tokens_seen": 2537920,
	"step": 365
	},
	{
	"epoch": 2.355591311343524,
	"grad_norm": 1.5715197324752808,
	"learning_rate": 3.05e-06,
	"loss": 0.0361,
	"num_input_tokens_seen": 2544736,
	"step": 366
	},
	{
	"epoch": 2.3620273531777958,
	"grad_norm": 2.835855722427368,
	"learning_rate": 3.058333333333334e-06,
	"loss": 0.0471,
	"num_input_tokens_seen": 2552016,
	"step": 367
	},
	{
	"epoch": 2.3684633950120677,
	"grad_norm": 2.870889902114868,
	"learning_rate": 3.066666666666667e-06,
	"loss": 0.0622,
	"num_input_tokens_seen": 2559616,
	"step": 368
	},
	{
	"epoch": 2.3748994368463396,
	"grad_norm": 1.7411049604415894,
	"learning_rate": 3.075e-06,
	"loss": 0.0328,
	"num_input_tokens_seen": 2566240,
	"step": 369
	},
	{
	"epoch": 2.3813354786806116,
	"grad_norm": 3.0499918460845947,
	"learning_rate": 3.0833333333333336e-06,
	"loss": 0.0437,
	"num_input_tokens_seen": 2573392,
	"step": 370
	},
	{
	"epoch": 2.3877715205148835,
	"grad_norm": 4.242414474487305,
	"learning_rate": 3.0916666666666666e-06,
	"loss": 0.0644,
	"num_input_tokens_seen": 2580544,
	"step": 371
	},
	{
	"epoch": 2.3942075623491554,
	"grad_norm": 2.962906837463379,
	"learning_rate": 3.1000000000000004e-06,
	"loss": 0.0553,
	"num_input_tokens_seen": 2587344,
	"step": 372
	},
	{
	"epoch": 2.4006436041834274,
	"grad_norm": 4.431301116943359,
	"learning_rate": 3.1083333333333338e-06,
	"loss": 0.061,
	"num_input_tokens_seen": 2594560,
	"step": 373
	},
	{
	"epoch": 2.4070796460176993,
	"grad_norm": 5.075587272644043,
	"learning_rate": 3.1166666666666668e-06,
	"loss": 0.0866,
	"num_input_tokens_seen": 2601408,
	"step": 374
	},
	{
	"epoch": 2.4135156878519712,
	"grad_norm": 3.877520799636841,
	"learning_rate": 3.125e-06,
	"loss": 0.0632,
	"num_input_tokens_seen": 2608624,
	"step": 375
	},
	{
	"epoch": 2.419951729686243,
	"grad_norm": 2.9902503490448,
	"learning_rate": 3.133333333333334e-06,
	"loss": 0.0395,
	"num_input_tokens_seen": 2615456,
	"step": 376
	},
	{
	"epoch": 2.426387771520515,
	"grad_norm": 3.7800397872924805,
	"learning_rate": 3.141666666666667e-06,
	"loss": 0.0819,
	"num_input_tokens_seen": 2622672,
	"step": 377
	},
	{
	"epoch": 2.432823813354787,
	"grad_norm": 2.4674911499023438,
	"learning_rate": 3.1500000000000003e-06,
	"loss": 0.064,
	"num_input_tokens_seen": 2629952,
	"step": 378
	},
	{
	"epoch": 2.439259855189059,
	"grad_norm": 5.3331146240234375,
	"learning_rate": 3.1583333333333337e-06,
	"loss": 0.0803,
	"num_input_tokens_seen": 2637168,
	"step": 379
	},
	{
	"epoch": 2.445695897023331,
	"grad_norm": 9.950706481933594,
	"learning_rate": 3.1666666666666667e-06,
	"loss": 0.0798,
	"num_input_tokens_seen": 2644144,
	"step": 380
	},
	{
	"epoch": 2.4521319388576024,
	"grad_norm": 5.1734442710876465,
	"learning_rate": 3.175e-06,
	"loss": 0.0544,
	"num_input_tokens_seen": 2651376,
	"step": 381
	},
	{
	"epoch": 2.4585679806918743,
	"grad_norm": 2.5671188831329346,
	"learning_rate": 3.183333333333334e-06,
	"loss": 0.0629,
	"num_input_tokens_seen": 2658336,
	"step": 382
	},
	{
	"epoch": 2.4650040225261463,
	"grad_norm": 4.357182025909424,
	"learning_rate": 3.191666666666667e-06,
	"loss": 0.0471,
	"num_input_tokens_seen": 2665360,
	"step": 383
	},
	{
	"epoch": 2.471440064360418,
	"grad_norm": 4.694338321685791,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 0.0533,
	"num_input_tokens_seen": 2672704,
	"step": 384
	},
	{
	"epoch": 2.47787610619469,
	"grad_norm": 2.391195774078369,
	"learning_rate": 3.2083333333333337e-06,
	"loss": 0.0542,
	"num_input_tokens_seen": 2679872,
	"step": 385
	},
	{
	"epoch": 2.484312148028962,
	"grad_norm": 3.859102249145508,
	"learning_rate": 3.2166666666666666e-06,
	"loss": 0.034,
	"num_input_tokens_seen": 2686672,
	"step": 386
	},
	{
	"epoch": 2.490748189863234,
	"grad_norm": 2.4710166454315186,
	"learning_rate": 3.2250000000000005e-06,
	"loss": 0.0517,
	"num_input_tokens_seen": 2693520,
	"step": 387
	},
	{
	"epoch": 2.497184231697506,
	"grad_norm": 3.309068202972412,
	"learning_rate": 3.2333333333333334e-06,
	"loss": 0.0698,
	"num_input_tokens_seen": 2700432,
	"step": 388
	},
	{
	"epoch": 2.503620273531778,
	"grad_norm": 4.21011209487915,
	"learning_rate": 3.241666666666667e-06,
	"loss": 0.0573,
	"num_input_tokens_seen": 2707184,
	"step": 389
	},
	{
	"epoch": 2.51005631536605,
	"grad_norm": 4.34623908996582,
	"learning_rate": 3.2500000000000002e-06,
	"loss": 0.0568,
	"num_input_tokens_seen": 2713936,
	"step": 390
	},
	{
	"epoch": 2.5164923572003217,
	"grad_norm": 3.361445188522339,
	"learning_rate": 3.258333333333333e-06,
	"loss": 0.0669,
	"num_input_tokens_seen": 2721216,
	"step": 391
	},
	{
	"epoch": 2.5229283990345936,
	"grad_norm": 2.091728925704956,
	"learning_rate": 3.266666666666667e-06,
	"loss": 0.027,
	"num_input_tokens_seen": 2727968,
	"step": 392
	},
	{
	"epoch": 2.5293644408688656,
	"grad_norm": 2.1977951526641846,
	"learning_rate": 3.2750000000000004e-06,
	"loss": 0.0303,
	"num_input_tokens_seen": 2734816,
	"step": 393
	},
	{
	"epoch": 2.5358004827031375,
	"grad_norm": 2.7409942150115967,
	"learning_rate": 3.2833333333333334e-06,
	"loss": 0.0392,
	"num_input_tokens_seen": 2741744,
	"step": 394
	},
	{
	"epoch": 2.5422365245374094,
	"grad_norm": 3.695770740509033,
	"learning_rate": 3.2916666666666668e-06,
	"loss": 0.0813,
	"num_input_tokens_seen": 2748640,
	"step": 395
	},
	{
	"epoch": 2.5486725663716814,
	"grad_norm": 3.674891471862793,
	"learning_rate": 3.3000000000000006e-06,
	"loss": 0.0403,
	"num_input_tokens_seen": 2755888,
	"step": 396
	},
	{
	"epoch": 2.5551086082059533,
	"grad_norm": 1.716131567955017,
	"learning_rate": 3.3083333333333336e-06,
	"loss": 0.0222,
	"num_input_tokens_seen": 2762464,
	"step": 397
	},
	{
	"epoch": 2.5615446500402252,
	"grad_norm": 2.5081095695495605,
	"learning_rate": 3.316666666666667e-06,
	"loss": 0.0611,
	"num_input_tokens_seen": 2769712,
	"step": 398
	},
	{
	"epoch": 2.567980691874497,
	"grad_norm": 1.9974850416183472,
	"learning_rate": 3.3250000000000004e-06,
	"loss": 0.035,
	"num_input_tokens_seen": 2776736,
	"step": 399
	},
	{
	"epoch": 2.574416733708769,
	"grad_norm": 4.233558177947998,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.068,
	"num_input_tokens_seen": 2783376,
	"step": 400
	},
	{
	"epoch": 2.580852775543041,
	"grad_norm": 3.359081983566284,
	"learning_rate": 3.341666666666667e-06,
	"loss": 0.0543,
	"num_input_tokens_seen": 2790528,
	"step": 401
	},
	{
	"epoch": 2.587288817377313,
	"grad_norm": 2.669712543487549,
	"learning_rate": 3.3500000000000005e-06,
	"loss": 0.0466,
	"num_input_tokens_seen": 2797312,
	"step": 402
	},
	{
	"epoch": 2.593724859211585,
	"grad_norm": 3.1529603004455566,
	"learning_rate": 3.3583333333333335e-06,
	"loss": 0.0626,
	"num_input_tokens_seen": 2804288,
	"step": 403
	},
	{
	"epoch": 2.600160901045857,
	"grad_norm": 3.069842576980591,
	"learning_rate": 3.366666666666667e-06,
	"loss": 0.0589,
	"num_input_tokens_seen": 2811456,
	"step": 404
	},
	{
	"epoch": 2.6065969428801288,
	"grad_norm": 1.881988525390625,
	"learning_rate": 3.3750000000000003e-06,
	"loss": 0.0415,
	"num_input_tokens_seen": 2818080,
	"step": 405
	},
	{
	"epoch": 2.6130329847144007,
	"grad_norm": 1.862747073173523,
	"learning_rate": 3.3833333333333333e-06,
	"loss": 0.0344,
	"num_input_tokens_seen": 2825136,
	"step": 406
	},
	{
	"epoch": 2.6194690265486726,
	"grad_norm": 2.6847071647644043,
	"learning_rate": 3.391666666666667e-06,
	"loss": 0.0423,
	"num_input_tokens_seen": 2832400,
	"step": 407
	},
	{
	"epoch": 2.6259050683829446,
	"grad_norm": 3.631681203842163,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 0.0838,
	"num_input_tokens_seen": 2839712,
	"step": 408
	},
	{
	"epoch": 2.6323411102172165,
	"grad_norm": 3.7878201007843018,
	"learning_rate": 3.4083333333333335e-06,
	"loss": 0.0732,
	"num_input_tokens_seen": 2846160,
	"step": 409
	},
	{
	"epoch": 2.6387771520514884,
	"grad_norm": 2.826582431793213,
	"learning_rate": 3.416666666666667e-06,
	"loss": 0.0464,
	"num_input_tokens_seen": 2853520,
	"step": 410
	},
	{
	"epoch": 2.6452131938857604,
	"grad_norm": 2.330638885498047,
	"learning_rate": 3.4250000000000007e-06,
	"loss": 0.0387,
	"num_input_tokens_seen": 2860384,
	"step": 411
	},
	{
	"epoch": 2.6516492357200323,
	"grad_norm": 2.330439567565918,
	"learning_rate": 3.4333333333333336e-06,
	"loss": 0.0507,
	"num_input_tokens_seen": 2867360,
	"step": 412
	},
	{
	"epoch": 2.6580852775543042,
	"grad_norm": 3.929145336151123,
	"learning_rate": 3.441666666666667e-06,
	"loss": 0.0549,
	"num_input_tokens_seen": 2873648,
	"step": 413
	},
	{
	"epoch": 2.664521319388576,
	"grad_norm": 3.001359224319458,
	"learning_rate": 3.45e-06,
	"loss": 0.0285,
	"num_input_tokens_seen": 2880848,
	"step": 414
	},
	{
	"epoch": 2.670957361222848,
	"grad_norm": 2.7936651706695557,
	"learning_rate": 3.4583333333333334e-06,
	"loss": 0.0668,
	"num_input_tokens_seen": 2888256,
	"step": 415
	},
	{
	"epoch": 2.67739340305712,
	"grad_norm": 4.050117015838623,
	"learning_rate": 3.4666666666666672e-06,
	"loss": 0.0691,
	"num_input_tokens_seen": 2895040,
	"step": 416
	},
	{
	"epoch": 2.6838294448913915,
	"grad_norm": 5.509685516357422,
	"learning_rate": 3.475e-06,
	"loss": 0.066,
	"num_input_tokens_seen": 2902320,
	"step": 417
	},
	{
	"epoch": 2.6902654867256635,
	"grad_norm": 3.968433380126953,
	"learning_rate": 3.4833333333333336e-06,
	"loss": 0.0495,
	"num_input_tokens_seen": 2908960,
	"step": 418
	},
	{
	"epoch": 2.6967015285599354,
	"grad_norm": 2.082157611846924,
	"learning_rate": 3.491666666666667e-06,
	"loss": 0.034,
	"num_input_tokens_seen": 2915808,
	"step": 419
	},
	{
	"epoch": 2.7031375703942073,
	"grad_norm": 2.403968334197998,
	"learning_rate": 3.5e-06,
	"loss": 0.0604,
	"num_input_tokens_seen": 2922608,
	"step": 420
	},
	{
	"epoch": 2.7095736122284793,
	"grad_norm": 4.667454719543457,
	"learning_rate": 3.5083333333333338e-06,
	"loss": 0.0535,
	"num_input_tokens_seen": 2929728,
	"step": 421
	},
	{
	"epoch": 2.716009654062751,
	"grad_norm": 2.5968987941741943,
	"learning_rate": 3.516666666666667e-06,
	"loss": 0.0369,
	"num_input_tokens_seen": 2937024,
	"step": 422
	},
	{
	"epoch": 2.722445695897023,
	"grad_norm": 3.4746780395507812,
	"learning_rate": 3.525e-06,
	"loss": 0.045,
	"num_input_tokens_seen": 2943760,
	"step": 423
	},
	{
	"epoch": 2.728881737731295,
	"grad_norm": 1.9599398374557495,
	"learning_rate": 3.5333333333333335e-06,
	"loss": 0.0314,
	"num_input_tokens_seen": 2950848,
	"step": 424
	},
	{
	"epoch": 2.735317779565567,
	"grad_norm": 2.971634864807129,
	"learning_rate": 3.5416666666666673e-06,
	"loss": 0.0611,
	"num_input_tokens_seen": 2957408,
	"step": 425
	},
	{
	"epoch": 2.741753821399839,
	"grad_norm": 3.1944162845611572,
	"learning_rate": 3.5500000000000003e-06,
	"loss": 0.0478,
	"num_input_tokens_seen": 2964288,
	"step": 426
	},
	{
	"epoch": 2.748189863234111,
	"grad_norm": 3.3659610748291016,
	"learning_rate": 3.5583333333333337e-06,
	"loss": 0.038,
	"num_input_tokens_seen": 2970912,
	"step": 427
	},
	{
	"epoch": 2.754625905068383,
	"grad_norm": 2.965097188949585,
	"learning_rate": 3.566666666666667e-06,
	"loss": 0.043,
	"num_input_tokens_seen": 2978032,
	"step": 428
	},
	{
	"epoch": 2.7610619469026547,
	"grad_norm": 2.4006049633026123,
	"learning_rate": 3.575e-06,
	"loss": 0.0478,
	"num_input_tokens_seen": 2985232,
	"step": 429
	},
	{
	"epoch": 2.7674979887369267,
	"grad_norm": 3.7348554134368896,
	"learning_rate": 3.5833333333333335e-06,
	"loss": 0.0977,
	"num_input_tokens_seen": 2992240,
	"step": 430
	},
	{
	"epoch": 2.7739340305711986,
	"grad_norm": 3.1373274326324463,
	"learning_rate": 3.5916666666666673e-06,
	"loss": 0.0835,
	"num_input_tokens_seen": 2999008,
	"step": 431
	},
	{
	"epoch": 2.7803700724054705,
	"grad_norm": 1.9444302320480347,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 0.0406,
	"num_input_tokens_seen": 3005648,
	"step": 432
	},
	{
	"epoch": 2.7868061142397424,
	"grad_norm": 1.8665870428085327,
	"learning_rate": 3.6083333333333337e-06,
	"loss": 0.0661,
	"num_input_tokens_seen": 3012224,
	"step": 433
	},
	{
	"epoch": 2.7932421560740144,
	"grad_norm": 1.9893403053283691,
	"learning_rate": 3.616666666666667e-06,
	"loss": 0.0647,
	"num_input_tokens_seen": 3019104,
	"step": 434
	},
	{
	"epoch": 2.7996781979082863,
	"grad_norm": 2.656529426574707,
	"learning_rate": 3.625e-06,
	"loss": 0.0499,
	"num_input_tokens_seen": 3026096,
	"step": 435
	},
	{
	"epoch": 2.8061142397425582,
	"grad_norm": 1.7047683000564575,
	"learning_rate": 3.633333333333334e-06,
	"loss": 0.0422,
	"num_input_tokens_seen": 3032784,
	"step": 436
	},
	{
	"epoch": 2.81255028157683,
	"grad_norm": 1.6727882623672485,
	"learning_rate": 3.6416666666666672e-06,
	"loss": 0.048,
	"num_input_tokens_seen": 3040096,
	"step": 437
	},
	{
	"epoch": 2.818986323411102,
	"grad_norm": 4.0175251960754395,
	"learning_rate": 3.65e-06,
	"loss": 0.0474,
	"num_input_tokens_seen": 3046720,
	"step": 438
	},
	{
	"epoch": 2.825422365245374,
	"grad_norm": 8.139860153198242,
	"learning_rate": 3.6583333333333336e-06,
	"loss": 0.0801,
	"num_input_tokens_seen": 3053712,
	"step": 439
	},
	{
	"epoch": 2.831858407079646,
	"grad_norm": 3.832087278366089,
	"learning_rate": 3.6666666666666666e-06,
	"loss": 0.0528,
	"num_input_tokens_seen": 3060528,
	"step": 440
	},
	{
	"epoch": 2.838294448913918,
	"grad_norm": 2.881619930267334,
	"learning_rate": 3.6750000000000004e-06,
	"loss": 0.0461,
	"num_input_tokens_seen": 3067440,
	"step": 441
	},
	{
	"epoch": 2.84473049074819,
	"grad_norm": 4.456245422363281,
	"learning_rate": 3.6833333333333338e-06,
	"loss": 0.0646,
	"num_input_tokens_seen": 3074208,
	"step": 442
	},
	{
	"epoch": 2.8511665325824618,
	"grad_norm": 5.1570820808410645,
	"learning_rate": 3.6916666666666668e-06,
	"loss": 0.049,
	"num_input_tokens_seen": 3081072,
	"step": 443
	},
	{
	"epoch": 2.8576025744167337,
	"grad_norm": 2.944526433944702,
	"learning_rate": 3.7e-06,
	"loss": 0.0531,
	"num_input_tokens_seen": 3088240,
	"step": 444
	},
	{
	"epoch": 2.8640386162510056,
	"grad_norm": 2.021688222885132,
	"learning_rate": 3.708333333333334e-06,
	"loss": 0.0521,
	"num_input_tokens_seen": 3095504,
	"step": 445
	},
	{
	"epoch": 2.8704746580852776,
	"grad_norm": 6.054248809814453,
	"learning_rate": 3.716666666666667e-06,
	"loss": 0.0927,
	"num_input_tokens_seen": 3102688,
	"step": 446
	},
	{
	"epoch": 2.8769106999195495,
	"grad_norm": 3.5824503898620605,
	"learning_rate": 3.7250000000000003e-06,
	"loss": 0.0491,
	"num_input_tokens_seen": 3109440,
	"step": 447
	},
	{
	"epoch": 2.8833467417538214,
	"grad_norm": 2.0240774154663086,
	"learning_rate": 3.7333333333333337e-06,
	"loss": 0.0399,
	"num_input_tokens_seen": 3116720,
	"step": 448
	},
	{
	"epoch": 2.8897827835880934,
	"grad_norm": 4.0125579833984375,
	"learning_rate": 3.7416666666666667e-06,
	"loss": 0.0499,
	"num_input_tokens_seen": 3123568,
	"step": 449
	},
	{
	"epoch": 2.8962188254223653,
	"grad_norm": 3.733275890350342,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.0569,
	"num_input_tokens_seen": 3130768,
	"step": 450
	},
	{
	"epoch": 2.9026548672566372,
	"grad_norm": 4.261077880859375,
	"learning_rate": 3.758333333333334e-06,
	"loss": 0.0608,
	"num_input_tokens_seen": 3138128,
	"step": 451
	},
	{
	"epoch": 2.909090909090909,
	"grad_norm": 1.4142907857894897,
	"learning_rate": 3.766666666666667e-06,
	"loss": 0.0325,
	"num_input_tokens_seen": 3145008,
	"step": 452
	},
	{
	"epoch": 2.915526950925181,
	"grad_norm": 2.610344171524048,
	"learning_rate": 3.7750000000000003e-06,
	"loss": 0.0643,
	"num_input_tokens_seen": 3151792,
	"step": 453
	},
	{
	"epoch": 2.921962992759453,
	"grad_norm": 2.9687604904174805,
	"learning_rate": 3.7833333333333337e-06,
	"loss": 0.0479,
	"num_input_tokens_seen": 3158800,
	"step": 454
	},
	{
	"epoch": 2.928399034593725,
	"grad_norm": 2.2706518173217773,
	"learning_rate": 3.7916666666666666e-06,
	"loss": 0.0549,
	"num_input_tokens_seen": 3165744,
	"step": 455
	},
	{
	"epoch": 2.934835076427997,
	"grad_norm": 3.606792449951172,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 0.0789,
	"num_input_tokens_seen": 3172896,
	"step": 456
	},
	{
	"epoch": 2.941271118262269,
	"grad_norm": 1.8851637840270996,
	"learning_rate": 3.808333333333334e-06,
	"loss": 0.0319,
	"num_input_tokens_seen": 3179888,
	"step": 457
	},
	{
	"epoch": 2.9477071600965408,
	"grad_norm": 2.6292834281921387,
	"learning_rate": 3.816666666666667e-06,
	"loss": 0.05,
	"num_input_tokens_seen": 3186960,
	"step": 458
	},
	{
	"epoch": 2.9541432019308127,
	"grad_norm": 2.099109172821045,
	"learning_rate": 3.825000000000001e-06,
	"loss": 0.0677,
	"num_input_tokens_seen": 3194208,
	"step": 459
	},
	{
	"epoch": 2.9605792437650846,
	"grad_norm": 2.5214834213256836,
	"learning_rate": 3.833333333333334e-06,
	"loss": 0.0512,
	"num_input_tokens_seen": 3201120,
	"step": 460
	},
	{
	"epoch": 2.9670152855993566,
	"grad_norm": 6.318456649780273,
	"learning_rate": 3.841666666666667e-06,
	"loss": 0.0681,
	"num_input_tokens_seen": 3208160,
	"step": 461
	},
	{
	"epoch": 2.9734513274336285,
	"grad_norm": 4.119838714599609,
	"learning_rate": 3.85e-06,
	"loss": 0.0651,
	"num_input_tokens_seen": 3214992,
	"step": 462
	},
	{
	"epoch": 2.9798873692679004,
	"grad_norm": 3.248420238494873,
	"learning_rate": 3.858333333333333e-06,
	"loss": 0.0498,
	"num_input_tokens_seen": 3222192,
	"step": 463
	},
	{
	"epoch": 2.9863234111021724,
	"grad_norm": 1.6198488473892212,
	"learning_rate": 3.866666666666667e-06,
	"loss": 0.0496,
	"num_input_tokens_seen": 3229504,
	"step": 464
	},
	{
	"epoch": 2.9927594529364443,
	"grad_norm": 2.6008763313293457,
	"learning_rate": 3.875e-06,
	"loss": 0.0446,
	"num_input_tokens_seen": 3236400,
	"step": 465
	},
	{
	"epoch": 2.9991954947707162,
	"grad_norm": 2.349928379058838,
	"learning_rate": 3.883333333333333e-06,
	"loss": 0.0543,
	"num_input_tokens_seen": 3243600,
	"step": 466
	},
	{
	"epoch": 3.0056315366049877,
	"grad_norm": 0.8590204119682312,
	"learning_rate": 3.891666666666667e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 3249808,
	"step": 467
	},
	{
	"epoch": 3.0120675784392597,
	"grad_norm": 1.2689623832702637,
	"learning_rate": 3.900000000000001e-06,
	"loss": 0.0201,
	"num_input_tokens_seen": 3257168,
	"step": 468
	},
	{
	"epoch": 3.0185036202735316,
	"grad_norm": 1.329512596130371,
	"learning_rate": 3.908333333333334e-06,
	"loss": 0.0119,
	"num_input_tokens_seen": 3264064,
	"step": 469
	},
	{
	"epoch": 3.0249396621078035,
	"grad_norm": 2.423644781112671,
	"learning_rate": 3.916666666666667e-06,
	"loss": 0.0305,
	"num_input_tokens_seen": 3270688,
	"step": 470
	},
	{
	"epoch": 3.0313757039420755,
	"grad_norm": 3.6647322177886963,
	"learning_rate": 3.9250000000000005e-06,
	"loss": 0.0213,
	"num_input_tokens_seen": 3277664,
	"step": 471
	},
	{
	"epoch": 3.0378117457763474,
	"grad_norm": 3.736281156539917,
	"learning_rate": 3.9333333333333335e-06,
	"loss": 0.035,
	"num_input_tokens_seen": 3284352,
	"step": 472
	},
	{
	"epoch": 3.0442477876106193,
	"grad_norm": 2.274883270263672,
	"learning_rate": 3.941666666666667e-06,
	"loss": 0.0438,
	"num_input_tokens_seen": 3290864,
	"step": 473
	},
	{
	"epoch": 3.0506838294448912,
	"grad_norm": 3.032172203063965,
	"learning_rate": 3.95e-06,
	"loss": 0.0464,
	"num_input_tokens_seen": 3297856,
	"step": 474
	},
	{
	"epoch": 3.057119871279163,
	"grad_norm": 2.258751392364502,
	"learning_rate": 3.958333333333333e-06,
	"loss": 0.0172,
	"num_input_tokens_seen": 3305120,
	"step": 475
	},
	{
	"epoch": 3.063555913113435,
	"grad_norm": 2.925736427307129,
	"learning_rate": 3.966666666666667e-06,
	"loss": 0.0287,
	"num_input_tokens_seen": 3312032,
	"step": 476
	},
	{
	"epoch": 3.069991954947707,
	"grad_norm": 3.100857734680176,
	"learning_rate": 3.975000000000001e-06,
	"loss": 0.0579,
	"num_input_tokens_seen": 3319424,
	"step": 477
	},
	{
	"epoch": 3.076427996781979,
	"grad_norm": 1.753515601158142,
	"learning_rate": 3.983333333333334e-06,
	"loss": 0.0095,
	"num_input_tokens_seen": 3326304,
	"step": 478
	},
	{
	"epoch": 3.082864038616251,
	"grad_norm": 2.3217740058898926,
	"learning_rate": 3.991666666666667e-06,
	"loss": 0.0238,
	"num_input_tokens_seen": 3333184,
	"step": 479
	},
	{
	"epoch": 3.089300080450523,
	"grad_norm": 2.512751579284668,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.0313,
	"num_input_tokens_seen": 3340384,
	"step": 480
	},
	{
	"epoch": 3.0957361222847948,
	"grad_norm": 1.2185322046279907,
	"learning_rate": 4.008333333333334e-06,
	"loss": 0.0146,
	"num_input_tokens_seen": 3347344,
	"step": 481
	},
	{
	"epoch": 3.1021721641190667,
	"grad_norm": 1.1303057670593262,
	"learning_rate": 4.0166666666666675e-06,
	"loss": 0.0347,
	"num_input_tokens_seen": 3354080,
	"step": 482
	},
	{
	"epoch": 3.1086082059533386,
	"grad_norm": 2.4247186183929443,
	"learning_rate": 4.0250000000000004e-06,
	"loss": 0.024,
	"num_input_tokens_seen": 3360848,
	"step": 483
	},
	{
	"epoch": 3.1150442477876106,
	"grad_norm": 1.4767001867294312,
	"learning_rate": 4.033333333333333e-06,
	"loss": 0.0128,
	"num_input_tokens_seen": 3367616,
	"step": 484
	},
	{
	"epoch": 3.1214802896218825,
	"grad_norm": 2.458953857421875,
	"learning_rate": 4.041666666666667e-06,
	"loss": 0.0311,
	"num_input_tokens_seen": 3374880,
	"step": 485
	},
	{
	"epoch": 3.1279163314561544,
	"grad_norm": 0.5494964718818665,
	"learning_rate": 4.05e-06,
	"loss": 0.0178,
	"num_input_tokens_seen": 3381696,
	"step": 486
	},
	{
	"epoch": 3.1343523732904264,
	"grad_norm": 1.5969914197921753,
	"learning_rate": 4.058333333333333e-06,
	"loss": 0.0379,
	"num_input_tokens_seen": 3388880,
	"step": 487
	},
	{
	"epoch": 3.1407884151246983,
	"grad_norm": 1.7003910541534424,
	"learning_rate": 4.066666666666667e-06,
	"loss": 0.0299,
	"num_input_tokens_seen": 3395984,
	"step": 488
	},
	{
	"epoch": 3.1472244569589702,
	"grad_norm": 2.297182083129883,
	"learning_rate": 4.075e-06,
	"loss": 0.0261,
	"num_input_tokens_seen": 3402896,
	"step": 489
	},
	{
	"epoch": 3.153660498793242,
	"grad_norm": 2.3937814235687256,
	"learning_rate": 4.083333333333334e-06,
	"loss": 0.0347,
	"num_input_tokens_seen": 3409888,
	"step": 490
	},
	{
	"epoch": 3.160096540627514,
	"grad_norm": 1.349425196647644,
	"learning_rate": 4.091666666666667e-06,
	"loss": 0.011,
	"num_input_tokens_seen": 3416928,
	"step": 491
	},
	{
	"epoch": 3.166532582461786,
	"grad_norm": 3.0355069637298584,
	"learning_rate": 4.1e-06,
	"loss": 0.0541,
	"num_input_tokens_seen": 3423968,
	"step": 492
	},
	{
	"epoch": 3.172968624296058,
	"grad_norm": 2.680206537246704,
	"learning_rate": 4.1083333333333335e-06,
	"loss": 0.0465,
	"num_input_tokens_seen": 3431120,
	"step": 493
	},
	{
	"epoch": 3.17940466613033,
	"grad_norm": 1.5906095504760742,
	"learning_rate": 4.116666666666667e-06,
	"loss": 0.0187,
	"num_input_tokens_seen": 3437776,
	"step": 494
	},
	{
	"epoch": 3.185840707964602,
	"grad_norm": 0.8296425938606262,
	"learning_rate": 4.125e-06,
	"loss": 0.0089,
	"num_input_tokens_seen": 3444480,
	"step": 495
	},
	{
	"epoch": 3.1922767497988738,
	"grad_norm": 2.857689142227173,
	"learning_rate": 4.133333333333333e-06,
	"loss": 0.0289,
	"num_input_tokens_seen": 3451232,
	"step": 496
	},
	{
	"epoch": 3.1987127916331457,
	"grad_norm": 1.0910203456878662,
	"learning_rate": 4.141666666666667e-06,
	"loss": 0.0103,
	"num_input_tokens_seen": 3457776,
	"step": 497
	},
	{
	"epoch": 3.2051488334674176,
	"grad_norm": 1.3560919761657715,
	"learning_rate": 4.15e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 3465056,
	"step": 498
	},
	{
	"epoch": 3.2115848753016896,
	"grad_norm": 4.861215591430664,
	"learning_rate": 4.158333333333334e-06,
	"loss": 0.0375,
	"num_input_tokens_seen": 3471968,
	"step": 499
	},
	{
	"epoch": 3.2180209171359615,
	"grad_norm": 1.8714208602905273,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.0143,
	"num_input_tokens_seen": 3479648,
	"step": 500
	},
	{
	"epoch": 3.2244569589702334,
	"grad_norm": 1.6230028867721558,
	"learning_rate": 4.175e-06,
	"loss": 0.0159,
	"num_input_tokens_seen": 3486272,
	"step": 501
	},
	{
	"epoch": 3.2308930008045054,
	"grad_norm": 0.7852226495742798,
	"learning_rate": 4.183333333333334e-06,
	"loss": 0.0073,
	"num_input_tokens_seen": 3493360,
	"step": 502
	},
	{
	"epoch": 3.2373290426387773,
	"grad_norm": 2.3990976810455322,
	"learning_rate": 4.1916666666666675e-06,
	"loss": 0.0186,
	"num_input_tokens_seen": 3500336,
	"step": 503
	},
	{
	"epoch": 3.2437650844730492,
	"grad_norm": 0.796851634979248,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 0.0035,
	"num_input_tokens_seen": 3507232,
	"step": 504
	},
	{
	"epoch": 3.250201126307321,
	"grad_norm": 2.7951748371124268,
	"learning_rate": 4.208333333333333e-06,
	"loss": 0.0416,
	"num_input_tokens_seen": 3514144,
	"step": 505
	},
	{
	"epoch": 3.256637168141593,
	"grad_norm": 2.40897274017334,
	"learning_rate": 4.216666666666667e-06,
	"loss": 0.0266,
	"num_input_tokens_seen": 3520976,
	"step": 506
	},
	{
	"epoch": 3.263073209975865,
	"grad_norm": 2.3974061012268066,
	"learning_rate": 4.225e-06,
	"loss": 0.0351,
	"num_input_tokens_seen": 3527920,
	"step": 507
	},
	{
	"epoch": 3.2695092518101365,
	"grad_norm": 2.30100154876709,
	"learning_rate": 4.233333333333334e-06,
	"loss": 0.0209,
	"num_input_tokens_seen": 3534864,
	"step": 508
	},
	{
	"epoch": 3.2759452936444085,
	"grad_norm": 2.1172518730163574,
	"learning_rate": 4.241666666666667e-06,
	"loss": 0.0434,
	"num_input_tokens_seen": 3541872,
	"step": 509
	},
	{
	"epoch": 3.2823813354786804,
	"grad_norm": 3.7030341625213623,
	"learning_rate": 4.25e-06,
	"loss": 0.0174,
	"num_input_tokens_seen": 3548384,
	"step": 510
	},
	{
	"epoch": 3.2888173773129523,
	"grad_norm": 2.152125597000122,
	"learning_rate": 4.258333333333334e-06,
	"loss": 0.0529,
	"num_input_tokens_seen": 3555792,
	"step": 511
	},
	{
	"epoch": 3.2952534191472242,
	"grad_norm": 0.6081152558326721,
	"learning_rate": 4.266666666666668e-06,
	"loss": 0.0033,
	"num_input_tokens_seen": 3562608,
	"step": 512
	},
	{
	"epoch": 3.301689460981496,
	"grad_norm": 1.7042624950408936,
	"learning_rate": 4.2750000000000006e-06,
	"loss": 0.0196,
	"num_input_tokens_seen": 3569184,
	"step": 513
	},
	{
	"epoch": 3.308125502815768,
	"grad_norm": 1.3502767086029053,
	"learning_rate": 4.2833333333333335e-06,
	"loss": 0.0242,
	"num_input_tokens_seen": 3576224,
	"step": 514
	},
	{
	"epoch": 3.31456154465004,
	"grad_norm": 4.480360984802246,
	"learning_rate": 4.2916666666666665e-06,
	"loss": 0.0316,
	"num_input_tokens_seen": 3583328,
	"step": 515
	},
	{
	"epoch": 3.320997586484312,
	"grad_norm": 2.2217299938201904,
	"learning_rate": 4.3e-06,
	"loss": 0.0268,
	"num_input_tokens_seen": 3590256,
	"step": 516
	},
	{
	"epoch": 3.327433628318584,
	"grad_norm": 1.5919010639190674,
	"learning_rate": 4.308333333333334e-06,
	"loss": 0.0248,
	"num_input_tokens_seen": 3597328,
	"step": 517
	},
	{
	"epoch": 3.333869670152856,
	"grad_norm": 2.425961971282959,
	"learning_rate": 4.316666666666667e-06,
	"loss": 0.032,
	"num_input_tokens_seen": 3604576,
	"step": 518
	},
	{
	"epoch": 3.340305711987128,
	"grad_norm": 2.987424612045288,
	"learning_rate": 4.325e-06,
	"loss": 0.0202,
	"num_input_tokens_seen": 3611520,
	"step": 519
	},
	{
	"epoch": 3.3467417538213997,
	"grad_norm": 2.633897304534912,
	"learning_rate": 4.333333333333334e-06,
	"loss": 0.0329,
	"num_input_tokens_seen": 3618288,
	"step": 520
	},
	{
	"epoch": 3.3531777956556716,
	"grad_norm": 1.0696384906768799,
	"learning_rate": 4.341666666666667e-06,
	"loss": 0.019,
	"num_input_tokens_seen": 3625216,
	"step": 521
	},
	{
	"epoch": 3.3596138374899436,
	"grad_norm": 2.400972604751587,
	"learning_rate": 4.350000000000001e-06,
	"loss": 0.0182,
	"num_input_tokens_seen": 3631888,
	"step": 522
	},
	{
	"epoch": 3.3660498793242155,
	"grad_norm": 1.3744821548461914,
	"learning_rate": 4.358333333333334e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 3638848,
	"step": 523
	},
	{
	"epoch": 3.3724859211584874,
	"grad_norm": 1.613145112991333,
	"learning_rate": 4.366666666666667e-06,
	"loss": 0.0122,
	"num_input_tokens_seen": 3646112,
	"step": 524
	},
	{
	"epoch": 3.3789219629927594,
	"grad_norm": 2.450824499130249,
	"learning_rate": 4.3750000000000005e-06,
	"loss": 0.0388,
	"num_input_tokens_seen": 3652928,
	"step": 525
	},
	{
	"epoch": 3.3853580048270313,
	"grad_norm": 1.6122058629989624,
	"learning_rate": 4.383333333333334e-06,
	"loss": 0.0106,
	"num_input_tokens_seen": 3659632,
	"step": 526
	},
	{
	"epoch": 3.3917940466613032,
	"grad_norm": 1.53513765335083,
	"learning_rate": 4.391666666666667e-06,
	"loss": 0.0305,
	"num_input_tokens_seen": 3666480,
	"step": 527
	},
	{
	"epoch": 3.398230088495575,
	"grad_norm": 2.103663444519043,
	"learning_rate": 4.4e-06,
	"loss": 0.0512,
	"num_input_tokens_seen": 3673136,
	"step": 528
	},
	{
	"epoch": 3.404666130329847,
	"grad_norm": 0.41373467445373535,
	"learning_rate": 4.408333333333334e-06,
	"loss": 0.0031,
	"num_input_tokens_seen": 3679760,
	"step": 529
	},
	{
	"epoch": 3.411102172164119,
	"grad_norm": 2.9610488414764404,
	"learning_rate": 4.416666666666667e-06,
	"loss": 0.0309,
	"num_input_tokens_seen": 3686576,
	"step": 530
	},
	{
	"epoch": 3.417538213998391,
	"grad_norm": 2.415531873703003,
	"learning_rate": 4.425e-06,
	"loss": 0.0472,
	"num_input_tokens_seen": 3693312,
	"step": 531
	},
	{
	"epoch": 3.423974255832663,
	"grad_norm": 2.175546407699585,
	"learning_rate": 4.433333333333334e-06,
	"loss": 0.0222,
	"num_input_tokens_seen": 3700000,
	"step": 532
	},
	{
	"epoch": 3.430410297666935,
	"grad_norm": 1.0903018712997437,
	"learning_rate": 4.441666666666667e-06,
	"loss": 0.0077,
	"num_input_tokens_seen": 3706736,
	"step": 533
	},
	{
	"epoch": 3.4368463395012068,
	"grad_norm": 0.8305991888046265,
	"learning_rate": 4.450000000000001e-06,
	"loss": 0.0064,
	"num_input_tokens_seen": 3714192,
	"step": 534
	},
	{
	"epoch": 3.4432823813354787,
	"grad_norm": 0.9347790479660034,
	"learning_rate": 4.4583333333333336e-06,
	"loss": 0.0104,
	"num_input_tokens_seen": 3721408,
	"step": 535
	},
	{
	"epoch": 3.4497184231697506,
	"grad_norm": 1.7669559717178345,
	"learning_rate": 4.4666666666666665e-06,
	"loss": 0.0121,
	"num_input_tokens_seen": 3728144,
	"step": 536
	},
	{
	"epoch": 3.4561544650040226,
	"grad_norm": 3.121467351913452,
	"learning_rate": 4.475e-06,
	"loss": 0.0386,
	"num_input_tokens_seen": 3734960,
	"step": 537
	},
	{
	"epoch": 3.4625905068382945,
	"grad_norm": 2.683410882949829,
	"learning_rate": 4.483333333333333e-06,
	"loss": 0.0319,
	"num_input_tokens_seen": 3741728,
	"step": 538
	},
	{
	"epoch": 3.4690265486725664,
	"grad_norm": 9.728205680847168,
	"learning_rate": 4.491666666666667e-06,
	"loss": 0.0579,
	"num_input_tokens_seen": 3749200,
	"step": 539
	},
	{
	"epoch": 3.4754625905068384,
	"grad_norm": 4.415483474731445,
	"learning_rate": 4.5e-06,
	"loss": 0.0255,
	"num_input_tokens_seen": 3755856,
	"step": 540
	},
	{
	"epoch": 3.4818986323411103,
	"grad_norm": 3.651423692703247,
	"learning_rate": 4.508333333333333e-06,
	"loss": 0.0301,
	"num_input_tokens_seen": 3762528,
	"step": 541
	},
	{
	"epoch": 3.4883346741753822,
	"grad_norm": 2.318000078201294,
	"learning_rate": 4.516666666666667e-06,
	"loss": 0.0589,
	"num_input_tokens_seen": 3769632,
	"step": 542
	},
	{
	"epoch": 3.494770716009654,
	"grad_norm": 4.982158660888672,
	"learning_rate": 4.525000000000001e-06,
	"loss": 0.0442,
	"num_input_tokens_seen": 3776592,
	"step": 543
	},
	{
	"epoch": 3.501206757843926,
	"grad_norm": 3.0872108936309814,
	"learning_rate": 4.533333333333334e-06,
	"loss": 0.0366,
	"num_input_tokens_seen": 3783824,
	"step": 544
	},
	{
	"epoch": 3.507642799678198,
	"grad_norm": 5.150477886199951,
	"learning_rate": 4.541666666666667e-06,
	"loss": 0.0643,
	"num_input_tokens_seen": 3790864,
	"step": 545
	},
	{
	"epoch": 3.51407884151247,
	"grad_norm": 3.0513834953308105,
	"learning_rate": 4.5500000000000005e-06,
	"loss": 0.0213,
	"num_input_tokens_seen": 3797664,
	"step": 546
	},
	{
	"epoch": 3.520514883346742,
	"grad_norm": 1.5530712604522705,
	"learning_rate": 4.5583333333333335e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 3804576,
	"step": 547
	},
	{
	"epoch": 3.526950925181014,
	"grad_norm": 2.6350319385528564,
	"learning_rate": 4.566666666666667e-06,
	"loss": 0.0252,
	"num_input_tokens_seen": 3811440,
	"step": 548
	},
	{
	"epoch": 3.5333869670152858,
	"grad_norm": 2.8993167877197266,
	"learning_rate": 4.575e-06,
	"loss": 0.038,
	"num_input_tokens_seen": 3818352,
	"step": 549
	},
	{
	"epoch": 3.5398230088495577,
	"grad_norm": 2.0168752670288086,
	"learning_rate": 4.583333333333333e-06,
	"loss": 0.0169,
	"num_input_tokens_seen": 3825360,
	"step": 550
	},
	{
	"epoch": 3.5462590506838296,
	"grad_norm": 2.4160525798797607,
	"learning_rate": 4.591666666666667e-06,
	"loss": 0.0253,
	"num_input_tokens_seen": 3832416,
	"step": 551
	},
	{
	"epoch": 3.5526950925181016,
	"grad_norm": 1.543545126914978,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.0164,
	"num_input_tokens_seen": 3839344,
	"step": 552
	},
	{
	"epoch": 3.5591311343523735,
	"grad_norm": 2.355316400527954,
	"learning_rate": 4.608333333333334e-06,
	"loss": 0.0269,
	"num_input_tokens_seen": 3846688,
	"step": 553
	},
	{
	"epoch": 3.5655671761866454,
	"grad_norm": 1.4751020669937134,
	"learning_rate": 4.616666666666667e-06,
	"loss": 0.0192,
	"num_input_tokens_seen": 3853696,
	"step": 554
	},
	{
	"epoch": 3.5720032180209174,
	"grad_norm": 0.9673195481300354,
	"learning_rate": 4.625000000000001e-06,
	"loss": 0.0132,
	"num_input_tokens_seen": 3860832,
	"step": 555
	},
	{
	"epoch": 3.5784392598551893,
	"grad_norm": 1.1592040061950684,
	"learning_rate": 4.633333333333334e-06,
	"loss": 0.0156,
	"num_input_tokens_seen": 3868000,
	"step": 556
	},
	{
	"epoch": 3.5848753016894612,
	"grad_norm": 1.01143217086792,
	"learning_rate": 4.641666666666667e-06,
	"loss": 0.0081,
	"num_input_tokens_seen": 3874672,
	"step": 557
	},
	{
	"epoch": 3.591311343523733,
	"grad_norm": 2.855041980743408,
	"learning_rate": 4.65e-06,
	"loss": 0.0351,
	"num_input_tokens_seen": 3881744,
	"step": 558
	},
	{
	"epoch": 3.597747385358005,
	"grad_norm": 2.0597968101501465,
	"learning_rate": 4.658333333333333e-06,
	"loss": 0.0288,
	"num_input_tokens_seen": 3888256,
	"step": 559
	},
	{
	"epoch": 3.604183427192277,
	"grad_norm": 2.9965226650238037,
	"learning_rate": 4.666666666666667e-06,
	"loss": 0.0335,
	"num_input_tokens_seen": 3895104,
	"step": 560
	},
	{
	"epoch": 3.6106194690265485,
	"grad_norm": 3.625206708908081,
	"learning_rate": 4.675000000000001e-06,
	"loss": 0.0492,
	"num_input_tokens_seen": 3902208,
	"step": 561
	},
	{
	"epoch": 3.6170555108608204,
	"grad_norm": 2.021160840988159,
	"learning_rate": 4.683333333333334e-06,
	"loss": 0.0082,
	"num_input_tokens_seen": 3909040,
	"step": 562
	},
	{
	"epoch": 3.6234915526950924,
	"grad_norm": 3.4565329551696777,
	"learning_rate": 4.691666666666667e-06,
	"loss": 0.0491,
	"num_input_tokens_seen": 3916304,
	"step": 563
	},
	{
	"epoch": 3.6299275945293643,
	"grad_norm": 3.2362654209136963,
	"learning_rate": 4.7e-06,
	"loss": 0.0568,
	"num_input_tokens_seen": 3923216,
	"step": 564
	},
	{
	"epoch": 3.6363636363636362,
	"grad_norm": 3.234666347503662,
	"learning_rate": 4.708333333333334e-06,
	"loss": 0.0414,
	"num_input_tokens_seen": 3930448,
	"step": 565
	},
	{
	"epoch": 3.642799678197908,
	"grad_norm": 2.1742103099823,
	"learning_rate": 4.7166666666666675e-06,
	"loss": 0.034,
	"num_input_tokens_seen": 3937424,
	"step": 566
	},
	{
	"epoch": 3.64923572003218,
	"grad_norm": 2.9156923294067383,
	"learning_rate": 4.7250000000000005e-06,
	"loss": 0.0392,
	"num_input_tokens_seen": 3944112,
	"step": 567
	},
	{
	"epoch": 3.655671761866452,
	"grad_norm": 4.092429161071777,
	"learning_rate": 4.7333333333333335e-06,
	"loss": 0.051,
	"num_input_tokens_seen": 3951504,
	"step": 568
	},
	{
	"epoch": 3.662107803700724,
	"grad_norm": 3.9395768642425537,
	"learning_rate": 4.741666666666667e-06,
	"loss": 0.034,
	"num_input_tokens_seen": 3958352,
	"step": 569
	},
	{
	"epoch": 3.668543845534996,
	"grad_norm": 1.9961844682693481,
	"learning_rate": 4.75e-06,
	"loss": 0.014,
	"num_input_tokens_seen": 3965552,
	"step": 570
	},
	{
	"epoch": 3.674979887369268,
	"grad_norm": 1.8078194856643677,
	"learning_rate": 4.758333333333334e-06,
	"loss": 0.0406,
	"num_input_tokens_seen": 3972544,
	"step": 571
	},
	{
	"epoch": 3.6814159292035398,
	"grad_norm": 2.048532485961914,
	"learning_rate": 4.766666666666667e-06,
	"loss": 0.0407,
	"num_input_tokens_seen": 3979264,
	"step": 572
	},
	{
	"epoch": 3.6878519710378117,
	"grad_norm": 1.9979974031448364,
	"learning_rate": 4.775e-06,
	"loss": 0.0282,
	"num_input_tokens_seen": 3986240,
	"step": 573
	},
	{
	"epoch": 3.6942880128720836,
	"grad_norm": 3.6126463413238525,
	"learning_rate": 4.783333333333334e-06,
	"loss": 0.0326,
	"num_input_tokens_seen": 3993232,
	"step": 574
	},
	{
	"epoch": 3.7007240547063556,
	"grad_norm": 3.131657838821411,
	"learning_rate": 4.791666666666668e-06,
	"loss": 0.0348,
	"num_input_tokens_seen": 3999952,
	"step": 575
	},
	{
	"epoch": 3.7071600965406275,
	"grad_norm": 2.2662060260772705,
	"learning_rate": 4.800000000000001e-06,
	"loss": 0.0256,
	"num_input_tokens_seen": 4007456,
	"step": 576
	},
	{
	"epoch": 3.7135961383748994,
	"grad_norm": 4.874523639678955,
	"learning_rate": 4.808333333333334e-06,
	"loss": 0.0765,
	"num_input_tokens_seen": 4015024,
	"step": 577
	},
	{
	"epoch": 3.7200321802091714,
	"grad_norm": 0.882166862487793,
	"learning_rate": 4.816666666666667e-06,
	"loss": 0.0099,
	"num_input_tokens_seen": 4021920,
	"step": 578
	},
	{
	"epoch": 3.7264682220434433,
	"grad_norm": 3.1239066123962402,
	"learning_rate": 4.825e-06,
	"loss": 0.0173,
	"num_input_tokens_seen": 4028720,
	"step": 579
	},
	{
	"epoch": 3.7329042638777152,
	"grad_norm": 1.5819370746612549,
	"learning_rate": 4.833333333333333e-06,
	"loss": 0.0084,
	"num_input_tokens_seen": 4035584,
	"step": 580
	},
	{
	"epoch": 3.739340305711987,
	"grad_norm": 2.6252429485321045,
	"learning_rate": 4.841666666666667e-06,
	"loss": 0.0251,
	"num_input_tokens_seen": 4042464,
	"step": 581
	},
	{
	"epoch": 3.745776347546259,
	"grad_norm": 2.0619590282440186,
	"learning_rate": 4.85e-06,
	"loss": 0.0909,
	"num_input_tokens_seen": 4049600,
	"step": 582
	},
	{
	"epoch": 3.752212389380531,
	"grad_norm": 2.547422409057617,
	"learning_rate": 4.858333333333334e-06,
	"loss": 0.039,
	"num_input_tokens_seen": 4056320,
	"step": 583
	},
	{
	"epoch": 3.758648431214803,
	"grad_norm": 1.3179091215133667,
	"learning_rate": 4.866666666666667e-06,
	"loss": 0.0079,
	"num_input_tokens_seen": 4063200,
	"step": 584
	},
	{
	"epoch": 3.765084473049075,
	"grad_norm": 3.090376377105713,
	"learning_rate": 4.875e-06,
	"loss": 0.0242,
	"num_input_tokens_seen": 4070112,
	"step": 585
	},
	{
	"epoch": 3.771520514883347,
	"grad_norm": 2.50468111038208,
	"learning_rate": 4.883333333333334e-06,
	"loss": 0.0138,
	"num_input_tokens_seen": 4076928,
	"step": 586
	},
	{
	"epoch": 3.7779565567176188,
	"grad_norm": 3.921415090560913,
	"learning_rate": 4.8916666666666675e-06,
	"loss": 0.0467,
	"num_input_tokens_seen": 4083792,
	"step": 587
	},
	{
	"epoch": 3.7843925985518907,
	"grad_norm": 1.2243348360061646,
	"learning_rate": 4.9000000000000005e-06,
	"loss": 0.0241,
	"num_input_tokens_seen": 4090672,
	"step": 588
	},
	{
	"epoch": 3.7908286403861626,
	"grad_norm": 1.4968576431274414,
	"learning_rate": 4.9083333333333335e-06,
	"loss": 0.0404,
	"num_input_tokens_seen": 4097472,
	"step": 589
	},
	{
	"epoch": 3.7972646822204346,
	"grad_norm": 1.235217809677124,
	"learning_rate": 4.9166666666666665e-06,
	"loss": 0.0094,
	"num_input_tokens_seen": 4104016,
	"step": 590
	},
	{
	"epoch": 3.8037007240547065,
	"grad_norm": 1.3862783908843994,
	"learning_rate": 4.925e-06,
	"loss": 0.0196,
	"num_input_tokens_seen": 4110784,
	"step": 591
	},
	{
	"epoch": 3.8101367658889784,
	"grad_norm": 3.560793399810791,
	"learning_rate": 4.933333333333334e-06,
	"loss": 0.0514,
	"num_input_tokens_seen": 4117984,
	"step": 592
	},
	{
	"epoch": 3.8165728077232504,
	"grad_norm": 2.008575677871704,
	"learning_rate": 4.941666666666667e-06,
	"loss": 0.0286,
	"num_input_tokens_seen": 4125072,
	"step": 593
	},
	{
	"epoch": 3.823008849557522,
	"grad_norm": 2.3213093280792236,
	"learning_rate": 4.95e-06,
	"loss": 0.0417,
	"num_input_tokens_seen": 4132160,
	"step": 594
	},
	{
	"epoch": 3.829444891391794,
	"grad_norm": 1.3540257215499878,
	"learning_rate": 4.958333333333334e-06,
	"loss": 0.0347,
	"num_input_tokens_seen": 4139136,
	"step": 595
	},
	{
	"epoch": 3.8358809332260657,
	"grad_norm": 1.289825677871704,
	"learning_rate": 4.966666666666667e-06,
	"loss": 0.0229,
	"num_input_tokens_seen": 4146240,
	"step": 596
	},
	{
	"epoch": 3.8423169750603376,
	"grad_norm": 2.4050135612487793,
	"learning_rate": 4.975000000000001e-06,
	"loss": 0.0176,
	"num_input_tokens_seen": 4153152,
	"step": 597
	},
	{
	"epoch": 3.8487530168946096,
	"grad_norm": 1.523977518081665,
	"learning_rate": 4.983333333333334e-06,
	"loss": 0.0274,
	"num_input_tokens_seen": 4160080,
	"step": 598
	},
	{
	"epoch": 3.8551890587288815,
	"grad_norm": 1.1898863315582275,
	"learning_rate": 4.991666666666667e-06,
	"loss": 0.0253,
	"num_input_tokens_seen": 4167008,
	"step": 599
	},
	{
	"epoch": 3.8616251005631534,
	"grad_norm": 1.992311954498291,
	"learning_rate": 5e-06,
	"loss": 0.0429,
	"num_input_tokens_seen": 4174080,
	"step": 600
	},
	{
	"epoch": 3.8680611423974254,
	"grad_norm": 0.9558950066566467,
	"learning_rate": 4.999597169822646e-06,
	"loss": 0.0142,
	"num_input_tokens_seen": 4181104,
	"step": 601
	},
	{
	"epoch": 3.8744971842316973,
	"grad_norm": 0.9275301694869995,
	"learning_rate": 4.998388809108304e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 4188096,
	"step": 602
	},
	{
	"epoch": 3.8809332260659692,
	"grad_norm": 1.6707432270050049,
	"learning_rate": 4.996375307268303e-06,
	"loss": 0.0166,
	"num_input_tokens_seen": 4195152,
	"step": 603
	},
	{
	"epoch": 3.887369267900241,
	"grad_norm": 5.857227325439453,
	"learning_rate": 4.993557313182086e-06,
	"loss": 0.0224,
	"num_input_tokens_seen": 4201952,
	"step": 604
	},
	{
	"epoch": 3.893805309734513,
	"grad_norm": 5.273613452911377,
	"learning_rate": 4.989935734988098e-06,
	"loss": 0.0227,
	"num_input_tokens_seen": 4209104,
	"step": 605
	},
	{
	"epoch": 3.900241351568785,
	"grad_norm": 6.268670082092285,
	"learning_rate": 4.985511739791129e-06,
	"loss": 0.0597,
	"num_input_tokens_seen": 4216496,
	"step": 606
	},
	{
	"epoch": 3.906677393403057,
	"grad_norm": 3.373368501663208,
	"learning_rate": 4.980286753286196e-06,
	"loss": 0.0339,
	"num_input_tokens_seen": 4223840,
	"step": 607
	},
	{
	"epoch": 3.913113435237329,
	"grad_norm": 1.3991198539733887,
	"learning_rate": 4.974262459299088e-06,
	"loss": 0.0192,
	"num_input_tokens_seen": 4230752,
	"step": 608
	},
	{
	"epoch": 3.919549477071601,
	"grad_norm": 0.7424534559249878,
	"learning_rate": 4.967440799243739e-06,
	"loss": 0.007,
	"num_input_tokens_seen": 4237360,
	"step": 609
	},
	{
	"epoch": 3.9259855189058728,
	"grad_norm": 3.0347440242767334,
	"learning_rate": 4.959823971496575e-06,
	"loss": 0.017,
	"num_input_tokens_seen": 4244128,
	"step": 610
	},
	{
	"epoch": 3.9324215607401447,
	"grad_norm": 2.929175853729248,
	"learning_rate": 4.9514144306880506e-06,
	"loss": 0.0296,
	"num_input_tokens_seen": 4251264,
	"step": 611
	},
	{
	"epoch": 3.9388576025744166,
	"grad_norm": 4.076401710510254,
	"learning_rate": 4.942214886911619e-06,
	"loss": 0.0429,
	"num_input_tokens_seen": 4258256,
	"step": 612
	},
	{
	"epoch": 3.9452936444086886,
	"grad_norm": 0.7720851302146912,
	"learning_rate": 4.932228304850363e-06,
	"loss": 0.0027,
	"num_input_tokens_seen": 4265280,
	"step": 613
	},
	{
	"epoch": 3.9517296862429605,
	"grad_norm": 1.500545859336853,
	"learning_rate": 4.921457902821578e-06,
	"loss": 0.0395,
	"num_input_tokens_seen": 4271968,
	"step": 614
	},
	{
	"epoch": 3.9581657280772324,
	"grad_norm": 3.0767860412597656,
	"learning_rate": 4.909907151739634e-06,
	"loss": 0.03,
	"num_input_tokens_seen": 4278848,
	"step": 615
	},
	{
	"epoch": 3.9646017699115044,
	"grad_norm": 1.5455620288848877,
	"learning_rate": 4.897579773997415e-06,
	"loss": 0.0178,
	"num_input_tokens_seen": 4285808,
	"step": 616
	},
	{
	"epoch": 3.9710378117457763,
	"grad_norm": 1.1472654342651367,
	"learning_rate": 4.884479742266731e-06,
	"loss": 0.0139,
	"num_input_tokens_seen": 4292912,
	"step": 617
	},
	{
	"epoch": 3.9774738535800482,
	"grad_norm": 1.3290921449661255,
	"learning_rate": 4.870611278218066e-06,
	"loss": 0.0076,
	"num_input_tokens_seen": 4300176,
	"step": 618
	},
	{
	"epoch": 3.98390989541432,
	"grad_norm": 4.543910026550293,
	"learning_rate": 4.855978851160088e-06,
	"loss": 0.0683,
	"num_input_tokens_seen": 4307776,
	"step": 619
	},
	{
	"epoch": 3.990345937248592,
	"grad_norm": 3.424959421157837,
	"learning_rate": 4.8405871765993435e-06,
	"loss": 0.0367,
	"num_input_tokens_seen": 4314688,
	"step": 620
	},
	{
	"epoch": 3.996781979082864,
	"grad_norm": 1.5345810651779175,
	"learning_rate": 4.824441214720629e-06,
	"loss": 0.0497,
	"num_input_tokens_seen": 4321840,
	"step": 621
	},
	{
	"epoch": 4.003218020917136,
	"grad_norm": 0.5405219793319702,
	"learning_rate": 4.8075461687884935e-06,
	"loss": 0.0054,
	"num_input_tokens_seen": 4328736,
	"step": 622
	},
	{
	"epoch": 4.009654062751408,
	"grad_norm": 2.3540198802948,
	"learning_rate": 4.7899074834704165e-06,
	"loss": 0.0259,
	"num_input_tokens_seen": 4335952,
	"step": 623
	},
	{
	"epoch": 4.01609010458568,
	"grad_norm": 0.7733599543571472,
	"learning_rate": 4.771530843082187e-06,
	"loss": 0.0082,
	"num_input_tokens_seen": 4342816,
	"step": 624
	},
	{
	"epoch": 4.022526146419952,
	"grad_norm": 3.051017999649048,
	"learning_rate": 4.752422169756048e-06,
	"loss": 0.0359,
	"num_input_tokens_seen": 4349456,
	"step": 625
	},
	{
	"epoch": 4.028962188254224,
	"grad_norm": 0.4645274579524994,
	"learning_rate": 4.732587621532214e-06,
	"loss": 0.0081,
	"num_input_tokens_seen": 4356032,
	"step": 626
	},
	{
	"epoch": 4.035398230088496,
	"grad_norm": 1.9294419288635254,
	"learning_rate": 4.712033590374346e-06,
	"loss": 0.0118,
	"num_input_tokens_seen": 4362928,
	"step": 627
	},
	{
	"epoch": 4.041834271922768,
	"grad_norm": 2.5432851314544678,
	"learning_rate": 4.690766700109659e-06,
	"loss": 0.0235,
	"num_input_tokens_seen": 4369616,
	"step": 628
	},
	{
	"epoch": 4.0482703137570395,
	"grad_norm": 1.8334590196609497,
	"learning_rate": 4.668793804294294e-06,
	"loss": 0.0145,
	"num_input_tokens_seen": 4376656,
	"step": 629
	},
	{
	"epoch": 4.054706355591311,
	"grad_norm": 0.6473208069801331,
	"learning_rate": 4.646121984004666e-06,
	"loss": 0.006,
	"num_input_tokens_seen": 4383696,
	"step": 630
	},
	{
	"epoch": 4.061142397425583,
	"grad_norm": 2.0988128185272217,
	"learning_rate": 4.622758545555485e-06,
	"loss": 0.0191,
	"num_input_tokens_seen": 4390880,
	"step": 631
	},
	{
	"epoch": 4.067578439259855,
	"grad_norm": 1.8957973718643188,
	"learning_rate": 4.598711018145193e-06,
	"loss": 0.0075,
	"num_input_tokens_seen": 4398000,
	"step": 632
	},
	{
	"epoch": 4.074014481094127,
	"grad_norm": 1.117255449295044,
	"learning_rate": 4.573987151429579e-06,
	"loss": 0.0253,
	"num_input_tokens_seen": 4404640,
	"step": 633
	},
	{
	"epoch": 4.080450522928399,
	"grad_norm": 2.326129198074341,
	"learning_rate": 4.54859491302433e-06,
	"loss": 0.0317,
	"num_input_tokens_seen": 4411760,
	"step": 634
	},
	{
	"epoch": 4.086886564762671,
	"grad_norm": 1.6843276023864746,
	"learning_rate": 4.522542485937369e-06,
	"loss": 0.0082,
	"num_input_tokens_seen": 4418896,
	"step": 635
	},
	{
	"epoch": 4.093322606596943,
	"grad_norm": 2.301496744155884,
	"learning_rate": 4.495838265931754e-06,
	"loss": 0.0101,
	"num_input_tokens_seen": 4425776,
	"step": 636
	},
	{
	"epoch": 4.099758648431215,
	"grad_norm": 1.434444546699524,
	"learning_rate": 4.4684908588200305e-06,
	"loss": 0.0112,
	"num_input_tokens_seen": 4432656,
	"step": 637
	},
	{
	"epoch": 4.106194690265487,
	"grad_norm": 1.3446779251098633,
	"learning_rate": 4.440509077690883e-06,
	"loss": 0.0034,
	"num_input_tokens_seen": 4439424,
	"step": 638
	},
	{
	"epoch": 4.112630732099759,
	"grad_norm": 0.6733867526054382,
	"learning_rate": 4.411901940068997e-06,
	"loss": 0.0037,
	"num_input_tokens_seen": 4446160,
	"step": 639
	},
	{
	"epoch": 4.119066773934031,
	"grad_norm": 1.339034080505371,
	"learning_rate": 4.382678665009028e-06,
	"loss": 0.0085,
	"num_input_tokens_seen": 4453376,
	"step": 640
	},
	{
	"epoch": 4.125502815768303,
	"grad_norm": 3.2036638259887695,
	"learning_rate": 4.352848670124637e-06,
	"loss": 0.0328,
	"num_input_tokens_seen": 4459952,
	"step": 641
	},
	{
	"epoch": 4.131938857602575,
	"grad_norm": 1.1791878938674927,
	"learning_rate": 4.322421568553529e-06,
	"loss": 0.0098,
	"num_input_tokens_seen": 4466880,
	"step": 642
	},
	{
	"epoch": 4.1383748994368466,
	"grad_norm": 1.8526674509048462,
	"learning_rate": 4.291407165859481e-06,
	"loss": 0.0051,
	"num_input_tokens_seen": 4474064,
	"step": 643
	},
	{
	"epoch": 4.1448109412711185,
	"grad_norm": 0.4795032739639282,
	"learning_rate": 4.259815456872363e-06,
	"loss": 0.0047,
	"num_input_tokens_seen": 4480864,
	"step": 644
	},
	{
	"epoch": 4.15124698310539,
	"grad_norm": 1.4392155408859253,
	"learning_rate": 4.227656622467162e-06,
	"loss": 0.0111,
	"num_input_tokens_seen": 4487504,
	"step": 645
	},
	{
	"epoch": 4.157683024939662,
	"grad_norm": 3.185128688812256,
	"learning_rate": 4.194941026283053e-06,
	"loss": 0.0334,
	"num_input_tokens_seen": 4494512,
	"step": 646
	},
	{
	"epoch": 4.164119066773934,
	"grad_norm": 1.7285927534103394,
	"learning_rate": 4.161679211383565e-06,
	"loss": 0.013,
	"num_input_tokens_seen": 4501296,
	"step": 647
	},
	{
	"epoch": 4.170555108608206,
	"grad_norm": 4.266958713531494,
	"learning_rate": 4.127881896858934e-06,
	"loss": 0.0305,
	"num_input_tokens_seen": 4508128,
	"step": 648
	},
	{
	"epoch": 4.176991150442478,
	"grad_norm": 1.000532627105713,
	"learning_rate": 4.093559974371725e-06,
	"loss": 0.0092,
	"num_input_tokens_seen": 4515008,
	"step": 649
	},
	{
	"epoch": 4.18342719227675,
	"grad_norm": 1.1824270486831665,
	"learning_rate": 4.058724504646834e-06,
	"loss": 0.0223,
	"num_input_tokens_seen": 4521920,
	"step": 650
	},
	{
	"epoch": 4.189863234111022,
	"grad_norm": 2.444427728652954,
	"learning_rate": 4.023386713907021e-06,
	"loss": 0.0234,
	"num_input_tokens_seen": 4528912,
	"step": 651
	},
	{
	"epoch": 4.196299275945294,
	"grad_norm": 1.421184778213501,
	"learning_rate": 3.987557990255093e-06,
	"loss": 0.0185,
	"num_input_tokens_seen": 4535664,
	"step": 652
	},
	{
	"epoch": 4.202735317779566,
	"grad_norm": 0.9019869565963745,
	"learning_rate": 3.951249880003934e-06,
	"loss": 0.0075,
	"num_input_tokens_seen": 4542832,
	"step": 653
	},
	{
	"epoch": 4.209171359613838,
	"grad_norm": 1.7373372316360474,
	"learning_rate": 3.914474083955537e-06,
	"loss": 0.0217,
	"num_input_tokens_seen": 4549552,
	"step": 654
	},
	{
	"epoch": 4.21560740144811,
	"grad_norm": 0.31386592984199524,
	"learning_rate": 3.8772424536302565e-06,
	"loss": 0.0027,
	"num_input_tokens_seen": 4556192,
	"step": 655
	},
	{
	"epoch": 4.222043443282382,
	"grad_norm": 1.8379613161087036,
	"learning_rate": 3.839566987447492e-06,
	"loss": 0.0153,
	"num_input_tokens_seen": 4563168,
	"step": 656
	},
	{
	"epoch": 4.228479485116654,
	"grad_norm": 1.221056342124939,
	"learning_rate": 3.801459826859022e-06,
	"loss": 0.0092,
	"num_input_tokens_seen": 4570704,
	"step": 657
	},
	{
	"epoch": 4.2349155269509255,
	"grad_norm": 0.7823006510734558,
	"learning_rate": 3.7629332524362532e-06,
	"loss": 0.0082,
	"num_input_tokens_seen": 4578016,
	"step": 658
	},
	{
	"epoch": 4.2413515687851975,
	"grad_norm": 1.149715781211853,
	"learning_rate": 3.7239996799126315e-06,
	"loss": 0.0163,
	"num_input_tokens_seen": 4584896,
	"step": 659
	},
	{
	"epoch": 4.247787610619469,
	"grad_norm": 0.6069539189338684,
	"learning_rate": 3.684671656182497e-06,
	"loss": 0.0099,
	"num_input_tokens_seen": 4591984,
	"step": 660
	},
	{
	"epoch": 4.254223652453741,
	"grad_norm": 2.427281141281128,
	"learning_rate": 3.644961855257669e-06,
	"loss": 0.0269,
	"num_input_tokens_seen": 4598656,
	"step": 661
	},
	{
	"epoch": 4.260659694288013,
	"grad_norm": 1.0770633220672607,
	"learning_rate": 3.6048830741830678e-06,
	"loss": 0.007,
	"num_input_tokens_seen": 4606032,
	"step": 662
	},
	{
	"epoch": 4.267095736122285,
	"grad_norm": 2.4310688972473145,
	"learning_rate": 3.564448228912682e-06,
	"loss": 0.0427,
	"num_input_tokens_seen": 4613056,
	"step": 663
	},
	{
	"epoch": 4.273531777956556,
	"grad_norm": 1.2328161001205444,
	"learning_rate": 3.523670350147227e-06,
	"loss": 0.0122,
	"num_input_tokens_seen": 4619776,
	"step": 664
	},
	{
	"epoch": 4.279967819790828,
	"grad_norm": 1.519998550415039,
	"learning_rate": 3.4825625791348093e-06,
	"loss": 0.0137,
	"num_input_tokens_seen": 4626240,
	"step": 665
	},
	{
	"epoch": 4.2864038616251,
	"grad_norm": 1.4114880561828613,
	"learning_rate": 3.44113816343598e-06,
	"loss": 0.02,
	"num_input_tokens_seen": 4633216,
	"step": 666
	},
	{
	"epoch": 4.292839903459372,
	"grad_norm": 1.4585809707641602,
	"learning_rate": 3.399410452654518e-06,
	"loss": 0.006,
	"num_input_tokens_seen": 4639856,
	"step": 667
	},
	{
	"epoch": 4.299275945293644,
	"grad_norm": 1.594936490058899,
	"learning_rate": 3.357392894135329e-06,
	"loss": 0.0085,
	"num_input_tokens_seen": 4646832,
	"step": 668
	},
	{
	"epoch": 4.305711987127916,
	"grad_norm": 2.5802690982818604,
	"learning_rate": 3.315099028630855e-06,
	"loss": 0.0112,
	"num_input_tokens_seen": 4653648,
	"step": 669
	},
	{
	"epoch": 4.312148028962188,
	"grad_norm": 1.3826483488082886,
	"learning_rate": 3.272542485937369e-06,
	"loss": 0.0131,
	"num_input_tokens_seen": 4660672,
	"step": 670
	},
	{
	"epoch": 4.31858407079646,
	"grad_norm": 2.1874148845672607,
	"learning_rate": 3.229736980502584e-06,
	"loss": 0.0124,
	"num_input_tokens_seen": 4667888,
	"step": 671
	},
	{
	"epoch": 4.325020112630732,
	"grad_norm": 1.61604642868042,
	"learning_rate": 3.186696307005976e-06,
	"loss": 0.0042,
	"num_input_tokens_seen": 4675072,
	"step": 672
	},
	{
	"epoch": 4.331456154465004,
	"grad_norm": 0.40999871492385864,
	"learning_rate": 3.1434343359132565e-06,
	"loss": 0.0011,
	"num_input_tokens_seen": 4682016,
	"step": 673
	},
	{
	"epoch": 4.337892196299276,
	"grad_norm": 0.1305094212293625,
	"learning_rate": 3.099965009006415e-06,
	"loss": 0.0008,
	"num_input_tokens_seen": 4688912,
	"step": 674
	},
	{
	"epoch": 4.3443282381335475,
	"grad_norm": 1.6623185873031616,
	"learning_rate": 3.056302334890786e-06,
	"loss": 0.0056,
	"num_input_tokens_seen": 4695936,
	"step": 675
	},
	{
	"epoch": 4.3507642799678194,
	"grad_norm": 1.034837007522583,
	"learning_rate": 3.0124603844805767e-06,
	"loss": 0.0079,
	"num_input_tokens_seen": 4703184,
	"step": 676
	},
	{
	"epoch": 4.357200321802091,
	"grad_norm": 2.2049107551574707,
	"learning_rate": 2.9684532864643123e-06,
	"loss": 0.0216,
	"num_input_tokens_seen": 4710064,
	"step": 677
	},
	{
	"epoch": 4.363636363636363,
	"grad_norm": 4.32258939743042,
	"learning_rate": 2.9242952227516726e-06,
	"loss": 0.0258,
	"num_input_tokens_seen": 4716336,
	"step": 678
	},
	{
	"epoch": 4.370072405470635,
	"grad_norm": 1.0949031114578247,
	"learning_rate": 2.8800004239031687e-06,
	"loss": 0.0049,
	"num_input_tokens_seen": 4723360,
	"step": 679
	},
	{
	"epoch": 4.376508447304907,
	"grad_norm": 1.563004493713379,
	"learning_rate": 2.835583164544139e-06,
	"loss": 0.0034,
	"num_input_tokens_seen": 4730464,
	"step": 680
	},
	{
	"epoch": 4.382944489139179,
	"grad_norm": 2.775270938873291,
	"learning_rate": 2.791057758764557e-06,
	"loss": 0.0341,
	"num_input_tokens_seen": 4737056,
	"step": 681
	},
	{
	"epoch": 4.389380530973451,
	"grad_norm": 3.1517560482025146,
	"learning_rate": 2.7464385555061092e-06,
	"loss": 0.0074,
	"num_input_tokens_seen": 4743936,
	"step": 682
	},
	{
	"epoch": 4.395816572807723,
	"grad_norm": 1.2521913051605225,
	"learning_rate": 2.7017399339380435e-06,
	"loss": 0.0272,
	"num_input_tokens_seen": 4751024,
	"step": 683
	},
	{
	"epoch": 4.402252614641995,
	"grad_norm": 3.4706435203552246,
	"learning_rate": 2.6569762988232838e-06,
	"loss": 0.0168,
	"num_input_tokens_seen": 4758000,
	"step": 684
	},
	{
	"epoch": 4.408688656476267,
	"grad_norm": 0.8021034598350525,
	"learning_rate": 2.6121620758762877e-06,
	"loss": 0.0047,
	"num_input_tokens_seen": 4764816,
	"step": 685
	},
	{
	"epoch": 4.415124698310539,
	"grad_norm": 4.709753036499023,
	"learning_rate": 2.5673117071141574e-06,
	"loss": 0.0198,
	"num_input_tokens_seen": 4772144,
	"step": 686
	},
	{
	"epoch": 4.421560740144811,
	"grad_norm": 0.40973323583602905,
	"learning_rate": 2.522439646202495e-06,
	"loss": 0.0012,
	"num_input_tokens_seen": 4778960,
	"step": 687
	},
	{
	"epoch": 4.427996781979083,
	"grad_norm": 3.179236888885498,
	"learning_rate": 2.4775603537975055e-06,
	"loss": 0.0256,
	"num_input_tokens_seen": 4785952,
	"step": 688
	},
	{
	"epoch": 4.434432823813355,
	"grad_norm": 2.5204341411590576,
	"learning_rate": 2.4326882928858435e-06,
	"loss": 0.0187,
	"num_input_tokens_seen": 4792608,
	"step": 689
	},
	{
	"epoch": 4.4408688656476265,
	"grad_norm": 3.6536998748779297,
	"learning_rate": 2.3878379241237136e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 4799232,
	"step": 690
	},
	{
	"epoch": 4.447304907481898,
	"grad_norm": 1.0689839124679565,
	"learning_rate": 2.3430237011767166e-06,
	"loss": 0.0036,
	"num_input_tokens_seen": 4806080,
	"step": 691
	},
	{
	"epoch": 4.45374094931617,
	"grad_norm": 2.071629762649536,
	"learning_rate": 2.2982600660619574e-06,
	"loss": 0.0135,
	"num_input_tokens_seen": 4813728,
	"step": 692
	},
	{
	"epoch": 4.460176991150442,
	"grad_norm": 3.4168224334716797,
	"learning_rate": 2.253561444493891e-06,
	"loss": 0.0046,
	"num_input_tokens_seen": 4820608,
	"step": 693
	},
	{
	"epoch": 4.466613032984714,
	"grad_norm": 0.3058677017688751,
	"learning_rate": 2.2089422412354434e-06,
	"loss": 0.0019,
	"num_input_tokens_seen": 4827056,
	"step": 694
	},
	{
	"epoch": 4.473049074818986,
	"grad_norm": 0.4175882935523987,
	"learning_rate": 2.1644168354558623e-06,
	"loss": 0.0022,
	"num_input_tokens_seen": 4834080,
	"step": 695
	},
	{
	"epoch": 4.479485116653258,
	"grad_norm": 0.7226863503456116,
	"learning_rate": 2.119999576096832e-06,
	"loss": 0.0093,
	"num_input_tokens_seen": 4840912,
	"step": 696
	},
	{
	"epoch": 4.48592115848753,
	"grad_norm": 0.1190720871090889,
	"learning_rate": 2.0757047772483278e-06,
	"loss": 0.0012,
	"num_input_tokens_seen": 4848112,
	"step": 697
	},
	{
	"epoch": 4.492357200321802,
	"grad_norm": 1.0061287879943848,
	"learning_rate": 2.031546713535688e-06,
	"loss": 0.0036,
	"num_input_tokens_seen": 4855072,
	"step": 698
	},
	{
	"epoch": 4.498793242156074,
	"grad_norm": 0.9472126364707947,
	"learning_rate": 1.987539615519424e-06,
	"loss": 0.0071,
	"num_input_tokens_seen": 4862064,
	"step": 699
	},
	{
	"epoch": 4.505229283990346,
	"grad_norm": 0.8338857889175415,
	"learning_rate": 1.9436976651092143e-06,
	"loss": 0.0055,
	"num_input_tokens_seen": 4869104,
	"step": 700
	},
	{
	"epoch": 4.511665325824618,
	"grad_norm": 3.2061474323272705,
	"learning_rate": 1.9000349909935852e-06,
	"loss": 0.0291,
	"num_input_tokens_seen": 4876112,
	"step": 701
	},
	{
	"epoch": 4.51810136765889,
	"grad_norm": 3.644125461578369,
	"learning_rate": 1.8565656640867448e-06,
	"loss": 0.0407,
	"num_input_tokens_seen": 4883264,
	"step": 702
	},
	{
	"epoch": 4.524537409493162,
	"grad_norm": 2.2370316982269287,
	"learning_rate": 1.813303692994025e-06,
	"loss": 0.0245,
	"num_input_tokens_seen": 4890192,
	"step": 703
	},
	{
	"epoch": 4.530973451327434,
	"grad_norm": 3.3120510578155518,
	"learning_rate": 1.770263019497417e-06,
	"loss": 0.0207,
	"num_input_tokens_seen": 4897200,
	"step": 704
	},
	{
	"epoch": 4.5374094931617055,
	"grad_norm": 1.256335973739624,
	"learning_rate": 1.7274575140626318e-06,
	"loss": 0.0269,
	"num_input_tokens_seen": 4904016,
	"step": 705
	},
	{
	"epoch": 4.543845534995977,
	"grad_norm": 0.10977872461080551,
	"learning_rate": 1.6849009713691456e-06,
	"loss": 0.001,
	"num_input_tokens_seen": 4910944,
	"step": 706
	},
	{
	"epoch": 4.550281576830249,
	"grad_norm": 1.9825077056884766,
	"learning_rate": 1.6426071058646718e-06,
	"loss": 0.0205,
	"num_input_tokens_seen": 4917424,
	"step": 707
	},
	{
	"epoch": 4.556717618664521,
	"grad_norm": 0.7529383897781372,
	"learning_rate": 1.6005895473454836e-06,
	"loss": 0.0148,
	"num_input_tokens_seen": 4924288,
	"step": 708
	},
	{
	"epoch": 4.563153660498793,
	"grad_norm": 2.29215145111084,
	"learning_rate": 1.55886183656402e-06,
	"loss": 0.0239,
	"num_input_tokens_seen": 4931040,
	"step": 709
	},
	{
	"epoch": 4.569589702333065,
	"grad_norm": 1.639636754989624,
	"learning_rate": 1.5174374208651913e-06,
	"loss": 0.0165,
	"num_input_tokens_seen": 4937968,
	"step": 710
	},
	{
	"epoch": 4.576025744167337,
	"grad_norm": 1.8043317794799805,
	"learning_rate": 1.4763296498527744e-06,
	"loss": 0.0079,
	"num_input_tokens_seen": 4945456,
	"step": 711
	},
	{
	"epoch": 4.582461786001609,
	"grad_norm": 1.8007737398147583,
	"learning_rate": 1.4355517710873184e-06,
	"loss": 0.0338,
	"num_input_tokens_seen": 4952080,
	"step": 712
	},
	{
	"epoch": 4.588897827835881,
	"grad_norm": 0.6810876131057739,
	"learning_rate": 1.395116925816934e-06,
	"loss": 0.0136,
	"num_input_tokens_seen": 4958944,
	"step": 713
	},
	{
	"epoch": 4.595333869670153,
	"grad_norm": 1.0080180168151855,
	"learning_rate": 1.3550381447423317e-06,
	"loss": 0.0126,
	"num_input_tokens_seen": 4966320,
	"step": 714
	},
	{
	"epoch": 4.601769911504425,
	"grad_norm": 1.1210750341415405,
	"learning_rate": 1.3153283438175036e-06,
	"loss": 0.0174,
	"num_input_tokens_seen": 4973344,
	"step": 715
	},
	{
	"epoch": 4.608205953338697,
	"grad_norm": 2.2793147563934326,
	"learning_rate": 1.27600032008737e-06,
	"loss": 0.0155,
	"num_input_tokens_seen": 4980304,
	"step": 716
	},
	{
	"epoch": 4.614641995172969,
	"grad_norm": 2.0746471881866455,
	"learning_rate": 1.2370667475637474e-06,
	"loss": 0.0349,
	"num_input_tokens_seen": 4987616,
	"step": 717
	},
	{
	"epoch": 4.621078037007241,
	"grad_norm": 1.9974377155303955,
	"learning_rate": 1.1985401731409793e-06,
	"loss": 0.0082,
	"num_input_tokens_seen": 4994656,
	"step": 718
	},
	{
	"epoch": 4.627514078841513,
	"grad_norm": 0.9225305914878845,
	"learning_rate": 1.160433012552508e-06,
	"loss": 0.0204,
	"num_input_tokens_seen": 5001776,
	"step": 719
	},
	{
	"epoch": 4.6339501206757845,
	"grad_norm": 0.6030845642089844,
	"learning_rate": 1.122757546369744e-06,
	"loss": 0.0074,
	"num_input_tokens_seen": 5008688,
	"step": 720
	},
	{
	"epoch": 4.640386162510056,
	"grad_norm": 1.1969950199127197,
	"learning_rate": 1.085525916044464e-06,
	"loss": 0.0154,
	"num_input_tokens_seen": 5015680,
	"step": 721
	},
	{
	"epoch": 4.646822204344328,
	"grad_norm": 1.7312675714492798,
	"learning_rate": 1.048750119996066e-06,
	"loss": 0.0101,
	"num_input_tokens_seen": 5022336,
	"step": 722
	},
	{
	"epoch": 4.6532582461786,
	"grad_norm": 0.9403418898582458,
	"learning_rate": 1.0124420097449077e-06,
	"loss": 0.0107,
	"num_input_tokens_seen": 5029184,
	"step": 723
	},
	{
	"epoch": 4.659694288012872,
	"grad_norm": 2.2545931339263916,
	"learning_rate": 9.7661328609298e-07,
	"loss": 0.0279,
	"num_input_tokens_seen": 5036000,
	"step": 724
	},
	{
	"epoch": 4.666130329847144,
	"grad_norm": 0.5637010931968689,
	"learning_rate": 9.412754953531664e-07,
	"loss": 0.0044,
	"num_input_tokens_seen": 5042944,
	"step": 725
	},
	{
	"epoch": 4.672566371681416,
	"grad_norm": 0.24136967957019806,
	"learning_rate": 9.064400256282757e-07,
	"loss": 0.0021,
	"num_input_tokens_seen": 5049840,
	"step": 726
	},
	{
	"epoch": 4.679002413515688,
	"grad_norm": 1.0340116024017334,
	"learning_rate": 8.721181031410661e-07,
	"loss": 0.0086,
	"num_input_tokens_seen": 5057296,
	"step": 727
	},
	{
	"epoch": 4.68543845534996,
	"grad_norm": 0.548861026763916,
	"learning_rate": 8.383207886164366e-07,
	"loss": 0.005,
	"num_input_tokens_seen": 5064560,
	"step": 728
	},
	{
	"epoch": 4.691874497184232,
	"grad_norm": 1.089135766029358,
	"learning_rate": 8.050589737169485e-07,
	"loss": 0.0096,
	"num_input_tokens_seen": 5071472,
	"step": 729
	},
	{
	"epoch": 4.698310539018504,
	"grad_norm": 0.3106631636619568,
	"learning_rate": 7.723433775328385e-07,
	"loss": 0.0029,
	"num_input_tokens_seen": 5078512,
	"step": 730
	},
	{
	"epoch": 4.704746580852776,
	"grad_norm": 1.3499066829681396,
	"learning_rate": 7.401845431276378e-07,
	"loss": 0.0082,
	"num_input_tokens_seen": 5085248,
	"step": 731
	},
	{
	"epoch": 4.711182622687048,
	"grad_norm": 0.30332618951797485,
	"learning_rate": 7.085928341405193e-07,
	"loss": 0.0033,
	"num_input_tokens_seen": 5092160,
	"step": 732
	},
	{
	"epoch": 4.71761866452132,
	"grad_norm": 0.7549375295639038,
	"learning_rate": 6.775784314464717e-07,
	"loss": 0.0253,
	"num_input_tokens_seen": 5099360,
	"step": 733
	},
	{
	"epoch": 4.7240547063555915,
	"grad_norm": 1.567395567893982,
	"learning_rate": 6.471513298753634e-07,
	"loss": 0.0117,
	"num_input_tokens_seen": 5106160,
	"step": 734
	},
	{
	"epoch": 4.7304907481898635,
	"grad_norm": 1.192610502243042,
	"learning_rate": 6.17321334990973e-07,
	"loss": 0.0052,
	"num_input_tokens_seen": 5113264,
	"step": 735
	},
	{
	"epoch": 4.736926790024135,
	"grad_norm": 3.9402077198028564,
	"learning_rate": 5.880980599310041e-07,
	"loss": 0.0305,
	"num_input_tokens_seen": 5120032,
	"step": 736
	},
	{
	"epoch": 4.743362831858407,
	"grad_norm": 0.3623356223106384,
	"learning_rate": 5.59490922309118e-07,
	"loss": 0.0018,
	"num_input_tokens_seen": 5127280,
	"step": 737
	},
	{
	"epoch": 4.749798873692679,
	"grad_norm": 0.815592885017395,
	"learning_rate": 5.3150914117997e-07,
	"loss": 0.0066,
	"num_input_tokens_seen": 5134400,
	"step": 738
	},
	{
	"epoch": 4.756234915526951,
	"grad_norm": 0.4423564076423645,
	"learning_rate": 5.041617340682467e-07,
	"loss": 0.0032,
	"num_input_tokens_seen": 5141488,
	"step": 739
	},
	{
	"epoch": 4.762670957361223,
	"grad_norm": 0.5768114924430847,
	"learning_rate": 4.774575140626317e-07,
	"loss": 0.0089,
	"num_input_tokens_seen": 5148432,
	"step": 740
	},
	{
	"epoch": 4.769106999195495,
	"grad_norm": 1.2286343574523926,
	"learning_rate": 4.514050869756703e-07,
	"loss": 0.0124,
	"num_input_tokens_seen": 5155328,
	"step": 741
	},
	{
	"epoch": 4.775543041029767,
	"grad_norm": 0.552872359752655,
	"learning_rate": 4.2601284857042263e-07,
	"loss": 0.0022,
	"num_input_tokens_seen": 5163008,
	"step": 742
	},
	{
	"epoch": 4.781979082864039,
	"grad_norm": 0.6165493726730347,
	"learning_rate": 4.012889818548069e-07,
	"loss": 0.0063,
	"num_input_tokens_seen": 5170096,
	"step": 743
	},
	{
	"epoch": 4.788415124698311,
	"grad_norm": 1.1403653621673584,
	"learning_rate": 3.772414544445163e-07,
	"loss": 0.0149,
	"num_input_tokens_seen": 5177536,
	"step": 744
	},
	{
	"epoch": 4.794851166532583,
	"grad_norm": 0.1795167326927185,
	"learning_rate": 3.538780159953348e-07,
	"loss": 0.0012,
	"num_input_tokens_seen": 5184608,
	"step": 745
	},
	{
	"epoch": 4.801287208366855,
	"grad_norm": 0.9326004981994629,
	"learning_rate": 3.312061957057061e-07,
	"loss": 0.0127,
	"num_input_tokens_seen": 5191344,
	"step": 746
	},
	{
	"epoch": 4.807723250201127,
	"grad_norm": 0.41363996267318726,
	"learning_rate": 3.092332998903416e-07,
	"loss": 0.0018,
	"num_input_tokens_seen": 5198416,
	"step": 747
	},
	{
	"epoch": 4.814159292035399,
	"grad_norm": 0.538027286529541,
	"learning_rate": 2.8796640962565374e-07,
	"loss": 0.0034,
	"num_input_tokens_seen": 5205392,
	"step": 748
	},
	{
	"epoch": 4.8205953338696705,
	"grad_norm": 1.531555414199829,
	"learning_rate": 2.674123784677868e-07,
	"loss": 0.0137,
	"num_input_tokens_seen": 5213216,
	"step": 749
	},
	{
	"epoch": 4.8270313757039425,
	"grad_norm": 1.671035647392273,
	"learning_rate": 2.4757783024395244e-07,
	"loss": 0.0219,
	"num_input_tokens_seen": 5220032,
	"step": 750
	},
	{
	"epoch": 4.833467417538214,
	"grad_norm": 0.30722492933273315,
	"learning_rate": 2.284691569178138e-07,
	"loss": 0.0014,
	"num_input_tokens_seen": 5226816,
	"step": 751
	},
	{
	"epoch": 4.839903459372486,
	"grad_norm": 1.3107943534851074,
	"learning_rate": 2.100925165295839e-07,
	"loss": 0.019,
	"num_input_tokens_seen": 5233920,
	"step": 752
	},
	{
	"epoch": 4.846339501206758,
	"grad_norm": 2.1163885593414307,
	"learning_rate": 1.9245383121150678e-07,
	"loss": 0.0075,
	"num_input_tokens_seen": 5241344,
	"step": 753
	},
	{
	"epoch": 4.85277554304103,
	"grad_norm": 1.2636387348175049,
	"learning_rate": 1.7555878527937164e-07,
	"loss": 0.0078,
	"num_input_tokens_seen": 5248256,
	"step": 754
	},
	{
	"epoch": 4.859211584875302,
	"grad_norm": 4.166254997253418,
	"learning_rate": 1.59412823400657e-07,
	"loss": 0.0244,
	"num_input_tokens_seen": 5255248,
	"step": 755
	},
	{
	"epoch": 4.865647626709574,
	"grad_norm": 1.078273892402649,
	"learning_rate": 1.4402114883991318e-07,
	"loss": 0.0218,
	"num_input_tokens_seen": 5262048,
	"step": 756
	},
	{
	"epoch": 4.872083668543846,
	"grad_norm": 2.091312885284424,
	"learning_rate": 1.2938872178193395e-07,
	"loss": 0.0044,
	"num_input_tokens_seen": 5268848,
	"step": 757
	},
	{
	"epoch": 4.878519710378118,
	"grad_norm": 1.7236751317977905,
	"learning_rate": 1.1552025773327008e-07,
	"loss": 0.0122,
	"num_input_tokens_seen": 5275664,
	"step": 758
	},
	{
	"epoch": 4.88495575221239,
	"grad_norm": 0.9874201416969299,
	"learning_rate": 1.0242022600258611e-07,
	"loss": 0.007,
	"num_input_tokens_seen": 5282112,
	"step": 759
	},
	{
	"epoch": 4.891391794046662,
	"grad_norm": 0.6303602457046509,
	"learning_rate": 9.00928482603669e-08,
	"loss": 0.0019,
	"num_input_tokens_seen": 5288912,
	"step": 760
	},
	{
	"epoch": 4.897827835880933,
	"grad_norm": 0.7971038818359375,
	"learning_rate": 7.854209717842231e-08,
	"loss": 0.0147,
	"num_input_tokens_seen": 5295920,
	"step": 761
	},
	{
	"epoch": 4.904263877715205,
	"grad_norm": 1.0757670402526855,
	"learning_rate": 6.777169514963766e-08,
	"loss": 0.0087,
	"num_input_tokens_seen": 5302816,
	"step": 762
	},
	{
	"epoch": 4.910699919549477,
	"grad_norm": 1.8044992685317993,
	"learning_rate": 5.778511308838108e-08,
	"loss": 0.0085,
	"num_input_tokens_seen": 5309680,
	"step": 763
	},
	{
	"epoch": 4.917135961383749,
	"grad_norm": 0.3801545202732086,
	"learning_rate": 4.8585569311949966e-08,
	"loss": 0.0026,
	"num_input_tokens_seen": 5316848,
	"step": 764
	},
	{
	"epoch": 4.923572003218021,
	"grad_norm": 0.20918627083301544,
	"learning_rate": 4.017602850342584e-08,
	"loss": 0.0018,
	"num_input_tokens_seen": 5323760,
	"step": 765
	},
	{
	"epoch": 4.9300080450522925,
	"grad_norm": 2.037950277328491,
	"learning_rate": 3.2559200756260845e-08,
	"loss": 0.0072,
	"num_input_tokens_seen": 5330336,
	"step": 766
	},
	{
	"epoch": 4.936444086886564,
	"grad_norm": 0.8903030753135681,
	"learning_rate": 2.5737540700912777e-08,
	"loss": 0.0079,
	"num_input_tokens_seen": 5336816,
	"step": 767
	},
	{
	"epoch": 4.942880128720836,
	"grad_norm": 1.0508862733840942,
	"learning_rate": 1.9713246713805588e-08,
	"loss": 0.0275,
	"num_input_tokens_seen": 5344064,
	"step": 768
	},
	{
	"epoch": 4.949316170555108,
	"grad_norm": 1.0068142414093018,
	"learning_rate": 1.4488260208871397e-08,
	"loss": 0.0036,
	"num_input_tokens_seen": 5351328,
	"step": 769
	},
	{
	"epoch": 4.95575221238938,
	"grad_norm": 1.5033273696899414,
	"learning_rate": 1.006426501190233e-08,
	"loss": 0.0501,
	"num_input_tokens_seen": 5358672,
	"step": 770
	},
	{
	"epoch": 4.962188254223652,
	"grad_norm": 0.667352557182312,
	"learning_rate": 6.442686817914878e-09,
	"loss": 0.0082,
	"num_input_tokens_seen": 5365648,
	"step": 771
	},
	{
	"epoch": 4.968624296057924,
	"grad_norm": 0.9037322998046875,
	"learning_rate": 3.6246927316976875e-09,
	"loss": 0.0032,
	"num_input_tokens_seen": 5372432,
	"step": 772
	},
	{
	"epoch": 4.975060337892196,
	"grad_norm": 0.3071233630180359,
	"learning_rate": 1.6111908916965902e-09,
	"loss": 0.0017,
	"num_input_tokens_seen": 5379648,
	"step": 773
	},
	{
	"epoch": 4.981496379726468,
	"grad_norm": 0.7171315550804138,
	"learning_rate": 4.0283017735454066e-10,
	"loss": 0.0042,
	"num_input_tokens_seen": 5386864,
	"step": 774
	},
	{
	"epoch": 4.98793242156074,
	"grad_norm": 2.855295181274414,
	"learning_rate": 0.0,
	"loss": 0.0176,
	"num_input_tokens_seen": 5393616,
	"step": 775
	},
	{
	"epoch": 4.98793242156074,
	"num_input_tokens_seen": 5393616,
	"step": 775,
	"total_flos": 2.1382484588285133e+17,
	"train_loss": 0.5414434323177463,
	"train_runtime": 8640.8816,
	"train_samples_per_second": 11.503,
	"train_steps_per_second": 0.09
	}
	],
	"logging_steps": 1,
	"max_steps": 775,
	"num_input_tokens_seen": 5393616,
	"num_train_epochs": 5,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.1382484588285133e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}