{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 209.0, "eval_steps": 500, "global_step": 156750, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.013333333333333334, "grad_norm": 25.25, "learning_rate": 5.399999999999999e-06, "loss": 1.2496, "step": 10 }, { "epoch": 0.02666666666666667, "grad_norm": 14.0, "learning_rate": 1.14e-05, "loss": 1.1719, "step": 20 }, { "epoch": 0.04, "grad_norm": 7.34375, "learning_rate": 1.74e-05, "loss": 1.1075, "step": 30 }, { "epoch": 0.05333333333333334, "grad_norm": 8.1875, "learning_rate": 2.34e-05, "loss": 1.0409, "step": 40 }, { "epoch": 0.06666666666666667, "grad_norm": 4.875, "learning_rate": 2.94e-05, "loss": 1.0041, "step": 50 }, { "epoch": 0.08, "grad_norm": 3.953125, "learning_rate": 3.539999999999999e-05, "loss": 0.9492, "step": 60 }, { "epoch": 0.09333333333333334, "grad_norm": 1.4453125, "learning_rate": 4.14e-05, "loss": 0.8767, "step": 70 }, { "epoch": 0.10666666666666667, "grad_norm": 0.48828125, "learning_rate": 4.7399999999999993e-05, "loss": 0.783, "step": 80 }, { "epoch": 0.12, "grad_norm": 2.453125, "learning_rate": 5.339999999999999e-05, "loss": 0.7554, "step": 90 }, { "epoch": 0.13333333333333333, "grad_norm": 1.3125, "learning_rate": 5.94e-05, "loss": 0.7656, "step": 100 }, { "epoch": 0.14666666666666667, "grad_norm": 1.2578125, "learning_rate": 6.539999999999999e-05, "loss": 0.7464, "step": 110 }, { "epoch": 0.16, "grad_norm": 1.8125, "learning_rate": 7.139999999999999e-05, "loss": 0.7297, "step": 120 }, { "epoch": 0.17333333333333334, "grad_norm": 1.8984375, "learning_rate": 7.74e-05, "loss": 0.6949, "step": 130 }, { "epoch": 0.18666666666666668, "grad_norm": 3.296875, "learning_rate": 8.34e-05, "loss": 0.6978, "step": 140 }, { "epoch": 0.2, "grad_norm": 2.234375, "learning_rate": 8.939999999999999e-05, "loss": 0.7505, "step": 150 }, { "epoch": 0.21333333333333335, "grad_norm": 0.64453125, "learning_rate": 9.539999999999999e-05, "loss": 0.7417, "step": 160 }, { "epoch": 0.22666666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0001014, "loss": 0.7356, "step": 170 }, { "epoch": 0.24, "grad_norm": 1.609375, "learning_rate": 0.00010739999999999998, "loss": 0.6873, "step": 180 }, { "epoch": 0.25333333333333335, "grad_norm": 5.6875, "learning_rate": 0.00011339999999999999, "loss": 0.6981, "step": 190 }, { "epoch": 0.26666666666666666, "grad_norm": 12.4375, "learning_rate": 0.0001194, "loss": 0.7243, "step": 200 }, { "epoch": 0.28, "grad_norm": 1.015625, "learning_rate": 0.00012539999999999999, "loss": 0.6907, "step": 210 }, { "epoch": 0.29333333333333333, "grad_norm": 1.859375, "learning_rate": 0.0001314, "loss": 0.6514, "step": 220 }, { "epoch": 0.30666666666666664, "grad_norm": 1.6953125, "learning_rate": 0.0001374, "loss": 0.6636, "step": 230 }, { "epoch": 0.32, "grad_norm": 2.390625, "learning_rate": 0.0001434, "loss": 0.6487, "step": 240 }, { "epoch": 0.3333333333333333, "grad_norm": 1.84375, "learning_rate": 0.0001494, "loss": 0.6618, "step": 250 }, { "epoch": 0.3466666666666667, "grad_norm": 4.5625, "learning_rate": 0.00015539999999999998, "loss": 0.641, "step": 260 }, { "epoch": 0.36, "grad_norm": 3.875, "learning_rate": 0.0001614, "loss": 0.6432, "step": 270 }, { "epoch": 0.37333333333333335, "grad_norm": 7.03125, "learning_rate": 0.0001674, "loss": 0.6469, "step": 280 }, { "epoch": 0.38666666666666666, "grad_norm": 3.0625, "learning_rate": 0.00017339999999999996, "loss": 0.6582, "step": 290 }, { "epoch": 0.4, "grad_norm": 3.28125, "learning_rate": 0.00017939999999999997, "loss": 0.631, "step": 300 }, { "epoch": 0.41333333333333333, "grad_norm": 5.71875, "learning_rate": 0.00018539999999999998, "loss": 0.6446, "step": 310 }, { "epoch": 0.4266666666666667, "grad_norm": 4.15625, "learning_rate": 0.0001914, "loss": 0.6545, "step": 320 }, { "epoch": 0.44, "grad_norm": 5.0625, "learning_rate": 0.0001974, "loss": 0.6636, "step": 330 }, { "epoch": 0.4533333333333333, "grad_norm": 5.8125, "learning_rate": 0.00020339999999999998, "loss": 0.6508, "step": 340 }, { "epoch": 0.4666666666666667, "grad_norm": 5.03125, "learning_rate": 0.00020939999999999997, "loss": 0.6497, "step": 350 }, { "epoch": 0.48, "grad_norm": 4.65625, "learning_rate": 0.00021539999999999998, "loss": 0.6261, "step": 360 }, { "epoch": 0.49333333333333335, "grad_norm": 3.671875, "learning_rate": 0.0002214, "loss": 0.6402, "step": 370 }, { "epoch": 0.5066666666666667, "grad_norm": 2.671875, "learning_rate": 0.00022739999999999997, "loss": 0.6382, "step": 380 }, { "epoch": 0.52, "grad_norm": 1.7734375, "learning_rate": 0.00023339999999999998, "loss": 0.6261, "step": 390 }, { "epoch": 0.5333333333333333, "grad_norm": 2.359375, "learning_rate": 0.0002394, "loss": 0.6232, "step": 400 }, { "epoch": 0.5466666666666666, "grad_norm": 1.0703125, "learning_rate": 0.00024539999999999995, "loss": 0.6204, "step": 410 }, { "epoch": 0.56, "grad_norm": 4.15625, "learning_rate": 0.0002514, "loss": 0.6031, "step": 420 }, { "epoch": 0.5733333333333334, "grad_norm": 3.84375, "learning_rate": 0.00025739999999999997, "loss": 0.6012, "step": 430 }, { "epoch": 0.5866666666666667, "grad_norm": 1.2109375, "learning_rate": 0.00026339999999999995, "loss": 0.5892, "step": 440 }, { "epoch": 0.6, "grad_norm": 4.15625, "learning_rate": 0.0002694, "loss": 0.6029, "step": 450 }, { "epoch": 0.6133333333333333, "grad_norm": 1.7578125, "learning_rate": 0.00027539999999999997, "loss": 0.5724, "step": 460 }, { "epoch": 0.6266666666666667, "grad_norm": 9.3125, "learning_rate": 0.00028139999999999996, "loss": 0.5692, "step": 470 }, { "epoch": 0.64, "grad_norm": 3.78125, "learning_rate": 0.00028739999999999994, "loss": 0.6097, "step": 480 }, { "epoch": 0.6533333333333333, "grad_norm": 4.6875, "learning_rate": 0.0002934, "loss": 0.6122, "step": 490 }, { "epoch": 0.6666666666666666, "grad_norm": 2.5625, "learning_rate": 0.00029939999999999996, "loss": 0.5995, "step": 500 }, { "epoch": 0.68, "grad_norm": 1.1640625, "learning_rate": 0.0002999999999733343, "loss": 0.5743, "step": 510 }, { "epoch": 0.6933333333333334, "grad_norm": 6.65625, "learning_rate": 0.0002999999998811565, "loss": 0.5724, "step": 520 }, { "epoch": 0.7066666666666667, "grad_norm": 1.21875, "learning_rate": 0.0002999999997231375, "loss": 0.6099, "step": 530 }, { "epoch": 0.72, "grad_norm": 4.53125, "learning_rate": 0.0002999999994992773, "loss": 0.6212, "step": 540 }, { "epoch": 0.7333333333333333, "grad_norm": 0.7890625, "learning_rate": 0.00029999999920957577, "loss": 0.5886, "step": 550 }, { "epoch": 0.7466666666666667, "grad_norm": 0.265625, "learning_rate": 0.000299999998854033, "loss": 0.5844, "step": 560 }, { "epoch": 0.76, "grad_norm": 0.1767578125, "learning_rate": 0.000299999998432649, "loss": 0.5903, "step": 570 }, { "epoch": 0.7733333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002999999979454238, "loss": 0.5844, "step": 580 }, { "epoch": 0.7866666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029999999739235725, "loss": 0.5716, "step": 590 }, { "epoch": 0.8, "grad_norm": 0.26171875, "learning_rate": 0.00029999999677344954, "loss": 0.5722, "step": 600 }, { "epoch": 0.8133333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002999999960887006, "loss": 0.541, "step": 610 }, { "epoch": 0.8266666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029999999533811034, "loss": 0.5601, "step": 620 }, { "epoch": 0.84, "grad_norm": 1.1015625, "learning_rate": 0.00029999999452167883, "loss": 0.5636, "step": 630 }, { "epoch": 0.8533333333333334, "grad_norm": 1.859375, "learning_rate": 0.0002999999936394061, "loss": 0.5612, "step": 640 }, { "epoch": 0.8666666666666667, "grad_norm": 1.875, "learning_rate": 0.00029999999269129214, "loss": 0.5511, "step": 650 }, { "epoch": 0.88, "grad_norm": 0.8046875, "learning_rate": 0.0002999999916773369, "loss": 0.5304, "step": 660 }, { "epoch": 0.8933333333333333, "grad_norm": 1.1875, "learning_rate": 0.0002999999905975404, "loss": 0.5422, "step": 670 }, { "epoch": 0.9066666666666666, "grad_norm": 1.1171875, "learning_rate": 0.0002999999894519027, "loss": 0.5513, "step": 680 }, { "epoch": 0.92, "grad_norm": 2.015625, "learning_rate": 0.00029999998824042375, "loss": 0.5587, "step": 690 }, { "epoch": 0.9333333333333333, "grad_norm": 0.53515625, "learning_rate": 0.00029999998696310354, "loss": 0.5388, "step": 700 }, { "epoch": 0.9466666666666667, "grad_norm": 0.6015625, "learning_rate": 0.0002999999856199421, "loss": 0.5361, "step": 710 }, { "epoch": 0.96, "grad_norm": 2.46875, "learning_rate": 0.00029999998421093943, "loss": 0.5386, "step": 720 }, { "epoch": 0.9733333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002999999827360955, "loss": 0.5517, "step": 730 }, { "epoch": 0.9866666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002999999811954103, "loss": 0.5371, "step": 740 }, { "epoch": 1.0, "grad_norm": 0.369140625, "learning_rate": 0.00029999997958888387, "loss": 0.5261, "step": 750 }, { "epoch": 1.0, "eval_loss": 0.5584771633148193, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1605, "eval_samples_per_second": 1.575, "eval_steps_per_second": 0.098, "step": 750 }, { "epoch": 1.0133333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002999999779165162, "loss": 0.5409, "step": 760 }, { "epoch": 1.0266666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002999999761783073, "loss": 0.5476, "step": 770 }, { "epoch": 1.04, "grad_norm": 0.484375, "learning_rate": 0.0002999999743742572, "loss": 0.5587, "step": 780 }, { "epoch": 1.0533333333333332, "grad_norm": 0.25, "learning_rate": 0.0002999999725043658, "loss": 0.5515, "step": 790 }, { "epoch": 1.0666666666666667, "grad_norm": 1.0546875, "learning_rate": 0.0002999999705686332, "loss": 0.5376, "step": 800 }, { "epoch": 1.08, "grad_norm": 0.37890625, "learning_rate": 0.0002999999685670593, "loss": 0.5478, "step": 810 }, { "epoch": 1.0933333333333333, "grad_norm": 0.484375, "learning_rate": 0.00029999996649964427, "loss": 0.5361, "step": 820 }, { "epoch": 1.1066666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002999999643663879, "loss": 0.5197, "step": 830 }, { "epoch": 1.12, "grad_norm": 0.451171875, "learning_rate": 0.00029999996216729035, "loss": 0.5358, "step": 840 }, { "epoch": 1.1333333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0002999999599023516, "loss": 0.528, "step": 850 }, { "epoch": 1.1466666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002999999575715716, "loss": 0.5464, "step": 860 }, { "epoch": 1.16, "grad_norm": 0.2578125, "learning_rate": 0.0002999999551749503, "loss": 0.5325, "step": 870 }, { "epoch": 1.1733333333333333, "grad_norm": 1.0078125, "learning_rate": 0.00029999995271248785, "loss": 0.5173, "step": 880 }, { "epoch": 1.1866666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0002999999501841841, "loss": 0.5204, "step": 890 }, { "epoch": 1.2, "grad_norm": 0.25390625, "learning_rate": 0.0002999999475900392, "loss": 0.5236, "step": 900 }, { "epoch": 1.2133333333333334, "grad_norm": 0.220703125, "learning_rate": 0.00029999994493005305, "loss": 0.5234, "step": 910 }, { "epoch": 1.2266666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0002999999422042256, "loss": 0.5349, "step": 920 }, { "epoch": 1.24, "grad_norm": 0.271484375, "learning_rate": 0.00029999993941255703, "loss": 0.5083, "step": 930 }, { "epoch": 1.2533333333333334, "grad_norm": 0.26171875, "learning_rate": 0.00029999993655504723, "loss": 0.5136, "step": 940 }, { "epoch": 1.2666666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0002999999336316961, "loss": 0.5062, "step": 950 }, { "epoch": 1.28, "grad_norm": 0.38671875, "learning_rate": 0.0002999999306425039, "loss": 0.5413, "step": 960 }, { "epoch": 1.2933333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0002999999275874704, "loss": 0.495, "step": 970 }, { "epoch": 1.3066666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002999999244665956, "loss": 0.5197, "step": 980 }, { "epoch": 1.32, "grad_norm": 0.345703125, "learning_rate": 0.0002999999212798797, "loss": 0.5193, "step": 990 }, { "epoch": 1.3333333333333333, "grad_norm": 0.57421875, "learning_rate": 0.0002999999180273226, "loss": 0.5317, "step": 1000 }, { "epoch": 1.3466666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029999991470892423, "loss": 0.5172, "step": 1010 }, { "epoch": 1.3599999999999999, "grad_norm": 2.109375, "learning_rate": 0.0002999999113246847, "loss": 0.5282, "step": 1020 }, { "epoch": 1.3733333333333333, "grad_norm": 1.53125, "learning_rate": 0.00029999990787460385, "loss": 0.5221, "step": 1030 }, { "epoch": 1.3866666666666667, "grad_norm": 1.390625, "learning_rate": 0.00029999990435868187, "loss": 0.5156, "step": 1040 }, { "epoch": 1.4, "grad_norm": 0.302734375, "learning_rate": 0.00029999990077691867, "loss": 0.5133, "step": 1050 }, { "epoch": 1.4133333333333333, "grad_norm": 0.734375, "learning_rate": 0.00029999989712931426, "loss": 0.5193, "step": 1060 }, { "epoch": 1.4266666666666667, "grad_norm": 1.5859375, "learning_rate": 0.00029999989341586864, "loss": 0.5195, "step": 1070 }, { "epoch": 1.44, "grad_norm": 1.4609375, "learning_rate": 0.00029999988963658186, "loss": 0.5319, "step": 1080 }, { "epoch": 1.4533333333333334, "grad_norm": 0.65625, "learning_rate": 0.0002999998857914538, "loss": 0.5229, "step": 1090 }, { "epoch": 1.4666666666666668, "grad_norm": 0.333984375, "learning_rate": 0.0002999998818804846, "loss": 0.5289, "step": 1100 }, { "epoch": 1.48, "grad_norm": 0.609375, "learning_rate": 0.0002999998779036742, "loss": 0.506, "step": 1110 }, { "epoch": 1.4933333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0002999998738610226, "loss": 0.5233, "step": 1120 }, { "epoch": 1.5066666666666668, "grad_norm": 0.19140625, "learning_rate": 0.00029999986975252983, "loss": 0.5137, "step": 1130 }, { "epoch": 1.52, "grad_norm": 0.2060546875, "learning_rate": 0.00029999986557819583, "loss": 0.5036, "step": 1140 }, { "epoch": 1.5333333333333332, "grad_norm": 0.142578125, "learning_rate": 0.0002999998613380206, "loss": 0.5096, "step": 1150 }, { "epoch": 1.5466666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029999985703200424, "loss": 0.5144, "step": 1160 }, { "epoch": 1.56, "grad_norm": 0.3203125, "learning_rate": 0.0002999998526601467, "loss": 0.5008, "step": 1170 }, { "epoch": 1.5733333333333333, "grad_norm": 0.1875, "learning_rate": 0.00029999984822244797, "loss": 0.5024, "step": 1180 }, { "epoch": 1.5866666666666667, "grad_norm": 0.1533203125, "learning_rate": 0.00029999984371890807, "loss": 0.4929, "step": 1190 }, { "epoch": 1.6, "grad_norm": 0.2158203125, "learning_rate": 0.00029999983914952695, "loss": 0.5025, "step": 1200 }, { "epoch": 1.6133333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002999998345143046, "loss": 0.4761, "step": 1210 }, { "epoch": 1.6266666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029999982981324114, "loss": 0.4786, "step": 1220 }, { "epoch": 1.6400000000000001, "grad_norm": 0.185546875, "learning_rate": 0.00029999982504633655, "loss": 0.4986, "step": 1230 }, { "epoch": 1.6533333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.00029999982021359074, "loss": 0.5119, "step": 1240 }, { "epoch": 1.6666666666666665, "grad_norm": 0.212890625, "learning_rate": 0.00029999981531500373, "loss": 0.4969, "step": 1250 }, { "epoch": 1.6800000000000002, "grad_norm": 0.169921875, "learning_rate": 0.0002999998103505756, "loss": 0.486, "step": 1260 }, { "epoch": 1.6933333333333334, "grad_norm": 0.13671875, "learning_rate": 0.0002999998053203063, "loss": 0.4946, "step": 1270 }, { "epoch": 1.7066666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0002999998002241958, "loss": 0.4939, "step": 1280 }, { "epoch": 1.72, "grad_norm": 0.189453125, "learning_rate": 0.00029999979506224413, "loss": 0.5151, "step": 1290 }, { "epoch": 1.7333333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999997898344513, "loss": 0.5053, "step": 1300 }, { "epoch": 1.7466666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0002999997845408174, "loss": 0.5095, "step": 1310 }, { "epoch": 1.76, "grad_norm": 0.1611328125, "learning_rate": 0.0002999997791813423, "loss": 0.521, "step": 1320 }, { "epoch": 1.7733333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.000299999773756026, "loss": 0.5146, "step": 1330 }, { "epoch": 1.7866666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002999997682648686, "loss": 0.5059, "step": 1340 }, { "epoch": 1.8, "grad_norm": 0.2734375, "learning_rate": 0.00029999976270787, "loss": 0.509, "step": 1350 }, { "epoch": 1.8133333333333335, "grad_norm": 0.357421875, "learning_rate": 0.0002999997570850303, "loss": 0.4794, "step": 1360 }, { "epoch": 1.8266666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002999997513963495, "loss": 0.4966, "step": 1370 }, { "epoch": 1.8399999999999999, "grad_norm": 0.5390625, "learning_rate": 0.00029999974564182754, "loss": 0.5099, "step": 1380 }, { "epoch": 1.8533333333333335, "grad_norm": 0.431640625, "learning_rate": 0.00029999973982146436, "loss": 0.5028, "step": 1390 }, { "epoch": 1.8666666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0002999997339352601, "loss": 0.4996, "step": 1400 }, { "epoch": 1.88, "grad_norm": 0.283203125, "learning_rate": 0.0002999997279832147, "loss": 0.4762, "step": 1410 }, { "epoch": 1.8933333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.00029999972196532814, "loss": 0.4862, "step": 1420 }, { "epoch": 1.9066666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002999997158816005, "loss": 0.4976, "step": 1430 }, { "epoch": 1.92, "grad_norm": 0.361328125, "learning_rate": 0.00029999970973203173, "loss": 0.501, "step": 1440 }, { "epoch": 1.9333333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002999997035166218, "loss": 0.491, "step": 1450 }, { "epoch": 1.9466666666666668, "grad_norm": 0.134765625, "learning_rate": 0.0002999996972353708, "loss": 0.4914, "step": 1460 }, { "epoch": 1.96, "grad_norm": 0.142578125, "learning_rate": 0.0002999996908882787, "loss": 0.4896, "step": 1470 }, { "epoch": 1.9733333333333334, "grad_norm": 0.158203125, "learning_rate": 0.00029999968447534545, "loss": 0.5119, "step": 1480 }, { "epoch": 1.9866666666666668, "grad_norm": 0.189453125, "learning_rate": 0.00029999967799657106, "loss": 0.4934, "step": 1490 }, { "epoch": 2.0, "grad_norm": 0.1806640625, "learning_rate": 0.00029999967145195557, "loss": 0.485, "step": 1500 }, { "epoch": 2.0, "eval_loss": 0.507718026638031, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6932, "eval_samples_per_second": 1.651, "eval_steps_per_second": 0.103, "step": 1500 }, { "epoch": 2.013333333333333, "grad_norm": 0.2421875, "learning_rate": 0.00029999966484149903, "loss": 0.5033, "step": 1510 }, { "epoch": 2.026666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0002999996581652013, "loss": 0.5092, "step": 1520 }, { "epoch": 2.04, "grad_norm": 0.2060546875, "learning_rate": 0.00029999965142306253, "loss": 0.5238, "step": 1530 }, { "epoch": 2.0533333333333332, "grad_norm": 0.34375, "learning_rate": 0.0002999996446150827, "loss": 0.5123, "step": 1540 }, { "epoch": 2.066666666666667, "grad_norm": 0.7109375, "learning_rate": 0.0002999996377412617, "loss": 0.5027, "step": 1550 }, { "epoch": 2.08, "grad_norm": 0.54296875, "learning_rate": 0.00029999963080159966, "loss": 0.5084, "step": 1560 }, { "epoch": 2.0933333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0002999996237960965, "loss": 0.5034, "step": 1570 }, { "epoch": 2.1066666666666665, "grad_norm": 0.1513671875, "learning_rate": 0.0002999996167247522, "loss": 0.4871, "step": 1580 }, { "epoch": 2.12, "grad_norm": 0.16015625, "learning_rate": 0.0002999996095875669, "loss": 0.4973, "step": 1590 }, { "epoch": 2.1333333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029999960238454054, "loss": 0.4929, "step": 1600 }, { "epoch": 2.1466666666666665, "grad_norm": 0.318359375, "learning_rate": 0.0002999995951156731, "loss": 0.5105, "step": 1610 }, { "epoch": 2.16, "grad_norm": 0.201171875, "learning_rate": 0.00029999958778096454, "loss": 0.4998, "step": 1620 }, { "epoch": 2.1733333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029999958038041496, "loss": 0.4867, "step": 1630 }, { "epoch": 2.1866666666666665, "grad_norm": 0.287109375, "learning_rate": 0.00029999957291402423, "loss": 0.4904, "step": 1640 }, { "epoch": 2.2, "grad_norm": 0.2021484375, "learning_rate": 0.00029999956538179256, "loss": 0.4896, "step": 1650 }, { "epoch": 2.2133333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002999995577837197, "loss": 0.4899, "step": 1660 }, { "epoch": 2.2266666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002999995501198059, "loss": 0.5026, "step": 1670 }, { "epoch": 2.24, "grad_norm": 0.1875, "learning_rate": 0.00029999954239005096, "loss": 0.4792, "step": 1680 }, { "epoch": 2.2533333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002999995345944551, "loss": 0.4859, "step": 1690 }, { "epoch": 2.2666666666666666, "grad_norm": 0.18359375, "learning_rate": 0.00029999952673301805, "loss": 0.4809, "step": 1700 }, { "epoch": 2.2800000000000002, "grad_norm": 0.1689453125, "learning_rate": 0.00029999951880574, "loss": 0.5146, "step": 1710 }, { "epoch": 2.2933333333333334, "grad_norm": 0.4609375, "learning_rate": 0.00029999951081262095, "loss": 0.4693, "step": 1720 }, { "epoch": 2.3066666666666666, "grad_norm": 0.6015625, "learning_rate": 0.0002999995027536608, "loss": 0.4947, "step": 1730 }, { "epoch": 2.32, "grad_norm": 0.23828125, "learning_rate": 0.0002999994946288597, "loss": 0.4929, "step": 1740 }, { "epoch": 2.3333333333333335, "grad_norm": 0.1611328125, "learning_rate": 0.0002999994864382175, "loss": 0.5044, "step": 1750 }, { "epoch": 2.3466666666666667, "grad_norm": 0.158203125, "learning_rate": 0.00029999947818173435, "loss": 0.4911, "step": 1760 }, { "epoch": 2.36, "grad_norm": 0.3828125, "learning_rate": 0.0002999994698594101, "loss": 0.5002, "step": 1770 }, { "epoch": 2.3733333333333335, "grad_norm": 0.41796875, "learning_rate": 0.0002999994614712449, "loss": 0.491, "step": 1780 }, { "epoch": 2.3866666666666667, "grad_norm": 0.1953125, "learning_rate": 0.00029999945301723864, "loss": 0.4881, "step": 1790 }, { "epoch": 2.4, "grad_norm": 0.431640625, "learning_rate": 0.0002999994444973914, "loss": 0.4898, "step": 1800 }, { "epoch": 2.413333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0002999994359117031, "loss": 0.4958, "step": 1810 }, { "epoch": 2.4266666666666667, "grad_norm": 0.23046875, "learning_rate": 0.00029999942726017387, "loss": 0.4957, "step": 1820 }, { "epoch": 2.44, "grad_norm": 0.25, "learning_rate": 0.00029999941854280367, "loss": 0.5059, "step": 1830 }, { "epoch": 2.453333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029999940975959237, "loss": 0.4971, "step": 1840 }, { "epoch": 2.466666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.00029999940091054013, "loss": 0.5071, "step": 1850 }, { "epoch": 2.48, "grad_norm": 0.1630859375, "learning_rate": 0.0002999993919956469, "loss": 0.4864, "step": 1860 }, { "epoch": 2.493333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0002999993830149127, "loss": 0.5028, "step": 1870 }, { "epoch": 2.506666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0002999993739683375, "loss": 0.4909, "step": 1880 }, { "epoch": 2.52, "grad_norm": 0.1728515625, "learning_rate": 0.00029999936485592137, "loss": 0.4818, "step": 1890 }, { "epoch": 2.533333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0002999993556776642, "loss": 0.4863, "step": 1900 }, { "epoch": 2.546666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0002999993464335661, "loss": 0.4921, "step": 1910 }, { "epoch": 2.56, "grad_norm": 0.228515625, "learning_rate": 0.00029999933712362704, "loss": 0.4809, "step": 1920 }, { "epoch": 2.5733333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029999932774784705, "loss": 0.482, "step": 1930 }, { "epoch": 2.586666666666667, "grad_norm": 0.201171875, "learning_rate": 0.000299999318306226, "loss": 0.471, "step": 1940 }, { "epoch": 2.6, "grad_norm": 0.1396484375, "learning_rate": 0.00029999930879876413, "loss": 0.4814, "step": 1950 }, { "epoch": 2.6133333333333333, "grad_norm": 0.171875, "learning_rate": 0.00029999929922546126, "loss": 0.456, "step": 1960 }, { "epoch": 2.626666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029999928958631745, "loss": 0.4603, "step": 1970 }, { "epoch": 2.64, "grad_norm": 0.314453125, "learning_rate": 0.0002999992798813327, "loss": 0.4804, "step": 1980 }, { "epoch": 2.6533333333333333, "grad_norm": 0.1630859375, "learning_rate": 0.000299999270110507, "loss": 0.492, "step": 1990 }, { "epoch": 2.6666666666666665, "grad_norm": 0.42578125, "learning_rate": 0.00029999926027384036, "loss": 0.4773, "step": 2000 }, { "epoch": 2.68, "grad_norm": 0.220703125, "learning_rate": 0.00029999925037133284, "loss": 0.4672, "step": 2010 }, { "epoch": 2.6933333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029999924040298437, "loss": 0.4775, "step": 2020 }, { "epoch": 2.7066666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.00029999923036879496, "loss": 0.4745, "step": 2030 }, { "epoch": 2.7199999999999998, "grad_norm": 0.345703125, "learning_rate": 0.00029999922026876467, "loss": 0.4944, "step": 2040 }, { "epoch": 2.7333333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002999992101028935, "loss": 0.4885, "step": 2050 }, { "epoch": 2.7466666666666666, "grad_norm": 0.23828125, "learning_rate": 0.00029999919987118136, "loss": 0.4914, "step": 2060 }, { "epoch": 2.76, "grad_norm": 0.1806640625, "learning_rate": 0.0002999991895736284, "loss": 0.5025, "step": 2070 }, { "epoch": 2.7733333333333334, "grad_norm": 0.224609375, "learning_rate": 0.0002999991792102345, "loss": 0.496, "step": 2080 }, { "epoch": 2.7866666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0002999991687809997, "loss": 0.4885, "step": 2090 }, { "epoch": 2.8, "grad_norm": 0.181640625, "learning_rate": 0.0002999991582859241, "loss": 0.4899, "step": 2100 }, { "epoch": 2.8133333333333335, "grad_norm": 0.37890625, "learning_rate": 0.00029999914772500753, "loss": 0.4605, "step": 2110 }, { "epoch": 2.8266666666666667, "grad_norm": 0.478515625, "learning_rate": 0.0002999991370982501, "loss": 0.4763, "step": 2120 }, { "epoch": 2.84, "grad_norm": 0.357421875, "learning_rate": 0.0002999991264056518, "loss": 0.4928, "step": 2130 }, { "epoch": 2.8533333333333335, "grad_norm": 0.55859375, "learning_rate": 0.00029999911564721263, "loss": 0.4864, "step": 2140 }, { "epoch": 2.8666666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002999991048229326, "loss": 0.4837, "step": 2150 }, { "epoch": 2.88, "grad_norm": 0.1796875, "learning_rate": 0.00029999909393281174, "loss": 0.461, "step": 2160 }, { "epoch": 2.8933333333333335, "grad_norm": 0.3671875, "learning_rate": 0.00029999908297685, "loss": 0.4708, "step": 2170 }, { "epoch": 2.9066666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002999990719550474, "loss": 0.4823, "step": 2180 }, { "epoch": 2.92, "grad_norm": 0.515625, "learning_rate": 0.000299999060867404, "loss": 0.4828, "step": 2190 }, { "epoch": 2.9333333333333336, "grad_norm": 0.291015625, "learning_rate": 0.00029999904971391973, "loss": 0.4744, "step": 2200 }, { "epoch": 2.9466666666666668, "grad_norm": 0.1904296875, "learning_rate": 0.0002999990384945947, "loss": 0.4765, "step": 2210 }, { "epoch": 2.96, "grad_norm": 0.1748046875, "learning_rate": 0.00029999902720942873, "loss": 0.4745, "step": 2220 }, { "epoch": 2.9733333333333336, "grad_norm": 0.50390625, "learning_rate": 0.000299999015858422, "loss": 0.4967, "step": 2230 }, { "epoch": 2.986666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.00029999900444157445, "loss": 0.4783, "step": 2240 }, { "epoch": 3.0, "grad_norm": 0.2021484375, "learning_rate": 0.0002999989929588861, "loss": 0.4701, "step": 2250 }, { "epoch": 3.0, "eval_loss": 0.4911285936832428, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8653, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 2250 }, { "epoch": 3.013333333333333, "grad_norm": 0.216796875, "learning_rate": 0.00029999898141035695, "loss": 0.4875, "step": 2260 }, { "epoch": 3.026666666666667, "grad_norm": 0.177734375, "learning_rate": 0.00029999896979598695, "loss": 0.4951, "step": 2270 }, { "epoch": 3.04, "grad_norm": 0.2451171875, "learning_rate": 0.00029999895811577617, "loss": 0.509, "step": 2280 }, { "epoch": 3.0533333333333332, "grad_norm": 0.1650390625, "learning_rate": 0.0002999989463697246, "loss": 0.4968, "step": 2290 }, { "epoch": 3.066666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029999893455783227, "loss": 0.486, "step": 2300 }, { "epoch": 3.08, "grad_norm": 0.294921875, "learning_rate": 0.0002999989226800991, "loss": 0.4902, "step": 2310 }, { "epoch": 3.0933333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0002999989107365252, "loss": 0.4873, "step": 2320 }, { "epoch": 3.1066666666666665, "grad_norm": 0.1474609375, "learning_rate": 0.0002999988987271105, "loss": 0.4735, "step": 2330 }, { "epoch": 3.12, "grad_norm": 0.1533203125, "learning_rate": 0.0002999988866518551, "loss": 0.4815, "step": 2340 }, { "epoch": 3.1333333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002999988745107589, "loss": 0.4778, "step": 2350 }, { "epoch": 3.1466666666666665, "grad_norm": 0.1513671875, "learning_rate": 0.00029999886230382193, "loss": 0.4949, "step": 2360 }, { "epoch": 3.16, "grad_norm": 0.1787109375, "learning_rate": 0.0002999988500310442, "loss": 0.4852, "step": 2370 }, { "epoch": 3.1733333333333333, "grad_norm": 0.15625, "learning_rate": 0.00029999883769242573, "loss": 0.473, "step": 2380 }, { "epoch": 3.1866666666666665, "grad_norm": 0.2353515625, "learning_rate": 0.00029999882528796654, "loss": 0.4765, "step": 2390 }, { "epoch": 3.2, "grad_norm": 0.1572265625, "learning_rate": 0.0002999988128176666, "loss": 0.4729, "step": 2400 }, { "epoch": 3.2133333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029999880028152594, "loss": 0.4751, "step": 2410 }, { "epoch": 3.2266666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0002999987876795445, "loss": 0.4878, "step": 2420 }, { "epoch": 3.24, "grad_norm": 0.25, "learning_rate": 0.00029999877501172244, "loss": 0.4667, "step": 2430 }, { "epoch": 3.2533333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0002999987622780596, "loss": 0.4716, "step": 2440 }, { "epoch": 3.2666666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0002999987494785561, "loss": 0.4681, "step": 2450 }, { "epoch": 3.2800000000000002, "grad_norm": 0.236328125, "learning_rate": 0.0002999987366132119, "loss": 0.5011, "step": 2460 }, { "epoch": 3.2933333333333334, "grad_norm": 0.2578125, "learning_rate": 0.000299998723682027, "loss": 0.4569, "step": 2470 }, { "epoch": 3.3066666666666666, "grad_norm": 0.287109375, "learning_rate": 0.00029999871068500135, "loss": 0.4796, "step": 2480 }, { "epoch": 3.32, "grad_norm": 0.1669921875, "learning_rate": 0.0002999986976221351, "loss": 0.4802, "step": 2490 }, { "epoch": 3.3333333333333335, "grad_norm": 0.1630859375, "learning_rate": 0.0002999986844934281, "loss": 0.4893, "step": 2500 }, { "epoch": 3.3466666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029999867129888047, "loss": 0.4791, "step": 2510 }, { "epoch": 3.36, "grad_norm": 0.3984375, "learning_rate": 0.0002999986580384922, "loss": 0.4868, "step": 2520 }, { "epoch": 3.3733333333333335, "grad_norm": 0.1552734375, "learning_rate": 0.00029999864471226323, "loss": 0.4775, "step": 2530 }, { "epoch": 3.3866666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002999986313201936, "loss": 0.4752, "step": 2540 }, { "epoch": 3.4, "grad_norm": 0.259765625, "learning_rate": 0.0002999986178622833, "loss": 0.4767, "step": 2550 }, { "epoch": 3.413333333333333, "grad_norm": 0.171875, "learning_rate": 0.0002999986043385324, "loss": 0.4828, "step": 2560 }, { "epoch": 3.4266666666666667, "grad_norm": 0.150390625, "learning_rate": 0.00029999859074894086, "loss": 0.483, "step": 2570 }, { "epoch": 3.44, "grad_norm": 0.220703125, "learning_rate": 0.00029999857709350866, "loss": 0.4924, "step": 2580 }, { "epoch": 3.453333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002999985633722359, "loss": 0.4848, "step": 2590 }, { "epoch": 3.466666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0002999985495851224, "loss": 0.4962, "step": 2600 }, { "epoch": 3.48, "grad_norm": 0.23046875, "learning_rate": 0.00029999853573216837, "loss": 0.4746, "step": 2610 }, { "epoch": 3.493333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.00029999852181337376, "loss": 0.4899, "step": 2620 }, { "epoch": 3.506666666666667, "grad_norm": 0.181640625, "learning_rate": 0.00029999850782873853, "loss": 0.4799, "step": 2630 }, { "epoch": 3.52, "grad_norm": 0.1396484375, "learning_rate": 0.0002999984937782627, "loss": 0.4696, "step": 2640 }, { "epoch": 3.533333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0002999984796619463, "loss": 0.4766, "step": 2650 }, { "epoch": 3.546666666666667, "grad_norm": 0.1533203125, "learning_rate": 0.00029999846547978926, "loss": 0.4797, "step": 2660 }, { "epoch": 3.56, "grad_norm": 0.33203125, "learning_rate": 0.0002999984512317917, "loss": 0.4686, "step": 2670 }, { "epoch": 3.5733333333333333, "grad_norm": 0.13671875, "learning_rate": 0.00029999843691795353, "loss": 0.4709, "step": 2680 }, { "epoch": 3.586666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0002999984225382748, "loss": 0.4609, "step": 2690 }, { "epoch": 3.6, "grad_norm": 0.40625, "learning_rate": 0.0002999984080927555, "loss": 0.4696, "step": 2700 }, { "epoch": 3.6133333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002999983935813957, "loss": 0.4454, "step": 2710 }, { "epoch": 3.626666666666667, "grad_norm": 0.150390625, "learning_rate": 0.0002999983790041953, "loss": 0.4504, "step": 2720 }, { "epoch": 3.64, "grad_norm": 0.1513671875, "learning_rate": 0.0002999983643611544, "loss": 0.4701, "step": 2730 }, { "epoch": 3.6533333333333333, "grad_norm": 0.193359375, "learning_rate": 0.00029999834965227295, "loss": 0.4812, "step": 2740 }, { "epoch": 3.6666666666666665, "grad_norm": 0.64453125, "learning_rate": 0.000299998334877551, "loss": 0.4652, "step": 2750 }, { "epoch": 3.68, "grad_norm": 0.19921875, "learning_rate": 0.00029999832003698855, "loss": 0.458, "step": 2760 }, { "epoch": 3.6933333333333334, "grad_norm": 0.25390625, "learning_rate": 0.0002999983051305855, "loss": 0.4668, "step": 2770 }, { "epoch": 3.7066666666666666, "grad_norm": 0.18359375, "learning_rate": 0.000299998290158342, "loss": 0.4616, "step": 2780 }, { "epoch": 3.7199999999999998, "grad_norm": 0.5078125, "learning_rate": 0.000299998275120258, "loss": 0.4844, "step": 2790 }, { "epoch": 3.7333333333333334, "grad_norm": 0.162109375, "learning_rate": 0.00029999826001633355, "loss": 0.479, "step": 2800 }, { "epoch": 3.7466666666666666, "grad_norm": 0.1494140625, "learning_rate": 0.0002999982448465685, "loss": 0.4798, "step": 2810 }, { "epoch": 3.76, "grad_norm": 0.208984375, "learning_rate": 0.00029999822961096305, "loss": 0.492, "step": 2820 }, { "epoch": 3.7733333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0002999982143095172, "loss": 0.4848, "step": 2830 }, { "epoch": 3.7866666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0002999981989422308, "loss": 0.4785, "step": 2840 }, { "epoch": 3.8, "grad_norm": 0.2294921875, "learning_rate": 0.0002999981835091039, "loss": 0.4795, "step": 2850 }, { "epoch": 3.8133333333333335, "grad_norm": 0.203125, "learning_rate": 0.0002999981680101366, "loss": 0.4515, "step": 2860 }, { "epoch": 3.8266666666666667, "grad_norm": 0.1484375, "learning_rate": 0.00029999815244532887, "loss": 0.4663, "step": 2870 }, { "epoch": 3.84, "grad_norm": 0.291015625, "learning_rate": 0.0002999981368146807, "loss": 0.4807, "step": 2880 }, { "epoch": 3.8533333333333335, "grad_norm": 0.1708984375, "learning_rate": 0.000299998121118192, "loss": 0.4757, "step": 2890 }, { "epoch": 3.8666666666666667, "grad_norm": 0.171875, "learning_rate": 0.000299998105355863, "loss": 0.4742, "step": 2900 }, { "epoch": 3.88, "grad_norm": 0.173828125, "learning_rate": 0.0002999980895276935, "loss": 0.4503, "step": 2910 }, { "epoch": 3.8933333333333335, "grad_norm": 0.263671875, "learning_rate": 0.0002999980736336836, "loss": 0.4615, "step": 2920 }, { "epoch": 3.9066666666666667, "grad_norm": 0.1572265625, "learning_rate": 0.00029999805767383337, "loss": 0.472, "step": 2930 }, { "epoch": 3.92, "grad_norm": 0.369140625, "learning_rate": 0.0002999980416481427, "loss": 0.4736, "step": 2940 }, { "epoch": 3.9333333333333336, "grad_norm": 0.2294921875, "learning_rate": 0.0002999980255566116, "loss": 0.4639, "step": 2950 }, { "epoch": 3.9466666666666668, "grad_norm": 0.2412109375, "learning_rate": 0.00029999800939924017, "loss": 0.4662, "step": 2960 }, { "epoch": 3.96, "grad_norm": 0.1357421875, "learning_rate": 0.0002999979931760284, "loss": 0.4641, "step": 2970 }, { "epoch": 3.9733333333333336, "grad_norm": 0.1982421875, "learning_rate": 0.00029999797688697613, "loss": 0.4844, "step": 2980 }, { "epoch": 3.986666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999979605320836, "loss": 0.4671, "step": 2990 }, { "epoch": 4.0, "grad_norm": 0.1923828125, "learning_rate": 0.0002999979441113507, "loss": 0.4595, "step": 3000 }, { "epoch": 4.0, "eval_loss": 0.4804916977882385, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.881, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 3000 }, { "epoch": 4.013333333333334, "grad_norm": 0.263671875, "learning_rate": 0.00029999792762477743, "loss": 0.4778, "step": 3010 }, { "epoch": 4.026666666666666, "grad_norm": 0.25390625, "learning_rate": 0.00029999791107236385, "loss": 0.4855, "step": 3020 }, { "epoch": 4.04, "grad_norm": 0.166015625, "learning_rate": 0.0002999978944541099, "loss": 0.5006, "step": 3030 }, { "epoch": 4.053333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.0002999978777700156, "loss": 0.4881, "step": 3040 }, { "epoch": 4.066666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029999786102008106, "loss": 0.4757, "step": 3050 }, { "epoch": 4.08, "grad_norm": 0.26171875, "learning_rate": 0.0002999978442043062, "loss": 0.4794, "step": 3060 }, { "epoch": 4.093333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.000299997827322691, "loss": 0.4756, "step": 3070 }, { "epoch": 4.1066666666666665, "grad_norm": 0.16796875, "learning_rate": 0.00029999781037523554, "loss": 0.4651, "step": 3080 }, { "epoch": 4.12, "grad_norm": 0.251953125, "learning_rate": 0.00029999779336193976, "loss": 0.4726, "step": 3090 }, { "epoch": 4.133333333333334, "grad_norm": 0.171875, "learning_rate": 0.0002999977762828037, "loss": 0.4687, "step": 3100 }, { "epoch": 4.1466666666666665, "grad_norm": 0.251953125, "learning_rate": 0.00029999775913782734, "loss": 0.487, "step": 3110 }, { "epoch": 4.16, "grad_norm": 0.23828125, "learning_rate": 0.0002999977419270108, "loss": 0.4759, "step": 3120 }, { "epoch": 4.173333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002999977246503539, "loss": 0.4638, "step": 3130 }, { "epoch": 4.1866666666666665, "grad_norm": 0.384765625, "learning_rate": 0.00029999770730785685, "loss": 0.4684, "step": 3140 }, { "epoch": 4.2, "grad_norm": 0.421875, "learning_rate": 0.0002999976898995195, "loss": 0.4636, "step": 3150 }, { "epoch": 4.213333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0002999976724253419, "loss": 0.4654, "step": 3160 }, { "epoch": 4.226666666666667, "grad_norm": 0.1591796875, "learning_rate": 0.0002999976548853241, "loss": 0.4771, "step": 3170 }, { "epoch": 4.24, "grad_norm": 0.1884765625, "learning_rate": 0.0002999976372794661, "loss": 0.4569, "step": 3180 }, { "epoch": 4.253333333333333, "grad_norm": 0.171875, "learning_rate": 0.00029999761960776785, "loss": 0.4633, "step": 3190 }, { "epoch": 4.266666666666667, "grad_norm": 0.158203125, "learning_rate": 0.0002999976018702294, "loss": 0.4601, "step": 3200 }, { "epoch": 4.28, "grad_norm": 0.2197265625, "learning_rate": 0.00029999758406685075, "loss": 0.4916, "step": 3210 }, { "epoch": 4.293333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.00029999756619763195, "loss": 0.4493, "step": 3220 }, { "epoch": 4.306666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0002999975482625729, "loss": 0.4722, "step": 3230 }, { "epoch": 4.32, "grad_norm": 0.1826171875, "learning_rate": 0.00029999753026167374, "loss": 0.473, "step": 3240 }, { "epoch": 4.333333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029999751219493434, "loss": 0.4813, "step": 3250 }, { "epoch": 4.346666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029999749406235486, "loss": 0.4701, "step": 3260 }, { "epoch": 4.36, "grad_norm": 0.35546875, "learning_rate": 0.0002999974758639352, "loss": 0.4783, "step": 3270 }, { "epoch": 4.373333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002999974575996754, "loss": 0.4691, "step": 3280 }, { "epoch": 4.386666666666667, "grad_norm": 0.17578125, "learning_rate": 0.00029999743926957545, "loss": 0.468, "step": 3290 }, { "epoch": 4.4, "grad_norm": 0.33203125, "learning_rate": 0.00029999742087363546, "loss": 0.4688, "step": 3300 }, { "epoch": 4.413333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0002999974024118553, "loss": 0.4758, "step": 3310 }, { "epoch": 4.426666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.00029999738388423493, "loss": 0.4746, "step": 3320 }, { "epoch": 4.44, "grad_norm": 0.1474609375, "learning_rate": 0.0002999973652907746, "loss": 0.4843, "step": 3330 }, { "epoch": 4.453333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0002999973466314741, "loss": 0.4772, "step": 3340 }, { "epoch": 4.466666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0002999973279063335, "loss": 0.4878, "step": 3350 }, { "epoch": 4.48, "grad_norm": 0.1923828125, "learning_rate": 0.00029999730911535287, "loss": 0.4662, "step": 3360 }, { "epoch": 4.493333333333333, "grad_norm": 0.232421875, "learning_rate": 0.00029999729025853214, "loss": 0.4819, "step": 3370 }, { "epoch": 4.506666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0002999972713358714, "loss": 0.4712, "step": 3380 }, { "epoch": 4.52, "grad_norm": 0.1689453125, "learning_rate": 0.0002999972523473706, "loss": 0.4624, "step": 3390 }, { "epoch": 4.533333333333333, "grad_norm": 0.25, "learning_rate": 0.00029999723329302973, "loss": 0.4684, "step": 3400 }, { "epoch": 4.546666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999972141728488, "loss": 0.4707, "step": 3410 }, { "epoch": 4.5600000000000005, "grad_norm": 0.1904296875, "learning_rate": 0.0002999971949868279, "loss": 0.4611, "step": 3420 }, { "epoch": 4.573333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0002999971757349669, "loss": 0.4635, "step": 3430 }, { "epoch": 4.586666666666667, "grad_norm": 0.13671875, "learning_rate": 0.000299997156417266, "loss": 0.454, "step": 3440 }, { "epoch": 4.6, "grad_norm": 0.1826171875, "learning_rate": 0.00029999713703372506, "loss": 0.4622, "step": 3450 }, { "epoch": 4.613333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0002999971175843441, "loss": 0.4402, "step": 3460 }, { "epoch": 4.626666666666667, "grad_norm": 0.162109375, "learning_rate": 0.00029999709806912317, "loss": 0.444, "step": 3470 }, { "epoch": 4.64, "grad_norm": 0.25390625, "learning_rate": 0.0002999970784880623, "loss": 0.4631, "step": 3480 }, { "epoch": 4.653333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029999705884116136, "loss": 0.4735, "step": 3490 }, { "epoch": 4.666666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029999703912842054, "loss": 0.4583, "step": 3500 }, { "epoch": 4.68, "grad_norm": 0.193359375, "learning_rate": 0.00029999701934983975, "loss": 0.4503, "step": 3510 }, { "epoch": 4.693333333333333, "grad_norm": 0.2109375, "learning_rate": 0.00029999699950541904, "loss": 0.4603, "step": 3520 }, { "epoch": 4.706666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0002999969795951584, "loss": 0.4546, "step": 3530 }, { "epoch": 4.72, "grad_norm": 0.2197265625, "learning_rate": 0.0002999969596190578, "loss": 0.477, "step": 3540 }, { "epoch": 4.733333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002999969395771173, "loss": 0.4727, "step": 3550 }, { "epoch": 4.746666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.0002999969194693369, "loss": 0.4711, "step": 3560 }, { "epoch": 4.76, "grad_norm": 0.169921875, "learning_rate": 0.0002999968992957166, "loss": 0.4837, "step": 3570 }, { "epoch": 4.773333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0002999968790562564, "loss": 0.478, "step": 3580 }, { "epoch": 4.786666666666667, "grad_norm": 0.1640625, "learning_rate": 0.0002999968587509564, "loss": 0.4714, "step": 3590 }, { "epoch": 4.8, "grad_norm": 0.1708984375, "learning_rate": 0.0002999968383798164, "loss": 0.4723, "step": 3600 }, { "epoch": 4.8133333333333335, "grad_norm": 0.2255859375, "learning_rate": 0.00029999681794283664, "loss": 0.444, "step": 3610 }, { "epoch": 4.826666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.000299996797440017, "loss": 0.4593, "step": 3620 }, { "epoch": 4.84, "grad_norm": 0.22265625, "learning_rate": 0.00029999677687135747, "loss": 0.4742, "step": 3630 }, { "epoch": 4.8533333333333335, "grad_norm": 0.1630859375, "learning_rate": 0.0002999967562368581, "loss": 0.4691, "step": 3640 }, { "epoch": 4.866666666666667, "grad_norm": 0.177734375, "learning_rate": 0.00029999673553651897, "loss": 0.4677, "step": 3650 }, { "epoch": 4.88, "grad_norm": 0.23828125, "learning_rate": 0.00029999671477034, "loss": 0.4445, "step": 3660 }, { "epoch": 4.8933333333333335, "grad_norm": 0.2890625, "learning_rate": 0.0002999966939383212, "loss": 0.4556, "step": 3670 }, { "epoch": 4.906666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029999667304046263, "loss": 0.4657, "step": 3680 }, { "epoch": 4.92, "grad_norm": 0.328125, "learning_rate": 0.00029999665207676424, "loss": 0.4654, "step": 3690 }, { "epoch": 4.933333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0002999966310472261, "loss": 0.4573, "step": 3700 }, { "epoch": 4.946666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.00029999660995184816, "loss": 0.4604, "step": 3710 }, { "epoch": 4.96, "grad_norm": 0.21484375, "learning_rate": 0.0002999965887906305, "loss": 0.458, "step": 3720 }, { "epoch": 4.973333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002999965675635731, "loss": 0.4794, "step": 3730 }, { "epoch": 4.986666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0002999965462706759, "loss": 0.4623, "step": 3740 }, { "epoch": 5.0, "grad_norm": 0.162109375, "learning_rate": 0.000299996524911939, "loss": 0.453, "step": 3750 }, { "epoch": 5.0, "eval_loss": 0.4764450192451477, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0966, "eval_samples_per_second": 1.585, "eval_steps_per_second": 0.099, "step": 3750 }, { "epoch": 5.013333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.00029999650348736234, "loss": 0.4719, "step": 3760 }, { "epoch": 5.026666666666666, "grad_norm": 0.189453125, "learning_rate": 0.000299996481996946, "loss": 0.4812, "step": 3770 }, { "epoch": 5.04, "grad_norm": 0.1689453125, "learning_rate": 0.00029999646044068994, "loss": 0.4937, "step": 3780 }, { "epoch": 5.053333333333334, "grad_norm": 0.1376953125, "learning_rate": 0.0002999964388185942, "loss": 0.4808, "step": 3790 }, { "epoch": 5.066666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029999641713065876, "loss": 0.4696, "step": 3800 }, { "epoch": 5.08, "grad_norm": 0.333984375, "learning_rate": 0.00029999639537688365, "loss": 0.4728, "step": 3810 }, { "epoch": 5.093333333333334, "grad_norm": 0.4609375, "learning_rate": 0.00029999637355726885, "loss": 0.4698, "step": 3820 }, { "epoch": 5.1066666666666665, "grad_norm": 0.462890625, "learning_rate": 0.0002999963516718144, "loss": 0.4586, "step": 3830 }, { "epoch": 5.12, "grad_norm": 0.2412109375, "learning_rate": 0.00029999632972052033, "loss": 0.4666, "step": 3840 }, { "epoch": 5.133333333333334, "grad_norm": 0.224609375, "learning_rate": 0.0002999963077033866, "loss": 0.4614, "step": 3850 }, { "epoch": 5.1466666666666665, "grad_norm": 0.2578125, "learning_rate": 0.00029999628562041324, "loss": 0.4793, "step": 3860 }, { "epoch": 5.16, "grad_norm": 0.2109375, "learning_rate": 0.0002999962634716003, "loss": 0.47, "step": 3870 }, { "epoch": 5.173333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999962412569477, "loss": 0.4581, "step": 3880 }, { "epoch": 5.1866666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00029999621897645553, "loss": 0.4611, "step": 3890 }, { "epoch": 5.2, "grad_norm": 0.2041015625, "learning_rate": 0.0002999961966301237, "loss": 0.4571, "step": 3900 }, { "epoch": 5.213333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0002999961742179524, "loss": 0.4588, "step": 3910 }, { "epoch": 5.226666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0002999961517399415, "loss": 0.4704, "step": 3920 }, { "epoch": 5.24, "grad_norm": 0.33203125, "learning_rate": 0.00029999612919609096, "loss": 0.4525, "step": 3930 }, { "epoch": 5.253333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029999610658640097, "loss": 0.4569, "step": 3940 }, { "epoch": 5.266666666666667, "grad_norm": 0.1552734375, "learning_rate": 0.0002999960839108714, "loss": 0.4548, "step": 3950 }, { "epoch": 5.28, "grad_norm": 0.3125, "learning_rate": 0.00029999606116950226, "loss": 0.485, "step": 3960 }, { "epoch": 5.293333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029999603836229367, "loss": 0.4425, "step": 3970 }, { "epoch": 5.306666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.00029999601548924554, "loss": 0.466, "step": 3980 }, { "epoch": 5.32, "grad_norm": 0.185546875, "learning_rate": 0.00029999599255035793, "loss": 0.4673, "step": 3990 }, { "epoch": 5.333333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002999959695456308, "loss": 0.4753, "step": 4000 }, { "epoch": 5.346666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002999959464750642, "loss": 0.4637, "step": 4010 }, { "epoch": 5.36, "grad_norm": 0.2021484375, "learning_rate": 0.0002999959233386581, "loss": 0.4713, "step": 4020 }, { "epoch": 5.373333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.00029999590013641257, "loss": 0.4623, "step": 4030 }, { "epoch": 5.386666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029999587686832757, "loss": 0.4596, "step": 4040 }, { "epoch": 5.4, "grad_norm": 0.24609375, "learning_rate": 0.00029999585353440315, "loss": 0.464, "step": 4050 }, { "epoch": 5.413333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.00029999583013463926, "loss": 0.4694, "step": 4060 }, { "epoch": 5.426666666666667, "grad_norm": 0.1875, "learning_rate": 0.000299995806669036, "loss": 0.469, "step": 4070 }, { "epoch": 5.44, "grad_norm": 0.162109375, "learning_rate": 0.0002999957831375933, "loss": 0.4779, "step": 4080 }, { "epoch": 5.453333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.00029999575954031124, "loss": 0.4699, "step": 4090 }, { "epoch": 5.466666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00029999573587718975, "loss": 0.4809, "step": 4100 }, { "epoch": 5.48, "grad_norm": 0.1572265625, "learning_rate": 0.00029999571214822895, "loss": 0.4613, "step": 4110 }, { "epoch": 5.493333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0002999956883534287, "loss": 0.4751, "step": 4120 }, { "epoch": 5.506666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029999566449278914, "loss": 0.4653, "step": 4130 }, { "epoch": 5.52, "grad_norm": 0.228515625, "learning_rate": 0.0002999956405663102, "loss": 0.4559, "step": 4140 }, { "epoch": 5.533333333333333, "grad_norm": 0.1953125, "learning_rate": 0.00029999561657399195, "loss": 0.4624, "step": 4150 }, { "epoch": 5.546666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.00029999559251583436, "loss": 0.4662, "step": 4160 }, { "epoch": 5.5600000000000005, "grad_norm": 0.27734375, "learning_rate": 0.00029999556839183745, "loss": 0.4555, "step": 4170 }, { "epoch": 5.573333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0002999955442020013, "loss": 0.4589, "step": 4180 }, { "epoch": 5.586666666666667, "grad_norm": 0.1875, "learning_rate": 0.00029999551994632574, "loss": 0.4482, "step": 4190 }, { "epoch": 5.6, "grad_norm": 0.345703125, "learning_rate": 0.000299995495624811, "loss": 0.4555, "step": 4200 }, { "epoch": 5.613333333333333, "grad_norm": 0.1552734375, "learning_rate": 0.00029999547123745694, "loss": 0.4344, "step": 4210 }, { "epoch": 5.626666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029999544678426367, "loss": 0.439, "step": 4220 }, { "epoch": 5.64, "grad_norm": 0.265625, "learning_rate": 0.00029999542226523103, "loss": 0.4576, "step": 4230 }, { "epoch": 5.653333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029999539768035924, "loss": 0.4679, "step": 4240 }, { "epoch": 5.666666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.00029999537302964824, "loss": 0.4534, "step": 4250 }, { "epoch": 5.68, "grad_norm": 0.203125, "learning_rate": 0.000299995348313098, "loss": 0.4455, "step": 4260 }, { "epoch": 5.693333333333333, "grad_norm": 0.171875, "learning_rate": 0.0002999953235307085, "loss": 0.4562, "step": 4270 }, { "epoch": 5.706666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0002999952986824799, "loss": 0.4488, "step": 4280 }, { "epoch": 5.72, "grad_norm": 0.26171875, "learning_rate": 0.000299995273768412, "loss": 0.4718, "step": 4290 }, { "epoch": 5.733333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.000299995248788505, "loss": 0.4666, "step": 4300 }, { "epoch": 5.746666666666667, "grad_norm": 0.240234375, "learning_rate": 0.00029999522374275886, "loss": 0.4659, "step": 4310 }, { "epoch": 5.76, "grad_norm": 0.216796875, "learning_rate": 0.0002999951986311735, "loss": 0.4797, "step": 4320 }, { "epoch": 5.773333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029999517345374903, "loss": 0.472, "step": 4330 }, { "epoch": 5.786666666666667, "grad_norm": 0.203125, "learning_rate": 0.00029999514821048545, "loss": 0.4667, "step": 4340 }, { "epoch": 5.8, "grad_norm": 0.2119140625, "learning_rate": 0.0002999951229013827, "loss": 0.4677, "step": 4350 }, { "epoch": 5.8133333333333335, "grad_norm": 0.224609375, "learning_rate": 0.00029999509752644087, "loss": 0.4398, "step": 4360 }, { "epoch": 5.826666666666666, "grad_norm": 0.2333984375, "learning_rate": 0.00029999507208565993, "loss": 0.4546, "step": 4370 }, { "epoch": 5.84, "grad_norm": 0.2216796875, "learning_rate": 0.0002999950465790399, "loss": 0.4686, "step": 4380 }, { "epoch": 5.8533333333333335, "grad_norm": 0.2119140625, "learning_rate": 0.0002999950210065808, "loss": 0.4638, "step": 4390 }, { "epoch": 5.866666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002999949953682827, "loss": 0.4628, "step": 4400 }, { "epoch": 5.88, "grad_norm": 0.318359375, "learning_rate": 0.00029999496966414546, "loss": 0.4402, "step": 4410 }, { "epoch": 5.8933333333333335, "grad_norm": 0.267578125, "learning_rate": 0.00029999494389416925, "loss": 0.4507, "step": 4420 }, { "epoch": 5.906666666666666, "grad_norm": 0.23046875, "learning_rate": 0.00029999491805835394, "loss": 0.461, "step": 4430 }, { "epoch": 5.92, "grad_norm": 0.181640625, "learning_rate": 0.00029999489215669963, "loss": 0.4616, "step": 4440 }, { "epoch": 5.933333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.0002999948661892063, "loss": 0.4529, "step": 4450 }, { "epoch": 5.946666666666666, "grad_norm": 0.162109375, "learning_rate": 0.000299994840155874, "loss": 0.4558, "step": 4460 }, { "epoch": 5.96, "grad_norm": 0.19921875, "learning_rate": 0.00029999481405670273, "loss": 0.4528, "step": 4470 }, { "epoch": 5.973333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.00029999478789169247, "loss": 0.4745, "step": 4480 }, { "epoch": 5.986666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0002999947616608432, "loss": 0.4554, "step": 4490 }, { "epoch": 6.0, "grad_norm": 0.251953125, "learning_rate": 0.00029999473536415503, "loss": 0.4478, "step": 4500 }, { "epoch": 6.0, "eval_loss": 0.47071152925491333, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5782, "eval_samples_per_second": 1.67, "eval_steps_per_second": 0.104, "step": 4500 }, { "epoch": 6.013333333333334, "grad_norm": 0.224609375, "learning_rate": 0.00029999470900162796, "loss": 0.4661, "step": 4510 }, { "epoch": 6.026666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0002999946825732619, "loss": 0.4747, "step": 4520 }, { "epoch": 6.04, "grad_norm": 0.2275390625, "learning_rate": 0.00029999465607905696, "loss": 0.4882, "step": 4530 }, { "epoch": 6.053333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002999946295190131, "loss": 0.4757, "step": 4540 }, { "epoch": 6.066666666666666, "grad_norm": 0.296875, "learning_rate": 0.00029999460289313037, "loss": 0.4638, "step": 4550 }, { "epoch": 6.08, "grad_norm": 0.6640625, "learning_rate": 0.00029999457620140873, "loss": 0.4672, "step": 4560 }, { "epoch": 6.093333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002999945494438482, "loss": 0.4648, "step": 4570 }, { "epoch": 6.1066666666666665, "grad_norm": 0.2158203125, "learning_rate": 0.00029999452262044886, "loss": 0.4531, "step": 4580 }, { "epoch": 6.12, "grad_norm": 0.427734375, "learning_rate": 0.0002999944957312106, "loss": 0.4621, "step": 4590 }, { "epoch": 6.133333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0002999944687761336, "loss": 0.4556, "step": 4600 }, { "epoch": 6.1466666666666665, "grad_norm": 0.255859375, "learning_rate": 0.00029999444175521773, "loss": 0.4742, "step": 4610 }, { "epoch": 6.16, "grad_norm": 0.3046875, "learning_rate": 0.0002999944146684631, "loss": 0.4666, "step": 4620 }, { "epoch": 6.173333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0002999943875158696, "loss": 0.454, "step": 4630 }, { "epoch": 6.1866666666666665, "grad_norm": 0.310546875, "learning_rate": 0.0002999943602974373, "loss": 0.4568, "step": 4640 }, { "epoch": 6.2, "grad_norm": 0.203125, "learning_rate": 0.00029999433301316635, "loss": 0.452, "step": 4650 }, { "epoch": 6.213333333333333, "grad_norm": 0.220703125, "learning_rate": 0.00029999430566305654, "loss": 0.4532, "step": 4660 }, { "epoch": 6.226666666666667, "grad_norm": 0.16796875, "learning_rate": 0.000299994278247108, "loss": 0.4659, "step": 4670 }, { "epoch": 6.24, "grad_norm": 0.2080078125, "learning_rate": 0.00029999425076532077, "loss": 0.4463, "step": 4680 }, { "epoch": 6.253333333333333, "grad_norm": 0.232421875, "learning_rate": 0.00029999422321769475, "loss": 0.4522, "step": 4690 }, { "epoch": 6.266666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.00029999419560423, "loss": 0.4496, "step": 4700 }, { "epoch": 6.28, "grad_norm": 0.20703125, "learning_rate": 0.0002999941679249266, "loss": 0.4812, "step": 4710 }, { "epoch": 6.293333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002999941401797845, "loss": 0.4387, "step": 4720 }, { "epoch": 6.306666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0002999941123688037, "loss": 0.4606, "step": 4730 }, { "epoch": 6.32, "grad_norm": 0.19921875, "learning_rate": 0.00029999408449198425, "loss": 0.462, "step": 4740 }, { "epoch": 6.333333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029999405654932614, "loss": 0.4703, "step": 4750 }, { "epoch": 6.346666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0002999940285408294, "loss": 0.46, "step": 4760 }, { "epoch": 6.36, "grad_norm": 0.2412109375, "learning_rate": 0.000299994000466494, "loss": 0.4651, "step": 4770 }, { "epoch": 6.373333333333333, "grad_norm": 0.189453125, "learning_rate": 0.00029999397232632007, "loss": 0.457, "step": 4780 }, { "epoch": 6.386666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.00029999394412030746, "loss": 0.4562, "step": 4790 }, { "epoch": 6.4, "grad_norm": 0.21484375, "learning_rate": 0.0002999939158484563, "loss": 0.4586, "step": 4800 }, { "epoch": 6.413333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029999388751076656, "loss": 0.4652, "step": 4810 }, { "epoch": 6.426666666666667, "grad_norm": 0.228515625, "learning_rate": 0.00029999385910723823, "loss": 0.4651, "step": 4820 }, { "epoch": 6.44, "grad_norm": 0.1943359375, "learning_rate": 0.00029999383063787134, "loss": 0.4731, "step": 4830 }, { "epoch": 6.453333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002999938021026659, "loss": 0.4657, "step": 4840 }, { "epoch": 6.466666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029999377350162194, "loss": 0.4758, "step": 4850 }, { "epoch": 6.48, "grad_norm": 0.1904296875, "learning_rate": 0.0002999937448347395, "loss": 0.4561, "step": 4860 }, { "epoch": 6.493333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0002999937161020185, "loss": 0.4709, "step": 4870 }, { "epoch": 6.506666666666667, "grad_norm": 0.2734375, "learning_rate": 0.000299993687303459, "loss": 0.4622, "step": 4880 }, { "epoch": 6.52, "grad_norm": 0.248046875, "learning_rate": 0.00029999365843906106, "loss": 0.4516, "step": 4890 }, { "epoch": 6.533333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.00029999362950882465, "loss": 0.458, "step": 4900 }, { "epoch": 6.546666666666667, "grad_norm": 0.1591796875, "learning_rate": 0.0002999936005127498, "loss": 0.4612, "step": 4910 }, { "epoch": 6.5600000000000005, "grad_norm": 0.2890625, "learning_rate": 0.0002999935714508365, "loss": 0.452, "step": 4920 }, { "epoch": 6.573333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.00029999354232308474, "loss": 0.4543, "step": 4930 }, { "epoch": 6.586666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0002999935131294946, "loss": 0.4448, "step": 4940 }, { "epoch": 6.6, "grad_norm": 0.1943359375, "learning_rate": 0.00029999348387006606, "loss": 0.4499, "step": 4950 }, { "epoch": 6.613333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0002999934545447991, "loss": 0.431, "step": 4960 }, { "epoch": 6.626666666666667, "grad_norm": 0.142578125, "learning_rate": 0.00029999342515369385, "loss": 0.4344, "step": 4970 }, { "epoch": 6.64, "grad_norm": 0.173828125, "learning_rate": 0.0002999933956967502, "loss": 0.452, "step": 4980 }, { "epoch": 6.653333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002999933661739681, "loss": 0.4627, "step": 4990 }, { "epoch": 6.666666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0002999933365853478, "loss": 0.4482, "step": 5000 }, { "epoch": 6.68, "grad_norm": 0.275390625, "learning_rate": 0.0002999933069308891, "loss": 0.4412, "step": 5010 }, { "epoch": 6.693333333333333, "grad_norm": 0.173828125, "learning_rate": 0.00029999327721059207, "loss": 0.4512, "step": 5020 }, { "epoch": 6.706666666666667, "grad_norm": 0.240234375, "learning_rate": 0.00029999324742445676, "loss": 0.4443, "step": 5030 }, { "epoch": 6.72, "grad_norm": 0.236328125, "learning_rate": 0.00029999321757248317, "loss": 0.4665, "step": 5040 }, { "epoch": 6.733333333333333, "grad_norm": 0.203125, "learning_rate": 0.00029999318765467134, "loss": 0.4622, "step": 5050 }, { "epoch": 6.746666666666667, "grad_norm": 0.220703125, "learning_rate": 0.00029999315767102123, "loss": 0.4618, "step": 5060 }, { "epoch": 6.76, "grad_norm": 0.2041015625, "learning_rate": 0.0002999931276215329, "loss": 0.4746, "step": 5070 }, { "epoch": 6.773333333333333, "grad_norm": 0.255859375, "learning_rate": 0.00029999309750620626, "loss": 0.4669, "step": 5080 }, { "epoch": 6.786666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.00029999306732504146, "loss": 0.4618, "step": 5090 }, { "epoch": 6.8, "grad_norm": 0.255859375, "learning_rate": 0.0002999930370780384, "loss": 0.4628, "step": 5100 }, { "epoch": 6.8133333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0002999930067651972, "loss": 0.4351, "step": 5110 }, { "epoch": 6.826666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002999929763865178, "loss": 0.4494, "step": 5120 }, { "epoch": 6.84, "grad_norm": 0.28515625, "learning_rate": 0.00029999294594200025, "loss": 0.4641, "step": 5130 }, { "epoch": 6.8533333333333335, "grad_norm": 0.17578125, "learning_rate": 0.00029999291543164456, "loss": 0.458, "step": 5140 }, { "epoch": 6.866666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029999288485545064, "loss": 0.4579, "step": 5150 }, { "epoch": 6.88, "grad_norm": 0.19140625, "learning_rate": 0.0002999928542134187, "loss": 0.435, "step": 5160 }, { "epoch": 6.8933333333333335, "grad_norm": 0.330078125, "learning_rate": 0.0002999928235055486, "loss": 0.4451, "step": 5170 }, { "epoch": 6.906666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002999927927318404, "loss": 0.4559, "step": 5180 }, { "epoch": 6.92, "grad_norm": 0.2119140625, "learning_rate": 0.0002999927618922941, "loss": 0.4562, "step": 5190 }, { "epoch": 6.933333333333334, "grad_norm": 0.2109375, "learning_rate": 0.00029999273098690974, "loss": 0.4482, "step": 5200 }, { "epoch": 6.946666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.00029999270001568735, "loss": 0.4508, "step": 5210 }, { "epoch": 6.96, "grad_norm": 0.2734375, "learning_rate": 0.0002999926689786269, "loss": 0.4479, "step": 5220 }, { "epoch": 6.973333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029999263787572843, "loss": 0.4713, "step": 5230 }, { "epoch": 6.986666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0002999926067069919, "loss": 0.4525, "step": 5240 }, { "epoch": 7.0, "grad_norm": 0.228515625, "learning_rate": 0.0002999925754724174, "loss": 0.4438, "step": 5250 }, { "epoch": 7.0, "eval_loss": 0.4673970341682434, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7339, "eval_samples_per_second": 1.644, "eval_steps_per_second": 0.103, "step": 5250 }, { "epoch": 7.013333333333334, "grad_norm": 0.203125, "learning_rate": 0.0002999925441720049, "loss": 0.4625, "step": 5260 }, { "epoch": 7.026666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0002999925128057544, "loss": 0.4712, "step": 5270 }, { "epoch": 7.04, "grad_norm": 0.2392578125, "learning_rate": 0.000299992481373666, "loss": 0.4861, "step": 5280 }, { "epoch": 7.053333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0002999924498757396, "loss": 0.473, "step": 5290 }, { "epoch": 7.066666666666666, "grad_norm": 0.220703125, "learning_rate": 0.00029999241831197524, "loss": 0.4605, "step": 5300 }, { "epoch": 7.08, "grad_norm": 0.2294921875, "learning_rate": 0.00029999238668237304, "loss": 0.4629, "step": 5310 }, { "epoch": 7.093333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002999923549869328, "loss": 0.461, "step": 5320 }, { "epoch": 7.1066666666666665, "grad_norm": 0.2119140625, "learning_rate": 0.0002999923232256548, "loss": 0.4498, "step": 5330 }, { "epoch": 7.12, "grad_norm": 0.228515625, "learning_rate": 0.0002999922913985389, "loss": 0.4568, "step": 5340 }, { "epoch": 7.133333333333334, "grad_norm": 0.25, "learning_rate": 0.00029999225950558505, "loss": 0.4507, "step": 5350 }, { "epoch": 7.1466666666666665, "grad_norm": 0.2373046875, "learning_rate": 0.00029999222754679343, "loss": 0.4706, "step": 5360 }, { "epoch": 7.16, "grad_norm": 0.2255859375, "learning_rate": 0.00029999219552216395, "loss": 0.459, "step": 5370 }, { "epoch": 7.173333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0002999921634316966, "loss": 0.4498, "step": 5380 }, { "epoch": 7.1866666666666665, "grad_norm": 0.2490234375, "learning_rate": 0.00029999213127539156, "loss": 0.4528, "step": 5390 }, { "epoch": 7.2, "grad_norm": 0.2734375, "learning_rate": 0.0002999920990532486, "loss": 0.4477, "step": 5400 }, { "epoch": 7.213333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0002999920667652679, "loss": 0.4493, "step": 5410 }, { "epoch": 7.226666666666667, "grad_norm": 0.234375, "learning_rate": 0.00029999203441144945, "loss": 0.4621, "step": 5420 }, { "epoch": 7.24, "grad_norm": 0.2275390625, "learning_rate": 0.00029999200199179324, "loss": 0.4434, "step": 5430 }, { "epoch": 7.253333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0002999919695062993, "loss": 0.4475, "step": 5440 }, { "epoch": 7.266666666666667, "grad_norm": 0.1650390625, "learning_rate": 0.0002999919369549676, "loss": 0.4454, "step": 5450 }, { "epoch": 7.28, "grad_norm": 0.2431640625, "learning_rate": 0.0002999919043377982, "loss": 0.4768, "step": 5460 }, { "epoch": 7.293333333333333, "grad_norm": 0.228515625, "learning_rate": 0.00029999187165479115, "loss": 0.4336, "step": 5470 }, { "epoch": 7.306666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029999183890594633, "loss": 0.4566, "step": 5480 }, { "epoch": 7.32, "grad_norm": 0.2236328125, "learning_rate": 0.00029999180609126394, "loss": 0.4574, "step": 5490 }, { "epoch": 7.333333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.00029999177321074385, "loss": 0.4662, "step": 5500 }, { "epoch": 7.346666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999917402643861, "loss": 0.4554, "step": 5510 }, { "epoch": 7.36, "grad_norm": 0.36328125, "learning_rate": 0.0002999917072521908, "loss": 0.4608, "step": 5520 }, { "epoch": 7.373333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0002999916741741578, "loss": 0.4542, "step": 5530 }, { "epoch": 7.386666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0002999916410302872, "loss": 0.4508, "step": 5540 }, { "epoch": 7.4, "grad_norm": 0.2392578125, "learning_rate": 0.00029999160782057913, "loss": 0.4551, "step": 5550 }, { "epoch": 7.413333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002999915745450334, "loss": 0.4608, "step": 5560 }, { "epoch": 7.426666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029999154120365014, "loss": 0.4614, "step": 5570 }, { "epoch": 7.44, "grad_norm": 0.318359375, "learning_rate": 0.00029999150779642936, "loss": 0.4688, "step": 5580 }, { "epoch": 7.453333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.00029999147432337105, "loss": 0.4619, "step": 5590 }, { "epoch": 7.466666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0002999914407844752, "loss": 0.4718, "step": 5600 }, { "epoch": 7.48, "grad_norm": 0.20703125, "learning_rate": 0.00029999140717974196, "loss": 0.4514, "step": 5610 }, { "epoch": 7.493333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002999913735091712, "loss": 0.4659, "step": 5620 }, { "epoch": 7.506666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0002999913397727629, "loss": 0.4576, "step": 5630 }, { "epoch": 7.52, "grad_norm": 0.2041015625, "learning_rate": 0.0002999913059705172, "loss": 0.448, "step": 5640 }, { "epoch": 7.533333333333333, "grad_norm": 0.1953125, "learning_rate": 0.00029999127210243406, "loss": 0.4533, "step": 5650 }, { "epoch": 7.546666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029999123816851355, "loss": 0.4571, "step": 5660 }, { "epoch": 7.5600000000000005, "grad_norm": 0.1904296875, "learning_rate": 0.0002999912041687556, "loss": 0.448, "step": 5670 }, { "epoch": 7.573333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.00029999117010316023, "loss": 0.4511, "step": 5680 }, { "epoch": 7.586666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002999911359717275, "loss": 0.4398, "step": 5690 }, { "epoch": 7.6, "grad_norm": 0.17578125, "learning_rate": 0.00029999110177445745, "loss": 0.4459, "step": 5700 }, { "epoch": 7.613333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.00029999106751135, "loss": 0.4271, "step": 5710 }, { "epoch": 7.626666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0002999910331824053, "loss": 0.4319, "step": 5720 }, { "epoch": 7.64, "grad_norm": 0.2021484375, "learning_rate": 0.00029999099878762317, "loss": 0.4496, "step": 5730 }, { "epoch": 7.653333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0002999909643270038, "loss": 0.4595, "step": 5740 }, { "epoch": 7.666666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002999909298005472, "loss": 0.4452, "step": 5750 }, { "epoch": 7.68, "grad_norm": 0.193359375, "learning_rate": 0.0002999908952082533, "loss": 0.4374, "step": 5760 }, { "epoch": 7.693333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.00029999086055012213, "loss": 0.4473, "step": 5770 }, { "epoch": 7.706666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002999908258261537, "loss": 0.4401, "step": 5780 }, { "epoch": 7.72, "grad_norm": 0.287109375, "learning_rate": 0.0002999907910363481, "loss": 0.4639, "step": 5790 }, { "epoch": 7.733333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.00029999075618070527, "loss": 0.4589, "step": 5800 }, { "epoch": 7.746666666666667, "grad_norm": 0.2421875, "learning_rate": 0.00029999072125922523, "loss": 0.4579, "step": 5810 }, { "epoch": 7.76, "grad_norm": 0.220703125, "learning_rate": 0.00029999068627190804, "loss": 0.471, "step": 5820 }, { "epoch": 7.773333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002999906512187537, "loss": 0.4634, "step": 5830 }, { "epoch": 7.786666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00029999061609976217, "loss": 0.4587, "step": 5840 }, { "epoch": 7.8, "grad_norm": 0.2158203125, "learning_rate": 0.00029999058091493354, "loss": 0.4596, "step": 5850 }, { "epoch": 7.8133333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.00029999054566426776, "loss": 0.4319, "step": 5860 }, { "epoch": 7.826666666666666, "grad_norm": 0.24609375, "learning_rate": 0.00029999051034776495, "loss": 0.4457, "step": 5870 }, { "epoch": 7.84, "grad_norm": 0.2421875, "learning_rate": 0.000299990474965425, "loss": 0.4599, "step": 5880 }, { "epoch": 7.8533333333333335, "grad_norm": 0.2216796875, "learning_rate": 0.000299990439517248, "loss": 0.4547, "step": 5890 }, { "epoch": 7.866666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0002999904040032339, "loss": 0.4543, "step": 5900 }, { "epoch": 7.88, "grad_norm": 0.3359375, "learning_rate": 0.0002999903684233828, "loss": 0.4319, "step": 5910 }, { "epoch": 7.8933333333333335, "grad_norm": 0.2578125, "learning_rate": 0.0002999903327776947, "loss": 0.4427, "step": 5920 }, { "epoch": 7.906666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.00029999029706616955, "loss": 0.4523, "step": 5930 }, { "epoch": 7.92, "grad_norm": 0.193359375, "learning_rate": 0.00029999026128880746, "loss": 0.4534, "step": 5940 }, { "epoch": 7.933333333333334, "grad_norm": 0.2353515625, "learning_rate": 0.00029999022544560834, "loss": 0.445, "step": 5950 }, { "epoch": 7.946666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.00029999018953657234, "loss": 0.4482, "step": 5960 }, { "epoch": 7.96, "grad_norm": 0.2177734375, "learning_rate": 0.0002999901535616993, "loss": 0.444, "step": 5970 }, { "epoch": 7.973333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002999901175209894, "loss": 0.469, "step": 5980 }, { "epoch": 7.986666666666666, "grad_norm": 0.23828125, "learning_rate": 0.00029999008141444255, "loss": 0.4493, "step": 5990 }, { "epoch": 8.0, "grad_norm": 0.212890625, "learning_rate": 0.0002999900452420589, "loss": 0.44, "step": 6000 }, { "epoch": 8.0, "eval_loss": 0.46609070897102356, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7158, "eval_samples_per_second": 1.647, "eval_steps_per_second": 0.103, "step": 6000 }, { "epoch": 8.013333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.00029999000900383824, "loss": 0.4601, "step": 6010 }, { "epoch": 8.026666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.00029998997269978076, "loss": 0.4684, "step": 6020 }, { "epoch": 8.04, "grad_norm": 0.2001953125, "learning_rate": 0.00029998993632988647, "loss": 0.4804, "step": 6030 }, { "epoch": 8.053333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0002999898998941553, "loss": 0.4682, "step": 6040 }, { "epoch": 8.066666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0002999898633925873, "loss": 0.4551, "step": 6050 }, { "epoch": 8.08, "grad_norm": 0.298828125, "learning_rate": 0.00029998982682518256, "loss": 0.4605, "step": 6060 }, { "epoch": 8.093333333333334, "grad_norm": 0.2578125, "learning_rate": 0.00029998979019194103, "loss": 0.4572, "step": 6070 }, { "epoch": 8.106666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0002999897534928627, "loss": 0.4473, "step": 6080 }, { "epoch": 8.12, "grad_norm": 0.296875, "learning_rate": 0.0002999897167279476, "loss": 0.4542, "step": 6090 }, { "epoch": 8.133333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0002999896798971958, "loss": 0.4469, "step": 6100 }, { "epoch": 8.146666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0002999896430006073, "loss": 0.4664, "step": 6110 }, { "epoch": 8.16, "grad_norm": 0.2138671875, "learning_rate": 0.00029998960603818206, "loss": 0.4561, "step": 6120 }, { "epoch": 8.173333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029998956900992015, "loss": 0.4463, "step": 6130 }, { "epoch": 8.186666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002999895319158216, "loss": 0.4492, "step": 6140 }, { "epoch": 8.2, "grad_norm": 0.2265625, "learning_rate": 0.0002999894947558863, "loss": 0.4448, "step": 6150 }, { "epoch": 8.213333333333333, "grad_norm": 0.19921875, "learning_rate": 0.00029998945753011445, "loss": 0.4457, "step": 6160 }, { "epoch": 8.226666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002999894202385059, "loss": 0.4587, "step": 6170 }, { "epoch": 8.24, "grad_norm": 0.263671875, "learning_rate": 0.0002999893828810608, "loss": 0.4401, "step": 6180 }, { "epoch": 8.253333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002999893454577791, "loss": 0.4445, "step": 6190 }, { "epoch": 8.266666666666667, "grad_norm": 0.20703125, "learning_rate": 0.00029998930796866084, "loss": 0.4433, "step": 6200 }, { "epoch": 8.28, "grad_norm": 0.208984375, "learning_rate": 0.000299989270413706, "loss": 0.4747, "step": 6210 }, { "epoch": 8.293333333333333, "grad_norm": 0.23828125, "learning_rate": 0.00029998923279291463, "loss": 0.43, "step": 6220 }, { "epoch": 8.306666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002999891951062868, "loss": 0.454, "step": 6230 }, { "epoch": 8.32, "grad_norm": 0.2109375, "learning_rate": 0.0002999891573538223, "loss": 0.4543, "step": 6240 }, { "epoch": 8.333333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.00029998911953552147, "loss": 0.4625, "step": 6250 }, { "epoch": 8.346666666666668, "grad_norm": 0.2333984375, "learning_rate": 0.0002999890816513841, "loss": 0.4518, "step": 6260 }, { "epoch": 8.36, "grad_norm": 0.2490234375, "learning_rate": 0.0002999890437014103, "loss": 0.4576, "step": 6270 }, { "epoch": 8.373333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0002999890056856, "loss": 0.4516, "step": 6280 }, { "epoch": 8.386666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029998896760395334, "loss": 0.449, "step": 6290 }, { "epoch": 8.4, "grad_norm": 0.255859375, "learning_rate": 0.00029998892945647023, "loss": 0.4518, "step": 6300 }, { "epoch": 8.413333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0002999888912431508, "loss": 0.4571, "step": 6310 }, { "epoch": 8.426666666666666, "grad_norm": 0.185546875, "learning_rate": 0.00029998885296399496, "loss": 0.4583, "step": 6320 }, { "epoch": 8.44, "grad_norm": 0.224609375, "learning_rate": 0.00029998881461900273, "loss": 0.4669, "step": 6330 }, { "epoch": 8.453333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002999887762081742, "loss": 0.4579, "step": 6340 }, { "epoch": 8.466666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0002999887377315093, "loss": 0.4685, "step": 6350 }, { "epoch": 8.48, "grad_norm": 0.1748046875, "learning_rate": 0.0002999886991890081, "loss": 0.4492, "step": 6360 }, { "epoch": 8.493333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0002999886605806707, "loss": 0.462, "step": 6370 }, { "epoch": 8.506666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.00029998862190649695, "loss": 0.4553, "step": 6380 }, { "epoch": 8.52, "grad_norm": 0.244140625, "learning_rate": 0.00029998858316648694, "loss": 0.4464, "step": 6390 }, { "epoch": 8.533333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029998854436064066, "loss": 0.4512, "step": 6400 }, { "epoch": 8.546666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002999885054889582, "loss": 0.4541, "step": 6410 }, { "epoch": 8.56, "grad_norm": 0.251953125, "learning_rate": 0.0002999884665514396, "loss": 0.4443, "step": 6420 }, { "epoch": 8.573333333333334, "grad_norm": 0.205078125, "learning_rate": 0.0002999884275480847, "loss": 0.4476, "step": 6430 }, { "epoch": 8.586666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0002999883884788937, "loss": 0.4356, "step": 6440 }, { "epoch": 8.6, "grad_norm": 0.21484375, "learning_rate": 0.00029998834934386655, "loss": 0.4429, "step": 6450 }, { "epoch": 8.613333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.00029998831014300324, "loss": 0.4242, "step": 6460 }, { "epoch": 8.626666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0002999882708763038, "loss": 0.4287, "step": 6470 }, { "epoch": 8.64, "grad_norm": 0.2265625, "learning_rate": 0.00029998823154376826, "loss": 0.4466, "step": 6480 }, { "epoch": 8.653333333333332, "grad_norm": 0.345703125, "learning_rate": 0.0002999881921453967, "loss": 0.4567, "step": 6490 }, { "epoch": 8.666666666666666, "grad_norm": 0.263671875, "learning_rate": 0.000299988152681189, "loss": 0.4411, "step": 6500 }, { "epoch": 8.68, "grad_norm": 0.2080078125, "learning_rate": 0.0002999881131511453, "loss": 0.4347, "step": 6510 }, { "epoch": 8.693333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002999880735552655, "loss": 0.4431, "step": 6520 }, { "epoch": 8.706666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029998803389354975, "loss": 0.4371, "step": 6530 }, { "epoch": 8.72, "grad_norm": 0.224609375, "learning_rate": 0.000299987994165998, "loss": 0.4609, "step": 6540 }, { "epoch": 8.733333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0002999879543726102, "loss": 0.4556, "step": 6550 }, { "epoch": 8.746666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.00029998791451338655, "loss": 0.455, "step": 6560 }, { "epoch": 8.76, "grad_norm": 0.333984375, "learning_rate": 0.0002999878745883269, "loss": 0.4673, "step": 6570 }, { "epoch": 8.773333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999878345974313, "loss": 0.4595, "step": 6580 }, { "epoch": 8.786666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.00029998779454069977, "loss": 0.4561, "step": 6590 }, { "epoch": 8.8, "grad_norm": 0.2333984375, "learning_rate": 0.00029998775441813244, "loss": 0.456, "step": 6600 }, { "epoch": 8.813333333333333, "grad_norm": 0.193359375, "learning_rate": 0.00029998771422972916, "loss": 0.4293, "step": 6610 }, { "epoch": 8.826666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029998767397549004, "loss": 0.443, "step": 6620 }, { "epoch": 8.84, "grad_norm": 0.279296875, "learning_rate": 0.00029998763365541507, "loss": 0.4554, "step": 6630 }, { "epoch": 8.853333333333333, "grad_norm": 0.224609375, "learning_rate": 0.00029998759326950436, "loss": 0.4509, "step": 6640 }, { "epoch": 8.866666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.00029998755281775776, "loss": 0.4514, "step": 6650 }, { "epoch": 8.88, "grad_norm": 0.1953125, "learning_rate": 0.00029998751230017536, "loss": 0.4288, "step": 6660 }, { "epoch": 8.893333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002999874717167573, "loss": 0.4392, "step": 6670 }, { "epoch": 8.906666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0002999874310675034, "loss": 0.4502, "step": 6680 }, { "epoch": 8.92, "grad_norm": 0.20703125, "learning_rate": 0.00029998739035241374, "loss": 0.4502, "step": 6690 }, { "epoch": 8.933333333333334, "grad_norm": 0.1953125, "learning_rate": 0.00029998734957148844, "loss": 0.4412, "step": 6700 }, { "epoch": 8.946666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0002999873087247274, "loss": 0.4443, "step": 6710 }, { "epoch": 8.96, "grad_norm": 0.23828125, "learning_rate": 0.0002999872678121307, "loss": 0.441, "step": 6720 }, { "epoch": 8.973333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029998722683369835, "loss": 0.4641, "step": 6730 }, { "epoch": 8.986666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999871857894303, "loss": 0.4454, "step": 6740 }, { "epoch": 9.0, "grad_norm": 0.2373046875, "learning_rate": 0.0002999871446793267, "loss": 0.4362, "step": 6750 }, { "epoch": 9.0, "eval_loss": 0.46106764674186707, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.4392, "eval_samples_per_second": 1.695, "eval_steps_per_second": 0.106, "step": 6750 }, { "epoch": 9.013333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002999871035033875, "loss": 0.4569, "step": 6760 }, { "epoch": 9.026666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0002999870622616126, "loss": 0.4647, "step": 6770 }, { "epoch": 9.04, "grad_norm": 0.21875, "learning_rate": 0.00029998702095400225, "loss": 0.4774, "step": 6780 }, { "epoch": 9.053333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0002999869795805563, "loss": 0.4658, "step": 6790 }, { "epoch": 9.066666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002999869381412748, "loss": 0.4517, "step": 6800 }, { "epoch": 9.08, "grad_norm": 0.3828125, "learning_rate": 0.0002999868966361578, "loss": 0.4566, "step": 6810 }, { "epoch": 9.093333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002999868550652053, "loss": 0.4546, "step": 6820 }, { "epoch": 9.106666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0002999868134284173, "loss": 0.4439, "step": 6830 }, { "epoch": 9.12, "grad_norm": 0.2294921875, "learning_rate": 0.00029998677172579386, "loss": 0.4507, "step": 6840 }, { "epoch": 9.133333333333333, "grad_norm": 0.25390625, "learning_rate": 0.000299986729957335, "loss": 0.4442, "step": 6850 }, { "epoch": 9.146666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0002999866881230407, "loss": 0.4617, "step": 6860 }, { "epoch": 9.16, "grad_norm": 0.2109375, "learning_rate": 0.000299986646222911, "loss": 0.4533, "step": 6870 }, { "epoch": 9.173333333333334, "grad_norm": 0.2265625, "learning_rate": 0.0002999866042569459, "loss": 0.4438, "step": 6880 }, { "epoch": 9.186666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.00029998656222514537, "loss": 0.4454, "step": 6890 }, { "epoch": 9.2, "grad_norm": 0.203125, "learning_rate": 0.00029998652012750955, "loss": 0.4408, "step": 6900 }, { "epoch": 9.213333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.00029998647796403844, "loss": 0.443, "step": 6910 }, { "epoch": 9.226666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029998643573473196, "loss": 0.4555, "step": 6920 }, { "epoch": 9.24, "grad_norm": 0.341796875, "learning_rate": 0.0002999863934395902, "loss": 0.4365, "step": 6930 }, { "epoch": 9.253333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029998635107861315, "loss": 0.4399, "step": 6940 }, { "epoch": 9.266666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0002999863086518008, "loss": 0.4403, "step": 6950 }, { "epoch": 9.28, "grad_norm": 0.298828125, "learning_rate": 0.0002999862661591533, "loss": 0.4719, "step": 6960 }, { "epoch": 9.293333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0002999862236006705, "loss": 0.4268, "step": 6970 }, { "epoch": 9.306666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0002999861809763525, "loss": 0.4502, "step": 6980 }, { "epoch": 9.32, "grad_norm": 0.2353515625, "learning_rate": 0.0002999861382861994, "loss": 0.4503, "step": 6990 }, { "epoch": 9.333333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0002999860955302111, "loss": 0.4597, "step": 7000 }, { "epoch": 9.346666666666668, "grad_norm": 0.259765625, "learning_rate": 0.00029998605270838765, "loss": 0.4502, "step": 7010 }, { "epoch": 9.36, "grad_norm": 0.291015625, "learning_rate": 0.00029998600982072905, "loss": 0.4537, "step": 7020 }, { "epoch": 9.373333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029998596686723537, "loss": 0.4475, "step": 7030 }, { "epoch": 9.386666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0002999859238479066, "loss": 0.4443, "step": 7040 }, { "epoch": 9.4, "grad_norm": 0.255859375, "learning_rate": 0.0002999858807627427, "loss": 0.4496, "step": 7050 }, { "epoch": 9.413333333333334, "grad_norm": 0.1875, "learning_rate": 0.0002999858376117438, "loss": 0.455, "step": 7060 }, { "epoch": 9.426666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0002999857943949099, "loss": 0.4553, "step": 7070 }, { "epoch": 9.44, "grad_norm": 0.2431640625, "learning_rate": 0.0002999857511122409, "loss": 0.4635, "step": 7080 }, { "epoch": 9.453333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029998570776373695, "loss": 0.4562, "step": 7090 }, { "epoch": 9.466666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029998566434939804, "loss": 0.4659, "step": 7100 }, { "epoch": 9.48, "grad_norm": 0.1982421875, "learning_rate": 0.00029998562086922415, "loss": 0.4465, "step": 7110 }, { "epoch": 9.493333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0002999855773232153, "loss": 0.4585, "step": 7120 }, { "epoch": 9.506666666666666, "grad_norm": 0.28515625, "learning_rate": 0.00029998553371137155, "loss": 0.4514, "step": 7130 }, { "epoch": 9.52, "grad_norm": 0.1943359375, "learning_rate": 0.00029998549003369294, "loss": 0.4416, "step": 7140 }, { "epoch": 9.533333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002999854462901794, "loss": 0.4477, "step": 7150 }, { "epoch": 9.546666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.000299985402480831, "loss": 0.4506, "step": 7160 }, { "epoch": 9.56, "grad_norm": 0.25390625, "learning_rate": 0.0002999853586056478, "loss": 0.4414, "step": 7170 }, { "epoch": 9.573333333333334, "grad_norm": 0.220703125, "learning_rate": 0.00029998531466462976, "loss": 0.4448, "step": 7180 }, { "epoch": 9.586666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0002999852706577769, "loss": 0.4336, "step": 7190 }, { "epoch": 9.6, "grad_norm": 0.265625, "learning_rate": 0.00029998522658508924, "loss": 0.4387, "step": 7200 }, { "epoch": 9.613333333333333, "grad_norm": 0.19140625, "learning_rate": 0.00029998518244656687, "loss": 0.4213, "step": 7210 }, { "epoch": 9.626666666666667, "grad_norm": 0.23046875, "learning_rate": 0.00029998513824220973, "loss": 0.425, "step": 7220 }, { "epoch": 9.64, "grad_norm": 0.25390625, "learning_rate": 0.00029998509397201784, "loss": 0.4435, "step": 7230 }, { "epoch": 9.653333333333332, "grad_norm": 0.33984375, "learning_rate": 0.00029998504963599124, "loss": 0.4525, "step": 7240 }, { "epoch": 9.666666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029998500523413, "loss": 0.4381, "step": 7250 }, { "epoch": 9.68, "grad_norm": 0.30078125, "learning_rate": 0.00029998496076643407, "loss": 0.4318, "step": 7260 }, { "epoch": 9.693333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002999849162329035, "loss": 0.4409, "step": 7270 }, { "epoch": 9.706666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002999848716335383, "loss": 0.434, "step": 7280 }, { "epoch": 9.72, "grad_norm": 0.22265625, "learning_rate": 0.00029998482696833847, "loss": 0.4584, "step": 7290 }, { "epoch": 9.733333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.00029998478223730406, "loss": 0.4521, "step": 7300 }, { "epoch": 9.746666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002999847374404351, "loss": 0.4521, "step": 7310 }, { "epoch": 9.76, "grad_norm": 0.2373046875, "learning_rate": 0.00029998469257773154, "loss": 0.4649, "step": 7320 }, { "epoch": 9.773333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0002999846476491935, "loss": 0.4566, "step": 7330 }, { "epoch": 9.786666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0002999846026548209, "loss": 0.4533, "step": 7340 }, { "epoch": 9.8, "grad_norm": 0.24609375, "learning_rate": 0.00029998455759461387, "loss": 0.4531, "step": 7350 }, { "epoch": 9.813333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0002999845124685723, "loss": 0.4263, "step": 7360 }, { "epoch": 9.826666666666666, "grad_norm": 0.201171875, "learning_rate": 0.00029998446727669633, "loss": 0.4402, "step": 7370 }, { "epoch": 9.84, "grad_norm": 0.296875, "learning_rate": 0.00029998442201898594, "loss": 0.4528, "step": 7380 }, { "epoch": 9.853333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0002999843766954411, "loss": 0.4481, "step": 7390 }, { "epoch": 9.866666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0002999843313060619, "loss": 0.4471, "step": 7400 }, { "epoch": 9.88, "grad_norm": 0.2060546875, "learning_rate": 0.0002999842858508483, "loss": 0.4255, "step": 7410 }, { "epoch": 9.893333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.0002999842403298004, "loss": 0.4363, "step": 7420 }, { "epoch": 9.906666666666666, "grad_norm": 0.1962890625, "learning_rate": 0.0002999841947429181, "loss": 0.4469, "step": 7430 }, { "epoch": 9.92, "grad_norm": 0.1982421875, "learning_rate": 0.0002999841490902015, "loss": 0.4469, "step": 7440 }, { "epoch": 9.933333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029998410337165064, "loss": 0.4379, "step": 7450 }, { "epoch": 9.946666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002999840575872655, "loss": 0.442, "step": 7460 }, { "epoch": 9.96, "grad_norm": 0.2451171875, "learning_rate": 0.00029998401173704606, "loss": 0.438, "step": 7470 }, { "epoch": 9.973333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029998396582099244, "loss": 0.4626, "step": 7480 }, { "epoch": 9.986666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0002999839198391046, "loss": 0.4427, "step": 7490 }, { "epoch": 10.0, "grad_norm": 0.265625, "learning_rate": 0.0002999838737913826, "loss": 0.4328, "step": 7500 }, { "epoch": 10.0, "eval_loss": 0.46097901463508606, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.684, "eval_samples_per_second": 1.652, "eval_steps_per_second": 0.103, "step": 7500 }, { "epoch": 10.013333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0002999838276778263, "loss": 0.4539, "step": 7510 }, { "epoch": 10.026666666666667, "grad_norm": 0.21875, "learning_rate": 0.000299983781498436, "loss": 0.4637, "step": 7520 }, { "epoch": 10.04, "grad_norm": 0.2138671875, "learning_rate": 0.00029998373525321154, "loss": 0.475, "step": 7530 }, { "epoch": 10.053333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0002999836889421529, "loss": 0.4639, "step": 7540 }, { "epoch": 10.066666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999836425652602, "loss": 0.4507, "step": 7550 }, { "epoch": 10.08, "grad_norm": 0.228515625, "learning_rate": 0.0002999835961225335, "loss": 0.4529, "step": 7560 }, { "epoch": 10.093333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029998354961397264, "loss": 0.4516, "step": 7570 }, { "epoch": 10.106666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0002999835030395778, "loss": 0.4399, "step": 7580 }, { "epoch": 10.12, "grad_norm": 0.271484375, "learning_rate": 0.00029998345639934895, "loss": 0.4479, "step": 7590 }, { "epoch": 10.133333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029998340969328616, "loss": 0.4416, "step": 7600 }, { "epoch": 10.146666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002999833629213893, "loss": 0.4592, "step": 7610 }, { "epoch": 10.16, "grad_norm": 0.251953125, "learning_rate": 0.0002999833160836586, "loss": 0.4501, "step": 7620 }, { "epoch": 10.173333333333334, "grad_norm": 0.265625, "learning_rate": 0.00029998326918009394, "loss": 0.4417, "step": 7630 }, { "epoch": 10.186666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.00029998322221069535, "loss": 0.4438, "step": 7640 }, { "epoch": 10.2, "grad_norm": 0.255859375, "learning_rate": 0.00029998317517546287, "loss": 0.4378, "step": 7650 }, { "epoch": 10.213333333333333, "grad_norm": 0.224609375, "learning_rate": 0.00029998312807439655, "loss": 0.4394, "step": 7660 }, { "epoch": 10.226666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0002999830809074964, "loss": 0.4519, "step": 7670 }, { "epoch": 10.24, "grad_norm": 0.3203125, "learning_rate": 0.0002999830336747624, "loss": 0.434, "step": 7680 }, { "epoch": 10.253333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0002999829863761946, "loss": 0.4381, "step": 7690 }, { "epoch": 10.266666666666667, "grad_norm": 0.244140625, "learning_rate": 0.00029998293901179303, "loss": 0.4379, "step": 7700 }, { "epoch": 10.28, "grad_norm": 0.22265625, "learning_rate": 0.0002999828915815577, "loss": 0.4681, "step": 7710 }, { "epoch": 10.293333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0002999828440854886, "loss": 0.4254, "step": 7720 }, { "epoch": 10.306666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0002999827965235858, "loss": 0.447, "step": 7730 }, { "epoch": 10.32, "grad_norm": 0.287109375, "learning_rate": 0.0002999827488958493, "loss": 0.4484, "step": 7740 }, { "epoch": 10.333333333333334, "grad_norm": 0.224609375, "learning_rate": 0.00029998270120227914, "loss": 0.4568, "step": 7750 }, { "epoch": 10.346666666666668, "grad_norm": 0.2890625, "learning_rate": 0.0002999826534428753, "loss": 0.4465, "step": 7760 }, { "epoch": 10.36, "grad_norm": 0.322265625, "learning_rate": 0.0002999826056176378, "loss": 0.4513, "step": 7770 }, { "epoch": 10.373333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029998255772656677, "loss": 0.4453, "step": 7780 }, { "epoch": 10.386666666666667, "grad_norm": 0.21875, "learning_rate": 0.00029998250976966205, "loss": 0.4418, "step": 7790 }, { "epoch": 10.4, "grad_norm": 0.2470703125, "learning_rate": 0.0002999824617469238, "loss": 0.4465, "step": 7800 }, { "epoch": 10.413333333333334, "grad_norm": 0.29296875, "learning_rate": 0.00029998241365835205, "loss": 0.4518, "step": 7810 }, { "epoch": 10.426666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0002999823655039467, "loss": 0.4524, "step": 7820 }, { "epoch": 10.44, "grad_norm": 0.2138671875, "learning_rate": 0.0002999823172837079, "loss": 0.4611, "step": 7830 }, { "epoch": 10.453333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029998226899763554, "loss": 0.4526, "step": 7840 }, { "epoch": 10.466666666666667, "grad_norm": 0.208984375, "learning_rate": 0.00029998222064572973, "loss": 0.4633, "step": 7850 }, { "epoch": 10.48, "grad_norm": 0.205078125, "learning_rate": 0.0002999821722279905, "loss": 0.4432, "step": 7860 }, { "epoch": 10.493333333333334, "grad_norm": 0.228515625, "learning_rate": 0.0002999821237444179, "loss": 0.4556, "step": 7870 }, { "epoch": 10.506666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0002999820751950118, "loss": 0.448, "step": 7880 }, { "epoch": 10.52, "grad_norm": 0.2001953125, "learning_rate": 0.00029998202657977236, "loss": 0.4396, "step": 7890 }, { "epoch": 10.533333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029998197789869957, "loss": 0.4439, "step": 7900 }, { "epoch": 10.546666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029998192915179343, "loss": 0.4476, "step": 7910 }, { "epoch": 10.56, "grad_norm": 0.2236328125, "learning_rate": 0.000299981880339054, "loss": 0.4396, "step": 7920 }, { "epoch": 10.573333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0002999818314604812, "loss": 0.4425, "step": 7930 }, { "epoch": 10.586666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0002999817825160752, "loss": 0.4318, "step": 7940 }, { "epoch": 10.6, "grad_norm": 0.240234375, "learning_rate": 0.0002999817335058359, "loss": 0.4362, "step": 7950 }, { "epoch": 10.613333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0002999816844297634, "loss": 0.4195, "step": 7960 }, { "epoch": 10.626666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029998163528785764, "loss": 0.4238, "step": 7970 }, { "epoch": 10.64, "grad_norm": 0.2412109375, "learning_rate": 0.00029998158608011874, "loss": 0.4415, "step": 7980 }, { "epoch": 10.653333333333332, "grad_norm": 0.30859375, "learning_rate": 0.00029998153680654664, "loss": 0.4507, "step": 7990 }, { "epoch": 10.666666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002999814874671414, "loss": 0.4368, "step": 8000 }, { "epoch": 10.68, "grad_norm": 0.2216796875, "learning_rate": 0.00029998143806190305, "loss": 0.4298, "step": 8010 }, { "epoch": 10.693333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002999813885908316, "loss": 0.4385, "step": 8020 }, { "epoch": 10.706666666666667, "grad_norm": 0.25, "learning_rate": 0.0002999813390539271, "loss": 0.4326, "step": 8030 }, { "epoch": 10.72, "grad_norm": 0.27734375, "learning_rate": 0.0002999812894511895, "loss": 0.4555, "step": 8040 }, { "epoch": 10.733333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002999812397826189, "loss": 0.4491, "step": 8050 }, { "epoch": 10.746666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.00029998119004821523, "loss": 0.449, "step": 8060 }, { "epoch": 10.76, "grad_norm": 0.2333984375, "learning_rate": 0.0002999811402479786, "loss": 0.4631, "step": 8070 }, { "epoch": 10.773333333333333, "grad_norm": 0.2734375, "learning_rate": 0.000299981090381909, "loss": 0.4542, "step": 8080 }, { "epoch": 10.786666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0002999810404500064, "loss": 0.4503, "step": 8090 }, { "epoch": 10.8, "grad_norm": 0.2255859375, "learning_rate": 0.00029998099045227096, "loss": 0.4513, "step": 8100 }, { "epoch": 10.813333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029998094038870255, "loss": 0.4241, "step": 8110 }, { "epoch": 10.826666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029998089025930127, "loss": 0.4372, "step": 8120 }, { "epoch": 10.84, "grad_norm": 0.26171875, "learning_rate": 0.0002999808400640672, "loss": 0.4494, "step": 8130 }, { "epoch": 10.853333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029998078980300017, "loss": 0.4456, "step": 8140 }, { "epoch": 10.866666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0002999807394761004, "loss": 0.4457, "step": 8150 }, { "epoch": 10.88, "grad_norm": 0.234375, "learning_rate": 0.0002999806890833678, "loss": 0.4233, "step": 8160 }, { "epoch": 10.893333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029998063862480244, "loss": 0.434, "step": 8170 }, { "epoch": 10.906666666666666, "grad_norm": 0.232421875, "learning_rate": 0.00029998058810040435, "loss": 0.4432, "step": 8180 }, { "epoch": 10.92, "grad_norm": 0.2109375, "learning_rate": 0.00029998053751017345, "loss": 0.4455, "step": 8190 }, { "epoch": 10.933333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029998048685410996, "loss": 0.4365, "step": 8200 }, { "epoch": 10.946666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002999804361322137, "loss": 0.4397, "step": 8210 }, { "epoch": 10.96, "grad_norm": 0.2275390625, "learning_rate": 0.0002999803853444848, "loss": 0.4352, "step": 8220 }, { "epoch": 10.973333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002999803344909233, "loss": 0.4597, "step": 8230 }, { "epoch": 10.986666666666666, "grad_norm": 0.23046875, "learning_rate": 0.00029998028357152914, "loss": 0.4396, "step": 8240 }, { "epoch": 11.0, "grad_norm": 0.1982421875, "learning_rate": 0.0002999802325863024, "loss": 0.431, "step": 8250 }, { "epoch": 11.0, "eval_loss": 0.4568580389022827, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.3028, "eval_samples_per_second": 1.72, "eval_steps_per_second": 0.107, "step": 8250 }, { "epoch": 11.013333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0002999801815352431, "loss": 0.4509, "step": 8260 }, { "epoch": 11.026666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029998013041835123, "loss": 0.4598, "step": 8270 }, { "epoch": 11.04, "grad_norm": 0.25390625, "learning_rate": 0.00029998007923562683, "loss": 0.4726, "step": 8280 }, { "epoch": 11.053333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0002999800279870699, "loss": 0.4616, "step": 8290 }, { "epoch": 11.066666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002999799766726805, "loss": 0.4461, "step": 8300 }, { "epoch": 11.08, "grad_norm": 0.275390625, "learning_rate": 0.00029997992529245867, "loss": 0.4509, "step": 8310 }, { "epoch": 11.093333333333334, "grad_norm": 0.5234375, "learning_rate": 0.0002999798738464044, "loss": 0.45, "step": 8320 }, { "epoch": 11.106666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002999798223345177, "loss": 0.4377, "step": 8330 }, { "epoch": 11.12, "grad_norm": 0.259765625, "learning_rate": 0.00029997977075679863, "loss": 0.445, "step": 8340 }, { "epoch": 11.133333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029997971911324716, "loss": 0.4384, "step": 8350 }, { "epoch": 11.146666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0002999796674038633, "loss": 0.4569, "step": 8360 }, { "epoch": 11.16, "grad_norm": 0.26953125, "learning_rate": 0.0002999796156286472, "loss": 0.4472, "step": 8370 }, { "epoch": 11.173333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029997956378759877, "loss": 0.4393, "step": 8380 }, { "epoch": 11.186666666666667, "grad_norm": 0.21484375, "learning_rate": 0.00029997951188071807, "loss": 0.4412, "step": 8390 }, { "epoch": 11.2, "grad_norm": 0.314453125, "learning_rate": 0.0002999794599080051, "loss": 0.4357, "step": 8400 }, { "epoch": 11.213333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0002999794078694599, "loss": 0.4375, "step": 8410 }, { "epoch": 11.226666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002999793557650825, "loss": 0.4503, "step": 8420 }, { "epoch": 11.24, "grad_norm": 0.271484375, "learning_rate": 0.0002999793035948729, "loss": 0.4316, "step": 8430 }, { "epoch": 11.253333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002999792513588311, "loss": 0.4357, "step": 8440 }, { "epoch": 11.266666666666667, "grad_norm": 0.236328125, "learning_rate": 0.00029997919905695725, "loss": 0.435, "step": 8450 }, { "epoch": 11.28, "grad_norm": 0.333984375, "learning_rate": 0.0002999791466892512, "loss": 0.4645, "step": 8460 }, { "epoch": 11.293333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.000299979094255713, "loss": 0.4225, "step": 8470 }, { "epoch": 11.306666666666667, "grad_norm": 0.248046875, "learning_rate": 0.00029997904175634287, "loss": 0.4447, "step": 8480 }, { "epoch": 11.32, "grad_norm": 0.259765625, "learning_rate": 0.00029997898919114057, "loss": 0.4455, "step": 8490 }, { "epoch": 11.333333333333334, "grad_norm": 0.228515625, "learning_rate": 0.00029997893656010633, "loss": 0.455, "step": 8500 }, { "epoch": 11.346666666666668, "grad_norm": 0.267578125, "learning_rate": 0.00029997888386324004, "loss": 0.4435, "step": 8510 }, { "epoch": 11.36, "grad_norm": 0.2470703125, "learning_rate": 0.0002999788311005418, "loss": 0.4496, "step": 8520 }, { "epoch": 11.373333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.00029997877827201157, "loss": 0.4425, "step": 8530 }, { "epoch": 11.386666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0002999787253776494, "loss": 0.4394, "step": 8540 }, { "epoch": 11.4, "grad_norm": 0.263671875, "learning_rate": 0.00029997867241745533, "loss": 0.4436, "step": 8550 }, { "epoch": 11.413333333333334, "grad_norm": 0.228515625, "learning_rate": 0.00029997861939142943, "loss": 0.4495, "step": 8560 }, { "epoch": 11.426666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0002999785662995716, "loss": 0.4503, "step": 8570 }, { "epoch": 11.44, "grad_norm": 0.283203125, "learning_rate": 0.00029997851314188197, "loss": 0.4595, "step": 8580 }, { "epoch": 11.453333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029997845991836046, "loss": 0.4505, "step": 8590 }, { "epoch": 11.466666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.00029997840662900717, "loss": 0.4599, "step": 8600 }, { "epoch": 11.48, "grad_norm": 0.259765625, "learning_rate": 0.00029997835327382215, "loss": 0.4404, "step": 8610 }, { "epoch": 11.493333333333334, "grad_norm": 0.216796875, "learning_rate": 0.00029997829985280535, "loss": 0.454, "step": 8620 }, { "epoch": 11.506666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002999782463659569, "loss": 0.4468, "step": 8630 }, { "epoch": 11.52, "grad_norm": 0.19140625, "learning_rate": 0.00029997819281327664, "loss": 0.4373, "step": 8640 }, { "epoch": 11.533333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029997813919476477, "loss": 0.4416, "step": 8650 }, { "epoch": 11.546666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002999780855104212, "loss": 0.4459, "step": 8660 }, { "epoch": 11.56, "grad_norm": 0.263671875, "learning_rate": 0.00029997803176024597, "loss": 0.4367, "step": 8670 }, { "epoch": 11.573333333333334, "grad_norm": 0.25, "learning_rate": 0.0002999779779442392, "loss": 0.4398, "step": 8680 }, { "epoch": 11.586666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.00029997792406240086, "loss": 0.4301, "step": 8690 }, { "epoch": 11.6, "grad_norm": 0.25390625, "learning_rate": 0.00029997787011473096, "loss": 0.4341, "step": 8700 }, { "epoch": 11.613333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0002999778161012295, "loss": 0.4165, "step": 8710 }, { "epoch": 11.626666666666667, "grad_norm": 0.19140625, "learning_rate": 0.00029997776202189653, "loss": 0.421, "step": 8720 }, { "epoch": 11.64, "grad_norm": 0.2265625, "learning_rate": 0.00029997770787673205, "loss": 0.4398, "step": 8730 }, { "epoch": 11.653333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002999776536657361, "loss": 0.4492, "step": 8740 }, { "epoch": 11.666666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002999775993889087, "loss": 0.4328, "step": 8750 }, { "epoch": 11.68, "grad_norm": 0.21875, "learning_rate": 0.00029997754504624993, "loss": 0.4264, "step": 8760 }, { "epoch": 11.693333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002999774906377598, "loss": 0.4358, "step": 8770 }, { "epoch": 11.706666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.00029997743616343826, "loss": 0.4304, "step": 8780 }, { "epoch": 11.72, "grad_norm": 0.251953125, "learning_rate": 0.00029997738162328537, "loss": 0.4532, "step": 8790 }, { "epoch": 11.733333333333333, "grad_norm": 0.255859375, "learning_rate": 0.00029997732701730114, "loss": 0.4475, "step": 8800 }, { "epoch": 11.746666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029997727234548567, "loss": 0.4472, "step": 8810 }, { "epoch": 11.76, "grad_norm": 0.251953125, "learning_rate": 0.00029997721760783886, "loss": 0.4592, "step": 8820 }, { "epoch": 11.773333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999771628043608, "loss": 0.4511, "step": 8830 }, { "epoch": 11.786666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029997710793505157, "loss": 0.4486, "step": 8840 }, { "epoch": 11.8, "grad_norm": 0.2255859375, "learning_rate": 0.0002999770529999111, "loss": 0.448, "step": 8850 }, { "epoch": 11.813333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029997699799893943, "loss": 0.4215, "step": 8860 }, { "epoch": 11.826666666666666, "grad_norm": 0.244140625, "learning_rate": 0.00029997694293213664, "loss": 0.4344, "step": 8870 }, { "epoch": 11.84, "grad_norm": 0.263671875, "learning_rate": 0.0002999768877995027, "loss": 0.4463, "step": 8880 }, { "epoch": 11.853333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029997683260103773, "loss": 0.4428, "step": 8890 }, { "epoch": 11.866666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002999767773367416, "loss": 0.4429, "step": 8900 }, { "epoch": 11.88, "grad_norm": 0.2119140625, "learning_rate": 0.00029997672200661446, "loss": 0.4221, "step": 8910 }, { "epoch": 11.893333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0002999766666106563, "loss": 0.4323, "step": 8920 }, { "epoch": 11.906666666666666, "grad_norm": 0.234375, "learning_rate": 0.00029997661114886706, "loss": 0.4423, "step": 8930 }, { "epoch": 11.92, "grad_norm": 0.220703125, "learning_rate": 0.0002999765556212469, "loss": 0.4419, "step": 8940 }, { "epoch": 11.933333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029997650002779573, "loss": 0.4344, "step": 8950 }, { "epoch": 11.946666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0002999764443685137, "loss": 0.438, "step": 8960 }, { "epoch": 11.96, "grad_norm": 0.2197265625, "learning_rate": 0.0002999763886434007, "loss": 0.4336, "step": 8970 }, { "epoch": 11.973333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029997633285245684, "loss": 0.4571, "step": 8980 }, { "epoch": 11.986666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.00029997627699568206, "loss": 0.4375, "step": 8990 }, { "epoch": 12.0, "grad_norm": 0.24609375, "learning_rate": 0.00029997622107307654, "loss": 0.4293, "step": 9000 }, { "epoch": 12.0, "eval_loss": 0.45683753490448, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7352, "eval_samples_per_second": 1.644, "eval_steps_per_second": 0.103, "step": 9000 }, { "epoch": 12.013333333333334, "grad_norm": 0.220703125, "learning_rate": 0.00029997616508464016, "loss": 0.4487, "step": 9010 }, { "epoch": 12.026666666666667, "grad_norm": 0.33203125, "learning_rate": 0.000299976109030373, "loss": 0.4567, "step": 9020 }, { "epoch": 12.04, "grad_norm": 0.224609375, "learning_rate": 0.00029997605291027504, "loss": 0.4689, "step": 9030 }, { "epoch": 12.053333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.00029997599672434636, "loss": 0.4576, "step": 9040 }, { "epoch": 12.066666666666666, "grad_norm": 0.30078125, "learning_rate": 0.000299975940472587, "loss": 0.4448, "step": 9050 }, { "epoch": 12.08, "grad_norm": 0.244140625, "learning_rate": 0.00029997588415499695, "loss": 0.4489, "step": 9060 }, { "epoch": 12.093333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002999758277715762, "loss": 0.4478, "step": 9070 }, { "epoch": 12.106666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002999757713223248, "loss": 0.4365, "step": 9080 }, { "epoch": 12.12, "grad_norm": 0.279296875, "learning_rate": 0.0002999757148072428, "loss": 0.4431, "step": 9090 }, { "epoch": 12.133333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002999756582263302, "loss": 0.4375, "step": 9100 }, { "epoch": 12.146666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999756015795871, "loss": 0.4543, "step": 9110 }, { "epoch": 12.16, "grad_norm": 0.244140625, "learning_rate": 0.0002999755448670134, "loss": 0.4454, "step": 9120 }, { "epoch": 12.173333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002999754880886092, "loss": 0.4371, "step": 9130 }, { "epoch": 12.186666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029997543124437453, "loss": 0.4386, "step": 9140 }, { "epoch": 12.2, "grad_norm": 0.265625, "learning_rate": 0.0002999753743343094, "loss": 0.4327, "step": 9150 }, { "epoch": 12.213333333333333, "grad_norm": 0.24609375, "learning_rate": 0.00029997531735841376, "loss": 0.4344, "step": 9160 }, { "epoch": 12.226666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029997526031668776, "loss": 0.4474, "step": 9170 }, { "epoch": 12.24, "grad_norm": 0.267578125, "learning_rate": 0.00029997520320913134, "loss": 0.4295, "step": 9180 }, { "epoch": 12.253333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002999751460357446, "loss": 0.4334, "step": 9190 }, { "epoch": 12.266666666666667, "grad_norm": 0.25, "learning_rate": 0.0002999750887965275, "loss": 0.4339, "step": 9200 }, { "epoch": 12.28, "grad_norm": 0.2578125, "learning_rate": 0.0002999750314914801, "loss": 0.4632, "step": 9210 }, { "epoch": 12.293333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0002999749741206024, "loss": 0.42, "step": 9220 }, { "epoch": 12.306666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029997491668389437, "loss": 0.443, "step": 9230 }, { "epoch": 12.32, "grad_norm": 0.267578125, "learning_rate": 0.0002999748591813562, "loss": 0.443, "step": 9240 }, { "epoch": 12.333333333333334, "grad_norm": 0.2333984375, "learning_rate": 0.00029997480161298774, "loss": 0.4512, "step": 9250 }, { "epoch": 12.346666666666668, "grad_norm": 0.287109375, "learning_rate": 0.0002999747439787891, "loss": 0.4421, "step": 9260 }, { "epoch": 12.36, "grad_norm": 0.330078125, "learning_rate": 0.0002999746862787604, "loss": 0.4457, "step": 9270 }, { "epoch": 12.373333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029997462851290144, "loss": 0.4409, "step": 9280 }, { "epoch": 12.386666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0002999745706812124, "loss": 0.4363, "step": 9290 }, { "epoch": 12.4, "grad_norm": 0.2109375, "learning_rate": 0.00029997451278369327, "loss": 0.4411, "step": 9300 }, { "epoch": 12.413333333333334, "grad_norm": 0.25390625, "learning_rate": 0.00029997445482034415, "loss": 0.4465, "step": 9310 }, { "epoch": 12.426666666666666, "grad_norm": 0.25, "learning_rate": 0.00029997439679116486, "loss": 0.4483, "step": 9320 }, { "epoch": 12.44, "grad_norm": 0.267578125, "learning_rate": 0.00029997433869615565, "loss": 0.4567, "step": 9330 }, { "epoch": 12.453333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029997428053531644, "loss": 0.448, "step": 9340 }, { "epoch": 12.466666666666667, "grad_norm": 0.224609375, "learning_rate": 0.00029997422230864724, "loss": 0.4585, "step": 9350 }, { "epoch": 12.48, "grad_norm": 0.248046875, "learning_rate": 0.00029997416401614815, "loss": 0.4389, "step": 9360 }, { "epoch": 12.493333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029997410565781913, "loss": 0.4516, "step": 9370 }, { "epoch": 12.506666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.00029997404723366023, "loss": 0.445, "step": 9380 }, { "epoch": 12.52, "grad_norm": 0.2294921875, "learning_rate": 0.00029997398874367145, "loss": 0.4361, "step": 9390 }, { "epoch": 12.533333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0002999739301878529, "loss": 0.44, "step": 9400 }, { "epoch": 12.546666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002999738715662045, "loss": 0.4427, "step": 9410 }, { "epoch": 12.56, "grad_norm": 0.2001953125, "learning_rate": 0.00029997381287872634, "loss": 0.4356, "step": 9420 }, { "epoch": 12.573333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999737541254184, "loss": 0.4373, "step": 9430 }, { "epoch": 12.586666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0002999736953062807, "loss": 0.4264, "step": 9440 }, { "epoch": 12.6, "grad_norm": 0.2158203125, "learning_rate": 0.00029997363642131336, "loss": 0.4313, "step": 9450 }, { "epoch": 12.613333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0002999735774705163, "loss": 0.4154, "step": 9460 }, { "epoch": 12.626666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0002999735184538896, "loss": 0.4201, "step": 9470 }, { "epoch": 12.64, "grad_norm": 0.2236328125, "learning_rate": 0.0002999734593714333, "loss": 0.4367, "step": 9480 }, { "epoch": 12.653333333333332, "grad_norm": 0.318359375, "learning_rate": 0.00029997340022314736, "loss": 0.4466, "step": 9490 }, { "epoch": 12.666666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029997334100903187, "loss": 0.431, "step": 9500 }, { "epoch": 12.68, "grad_norm": 0.2197265625, "learning_rate": 0.0002999732817290868, "loss": 0.4252, "step": 9510 }, { "epoch": 12.693333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029997322238331227, "loss": 0.4331, "step": 9520 }, { "epoch": 12.706666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002999731629717082, "loss": 0.4274, "step": 9530 }, { "epoch": 12.72, "grad_norm": 0.24609375, "learning_rate": 0.00029997310349427466, "loss": 0.4518, "step": 9540 }, { "epoch": 12.733333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002999730439510117, "loss": 0.4456, "step": 9550 }, { "epoch": 12.746666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0002999729843419193, "loss": 0.4449, "step": 9560 }, { "epoch": 12.76, "grad_norm": 0.30859375, "learning_rate": 0.0002999729246669975, "loss": 0.4575, "step": 9570 }, { "epoch": 12.773333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029997286492624637, "loss": 0.4491, "step": 9580 }, { "epoch": 12.786666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002999728051196659, "loss": 0.4468, "step": 9590 }, { "epoch": 12.8, "grad_norm": 0.287109375, "learning_rate": 0.00029997274524725607, "loss": 0.4464, "step": 9600 }, { "epoch": 12.813333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029997268530901697, "loss": 0.4181, "step": 9610 }, { "epoch": 12.826666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0002999726253049487, "loss": 0.432, "step": 9620 }, { "epoch": 12.84, "grad_norm": 0.2421875, "learning_rate": 0.0002999725652350511, "loss": 0.4446, "step": 9630 }, { "epoch": 12.853333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0002999725050993243, "loss": 0.4398, "step": 9640 }, { "epoch": 12.866666666666667, "grad_norm": 0.2265625, "learning_rate": 0.00029997244489776833, "loss": 0.441, "step": 9650 }, { "epoch": 12.88, "grad_norm": 0.2890625, "learning_rate": 0.0002999723846303832, "loss": 0.4183, "step": 9660 }, { "epoch": 12.893333333333333, "grad_norm": 0.291015625, "learning_rate": 0.000299972324297169, "loss": 0.4293, "step": 9670 }, { "epoch": 12.906666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0002999722638981256, "loss": 0.4397, "step": 9680 }, { "epoch": 12.92, "grad_norm": 0.2470703125, "learning_rate": 0.0002999722034332532, "loss": 0.4406, "step": 9690 }, { "epoch": 12.933333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.00029997214290255174, "loss": 0.4319, "step": 9700 }, { "epoch": 12.946666666666667, "grad_norm": 0.232421875, "learning_rate": 0.00029997208230602123, "loss": 0.4358, "step": 9710 }, { "epoch": 12.96, "grad_norm": 0.236328125, "learning_rate": 0.0002999720216436617, "loss": 0.4312, "step": 9720 }, { "epoch": 12.973333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029997196091547323, "loss": 0.4561, "step": 9730 }, { "epoch": 12.986666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002999719001214559, "loss": 0.4355, "step": 9740 }, { "epoch": 13.0, "grad_norm": 0.2265625, "learning_rate": 0.00029997183926160954, "loss": 0.4264, "step": 9750 }, { "epoch": 13.0, "eval_loss": 0.4540138244628906, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.7218, "eval_samples_per_second": 1.492, "eval_steps_per_second": 0.093, "step": 9750 }, { "epoch": 13.013333333333334, "grad_norm": 0.248046875, "learning_rate": 0.00029997177833593434, "loss": 0.4469, "step": 9760 }, { "epoch": 13.026666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999717173444303, "loss": 0.4563, "step": 9770 }, { "epoch": 13.04, "grad_norm": 0.2373046875, "learning_rate": 0.00029997165628709737, "loss": 0.4677, "step": 9780 }, { "epoch": 13.053333333333333, "grad_norm": 0.236328125, "learning_rate": 0.00029997159516393566, "loss": 0.456, "step": 9790 }, { "epoch": 13.066666666666666, "grad_norm": 0.244140625, "learning_rate": 0.00029997153397494516, "loss": 0.4425, "step": 9800 }, { "epoch": 13.08, "grad_norm": 0.259765625, "learning_rate": 0.0002999714727201259, "loss": 0.4457, "step": 9810 }, { "epoch": 13.093333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0002999714113994779, "loss": 0.445, "step": 9820 }, { "epoch": 13.106666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0002999713500130013, "loss": 0.4337, "step": 9830 }, { "epoch": 13.12, "grad_norm": 0.2421875, "learning_rate": 0.0002999712885606959, "loss": 0.4411, "step": 9840 }, { "epoch": 13.133333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029997122704256195, "loss": 0.4338, "step": 9850 }, { "epoch": 13.146666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0002999711654585993, "loss": 0.453, "step": 9860 }, { "epoch": 13.16, "grad_norm": 0.2431640625, "learning_rate": 0.0002999711038088081, "loss": 0.4433, "step": 9870 }, { "epoch": 13.173333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002999710420931883, "loss": 0.4357, "step": 9880 }, { "epoch": 13.186666666666667, "grad_norm": 0.50390625, "learning_rate": 0.00029997098031174003, "loss": 0.4371, "step": 9890 }, { "epoch": 13.2, "grad_norm": 0.3203125, "learning_rate": 0.0002999709184644632, "loss": 0.4322, "step": 9900 }, { "epoch": 13.213333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002999708565513579, "loss": 0.4324, "step": 9910 }, { "epoch": 13.226666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002999707945724241, "loss": 0.4461, "step": 9920 }, { "epoch": 13.24, "grad_norm": 0.23828125, "learning_rate": 0.0002999707325276619, "loss": 0.4277, "step": 9930 }, { "epoch": 13.253333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0002999706704170713, "loss": 0.4318, "step": 9940 }, { "epoch": 13.266666666666667, "grad_norm": 0.20703125, "learning_rate": 0.00029997060824065233, "loss": 0.4316, "step": 9950 }, { "epoch": 13.28, "grad_norm": 0.2197265625, "learning_rate": 0.000299970545998405, "loss": 0.4625, "step": 9960 }, { "epoch": 13.293333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.00029997048369032937, "loss": 0.4186, "step": 9970 }, { "epoch": 13.306666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0002999704213164255, "loss": 0.4405, "step": 9980 }, { "epoch": 13.32, "grad_norm": 0.287109375, "learning_rate": 0.0002999703588766932, "loss": 0.4414, "step": 9990 }, { "epoch": 13.333333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002999702963711328, "loss": 0.4494, "step": 10000 }, { "epoch": 13.346666666666668, "grad_norm": 0.314453125, "learning_rate": 0.00029997023379974415, "loss": 0.4402, "step": 10010 }, { "epoch": 13.36, "grad_norm": 0.2451171875, "learning_rate": 0.0002999701711625273, "loss": 0.4432, "step": 10020 }, { "epoch": 13.373333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002999701084594823, "loss": 0.4384, "step": 10030 }, { "epoch": 13.386666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002999700456906092, "loss": 0.4347, "step": 10040 }, { "epoch": 13.4, "grad_norm": 0.296875, "learning_rate": 0.00029996998285590796, "loss": 0.4402, "step": 10050 }, { "epoch": 13.413333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.00029996991995537867, "loss": 0.4447, "step": 10060 }, { "epoch": 13.426666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029996985698902133, "loss": 0.4455, "step": 10070 }, { "epoch": 13.44, "grad_norm": 0.29296875, "learning_rate": 0.00029996979395683596, "loss": 0.4545, "step": 10080 }, { "epoch": 13.453333333333333, "grad_norm": 0.25, "learning_rate": 0.0002999697308588226, "loss": 0.446, "step": 10090 }, { "epoch": 13.466666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029996966769498126, "loss": 0.4565, "step": 10100 }, { "epoch": 13.48, "grad_norm": 0.236328125, "learning_rate": 0.00029996960446531203, "loss": 0.4379, "step": 10110 }, { "epoch": 13.493333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0002999695411698149, "loss": 0.4495, "step": 10120 }, { "epoch": 13.506666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002999694778084898, "loss": 0.4431, "step": 10130 }, { "epoch": 13.52, "grad_norm": 0.2119140625, "learning_rate": 0.00029996941438133694, "loss": 0.4343, "step": 10140 }, { "epoch": 13.533333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002999693508883562, "loss": 0.4375, "step": 10150 }, { "epoch": 13.546666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0002999692873295477, "loss": 0.4405, "step": 10160 }, { "epoch": 13.56, "grad_norm": 0.265625, "learning_rate": 0.00029996922370491145, "loss": 0.4322, "step": 10170 }, { "epoch": 13.573333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0002999691600144474, "loss": 0.4354, "step": 10180 }, { "epoch": 13.586666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.00029996909625815566, "loss": 0.4263, "step": 10190 }, { "epoch": 13.6, "grad_norm": 0.248046875, "learning_rate": 0.00029996903243603625, "loss": 0.4297, "step": 10200 }, { "epoch": 13.613333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0002999689685480892, "loss": 0.4126, "step": 10210 }, { "epoch": 13.626666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0002999689045943145, "loss": 0.4174, "step": 10220 }, { "epoch": 13.64, "grad_norm": 0.21484375, "learning_rate": 0.0002999688405747122, "loss": 0.4358, "step": 10230 }, { "epoch": 13.653333333333332, "grad_norm": 0.212890625, "learning_rate": 0.0002999687764892823, "loss": 0.446, "step": 10240 }, { "epoch": 13.666666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029996871233802484, "loss": 0.4279, "step": 10250 }, { "epoch": 13.68, "grad_norm": 0.244140625, "learning_rate": 0.00029996864812093996, "loss": 0.4227, "step": 10260 }, { "epoch": 13.693333333333333, "grad_norm": 0.234375, "learning_rate": 0.0002999685838380275, "loss": 0.4313, "step": 10270 }, { "epoch": 13.706666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0002999685194892876, "loss": 0.4255, "step": 10280 }, { "epoch": 13.72, "grad_norm": 0.259765625, "learning_rate": 0.0002999684550747203, "loss": 0.4493, "step": 10290 }, { "epoch": 13.733333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.00029996839059432556, "loss": 0.4438, "step": 10300 }, { "epoch": 13.746666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0002999683260481035, "loss": 0.4427, "step": 10310 }, { "epoch": 13.76, "grad_norm": 0.2490234375, "learning_rate": 0.0002999682614360541, "loss": 0.4558, "step": 10320 }, { "epoch": 13.773333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002999681967581773, "loss": 0.4459, "step": 10330 }, { "epoch": 13.786666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.00029996813201447326, "loss": 0.4449, "step": 10340 }, { "epoch": 13.8, "grad_norm": 0.263671875, "learning_rate": 0.000299968067204942, "loss": 0.4448, "step": 10350 }, { "epoch": 13.813333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0002999680023295834, "loss": 0.4174, "step": 10360 }, { "epoch": 13.826666666666666, "grad_norm": 0.2333984375, "learning_rate": 0.00029996793738839764, "loss": 0.4297, "step": 10370 }, { "epoch": 13.84, "grad_norm": 0.2890625, "learning_rate": 0.00029996787238138474, "loss": 0.4422, "step": 10380 }, { "epoch": 13.853333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029996780730854466, "loss": 0.4378, "step": 10390 }, { "epoch": 13.866666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029996774216987747, "loss": 0.4386, "step": 10400 }, { "epoch": 13.88, "grad_norm": 0.255859375, "learning_rate": 0.0002999676769653832, "loss": 0.417, "step": 10410 }, { "epoch": 13.893333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029996761169506184, "loss": 0.4277, "step": 10420 }, { "epoch": 13.906666666666666, "grad_norm": 0.2734375, "learning_rate": 0.00029996754635891346, "loss": 0.4377, "step": 10430 }, { "epoch": 13.92, "grad_norm": 0.29296875, "learning_rate": 0.0002999674809569381, "loss": 0.4384, "step": 10440 }, { "epoch": 13.933333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.00029996741548913577, "loss": 0.431, "step": 10450 }, { "epoch": 13.946666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.00029996734995550646, "loss": 0.4339, "step": 10460 }, { "epoch": 13.96, "grad_norm": 0.2275390625, "learning_rate": 0.00029996728435605026, "loss": 0.4297, "step": 10470 }, { "epoch": 13.973333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0002999672186907671, "loss": 0.4528, "step": 10480 }, { "epoch": 13.986666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.00029996715295965714, "loss": 0.4336, "step": 10490 }, { "epoch": 14.0, "grad_norm": 0.2412109375, "learning_rate": 0.00029996708716272034, "loss": 0.4242, "step": 10500 }, { "epoch": 14.0, "eval_loss": 0.45238059759140015, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6171, "eval_samples_per_second": 1.664, "eval_steps_per_second": 0.104, "step": 10500 }, { "epoch": 14.013333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029996702129995675, "loss": 0.4449, "step": 10510 }, { "epoch": 14.026666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.00029996695537136636, "loss": 0.4541, "step": 10520 }, { "epoch": 14.04, "grad_norm": 0.2578125, "learning_rate": 0.0002999668893769493, "loss": 0.4659, "step": 10530 }, { "epoch": 14.053333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029996682331670543, "loss": 0.4536, "step": 10540 }, { "epoch": 14.066666666666666, "grad_norm": 0.23828125, "learning_rate": 0.00029996675719063493, "loss": 0.4403, "step": 10550 }, { "epoch": 14.08, "grad_norm": 0.373046875, "learning_rate": 0.0002999666909987377, "loss": 0.4438, "step": 10560 }, { "epoch": 14.093333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029996662474101395, "loss": 0.4428, "step": 10570 }, { "epoch": 14.106666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002999665584174635, "loss": 0.4323, "step": 10580 }, { "epoch": 14.12, "grad_norm": 0.275390625, "learning_rate": 0.00029996649202808655, "loss": 0.4394, "step": 10590 }, { "epoch": 14.133333333333333, "grad_norm": 0.375, "learning_rate": 0.000299966425572883, "loss": 0.4323, "step": 10600 }, { "epoch": 14.146666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029996635905185295, "loss": 0.4497, "step": 10610 }, { "epoch": 14.16, "grad_norm": 0.291015625, "learning_rate": 0.00029996629246499643, "loss": 0.4408, "step": 10620 }, { "epoch": 14.173333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002999662258123135, "loss": 0.4343, "step": 10630 }, { "epoch": 14.186666666666667, "grad_norm": 0.5625, "learning_rate": 0.0002999661590938041, "loss": 0.436, "step": 10640 }, { "epoch": 14.2, "grad_norm": 0.244140625, "learning_rate": 0.00029996609230946826, "loss": 0.4298, "step": 10650 }, { "epoch": 14.213333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029996602545930614, "loss": 0.4304, "step": 10660 }, { "epoch": 14.226666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029996595854331766, "loss": 0.4425, "step": 10670 }, { "epoch": 14.24, "grad_norm": 0.287109375, "learning_rate": 0.0002999658915615028, "loss": 0.4257, "step": 10680 }, { "epoch": 14.253333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029996582451386177, "loss": 0.4296, "step": 10690 }, { "epoch": 14.266666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.00029996575740039443, "loss": 0.4306, "step": 10700 }, { "epoch": 14.28, "grad_norm": 0.2353515625, "learning_rate": 0.0002999656902211009, "loss": 0.4601, "step": 10710 }, { "epoch": 14.293333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029996562297598115, "loss": 0.4157, "step": 10720 }, { "epoch": 14.306666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.00029996555566503527, "loss": 0.4386, "step": 10730 }, { "epoch": 14.32, "grad_norm": 0.283203125, "learning_rate": 0.00029996548828826325, "loss": 0.44, "step": 10740 }, { "epoch": 14.333333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002999654208456651, "loss": 0.4476, "step": 10750 }, { "epoch": 14.346666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0002999653533372409, "loss": 0.4373, "step": 10760 }, { "epoch": 14.36, "grad_norm": 0.259765625, "learning_rate": 0.00029996528576299065, "loss": 0.4413, "step": 10770 }, { "epoch": 14.373333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0002999652181229144, "loss": 0.4368, "step": 10780 }, { "epoch": 14.386666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002999651504170122, "loss": 0.4334, "step": 10790 }, { "epoch": 14.4, "grad_norm": 0.265625, "learning_rate": 0.000299965082645284, "loss": 0.4386, "step": 10800 }, { "epoch": 14.413333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002999650148077299, "loss": 0.4425, "step": 10810 }, { "epoch": 14.426666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029996494690434986, "loss": 0.4433, "step": 10820 }, { "epoch": 14.44, "grad_norm": 0.2431640625, "learning_rate": 0.000299964878935144, "loss": 0.452, "step": 10830 }, { "epoch": 14.453333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002999648109001123, "loss": 0.4441, "step": 10840 }, { "epoch": 14.466666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.00029996474279925483, "loss": 0.4546, "step": 10850 }, { "epoch": 14.48, "grad_norm": 0.333984375, "learning_rate": 0.00029996467463257154, "loss": 0.4359, "step": 10860 }, { "epoch": 14.493333333333334, "grad_norm": 0.25390625, "learning_rate": 0.0002999646064000625, "loss": 0.4468, "step": 10870 }, { "epoch": 14.506666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999645381017278, "loss": 0.4412, "step": 10880 }, { "epoch": 14.52, "grad_norm": 0.2138671875, "learning_rate": 0.00029996446973756737, "loss": 0.432, "step": 10890 }, { "epoch": 14.533333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.00029996440130758124, "loss": 0.4359, "step": 10900 }, { "epoch": 14.546666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002999643328117696, "loss": 0.4393, "step": 10910 }, { "epoch": 14.56, "grad_norm": 0.1943359375, "learning_rate": 0.0002999642642501323, "loss": 0.4313, "step": 10920 }, { "epoch": 14.573333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.00029996419562266943, "loss": 0.434, "step": 10930 }, { "epoch": 14.586666666666666, "grad_norm": 0.255859375, "learning_rate": 0.000299964126929381, "loss": 0.4235, "step": 10940 }, { "epoch": 14.6, "grad_norm": 0.267578125, "learning_rate": 0.00029996405817026716, "loss": 0.427, "step": 10950 }, { "epoch": 14.613333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0002999639893453278, "loss": 0.4115, "step": 10960 }, { "epoch": 14.626666666666667, "grad_norm": 0.2578125, "learning_rate": 0.000299963920454563, "loss": 0.4152, "step": 10970 }, { "epoch": 14.64, "grad_norm": 0.25, "learning_rate": 0.0002999638514979728, "loss": 0.4331, "step": 10980 }, { "epoch": 14.653333333333332, "grad_norm": 0.3046875, "learning_rate": 0.00029996378247555715, "loss": 0.4434, "step": 10990 }, { "epoch": 14.666666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002999637133873162, "loss": 0.4273, "step": 11000 }, { "epoch": 14.68, "grad_norm": 0.22265625, "learning_rate": 0.00029996364423324996, "loss": 0.4211, "step": 11010 }, { "epoch": 14.693333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029996357501335837, "loss": 0.43, "step": 11020 }, { "epoch": 14.706666666666667, "grad_norm": 0.263671875, "learning_rate": 0.00029996350572764156, "loss": 0.4232, "step": 11030 }, { "epoch": 14.72, "grad_norm": 0.244140625, "learning_rate": 0.00029996343637609947, "loss": 0.4484, "step": 11040 }, { "epoch": 14.733333333333333, "grad_norm": 0.25, "learning_rate": 0.0002999633669587322, "loss": 0.4418, "step": 11050 }, { "epoch": 14.746666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002999632974755398, "loss": 0.4401, "step": 11060 }, { "epoch": 14.76, "grad_norm": 0.265625, "learning_rate": 0.00029996322792652226, "loss": 0.4541, "step": 11070 }, { "epoch": 14.773333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.00029996315831167956, "loss": 0.4449, "step": 11080 }, { "epoch": 14.786666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0002999630886310118, "loss": 0.4429, "step": 11090 }, { "epoch": 14.8, "grad_norm": 0.26171875, "learning_rate": 0.000299963018884519, "loss": 0.4421, "step": 11100 }, { "epoch": 14.813333333333333, "grad_norm": 0.251953125, "learning_rate": 0.00029996294907220117, "loss": 0.4152, "step": 11110 }, { "epoch": 14.826666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.00029996287919405835, "loss": 0.4289, "step": 11120 }, { "epoch": 14.84, "grad_norm": 0.287109375, "learning_rate": 0.0002999628092500906, "loss": 0.4401, "step": 11130 }, { "epoch": 14.853333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0002999627392402979, "loss": 0.4355, "step": 11140 }, { "epoch": 14.866666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029996266916468034, "loss": 0.4367, "step": 11150 }, { "epoch": 14.88, "grad_norm": 0.2431640625, "learning_rate": 0.0002999625990232379, "loss": 0.4162, "step": 11160 }, { "epoch": 14.893333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002999625288159706, "loss": 0.4259, "step": 11170 }, { "epoch": 14.906666666666666, "grad_norm": 0.244140625, "learning_rate": 0.00029996245854287855, "loss": 0.4357, "step": 11180 }, { "epoch": 14.92, "grad_norm": 0.2431640625, "learning_rate": 0.0002999623882039617, "loss": 0.4361, "step": 11190 }, { "epoch": 14.933333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.00029996231779922007, "loss": 0.4282, "step": 11200 }, { "epoch": 14.946666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029996224732865384, "loss": 0.4315, "step": 11210 }, { "epoch": 14.96, "grad_norm": 0.248046875, "learning_rate": 0.0002999621767922628, "loss": 0.4275, "step": 11220 }, { "epoch": 14.973333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029996210619004723, "loss": 0.4521, "step": 11230 }, { "epoch": 14.986666666666666, "grad_norm": 0.27734375, "learning_rate": 0.00029996203552200697, "loss": 0.432, "step": 11240 }, { "epoch": 15.0, "grad_norm": 0.232421875, "learning_rate": 0.00029996196478814213, "loss": 0.4228, "step": 11250 }, { "epoch": 15.0, "eval_loss": 0.45217302441596985, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8036, "eval_samples_per_second": 1.632, "eval_steps_per_second": 0.102, "step": 11250 }, { "epoch": 15.013333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002999618939884528, "loss": 0.4431, "step": 11260 }, { "epoch": 15.026666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029996182312293885, "loss": 0.4525, "step": 11270 }, { "epoch": 15.04, "grad_norm": 0.2353515625, "learning_rate": 0.00029996175219160047, "loss": 0.4643, "step": 11280 }, { "epoch": 15.053333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029996168119443756, "loss": 0.4521, "step": 11290 }, { "epoch": 15.066666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002999616101314503, "loss": 0.4392, "step": 11300 }, { "epoch": 15.08, "grad_norm": 0.23828125, "learning_rate": 0.00029996153900263865, "loss": 0.4426, "step": 11310 }, { "epoch": 15.093333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002999614678080026, "loss": 0.4416, "step": 11320 }, { "epoch": 15.106666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0002999613965475422, "loss": 0.4297, "step": 11330 }, { "epoch": 15.12, "grad_norm": 0.24609375, "learning_rate": 0.0002999613252212575, "loss": 0.4368, "step": 11340 }, { "epoch": 15.133333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002999612538291485, "loss": 0.4299, "step": 11350 }, { "epoch": 15.146666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0002999611823712153, "loss": 0.4482, "step": 11360 }, { "epoch": 15.16, "grad_norm": 0.310546875, "learning_rate": 0.0002999611108474579, "loss": 0.4392, "step": 11370 }, { "epoch": 15.173333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002999610392578763, "loss": 0.4315, "step": 11380 }, { "epoch": 15.186666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002999609676024705, "loss": 0.4334, "step": 11390 }, { "epoch": 15.2, "grad_norm": 0.2734375, "learning_rate": 0.0002999608958812407, "loss": 0.4282, "step": 11400 }, { "epoch": 15.213333333333333, "grad_norm": 0.25, "learning_rate": 0.0002999608240941867, "loss": 0.428, "step": 11410 }, { "epoch": 15.226666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029996075224130873, "loss": 0.4416, "step": 11420 }, { "epoch": 15.24, "grad_norm": 0.255859375, "learning_rate": 0.0002999606803226067, "loss": 0.4238, "step": 11430 }, { "epoch": 15.253333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002999606083380807, "loss": 0.4277, "step": 11440 }, { "epoch": 15.266666666666667, "grad_norm": 0.228515625, "learning_rate": 0.00029996053628773074, "loss": 0.4271, "step": 11450 }, { "epoch": 15.28, "grad_norm": 0.251953125, "learning_rate": 0.0002999604641715568, "loss": 0.4584, "step": 11460 }, { "epoch": 15.293333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029996039198955897, "loss": 0.4143, "step": 11470 }, { "epoch": 15.306666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0002999603197417373, "loss": 0.4363, "step": 11480 }, { "epoch": 15.32, "grad_norm": 0.298828125, "learning_rate": 0.00029996024742809184, "loss": 0.4378, "step": 11490 }, { "epoch": 15.333333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029996017504862256, "loss": 0.4463, "step": 11500 }, { "epoch": 15.346666666666668, "grad_norm": 0.275390625, "learning_rate": 0.00029996010260332953, "loss": 0.4354, "step": 11510 }, { "epoch": 15.36, "grad_norm": 0.28125, "learning_rate": 0.0002999600300922127, "loss": 0.4404, "step": 11520 }, { "epoch": 15.373333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0002999599575152722, "loss": 0.4349, "step": 11530 }, { "epoch": 15.386666666666667, "grad_norm": 0.267578125, "learning_rate": 0.00029995988487250804, "loss": 0.4304, "step": 11540 }, { "epoch": 15.4, "grad_norm": 0.30859375, "learning_rate": 0.00029995981216392024, "loss": 0.4352, "step": 11550 }, { "epoch": 15.413333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002999597393895088, "loss": 0.4407, "step": 11560 }, { "epoch": 15.426666666666666, "grad_norm": 0.21875, "learning_rate": 0.00029995966654927376, "loss": 0.4417, "step": 11570 }, { "epoch": 15.44, "grad_norm": 0.24609375, "learning_rate": 0.00029995959364321524, "loss": 0.4507, "step": 11580 }, { "epoch": 15.453333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999595206713332, "loss": 0.4414, "step": 11590 }, { "epoch": 15.466666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0002999594476336276, "loss": 0.4518, "step": 11600 }, { "epoch": 15.48, "grad_norm": 0.234375, "learning_rate": 0.0002999593745300986, "loss": 0.4327, "step": 11610 }, { "epoch": 15.493333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0002999593013607462, "loss": 0.4447, "step": 11620 }, { "epoch": 15.506666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0002999592281255704, "loss": 0.4389, "step": 11630 }, { "epoch": 15.52, "grad_norm": 0.2158203125, "learning_rate": 0.0002999591548245713, "loss": 0.4306, "step": 11640 }, { "epoch": 15.533333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0002999590814577488, "loss": 0.4345, "step": 11650 }, { "epoch": 15.546666666666667, "grad_norm": 0.26171875, "learning_rate": 0.000299959008025103, "loss": 0.4375, "step": 11660 }, { "epoch": 15.56, "grad_norm": 0.23828125, "learning_rate": 0.000299958934526634, "loss": 0.4299, "step": 11670 }, { "epoch": 15.573333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029995886096234175, "loss": 0.4329, "step": 11680 }, { "epoch": 15.586666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0002999587873322263, "loss": 0.4213, "step": 11690 }, { "epoch": 15.6, "grad_norm": 0.2353515625, "learning_rate": 0.0002999587136362877, "loss": 0.4254, "step": 11700 }, { "epoch": 15.613333333333333, "grad_norm": 0.23046875, "learning_rate": 0.000299958639874526, "loss": 0.4097, "step": 11710 }, { "epoch": 15.626666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0002999585660469412, "loss": 0.4148, "step": 11720 }, { "epoch": 15.64, "grad_norm": 0.2490234375, "learning_rate": 0.00029995849215353333, "loss": 0.4314, "step": 11730 }, { "epoch": 15.653333333333332, "grad_norm": 0.259765625, "learning_rate": 0.0002999584181943024, "loss": 0.4416, "step": 11740 }, { "epoch": 15.666666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0002999583441692485, "loss": 0.4246, "step": 11750 }, { "epoch": 15.68, "grad_norm": 0.28515625, "learning_rate": 0.00029995827007837163, "loss": 0.4194, "step": 11760 }, { "epoch": 15.693333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029995819592167186, "loss": 0.4285, "step": 11770 }, { "epoch": 15.706666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029995812169914915, "loss": 0.4221, "step": 11780 }, { "epoch": 15.72, "grad_norm": 0.412109375, "learning_rate": 0.0002999580474108036, "loss": 0.4462, "step": 11790 }, { "epoch": 15.733333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029995797305663516, "loss": 0.4401, "step": 11800 }, { "epoch": 15.746666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029995789863664394, "loss": 0.4399, "step": 11810 }, { "epoch": 15.76, "grad_norm": 0.28515625, "learning_rate": 0.00029995782415083, "loss": 0.4528, "step": 11820 }, { "epoch": 15.773333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029995774959919327, "loss": 0.4445, "step": 11830 }, { "epoch": 15.786666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.00029995767498173386, "loss": 0.4404, "step": 11840 }, { "epoch": 15.8, "grad_norm": 0.234375, "learning_rate": 0.0002999576002984518, "loss": 0.4402, "step": 11850 }, { "epoch": 15.813333333333333, "grad_norm": 0.216796875, "learning_rate": 0.00029995752554934704, "loss": 0.4142, "step": 11860 }, { "epoch": 15.826666666666666, "grad_norm": 0.265625, "learning_rate": 0.0002999574507344197, "loss": 0.4266, "step": 11870 }, { "epoch": 15.84, "grad_norm": 0.306640625, "learning_rate": 0.0002999573758536698, "loss": 0.4389, "step": 11880 }, { "epoch": 15.853333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002999573009070973, "loss": 0.4334, "step": 11890 }, { "epoch": 15.866666666666667, "grad_norm": 0.26171875, "learning_rate": 0.00029995722589470236, "loss": 0.4356, "step": 11900 }, { "epoch": 15.88, "grad_norm": 0.25390625, "learning_rate": 0.00029995715081648495, "loss": 0.4136, "step": 11910 }, { "epoch": 15.893333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002999570756724451, "loss": 0.4246, "step": 11920 }, { "epoch": 15.906666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002999570004625828, "loss": 0.4347, "step": 11930 }, { "epoch": 15.92, "grad_norm": 0.2578125, "learning_rate": 0.00029995692518689816, "loss": 0.4357, "step": 11940 }, { "epoch": 15.933333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.0002999568498453912, "loss": 0.4272, "step": 11950 }, { "epoch": 15.946666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.00029995677443806184, "loss": 0.4303, "step": 11960 }, { "epoch": 15.96, "grad_norm": 0.2353515625, "learning_rate": 0.0002999566989649103, "loss": 0.4263, "step": 11970 }, { "epoch": 15.973333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002999566234259365, "loss": 0.4511, "step": 11980 }, { "epoch": 15.986666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029995654782114043, "loss": 0.4294, "step": 11990 }, { "epoch": 16.0, "grad_norm": 0.267578125, "learning_rate": 0.0002999564721505222, "loss": 0.4204, "step": 12000 }, { "epoch": 16.0, "eval_loss": 0.4513912796974182, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.483, "eval_samples_per_second": 1.526, "eval_steps_per_second": 0.095, "step": 12000 }, { "epoch": 16.013333333333332, "grad_norm": 0.33984375, "learning_rate": 0.0002999563964140819, "loss": 0.4431, "step": 12010 }, { "epoch": 16.026666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0002999563206118194, "loss": 0.4505, "step": 12020 }, { "epoch": 16.04, "grad_norm": 0.255859375, "learning_rate": 0.0002999562447437349, "loss": 0.4627, "step": 12030 }, { "epoch": 16.053333333333335, "grad_norm": 0.2373046875, "learning_rate": 0.0002999561688098283, "loss": 0.451, "step": 12040 }, { "epoch": 16.066666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002999560928100997, "loss": 0.4373, "step": 12050 }, { "epoch": 16.08, "grad_norm": 0.279296875, "learning_rate": 0.00029995601674454915, "loss": 0.4401, "step": 12060 }, { "epoch": 16.093333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0002999559406131766, "loss": 0.4402, "step": 12070 }, { "epoch": 16.106666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.00029995586441598223, "loss": 0.429, "step": 12080 }, { "epoch": 16.12, "grad_norm": 0.255859375, "learning_rate": 0.00029995578815296593, "loss": 0.4357, "step": 12090 }, { "epoch": 16.133333333333333, "grad_norm": 0.267578125, "learning_rate": 0.00029995571182412777, "loss": 0.4282, "step": 12100 }, { "epoch": 16.14666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002999556354294678, "loss": 0.4464, "step": 12110 }, { "epoch": 16.16, "grad_norm": 0.322265625, "learning_rate": 0.0002999555589689861, "loss": 0.4377, "step": 12120 }, { "epoch": 16.173333333333332, "grad_norm": 0.255859375, "learning_rate": 0.0002999554824426826, "loss": 0.43, "step": 12130 }, { "epoch": 16.186666666666667, "grad_norm": 0.25390625, "learning_rate": 0.00029995540585055745, "loss": 0.4328, "step": 12140 }, { "epoch": 16.2, "grad_norm": 0.2890625, "learning_rate": 0.0002999553291926106, "loss": 0.4266, "step": 12150 }, { "epoch": 16.213333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002999552524688421, "loss": 0.4278, "step": 12160 }, { "epoch": 16.226666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029995517567925193, "loss": 0.4396, "step": 12170 }, { "epoch": 16.24, "grad_norm": 0.28515625, "learning_rate": 0.0002999550988238403, "loss": 0.4242, "step": 12180 }, { "epoch": 16.253333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002999550219026071, "loss": 0.425, "step": 12190 }, { "epoch": 16.266666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.00029995494491555233, "loss": 0.426, "step": 12200 }, { "epoch": 16.28, "grad_norm": 0.2890625, "learning_rate": 0.00029995486786267615, "loss": 0.4568, "step": 12210 }, { "epoch": 16.293333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002999547907439785, "loss": 0.4136, "step": 12220 }, { "epoch": 16.306666666666665, "grad_norm": 0.23828125, "learning_rate": 0.00029995471355945947, "loss": 0.4352, "step": 12230 }, { "epoch": 16.32, "grad_norm": 0.2119140625, "learning_rate": 0.00029995463630911906, "loss": 0.4364, "step": 12240 }, { "epoch": 16.333333333333332, "grad_norm": 0.255859375, "learning_rate": 0.00029995455899295735, "loss": 0.4447, "step": 12250 }, { "epoch": 16.346666666666668, "grad_norm": 0.28125, "learning_rate": 0.00029995448161097425, "loss": 0.4344, "step": 12260 }, { "epoch": 16.36, "grad_norm": 0.291015625, "learning_rate": 0.00029995440416316995, "loss": 0.4372, "step": 12270 }, { "epoch": 16.373333333333335, "grad_norm": 0.248046875, "learning_rate": 0.00029995432664954434, "loss": 0.4325, "step": 12280 }, { "epoch": 16.386666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999542490700976, "loss": 0.4296, "step": 12290 }, { "epoch": 16.4, "grad_norm": 0.26171875, "learning_rate": 0.0002999541714248297, "loss": 0.4342, "step": 12300 }, { "epoch": 16.413333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002999540937137406, "loss": 0.4392, "step": 12310 }, { "epoch": 16.426666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0002999540159368305, "loss": 0.4398, "step": 12320 }, { "epoch": 16.44, "grad_norm": 0.2265625, "learning_rate": 0.0002999539380940992, "loss": 0.4495, "step": 12330 }, { "epoch": 16.453333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.00029995386018554697, "loss": 0.441, "step": 12340 }, { "epoch": 16.466666666666665, "grad_norm": 0.275390625, "learning_rate": 0.0002999537822111737, "loss": 0.4501, "step": 12350 }, { "epoch": 16.48, "grad_norm": 0.24609375, "learning_rate": 0.0002999537041709795, "loss": 0.4315, "step": 12360 }, { "epoch": 16.493333333333332, "grad_norm": 0.26171875, "learning_rate": 0.00029995362606496435, "loss": 0.4426, "step": 12370 }, { "epoch": 16.506666666666668, "grad_norm": 0.29296875, "learning_rate": 0.0002999535478931283, "loss": 0.4372, "step": 12380 }, { "epoch": 16.52, "grad_norm": 0.193359375, "learning_rate": 0.00029995346965547135, "loss": 0.428, "step": 12390 }, { "epoch": 16.533333333333335, "grad_norm": 0.2490234375, "learning_rate": 0.00029995339135199366, "loss": 0.4325, "step": 12400 }, { "epoch": 16.546666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029995331298269515, "loss": 0.4352, "step": 12410 }, { "epoch": 16.56, "grad_norm": 0.271484375, "learning_rate": 0.0002999532345475759, "loss": 0.4282, "step": 12420 }, { "epoch": 16.573333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002999531560466359, "loss": 0.4307, "step": 12430 }, { "epoch": 16.586666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0002999530774798752, "loss": 0.4191, "step": 12440 }, { "epoch": 16.6, "grad_norm": 0.21875, "learning_rate": 0.00029995299884729386, "loss": 0.4233, "step": 12450 }, { "epoch": 16.613333333333333, "grad_norm": 0.212890625, "learning_rate": 0.00029995292014889195, "loss": 0.4088, "step": 12460 }, { "epoch": 16.626666666666665, "grad_norm": 0.205078125, "learning_rate": 0.0002999528413846694, "loss": 0.4136, "step": 12470 }, { "epoch": 16.64, "grad_norm": 0.2177734375, "learning_rate": 0.0002999527625546263, "loss": 0.43, "step": 12480 }, { "epoch": 16.653333333333332, "grad_norm": 0.33203125, "learning_rate": 0.00029995268365876266, "loss": 0.44, "step": 12490 }, { "epoch": 16.666666666666668, "grad_norm": 0.298828125, "learning_rate": 0.00029995260469707863, "loss": 0.424, "step": 12500 }, { "epoch": 16.68, "grad_norm": 0.265625, "learning_rate": 0.00029995252566957404, "loss": 0.4172, "step": 12510 }, { "epoch": 16.693333333333335, "grad_norm": 0.361328125, "learning_rate": 0.0002999524465762491, "loss": 0.4266, "step": 12520 }, { "epoch": 16.706666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002999523674171038, "loss": 0.4207, "step": 12530 }, { "epoch": 16.72, "grad_norm": 0.27734375, "learning_rate": 0.00029995228819213815, "loss": 0.4449, "step": 12540 }, { "epoch": 16.733333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0002999522089013522, "loss": 0.4371, "step": 12550 }, { "epoch": 16.746666666666666, "grad_norm": 0.228515625, "learning_rate": 0.00029995212954474595, "loss": 0.4393, "step": 12560 }, { "epoch": 16.76, "grad_norm": 0.287109375, "learning_rate": 0.00029995205012231947, "loss": 0.4511, "step": 12570 }, { "epoch": 16.773333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029995197063407275, "loss": 0.4423, "step": 12580 }, { "epoch": 16.786666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029995189108000597, "loss": 0.4394, "step": 12590 }, { "epoch": 16.8, "grad_norm": 0.251953125, "learning_rate": 0.00029995181146011895, "loss": 0.4392, "step": 12600 }, { "epoch": 16.813333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029995173177441186, "loss": 0.4117, "step": 12610 }, { "epoch": 16.826666666666668, "grad_norm": 0.326171875, "learning_rate": 0.00029995165202288476, "loss": 0.4252, "step": 12620 }, { "epoch": 16.84, "grad_norm": 0.33984375, "learning_rate": 0.0002999515722055376, "loss": 0.4377, "step": 12630 }, { "epoch": 16.85333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029995149232237044, "loss": 0.4317, "step": 12640 }, { "epoch": 16.866666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0002999514123733833, "loss": 0.4336, "step": 12650 }, { "epoch": 16.88, "grad_norm": 0.265625, "learning_rate": 0.0002999513323585763, "loss": 0.4125, "step": 12660 }, { "epoch": 16.893333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.00029995125227794936, "loss": 0.4231, "step": 12670 }, { "epoch": 16.906666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002999511721315026, "loss": 0.4333, "step": 12680 }, { "epoch": 16.92, "grad_norm": 0.26953125, "learning_rate": 0.00029995109191923596, "loss": 0.4335, "step": 12690 }, { "epoch": 16.933333333333334, "grad_norm": 0.265625, "learning_rate": 0.0002999510116411496, "loss": 0.4266, "step": 12700 }, { "epoch": 16.946666666666665, "grad_norm": 0.298828125, "learning_rate": 0.0002999509312972435, "loss": 0.4288, "step": 12710 }, { "epoch": 16.96, "grad_norm": 0.2392578125, "learning_rate": 0.0002999508508875176, "loss": 0.4252, "step": 12720 }, { "epoch": 16.973333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002999507704119721, "loss": 0.449, "step": 12730 }, { "epoch": 16.986666666666668, "grad_norm": 0.24609375, "learning_rate": 0.000299950689870607, "loss": 0.4282, "step": 12740 }, { "epoch": 17.0, "grad_norm": 0.2392578125, "learning_rate": 0.0002999506092634222, "loss": 0.4195, "step": 12750 }, { "epoch": 17.0, "eval_loss": 0.44931259751319885, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8797, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 12750 }, { "epoch": 17.013333333333332, "grad_norm": 0.37109375, "learning_rate": 0.00029995052859041786, "loss": 0.4397, "step": 12760 }, { "epoch": 17.026666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002999504478515941, "loss": 0.4488, "step": 12770 }, { "epoch": 17.04, "grad_norm": 0.283203125, "learning_rate": 0.00029995036704695067, "loss": 0.4607, "step": 12780 }, { "epoch": 17.053333333333335, "grad_norm": 0.2470703125, "learning_rate": 0.0002999502861764879, "loss": 0.4479, "step": 12790 }, { "epoch": 17.066666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029995020524020564, "loss": 0.4363, "step": 12800 }, { "epoch": 17.08, "grad_norm": 0.2412109375, "learning_rate": 0.00029995012423810396, "loss": 0.439, "step": 12810 }, { "epoch": 17.093333333333334, "grad_norm": 0.267578125, "learning_rate": 0.000299950043170183, "loss": 0.4397, "step": 12820 }, { "epoch": 17.106666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0002999499620364426, "loss": 0.4278, "step": 12830 }, { "epoch": 17.12, "grad_norm": 0.251953125, "learning_rate": 0.000299949880836883, "loss": 0.4345, "step": 12840 }, { "epoch": 17.133333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002999497995715042, "loss": 0.4264, "step": 12850 }, { "epoch": 17.14666666666667, "grad_norm": 0.25, "learning_rate": 0.00029994971824030614, "loss": 0.4446, "step": 12860 }, { "epoch": 17.16, "grad_norm": 0.2353515625, "learning_rate": 0.00029994963684328886, "loss": 0.4363, "step": 12870 }, { "epoch": 17.173333333333332, "grad_norm": 0.44921875, "learning_rate": 0.00029994955538045244, "loss": 0.43, "step": 12880 }, { "epoch": 17.186666666666667, "grad_norm": 0.80078125, "learning_rate": 0.000299949473851797, "loss": 0.4309, "step": 12890 }, { "epoch": 17.2, "grad_norm": 1.171875, "learning_rate": 0.0002999493922573224, "loss": 0.4258, "step": 12900 }, { "epoch": 17.213333333333335, "grad_norm": 0.34375, "learning_rate": 0.0002999493105970288, "loss": 0.4269, "step": 12910 }, { "epoch": 17.226666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002999492288709162, "loss": 0.4384, "step": 12920 }, { "epoch": 17.24, "grad_norm": 0.2451171875, "learning_rate": 0.0002999491470789846, "loss": 0.421, "step": 12930 }, { "epoch": 17.253333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002999490652212341, "loss": 0.4248, "step": 12940 }, { "epoch": 17.266666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0002999489832976647, "loss": 0.4257, "step": 12950 }, { "epoch": 17.28, "grad_norm": 0.275390625, "learning_rate": 0.00029994890130827646, "loss": 0.4558, "step": 12960 }, { "epoch": 17.293333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029994881925306943, "loss": 0.412, "step": 12970 }, { "epoch": 17.306666666666665, "grad_norm": 0.267578125, "learning_rate": 0.0002999487371320436, "loss": 0.4334, "step": 12980 }, { "epoch": 17.32, "grad_norm": 0.259765625, "learning_rate": 0.00029994865494519895, "loss": 0.4336, "step": 12990 }, { "epoch": 17.333333333333332, "grad_norm": 0.27734375, "learning_rate": 0.0002999485726925356, "loss": 0.4422, "step": 13000 }, { "epoch": 17.346666666666668, "grad_norm": 0.2734375, "learning_rate": 0.00029994849037405367, "loss": 0.4323, "step": 13010 }, { "epoch": 17.36, "grad_norm": 0.2431640625, "learning_rate": 0.000299948407989753, "loss": 0.4368, "step": 13020 }, { "epoch": 17.373333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002999483255396338, "loss": 0.4327, "step": 13030 }, { "epoch": 17.386666666666667, "grad_norm": 0.271484375, "learning_rate": 0.000299948243023696, "loss": 0.427, "step": 13040 }, { "epoch": 17.4, "grad_norm": 0.2236328125, "learning_rate": 0.00029994816044193965, "loss": 0.4327, "step": 13050 }, { "epoch": 17.413333333333334, "grad_norm": 0.228515625, "learning_rate": 0.00029994807779436483, "loss": 0.4376, "step": 13060 }, { "epoch": 17.426666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029994799508097157, "loss": 0.4384, "step": 13070 }, { "epoch": 17.44, "grad_norm": 0.259765625, "learning_rate": 0.0002999479123017598, "loss": 0.4479, "step": 13080 }, { "epoch": 17.453333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002999478294567297, "loss": 0.4395, "step": 13090 }, { "epoch": 17.466666666666665, "grad_norm": 0.2392578125, "learning_rate": 0.0002999477465458813, "loss": 0.4484, "step": 13100 }, { "epoch": 17.48, "grad_norm": 0.294921875, "learning_rate": 0.00029994766356921456, "loss": 0.4298, "step": 13110 }, { "epoch": 17.493333333333332, "grad_norm": 0.25390625, "learning_rate": 0.0002999475805267295, "loss": 0.442, "step": 13120 }, { "epoch": 17.506666666666668, "grad_norm": 0.271484375, "learning_rate": 0.0002999474974184262, "loss": 0.4354, "step": 13130 }, { "epoch": 17.52, "grad_norm": 0.2119140625, "learning_rate": 0.00029994741424430477, "loss": 0.4267, "step": 13140 }, { "epoch": 17.533333333333335, "grad_norm": 0.248046875, "learning_rate": 0.00029994733100436515, "loss": 0.4308, "step": 13150 }, { "epoch": 17.546666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029994724769860735, "loss": 0.4342, "step": 13160 }, { "epoch": 17.56, "grad_norm": 0.2734375, "learning_rate": 0.0002999471643270315, "loss": 0.4272, "step": 13170 }, { "epoch": 17.573333333333334, "grad_norm": 0.27734375, "learning_rate": 0.00029994708088963755, "loss": 0.4301, "step": 13180 }, { "epoch": 17.586666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0002999469973864256, "loss": 0.4196, "step": 13190 }, { "epoch": 17.6, "grad_norm": 0.2177734375, "learning_rate": 0.00029994691381739566, "loss": 0.4226, "step": 13200 }, { "epoch": 17.613333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002999468301825478, "loss": 0.4069, "step": 13210 }, { "epoch": 17.626666666666665, "grad_norm": 0.265625, "learning_rate": 0.000299946746481882, "loss": 0.4119, "step": 13220 }, { "epoch": 17.64, "grad_norm": 0.2421875, "learning_rate": 0.00029994666271539834, "loss": 0.4276, "step": 13230 }, { "epoch": 17.653333333333332, "grad_norm": 0.296875, "learning_rate": 0.00029994657888309683, "loss": 0.4382, "step": 13240 }, { "epoch": 17.666666666666668, "grad_norm": 0.2373046875, "learning_rate": 0.0002999464949849775, "loss": 0.4229, "step": 13250 }, { "epoch": 17.68, "grad_norm": 0.287109375, "learning_rate": 0.00029994641102104044, "loss": 0.4169, "step": 13260 }, { "epoch": 17.693333333333335, "grad_norm": 0.244140625, "learning_rate": 0.00029994632699128566, "loss": 0.4249, "step": 13270 }, { "epoch": 17.706666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029994624289571314, "loss": 0.4196, "step": 13280 }, { "epoch": 17.72, "grad_norm": 0.3359375, "learning_rate": 0.00029994615873432304, "loss": 0.4427, "step": 13290 }, { "epoch": 17.733333333333334, "grad_norm": 0.2578125, "learning_rate": 0.00029994607450711526, "loss": 0.4367, "step": 13300 }, { "epoch": 17.746666666666666, "grad_norm": 0.27734375, "learning_rate": 0.00029994599021408995, "loss": 0.437, "step": 13310 }, { "epoch": 17.76, "grad_norm": 0.3046875, "learning_rate": 0.00029994590585524707, "loss": 0.4493, "step": 13320 }, { "epoch": 17.773333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002999458214305867, "loss": 0.4406, "step": 13330 }, { "epoch": 17.786666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.0002999457369401088, "loss": 0.4382, "step": 13340 }, { "epoch": 17.8, "grad_norm": 0.29296875, "learning_rate": 0.00029994565238381356, "loss": 0.4373, "step": 13350 }, { "epoch": 17.813333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029994556776170086, "loss": 0.4111, "step": 13360 }, { "epoch": 17.826666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029994548307377085, "loss": 0.4235, "step": 13370 }, { "epoch": 17.84, "grad_norm": 0.28515625, "learning_rate": 0.0002999453983200235, "loss": 0.4352, "step": 13380 }, { "epoch": 17.85333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029994531350045886, "loss": 0.4297, "step": 13390 }, { "epoch": 17.866666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029994522861507693, "loss": 0.4321, "step": 13400 }, { "epoch": 17.88, "grad_norm": 0.234375, "learning_rate": 0.00029994514366387786, "loss": 0.41, "step": 13410 }, { "epoch": 17.893333333333334, "grad_norm": 0.236328125, "learning_rate": 0.0002999450586468616, "loss": 0.4212, "step": 13420 }, { "epoch": 17.906666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0002999449735640282, "loss": 0.4319, "step": 13430 }, { "epoch": 17.92, "grad_norm": 0.3046875, "learning_rate": 0.00029994488841537774, "loss": 0.4322, "step": 13440 }, { "epoch": 17.933333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002999448032009102, "loss": 0.4255, "step": 13450 }, { "epoch": 17.946666666666665, "grad_norm": 0.248046875, "learning_rate": 0.00029994471792062563, "loss": 0.4275, "step": 13460 }, { "epoch": 17.96, "grad_norm": 0.267578125, "learning_rate": 0.0002999446325745241, "loss": 0.423, "step": 13470 }, { "epoch": 17.973333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029994454716260555, "loss": 0.448, "step": 13480 }, { "epoch": 17.986666666666668, "grad_norm": 0.24609375, "learning_rate": 0.00029994446168487014, "loss": 0.427, "step": 13490 }, { "epoch": 18.0, "grad_norm": 0.26953125, "learning_rate": 0.0002999443761413179, "loss": 0.4181, "step": 13500 }, { "epoch": 18.0, "eval_loss": 0.4473983347415924, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.5779, "eval_samples_per_second": 1.513, "eval_steps_per_second": 0.095, "step": 13500 }, { "epoch": 18.013333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002999442905319488, "loss": 0.4376, "step": 13510 }, { "epoch": 18.026666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002999442048567628, "loss": 0.447, "step": 13520 }, { "epoch": 18.04, "grad_norm": 0.2333984375, "learning_rate": 0.0002999441191157602, "loss": 0.459, "step": 13530 }, { "epoch": 18.053333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0002999440333089408, "loss": 0.4472, "step": 13540 }, { "epoch": 18.066666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002999439474363047, "loss": 0.4346, "step": 13550 }, { "epoch": 18.08, "grad_norm": 0.263671875, "learning_rate": 0.000299943861497852, "loss": 0.4375, "step": 13560 }, { "epoch": 18.093333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002999437754935827, "loss": 0.4367, "step": 13570 }, { "epoch": 18.106666666666666, "grad_norm": 0.318359375, "learning_rate": 0.00029994368942349675, "loss": 0.4251, "step": 13580 }, { "epoch": 18.12, "grad_norm": 0.25, "learning_rate": 0.00029994360328759436, "loss": 0.4327, "step": 13590 }, { "epoch": 18.133333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002999435170858754, "loss": 0.4242, "step": 13600 }, { "epoch": 18.14666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.00029994343081834004, "loss": 0.4431, "step": 13610 }, { "epoch": 18.16, "grad_norm": 0.24609375, "learning_rate": 0.0002999433444849882, "loss": 0.4355, "step": 13620 }, { "epoch": 18.173333333333332, "grad_norm": 0.2373046875, "learning_rate": 0.0002999432580858201, "loss": 0.4283, "step": 13630 }, { "epoch": 18.186666666666667, "grad_norm": 0.23046875, "learning_rate": 0.00029994317162083554, "loss": 0.4294, "step": 13640 }, { "epoch": 18.2, "grad_norm": 0.345703125, "learning_rate": 0.0002999430850900347, "loss": 0.4241, "step": 13650 }, { "epoch": 18.213333333333335, "grad_norm": 0.263671875, "learning_rate": 0.0002999429984934176, "loss": 0.424, "step": 13660 }, { "epoch": 18.226666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002999429118309843, "loss": 0.4368, "step": 13670 }, { "epoch": 18.24, "grad_norm": 0.30078125, "learning_rate": 0.00029994282510273476, "loss": 0.4203, "step": 13680 }, { "epoch": 18.253333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002999427383086691, "loss": 0.4235, "step": 13690 }, { "epoch": 18.266666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002999426514487873, "loss": 0.4238, "step": 13700 }, { "epoch": 18.28, "grad_norm": 0.25390625, "learning_rate": 0.00029994256452308944, "loss": 0.4542, "step": 13710 }, { "epoch": 18.293333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002999424775315755, "loss": 0.4105, "step": 13720 }, { "epoch": 18.306666666666665, "grad_norm": 0.2412109375, "learning_rate": 0.00029994239047424564, "loss": 0.4324, "step": 13730 }, { "epoch": 18.32, "grad_norm": 0.28515625, "learning_rate": 0.00029994230335109976, "loss": 0.4332, "step": 13740 }, { "epoch": 18.333333333333332, "grad_norm": 0.26171875, "learning_rate": 0.000299942216162138, "loss": 0.4405, "step": 13750 }, { "epoch": 18.346666666666668, "grad_norm": 0.27734375, "learning_rate": 0.0002999421289073603, "loss": 0.4306, "step": 13760 }, { "epoch": 18.36, "grad_norm": 0.30078125, "learning_rate": 0.0002999420415867668, "loss": 0.4343, "step": 13770 }, { "epoch": 18.373333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002999419542003575, "loss": 0.4307, "step": 13780 }, { "epoch": 18.386666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002999418667481324, "loss": 0.4255, "step": 13790 }, { "epoch": 18.4, "grad_norm": 0.25, "learning_rate": 0.0002999417792300915, "loss": 0.4304, "step": 13800 }, { "epoch": 18.413333333333334, "grad_norm": 0.271484375, "learning_rate": 0.000299941691646235, "loss": 0.4366, "step": 13810 }, { "epoch": 18.426666666666666, "grad_norm": 0.25, "learning_rate": 0.0002999416039965628, "loss": 0.437, "step": 13820 }, { "epoch": 18.44, "grad_norm": 0.2490234375, "learning_rate": 0.000299941516281075, "loss": 0.4469, "step": 13830 }, { "epoch": 18.453333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029994142849977166, "loss": 0.4381, "step": 13840 }, { "epoch": 18.466666666666665, "grad_norm": 0.251953125, "learning_rate": 0.00029994134065265275, "loss": 0.4477, "step": 13850 }, { "epoch": 18.48, "grad_norm": 0.2734375, "learning_rate": 0.0002999412527397183, "loss": 0.4277, "step": 13860 }, { "epoch": 18.493333333333332, "grad_norm": 0.248046875, "learning_rate": 0.0002999411647609684, "loss": 0.44, "step": 13870 }, { "epoch": 18.506666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0002999410767164031, "loss": 0.4349, "step": 13880 }, { "epoch": 18.52, "grad_norm": 0.21484375, "learning_rate": 0.0002999409886060224, "loss": 0.4263, "step": 13890 }, { "epoch": 18.533333333333335, "grad_norm": 0.271484375, "learning_rate": 0.00029994090042982635, "loss": 0.4293, "step": 13900 }, { "epoch": 18.546666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029994081218781505, "loss": 0.4324, "step": 13910 }, { "epoch": 18.56, "grad_norm": 0.279296875, "learning_rate": 0.0002999407238799884, "loss": 0.4255, "step": 13920 }, { "epoch": 18.573333333333334, "grad_norm": 0.255859375, "learning_rate": 0.00029994063550634655, "loss": 0.4284, "step": 13930 }, { "epoch": 18.586666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0002999405470668895, "loss": 0.4171, "step": 13940 }, { "epoch": 18.6, "grad_norm": 0.2353515625, "learning_rate": 0.00029994045856161734, "loss": 0.4209, "step": 13950 }, { "epoch": 18.613333333333333, "grad_norm": 0.224609375, "learning_rate": 0.00029994036999053, "loss": 0.4061, "step": 13960 }, { "epoch": 18.626666666666665, "grad_norm": 0.25, "learning_rate": 0.00029994028135362763, "loss": 0.4112, "step": 13970 }, { "epoch": 18.64, "grad_norm": 0.255859375, "learning_rate": 0.0002999401926509102, "loss": 0.4269, "step": 13980 }, { "epoch": 18.653333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0002999401038823778, "loss": 0.4364, "step": 13990 }, { "epoch": 18.666666666666668, "grad_norm": 0.2265625, "learning_rate": 0.0002999400150480304, "loss": 0.4208, "step": 14000 }, { "epoch": 18.68, "grad_norm": 0.32421875, "learning_rate": 0.00029993992614786813, "loss": 0.4155, "step": 14010 }, { "epoch": 18.693333333333335, "grad_norm": 0.271484375, "learning_rate": 0.00029993983718189097, "loss": 0.4241, "step": 14020 }, { "epoch": 18.706666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029993974815009894, "loss": 0.418, "step": 14030 }, { "epoch": 18.72, "grad_norm": 0.255859375, "learning_rate": 0.0002999396590524921, "loss": 0.4422, "step": 14040 }, { "epoch": 18.733333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002999395698890705, "loss": 0.4349, "step": 14050 }, { "epoch": 18.746666666666666, "grad_norm": 0.2421875, "learning_rate": 0.00029993948065983424, "loss": 0.4345, "step": 14060 }, { "epoch": 18.76, "grad_norm": 0.30859375, "learning_rate": 0.00029993939136478323, "loss": 0.447, "step": 14070 }, { "epoch": 18.773333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002999393020039176, "loss": 0.4382, "step": 14080 }, { "epoch": 18.786666666666665, "grad_norm": 0.30859375, "learning_rate": 0.0002999392125772373, "loss": 0.4368, "step": 14090 }, { "epoch": 18.8, "grad_norm": 0.27734375, "learning_rate": 0.00029993912308474253, "loss": 0.4363, "step": 14100 }, { "epoch": 18.813333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002999390335264332, "loss": 0.4097, "step": 14110 }, { "epoch": 18.826666666666668, "grad_norm": 0.25, "learning_rate": 0.00029993894390230937, "loss": 0.4215, "step": 14120 }, { "epoch": 18.84, "grad_norm": 0.337890625, "learning_rate": 0.00029993885421237106, "loss": 0.4341, "step": 14130 }, { "epoch": 18.85333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029993876445661837, "loss": 0.43, "step": 14140 }, { "epoch": 18.866666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.0002999386746350513, "loss": 0.431, "step": 14150 }, { "epoch": 18.88, "grad_norm": 0.25390625, "learning_rate": 0.0002999385847476699, "loss": 0.4096, "step": 14160 }, { "epoch": 18.893333333333334, "grad_norm": 0.310546875, "learning_rate": 0.00029993849479447425, "loss": 0.4197, "step": 14170 }, { "epoch": 18.906666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002999384047754643, "loss": 0.4301, "step": 14180 }, { "epoch": 18.92, "grad_norm": 0.2734375, "learning_rate": 0.00029993831469064016, "loss": 0.432, "step": 14190 }, { "epoch": 18.933333333333334, "grad_norm": 0.2265625, "learning_rate": 0.00029993822454000185, "loss": 0.4229, "step": 14200 }, { "epoch": 18.946666666666665, "grad_norm": 0.2216796875, "learning_rate": 0.0002999381343235494, "loss": 0.4251, "step": 14210 }, { "epoch": 18.96, "grad_norm": 0.310546875, "learning_rate": 0.00029993804404128286, "loss": 0.4222, "step": 14220 }, { "epoch": 18.973333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002999379536932022, "loss": 0.4459, "step": 14230 }, { "epoch": 18.986666666666668, "grad_norm": 0.275390625, "learning_rate": 0.0002999378632793076, "loss": 0.4257, "step": 14240 }, { "epoch": 19.0, "grad_norm": 0.265625, "learning_rate": 0.000299937772799599, "loss": 0.4167, "step": 14250 }, { "epoch": 19.0, "eval_loss": 0.44740644097328186, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.4164, "eval_samples_per_second": 1.536, "eval_steps_per_second": 0.096, "step": 14250 }, { "epoch": 19.013333333333332, "grad_norm": 0.2431640625, "learning_rate": 0.0002999376822540765, "loss": 0.4371, "step": 14260 }, { "epoch": 19.026666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002999375916427401, "loss": 0.4461, "step": 14270 }, { "epoch": 19.04, "grad_norm": 0.279296875, "learning_rate": 0.00029993750096558977, "loss": 0.4577, "step": 14280 }, { "epoch": 19.053333333333335, "grad_norm": 0.24609375, "learning_rate": 0.0002999374102226257, "loss": 0.446, "step": 14290 }, { "epoch": 19.066666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0002999373194138478, "loss": 0.433, "step": 14300 }, { "epoch": 19.08, "grad_norm": 0.271484375, "learning_rate": 0.0002999372285392562, "loss": 0.4357, "step": 14310 }, { "epoch": 19.093333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002999371375988509, "loss": 0.4365, "step": 14320 }, { "epoch": 19.106666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029993704659263195, "loss": 0.4242, "step": 14330 }, { "epoch": 19.12, "grad_norm": 0.255859375, "learning_rate": 0.0002999369555205994, "loss": 0.431, "step": 14340 }, { "epoch": 19.133333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0002999368643827532, "loss": 0.4231, "step": 14350 }, { "epoch": 19.14666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002999367731790935, "loss": 0.4412, "step": 14360 }, { "epoch": 19.16, "grad_norm": 0.294921875, "learning_rate": 0.00029993668190962035, "loss": 0.4344, "step": 14370 }, { "epoch": 19.173333333333332, "grad_norm": 0.3359375, "learning_rate": 0.0002999365905743337, "loss": 0.4264, "step": 14380 }, { "epoch": 19.186666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002999364991732336, "loss": 0.4273, "step": 14390 }, { "epoch": 19.2, "grad_norm": 0.35546875, "learning_rate": 0.0002999364077063202, "loss": 0.4225, "step": 14400 }, { "epoch": 19.213333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0002999363161735934, "loss": 0.4228, "step": 14410 }, { "epoch": 19.226666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002999362245750533, "loss": 0.4353, "step": 14420 }, { "epoch": 19.24, "grad_norm": 0.314453125, "learning_rate": 0.0002999361329107, "loss": 0.4182, "step": 14430 }, { "epoch": 19.253333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002999360411805335, "loss": 0.4217, "step": 14440 }, { "epoch": 19.266666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029993594938455375, "loss": 0.4225, "step": 14450 }, { "epoch": 19.28, "grad_norm": 0.302734375, "learning_rate": 0.0002999358575227609, "loss": 0.4529, "step": 14460 }, { "epoch": 19.293333333333333, "grad_norm": 0.2734375, "learning_rate": 0.00029993576559515496, "loss": 0.409, "step": 14470 }, { "epoch": 19.306666666666665, "grad_norm": 0.251953125, "learning_rate": 0.00029993567360173595, "loss": 0.431, "step": 14480 }, { "epoch": 19.32, "grad_norm": 0.2734375, "learning_rate": 0.0002999355815425039, "loss": 0.4317, "step": 14490 }, { "epoch": 19.333333333333332, "grad_norm": 0.32421875, "learning_rate": 0.00029993548941745896, "loss": 0.4396, "step": 14500 }, { "epoch": 19.346666666666668, "grad_norm": 0.33984375, "learning_rate": 0.00029993539722660104, "loss": 0.4292, "step": 14510 }, { "epoch": 19.36, "grad_norm": 0.337890625, "learning_rate": 0.0002999353049699302, "loss": 0.4331, "step": 14520 }, { "epoch": 19.373333333333335, "grad_norm": 0.28125, "learning_rate": 0.0002999352126474465, "loss": 0.4295, "step": 14530 }, { "epoch": 19.386666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029993512025915006, "loss": 0.4237, "step": 14540 }, { "epoch": 19.4, "grad_norm": 0.314453125, "learning_rate": 0.0002999350278050408, "loss": 0.43, "step": 14550 }, { "epoch": 19.413333333333334, "grad_norm": 0.298828125, "learning_rate": 0.00029993493528511885, "loss": 0.4357, "step": 14560 }, { "epoch": 19.426666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029993484269938414, "loss": 0.4355, "step": 14570 }, { "epoch": 19.44, "grad_norm": 0.259765625, "learning_rate": 0.00029993475004783685, "loss": 0.4458, "step": 14580 }, { "epoch": 19.453333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002999346573304769, "loss": 0.4372, "step": 14590 }, { "epoch": 19.466666666666665, "grad_norm": 0.373046875, "learning_rate": 0.00029993456454730443, "loss": 0.4468, "step": 14600 }, { "epoch": 19.48, "grad_norm": 0.306640625, "learning_rate": 0.0002999344716983194, "loss": 0.4268, "step": 14610 }, { "epoch": 19.493333333333332, "grad_norm": 0.267578125, "learning_rate": 0.0002999343787835219, "loss": 0.4382, "step": 14620 }, { "epoch": 19.506666666666668, "grad_norm": 0.306640625, "learning_rate": 0.00029993428580291195, "loss": 0.4335, "step": 14630 }, { "epoch": 19.52, "grad_norm": 0.25390625, "learning_rate": 0.00029993419275648955, "loss": 0.4244, "step": 14640 }, { "epoch": 19.533333333333335, "grad_norm": 0.2255859375, "learning_rate": 0.00029993409964425483, "loss": 0.4287, "step": 14650 }, { "epoch": 19.546666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002999340064662078, "loss": 0.4314, "step": 14660 }, { "epoch": 19.56, "grad_norm": 0.251953125, "learning_rate": 0.0002999339132223485, "loss": 0.4239, "step": 14670 }, { "epoch": 19.573333333333334, "grad_norm": 0.263671875, "learning_rate": 0.00029993381991267687, "loss": 0.4265, "step": 14680 }, { "epoch": 19.586666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.00029993372653719315, "loss": 0.4166, "step": 14690 }, { "epoch": 19.6, "grad_norm": 0.26953125, "learning_rate": 0.00029993363309589716, "loss": 0.4199, "step": 14700 }, { "epoch": 19.613333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0002999335395887891, "loss": 0.4039, "step": 14710 }, { "epoch": 19.626666666666665, "grad_norm": 0.2490234375, "learning_rate": 0.00029993344601586904, "loss": 0.4095, "step": 14720 }, { "epoch": 19.64, "grad_norm": 0.244140625, "learning_rate": 0.00029993335237713686, "loss": 0.4264, "step": 14730 }, { "epoch": 19.653333333333332, "grad_norm": 0.369140625, "learning_rate": 0.0002999332586725927, "loss": 0.4349, "step": 14740 }, { "epoch": 19.666666666666668, "grad_norm": 0.3359375, "learning_rate": 0.0002999331649022366, "loss": 0.4197, "step": 14750 }, { "epoch": 19.68, "grad_norm": 0.26171875, "learning_rate": 0.00029993307106606856, "loss": 0.4134, "step": 14760 }, { "epoch": 19.693333333333335, "grad_norm": 0.2890625, "learning_rate": 0.00029993297716408867, "loss": 0.4221, "step": 14770 }, { "epoch": 19.706666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029993288319629695, "loss": 0.4166, "step": 14780 }, { "epoch": 19.72, "grad_norm": 0.291015625, "learning_rate": 0.0002999327891626934, "loss": 0.4401, "step": 14790 }, { "epoch": 19.733333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0002999326950632782, "loss": 0.4339, "step": 14800 }, { "epoch": 19.746666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999326008980512, "loss": 0.4337, "step": 14810 }, { "epoch": 19.76, "grad_norm": 0.267578125, "learning_rate": 0.00029993250666701253, "loss": 0.4468, "step": 14820 }, { "epoch": 19.773333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029993241237016226, "loss": 0.4372, "step": 14830 }, { "epoch": 19.786666666666665, "grad_norm": 0.2333984375, "learning_rate": 0.0002999323180075005, "loss": 0.4358, "step": 14840 }, { "epoch": 19.8, "grad_norm": 0.318359375, "learning_rate": 0.0002999322235790271, "loss": 0.4345, "step": 14850 }, { "epoch": 19.813333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002999321290847422, "loss": 0.4085, "step": 14860 }, { "epoch": 19.826666666666668, "grad_norm": 0.345703125, "learning_rate": 0.0002999320345246459, "loss": 0.4206, "step": 14870 }, { "epoch": 19.84, "grad_norm": 0.337890625, "learning_rate": 0.0002999319398987381, "loss": 0.4324, "step": 14880 }, { "epoch": 19.85333333333333, "grad_norm": 0.26953125, "learning_rate": 0.000299931845207019, "loss": 0.4275, "step": 14890 }, { "epoch": 19.866666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002999317504494885, "loss": 0.4292, "step": 14900 }, { "epoch": 19.88, "grad_norm": 0.25390625, "learning_rate": 0.0002999316556261467, "loss": 0.4082, "step": 14910 }, { "epoch": 19.893333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0002999315607369937, "loss": 0.4187, "step": 14920 }, { "epoch": 19.906666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002999314657820295, "loss": 0.4295, "step": 14930 }, { "epoch": 19.92, "grad_norm": 0.265625, "learning_rate": 0.00029993137076125413, "loss": 0.4305, "step": 14940 }, { "epoch": 19.933333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.00029993127567466764, "loss": 0.4228, "step": 14950 }, { "epoch": 19.946666666666665, "grad_norm": 0.236328125, "learning_rate": 0.00029993118052227, "loss": 0.4251, "step": 14960 }, { "epoch": 19.96, "grad_norm": 0.25390625, "learning_rate": 0.0002999310853040614, "loss": 0.4207, "step": 14970 }, { "epoch": 19.973333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029993099002004176, "loss": 0.4448, "step": 14980 }, { "epoch": 19.986666666666668, "grad_norm": 0.26171875, "learning_rate": 0.0002999308946702112, "loss": 0.425, "step": 14990 }, { "epoch": 20.0, "grad_norm": 0.26953125, "learning_rate": 0.00029993079925456966, "loss": 0.4164, "step": 15000 }, { "epoch": 20.0, "eval_loss": 0.4465210735797882, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9534, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 15000 }, { "epoch": 20.013333333333332, "grad_norm": 0.287109375, "learning_rate": 0.00029993070377311727, "loss": 0.4351, "step": 15010 }, { "epoch": 20.026666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999306082258541, "loss": 0.4447, "step": 15020 }, { "epoch": 20.04, "grad_norm": 0.275390625, "learning_rate": 0.0002999305126127801, "loss": 0.4564, "step": 15030 }, { "epoch": 20.053333333333335, "grad_norm": 0.3984375, "learning_rate": 0.0002999304169338953, "loss": 0.4447, "step": 15040 }, { "epoch": 20.066666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002999303211891998, "loss": 0.4312, "step": 15050 }, { "epoch": 20.08, "grad_norm": 0.306640625, "learning_rate": 0.0002999302253786937, "loss": 0.4353, "step": 15060 }, { "epoch": 20.093333333333334, "grad_norm": 0.2412109375, "learning_rate": 0.00029993012950237693, "loss": 0.4345, "step": 15070 }, { "epoch": 20.106666666666666, "grad_norm": 0.24609375, "learning_rate": 0.00029993003356024964, "loss": 0.4236, "step": 15080 }, { "epoch": 20.12, "grad_norm": 0.251953125, "learning_rate": 0.00029992993755231177, "loss": 0.4297, "step": 15090 }, { "epoch": 20.133333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002999298414785634, "loss": 0.4222, "step": 15100 }, { "epoch": 20.14666666666667, "grad_norm": 0.251953125, "learning_rate": 0.00029992974533900454, "loss": 0.4403, "step": 15110 }, { "epoch": 20.16, "grad_norm": 0.25, "learning_rate": 0.00029992964913363535, "loss": 0.4328, "step": 15120 }, { "epoch": 20.173333333333332, "grad_norm": 0.326171875, "learning_rate": 0.00029992955286245573, "loss": 0.4249, "step": 15130 }, { "epoch": 20.186666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002999294565254658, "loss": 0.4264, "step": 15140 }, { "epoch": 20.2, "grad_norm": 0.2890625, "learning_rate": 0.0002999293601226656, "loss": 0.4207, "step": 15150 }, { "epoch": 20.213333333333335, "grad_norm": 0.255859375, "learning_rate": 0.0002999292636540552, "loss": 0.421, "step": 15160 }, { "epoch": 20.226666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029992916711963453, "loss": 0.434, "step": 15170 }, { "epoch": 20.24, "grad_norm": 0.2734375, "learning_rate": 0.0002999290705194037, "loss": 0.4175, "step": 15180 }, { "epoch": 20.253333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002999289738533628, "loss": 0.4214, "step": 15190 }, { "epoch": 20.266666666666666, "grad_norm": 0.24609375, "learning_rate": 0.00029992887712151174, "loss": 0.4215, "step": 15200 }, { "epoch": 20.28, "grad_norm": 0.2734375, "learning_rate": 0.00029992878032385076, "loss": 0.4522, "step": 15210 }, { "epoch": 20.293333333333333, "grad_norm": 0.25, "learning_rate": 0.00029992868346037974, "loss": 0.4079, "step": 15220 }, { "epoch": 20.306666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00029992858653109873, "loss": 0.4302, "step": 15230 }, { "epoch": 20.32, "grad_norm": 0.3203125, "learning_rate": 0.0002999284895360079, "loss": 0.4301, "step": 15240 }, { "epoch": 20.333333333333332, "grad_norm": 0.25390625, "learning_rate": 0.00029992839247510713, "loss": 0.4379, "step": 15250 }, { "epoch": 20.346666666666668, "grad_norm": 0.283203125, "learning_rate": 0.0002999282953483966, "loss": 0.4283, "step": 15260 }, { "epoch": 20.36, "grad_norm": 0.322265625, "learning_rate": 0.0002999281981558763, "loss": 0.4307, "step": 15270 }, { "epoch": 20.373333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002999281008975462, "loss": 0.4295, "step": 15280 }, { "epoch": 20.386666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029992800357340647, "loss": 0.4235, "step": 15290 }, { "epoch": 20.4, "grad_norm": 0.27734375, "learning_rate": 0.0002999279061834571, "loss": 0.4288, "step": 15300 }, { "epoch": 20.413333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0002999278087276981, "loss": 0.4339, "step": 15310 }, { "epoch": 20.426666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029992771120612954, "loss": 0.4341, "step": 15320 }, { "epoch": 20.44, "grad_norm": 0.240234375, "learning_rate": 0.0002999276136187514, "loss": 0.4443, "step": 15330 }, { "epoch": 20.453333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002999275159655639, "loss": 0.4358, "step": 15340 }, { "epoch": 20.466666666666665, "grad_norm": 0.25390625, "learning_rate": 0.0002999274182465669, "loss": 0.4457, "step": 15350 }, { "epoch": 20.48, "grad_norm": 0.3359375, "learning_rate": 0.0002999273204617605, "loss": 0.4262, "step": 15360 }, { "epoch": 20.493333333333332, "grad_norm": 0.28515625, "learning_rate": 0.0002999272226111448, "loss": 0.4374, "step": 15370 }, { "epoch": 20.506666666666668, "grad_norm": 0.294921875, "learning_rate": 0.0002999271246947198, "loss": 0.4315, "step": 15380 }, { "epoch": 20.52, "grad_norm": 0.2294921875, "learning_rate": 0.00029992702671248543, "loss": 0.4229, "step": 15390 }, { "epoch": 20.533333333333335, "grad_norm": 0.326171875, "learning_rate": 0.00029992692866444195, "loss": 0.4266, "step": 15400 }, { "epoch": 20.546666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029992683055058924, "loss": 0.4299, "step": 15410 }, { "epoch": 20.56, "grad_norm": 0.33203125, "learning_rate": 0.00029992673237092747, "loss": 0.423, "step": 15420 }, { "epoch": 20.573333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029992663412545657, "loss": 0.4266, "step": 15430 }, { "epoch": 20.586666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029992653581417656, "loss": 0.4156, "step": 15440 }, { "epoch": 20.6, "grad_norm": 0.25390625, "learning_rate": 0.00029992643743708764, "loss": 0.4186, "step": 15450 }, { "epoch": 20.613333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.00029992633899418976, "loss": 0.4032, "step": 15460 }, { "epoch": 20.626666666666665, "grad_norm": 0.2412109375, "learning_rate": 0.0002999262404854829, "loss": 0.4078, "step": 15470 }, { "epoch": 20.64, "grad_norm": 0.294921875, "learning_rate": 0.0002999261419109672, "loss": 0.4249, "step": 15480 }, { "epoch": 20.653333333333332, "grad_norm": 0.255859375, "learning_rate": 0.00029992604327064266, "loss": 0.4354, "step": 15490 }, { "epoch": 20.666666666666668, "grad_norm": 0.345703125, "learning_rate": 0.00029992594456450933, "loss": 0.419, "step": 15500 }, { "epoch": 20.68, "grad_norm": 0.35546875, "learning_rate": 0.00029992584579256726, "loss": 0.413, "step": 15510 }, { "epoch": 20.693333333333335, "grad_norm": 0.2890625, "learning_rate": 0.0002999257469548165, "loss": 0.4218, "step": 15520 }, { "epoch": 20.706666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029992564805125707, "loss": 0.4156, "step": 15530 }, { "epoch": 20.72, "grad_norm": 0.265625, "learning_rate": 0.00029992554908188905, "loss": 0.4387, "step": 15540 }, { "epoch": 20.733333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029992545004671245, "loss": 0.432, "step": 15550 }, { "epoch": 20.746666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029992535094572727, "loss": 0.4324, "step": 15560 }, { "epoch": 20.76, "grad_norm": 0.3125, "learning_rate": 0.0002999252517789336, "loss": 0.4458, "step": 15570 }, { "epoch": 20.773333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002999251525463316, "loss": 0.436, "step": 15580 }, { "epoch": 20.786666666666665, "grad_norm": 0.234375, "learning_rate": 0.00029992505324792114, "loss": 0.4344, "step": 15590 }, { "epoch": 20.8, "grad_norm": 0.35546875, "learning_rate": 0.00029992495388370236, "loss": 0.433, "step": 15600 }, { "epoch": 20.813333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029992485445367526, "loss": 0.4086, "step": 15610 }, { "epoch": 20.826666666666668, "grad_norm": 0.30078125, "learning_rate": 0.00029992475495783987, "loss": 0.4195, "step": 15620 }, { "epoch": 20.84, "grad_norm": 0.328125, "learning_rate": 0.00029992465539619627, "loss": 0.4313, "step": 15630 }, { "epoch": 20.85333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999245557687445, "loss": 0.4267, "step": 15640 }, { "epoch": 20.866666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002999244560754846, "loss": 0.4288, "step": 15650 }, { "epoch": 20.88, "grad_norm": 0.25, "learning_rate": 0.00029992435631641655, "loss": 0.4079, "step": 15660 }, { "epoch": 20.893333333333334, "grad_norm": 0.244140625, "learning_rate": 0.00029992425649154054, "loss": 0.4179, "step": 15670 }, { "epoch": 20.906666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002999241566008565, "loss": 0.4269, "step": 15680 }, { "epoch": 20.92, "grad_norm": 0.314453125, "learning_rate": 0.00029992405664436446, "loss": 0.4295, "step": 15690 }, { "epoch": 20.933333333333334, "grad_norm": 0.240234375, "learning_rate": 0.00029992395662206456, "loss": 0.4201, "step": 15700 }, { "epoch": 20.946666666666665, "grad_norm": 0.2421875, "learning_rate": 0.0002999238565339568, "loss": 0.423, "step": 15710 }, { "epoch": 20.96, "grad_norm": 0.2578125, "learning_rate": 0.00029992375638004113, "loss": 0.4193, "step": 15720 }, { "epoch": 20.973333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029992365616031777, "loss": 0.4441, "step": 15730 }, { "epoch": 20.986666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0002999235558747866, "loss": 0.4228, "step": 15740 }, { "epoch": 21.0, "grad_norm": 0.27734375, "learning_rate": 0.00029992345552344775, "loss": 0.4144, "step": 15750 }, { "epoch": 21.0, "eval_loss": 0.4467250108718872, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1322, "eval_samples_per_second": 1.579, "eval_steps_per_second": 0.099, "step": 15750 }, { "epoch": 21.013333333333332, "grad_norm": 0.267578125, "learning_rate": 0.00029992335510630125, "loss": 0.435, "step": 15760 }, { "epoch": 21.026666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029992325462334715, "loss": 0.443, "step": 15770 }, { "epoch": 21.04, "grad_norm": 0.244140625, "learning_rate": 0.0002999231540745855, "loss": 0.455, "step": 15780 }, { "epoch": 21.053333333333335, "grad_norm": 0.279296875, "learning_rate": 0.00029992305346001637, "loss": 0.4431, "step": 15790 }, { "epoch": 21.066666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002999229527796397, "loss": 0.4293, "step": 15800 }, { "epoch": 21.08, "grad_norm": 0.373046875, "learning_rate": 0.0002999228520334556, "loss": 0.4337, "step": 15810 }, { "epoch": 21.093333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029992275122146415, "loss": 0.4343, "step": 15820 }, { "epoch": 21.106666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0002999226503436653, "loss": 0.4225, "step": 15830 }, { "epoch": 21.12, "grad_norm": 0.279296875, "learning_rate": 0.0002999225494000592, "loss": 0.4281, "step": 15840 }, { "epoch": 21.133333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002999224483906459, "loss": 0.4209, "step": 15850 }, { "epoch": 21.14666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029992234731542527, "loss": 0.4396, "step": 15860 }, { "epoch": 21.16, "grad_norm": 0.248046875, "learning_rate": 0.00029992224617439754, "loss": 0.4317, "step": 15870 }, { "epoch": 21.173333333333332, "grad_norm": 0.357421875, "learning_rate": 0.0002999221449675627, "loss": 0.4238, "step": 15880 }, { "epoch": 21.186666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002999220436949207, "loss": 0.4258, "step": 15890 }, { "epoch": 21.2, "grad_norm": 0.26953125, "learning_rate": 0.0002999219423564718, "loss": 0.4186, "step": 15900 }, { "epoch": 21.213333333333335, "grad_norm": 0.2578125, "learning_rate": 0.0002999218409522158, "loss": 0.4194, "step": 15910 }, { "epoch": 21.226666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029992173948215295, "loss": 0.4332, "step": 15920 }, { "epoch": 21.24, "grad_norm": 0.37890625, "learning_rate": 0.0002999216379462832, "loss": 0.4157, "step": 15930 }, { "epoch": 21.253333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002999215363446065, "loss": 0.4195, "step": 15940 }, { "epoch": 21.266666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002999214346771231, "loss": 0.4199, "step": 15950 }, { "epoch": 21.28, "grad_norm": 0.298828125, "learning_rate": 0.0002999213329438329, "loss": 0.4508, "step": 15960 }, { "epoch": 21.293333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002999212311447359, "loss": 0.4065, "step": 15970 }, { "epoch": 21.306666666666665, "grad_norm": 0.203125, "learning_rate": 0.0002999211292798323, "loss": 0.4289, "step": 15980 }, { "epoch": 21.32, "grad_norm": 0.294921875, "learning_rate": 0.0002999210273491221, "loss": 0.4301, "step": 15990 }, { "epoch": 21.333333333333332, "grad_norm": 0.265625, "learning_rate": 0.00029992092535260527, "loss": 0.4373, "step": 16000 }, { "epoch": 21.346666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029992082329028194, "loss": 0.4273, "step": 16010 }, { "epoch": 21.36, "grad_norm": 0.333984375, "learning_rate": 0.00029992072116215204, "loss": 0.43, "step": 16020 }, { "epoch": 21.373333333333335, "grad_norm": 0.306640625, "learning_rate": 0.00029992061896821573, "loss": 0.4269, "step": 16030 }, { "epoch": 21.386666666666667, "grad_norm": 0.29296875, "learning_rate": 0.000299920516708473, "loss": 0.4217, "step": 16040 }, { "epoch": 21.4, "grad_norm": 0.25, "learning_rate": 0.00029992041438292393, "loss": 0.428, "step": 16050 }, { "epoch": 21.413333333333334, "grad_norm": 0.267578125, "learning_rate": 0.00029992031199156855, "loss": 0.432, "step": 16060 }, { "epoch": 21.426666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0002999202095344069, "loss": 0.4328, "step": 16070 }, { "epoch": 21.44, "grad_norm": 0.244140625, "learning_rate": 0.000299920107011439, "loss": 0.4431, "step": 16080 }, { "epoch": 21.453333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029992000442266494, "loss": 0.4343, "step": 16090 }, { "epoch": 21.466666666666665, "grad_norm": 0.306640625, "learning_rate": 0.00029991990176808474, "loss": 0.4435, "step": 16100 }, { "epoch": 21.48, "grad_norm": 0.279296875, "learning_rate": 0.00029991979904769845, "loss": 0.4243, "step": 16110 }, { "epoch": 21.493333333333332, "grad_norm": 0.265625, "learning_rate": 0.0002999196962615061, "loss": 0.4351, "step": 16120 }, { "epoch": 21.506666666666668, "grad_norm": 0.2353515625, "learning_rate": 0.00029991959340950773, "loss": 0.4319, "step": 16130 }, { "epoch": 21.52, "grad_norm": 0.2177734375, "learning_rate": 0.0002999194904917034, "loss": 0.4221, "step": 16140 }, { "epoch": 21.533333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0002999193875080932, "loss": 0.4264, "step": 16150 }, { "epoch": 21.546666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029991928445867715, "loss": 0.4294, "step": 16160 }, { "epoch": 21.56, "grad_norm": 0.265625, "learning_rate": 0.0002999191813434553, "loss": 0.4227, "step": 16170 }, { "epoch": 21.573333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0002999190781624276, "loss": 0.4252, "step": 16180 }, { "epoch": 21.586666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002999189749155942, "loss": 0.4142, "step": 16190 }, { "epoch": 21.6, "grad_norm": 0.267578125, "learning_rate": 0.0002999188716029551, "loss": 0.4171, "step": 16200 }, { "epoch": 21.613333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029991876822451036, "loss": 0.4036, "step": 16210 }, { "epoch": 21.626666666666665, "grad_norm": 0.234375, "learning_rate": 0.00029991866478026007, "loss": 0.408, "step": 16220 }, { "epoch": 21.64, "grad_norm": 0.255859375, "learning_rate": 0.0002999185612702042, "loss": 0.4237, "step": 16230 }, { "epoch": 21.653333333333332, "grad_norm": 0.306640625, "learning_rate": 0.0002999184576943428, "loss": 0.4341, "step": 16240 }, { "epoch": 21.666666666666668, "grad_norm": 0.263671875, "learning_rate": 0.000299918354052676, "loss": 0.4173, "step": 16250 }, { "epoch": 21.68, "grad_norm": 0.2412109375, "learning_rate": 0.00029991825034520375, "loss": 0.4115, "step": 16260 }, { "epoch": 21.693333333333335, "grad_norm": 0.2470703125, "learning_rate": 0.0002999181465719262, "loss": 0.4203, "step": 16270 }, { "epoch": 21.706666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029991804273284324, "loss": 0.4143, "step": 16280 }, { "epoch": 21.72, "grad_norm": 0.271484375, "learning_rate": 0.000299917938827955, "loss": 0.4376, "step": 16290 }, { "epoch": 21.733333333333334, "grad_norm": 0.275390625, "learning_rate": 0.00029991783485726163, "loss": 0.4331, "step": 16300 }, { "epoch": 21.746666666666666, "grad_norm": 0.28125, "learning_rate": 0.000299917730820763, "loss": 0.4311, "step": 16310 }, { "epoch": 21.76, "grad_norm": 0.2578125, "learning_rate": 0.0002999176267184592, "loss": 0.4441, "step": 16320 }, { "epoch": 21.773333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002999175225503504, "loss": 0.4355, "step": 16330 }, { "epoch": 21.786666666666665, "grad_norm": 0.23828125, "learning_rate": 0.0002999174183164365, "loss": 0.4332, "step": 16340 }, { "epoch": 21.8, "grad_norm": 0.296875, "learning_rate": 0.0002999173140167176, "loss": 0.4328, "step": 16350 }, { "epoch": 21.813333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002999172096511938, "loss": 0.4071, "step": 16360 }, { "epoch": 21.826666666666668, "grad_norm": 0.298828125, "learning_rate": 0.000299917105219865, "loss": 0.4181, "step": 16370 }, { "epoch": 21.84, "grad_norm": 0.353515625, "learning_rate": 0.0002999170007227314, "loss": 0.4294, "step": 16380 }, { "epoch": 21.85333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029991689615979297, "loss": 0.4251, "step": 16390 }, { "epoch": 21.866666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029991679153104975, "loss": 0.4283, "step": 16400 }, { "epoch": 21.88, "grad_norm": 0.2734375, "learning_rate": 0.00029991668683650185, "loss": 0.4061, "step": 16410 }, { "epoch": 21.893333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002999165820761492, "loss": 0.4173, "step": 16420 }, { "epoch": 21.906666666666666, "grad_norm": 0.30859375, "learning_rate": 0.000299916477249992, "loss": 0.4259, "step": 16430 }, { "epoch": 21.92, "grad_norm": 0.2578125, "learning_rate": 0.0002999163723580301, "loss": 0.4292, "step": 16440 }, { "epoch": 21.933333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.0002999162674002638, "loss": 0.4198, "step": 16450 }, { "epoch": 21.946666666666665, "grad_norm": 0.259765625, "learning_rate": 0.00029991616237669283, "loss": 0.4219, "step": 16460 }, { "epoch": 21.96, "grad_norm": 0.29296875, "learning_rate": 0.00029991605728731753, "loss": 0.4185, "step": 16470 }, { "epoch": 21.973333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002999159521321378, "loss": 0.4438, "step": 16480 }, { "epoch": 21.986666666666668, "grad_norm": 0.287109375, "learning_rate": 0.0002999158469111538, "loss": 0.4214, "step": 16490 }, { "epoch": 22.0, "grad_norm": 0.25, "learning_rate": 0.0002999157416243653, "loss": 0.4129, "step": 16500 }, { "epoch": 22.0, "eval_loss": 0.44583550095558167, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0743, "eval_samples_per_second": 1.588, "eval_steps_per_second": 0.099, "step": 16500 }, { "epoch": 22.013333333333332, "grad_norm": 0.265625, "learning_rate": 0.0002999156362717727, "loss": 0.4332, "step": 16510 }, { "epoch": 22.026666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002999155308533758, "loss": 0.4428, "step": 16520 }, { "epoch": 22.04, "grad_norm": 0.326171875, "learning_rate": 0.00029991542536917477, "loss": 0.4552, "step": 16530 }, { "epoch": 22.053333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029991531981916956, "loss": 0.4425, "step": 16540 }, { "epoch": 22.066666666666666, "grad_norm": 0.26953125, "learning_rate": 0.00029991521420336033, "loss": 0.4284, "step": 16550 }, { "epoch": 22.08, "grad_norm": 0.3359375, "learning_rate": 0.000299915108521747, "loss": 0.4323, "step": 16560 }, { "epoch": 22.093333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029991500277432975, "loss": 0.4324, "step": 16570 }, { "epoch": 22.106666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.00029991489696110855, "loss": 0.4205, "step": 16580 }, { "epoch": 22.12, "grad_norm": 0.279296875, "learning_rate": 0.00029991479108208344, "loss": 0.4281, "step": 16590 }, { "epoch": 22.133333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029991468513725447, "loss": 0.4194, "step": 16600 }, { "epoch": 22.14666666666667, "grad_norm": 0.265625, "learning_rate": 0.0002999145791266217, "loss": 0.4385, "step": 16610 }, { "epoch": 22.16, "grad_norm": 0.310546875, "learning_rate": 0.00029991447305018515, "loss": 0.4302, "step": 16620 }, { "epoch": 22.173333333333332, "grad_norm": 0.337890625, "learning_rate": 0.000299914366907945, "loss": 0.4235, "step": 16630 }, { "epoch": 22.186666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002999142606999011, "loss": 0.4252, "step": 16640 }, { "epoch": 22.2, "grad_norm": 0.27734375, "learning_rate": 0.00029991415442605357, "loss": 0.4182, "step": 16650 }, { "epoch": 22.213333333333335, "grad_norm": 0.263671875, "learning_rate": 0.00029991404808640246, "loss": 0.4186, "step": 16660 }, { "epoch": 22.226666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002999139416809479, "loss": 0.4313, "step": 16670 }, { "epoch": 22.24, "grad_norm": 0.3515625, "learning_rate": 0.00029991383520968983, "loss": 0.4143, "step": 16680 }, { "epoch": 22.253333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002999137286726283, "loss": 0.4186, "step": 16690 }, { "epoch": 22.266666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029991362206976344, "loss": 0.4191, "step": 16700 }, { "epoch": 22.28, "grad_norm": 0.259765625, "learning_rate": 0.00029991351540109524, "loss": 0.4488, "step": 16710 }, { "epoch": 22.293333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002999134086666237, "loss": 0.4056, "step": 16720 }, { "epoch": 22.306666666666665, "grad_norm": 0.2412109375, "learning_rate": 0.000299913301866349, "loss": 0.4279, "step": 16730 }, { "epoch": 22.32, "grad_norm": 0.271484375, "learning_rate": 0.00029991319500027104, "loss": 0.4283, "step": 16740 }, { "epoch": 22.333333333333332, "grad_norm": 0.333984375, "learning_rate": 0.00029991308806839, "loss": 0.4362, "step": 16750 }, { "epoch": 22.346666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002999129810707058, "loss": 0.4255, "step": 16760 }, { "epoch": 22.36, "grad_norm": 0.259765625, "learning_rate": 0.0002999128740072186, "loss": 0.429, "step": 16770 }, { "epoch": 22.373333333333335, "grad_norm": 0.244140625, "learning_rate": 0.00029991276687792834, "loss": 0.4269, "step": 16780 }, { "epoch": 22.386666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029991265968283516, "loss": 0.4203, "step": 16790 }, { "epoch": 22.4, "grad_norm": 0.259765625, "learning_rate": 0.00029991255242193903, "loss": 0.4264, "step": 16800 }, { "epoch": 22.413333333333334, "grad_norm": 0.2578125, "learning_rate": 0.00029991244509524007, "loss": 0.4314, "step": 16810 }, { "epoch": 22.426666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0002999123377027382, "loss": 0.4323, "step": 16820 }, { "epoch": 22.44, "grad_norm": 0.265625, "learning_rate": 0.0002999122302444337, "loss": 0.443, "step": 16830 }, { "epoch": 22.453333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002999121227203264, "loss": 0.4325, "step": 16840 }, { "epoch": 22.466666666666665, "grad_norm": 0.375, "learning_rate": 0.00029991201513041645, "loss": 0.443, "step": 16850 }, { "epoch": 22.48, "grad_norm": 0.255859375, "learning_rate": 0.0002999119074747038, "loss": 0.4237, "step": 16860 }, { "epoch": 22.493333333333332, "grad_norm": 0.255859375, "learning_rate": 0.0002999117997531887, "loss": 0.435, "step": 16870 }, { "epoch": 22.506666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0002999116919658709, "loss": 0.4305, "step": 16880 }, { "epoch": 22.52, "grad_norm": 0.2451171875, "learning_rate": 0.00029991158411275077, "loss": 0.4208, "step": 16890 }, { "epoch": 22.533333333333335, "grad_norm": 0.302734375, "learning_rate": 0.0002999114761938281, "loss": 0.4247, "step": 16900 }, { "epoch": 22.546666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029991136820910305, "loss": 0.427, "step": 16910 }, { "epoch": 22.56, "grad_norm": 0.2431640625, "learning_rate": 0.00029991126015857565, "loss": 0.4215, "step": 16920 }, { "epoch": 22.573333333333334, "grad_norm": 0.2578125, "learning_rate": 0.000299911152042246, "loss": 0.424, "step": 16930 }, { "epoch": 22.586666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002999110438601141, "loss": 0.4126, "step": 16940 }, { "epoch": 22.6, "grad_norm": 0.271484375, "learning_rate": 0.00029991093561217993, "loss": 0.4162, "step": 16950 }, { "epoch": 22.613333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0002999108272984437, "loss": 0.402, "step": 16960 }, { "epoch": 22.626666666666665, "grad_norm": 0.216796875, "learning_rate": 0.0002999107189189053, "loss": 0.4061, "step": 16970 }, { "epoch": 22.64, "grad_norm": 0.30078125, "learning_rate": 0.00029991061047356484, "loss": 0.4224, "step": 16980 }, { "epoch": 22.653333333333332, "grad_norm": 0.26171875, "learning_rate": 0.00029991050196242233, "loss": 0.4328, "step": 16990 }, { "epoch": 22.666666666666668, "grad_norm": 0.27734375, "learning_rate": 0.0002999103933854779, "loss": 0.4168, "step": 17000 }, { "epoch": 22.68, "grad_norm": 0.361328125, "learning_rate": 0.0002999102847427316, "loss": 0.4117, "step": 17010 }, { "epoch": 22.693333333333335, "grad_norm": 0.2490234375, "learning_rate": 0.00029991017603418334, "loss": 0.4193, "step": 17020 }, { "epoch": 22.706666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002999100672598333, "loss": 0.413, "step": 17030 }, { "epoch": 22.72, "grad_norm": 0.298828125, "learning_rate": 0.0002999099584196815, "loss": 0.438, "step": 17040 }, { "epoch": 22.733333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0002999098495137279, "loss": 0.4302, "step": 17050 }, { "epoch": 22.746666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029990974054197275, "loss": 0.4299, "step": 17060 }, { "epoch": 22.76, "grad_norm": 0.2734375, "learning_rate": 0.0002999096315044159, "loss": 0.4437, "step": 17070 }, { "epoch": 22.773333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002999095224010575, "loss": 0.4335, "step": 17080 }, { "epoch": 22.786666666666665, "grad_norm": 0.25390625, "learning_rate": 0.0002999094132318975, "loss": 0.4324, "step": 17090 }, { "epoch": 22.8, "grad_norm": 0.3359375, "learning_rate": 0.00029990930399693603, "loss": 0.4317, "step": 17100 }, { "epoch": 22.813333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029990919469617314, "loss": 0.4056, "step": 17110 }, { "epoch": 22.826666666666668, "grad_norm": 0.2890625, "learning_rate": 0.00029990908532960883, "loss": 0.417, "step": 17120 }, { "epoch": 22.84, "grad_norm": 0.306640625, "learning_rate": 0.0002999089758972432, "loss": 0.428, "step": 17130 }, { "epoch": 22.85333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002999088663990763, "loss": 0.4244, "step": 17140 }, { "epoch": 22.866666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029990875683510814, "loss": 0.4268, "step": 17150 }, { "epoch": 22.88, "grad_norm": 0.255859375, "learning_rate": 0.00029990864720533874, "loss": 0.4047, "step": 17160 }, { "epoch": 22.893333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002999085375097682, "loss": 0.4158, "step": 17170 }, { "epoch": 22.906666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0002999084277483966, "loss": 0.4251, "step": 17180 }, { "epoch": 22.92, "grad_norm": 0.33203125, "learning_rate": 0.0002999083179212239, "loss": 0.4271, "step": 17190 }, { "epoch": 22.933333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002999082080282502, "loss": 0.4188, "step": 17200 }, { "epoch": 22.946666666666665, "grad_norm": 0.265625, "learning_rate": 0.0002999080980694756, "loss": 0.4205, "step": 17210 }, { "epoch": 22.96, "grad_norm": 0.353515625, "learning_rate": 0.00029990798804490005, "loss": 0.4171, "step": 17220 }, { "epoch": 22.973333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002999078779545236, "loss": 0.4419, "step": 17230 }, { "epoch": 22.986666666666668, "grad_norm": 0.28515625, "learning_rate": 0.0002999077677983464, "loss": 0.4207, "step": 17240 }, { "epoch": 23.0, "grad_norm": 0.283203125, "learning_rate": 0.0002999076575763684, "loss": 0.4113, "step": 17250 }, { "epoch": 23.0, "eval_loss": 0.4455166757106781, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8486, "eval_samples_per_second": 1.625, "eval_steps_per_second": 0.102, "step": 17250 }, { "epoch": 23.013333333333332, "grad_norm": 0.2734375, "learning_rate": 0.0002999075472885897, "loss": 0.4312, "step": 17260 }, { "epoch": 23.026666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002999074369350103, "loss": 0.4424, "step": 17270 }, { "epoch": 23.04, "grad_norm": 0.267578125, "learning_rate": 0.0002999073265156303, "loss": 0.4536, "step": 17280 }, { "epoch": 23.053333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029990721603044974, "loss": 0.4408, "step": 17290 }, { "epoch": 23.066666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029990710547946867, "loss": 0.4285, "step": 17300 }, { "epoch": 23.08, "grad_norm": 0.2734375, "learning_rate": 0.00029990699486268703, "loss": 0.432, "step": 17310 }, { "epoch": 23.093333333333334, "grad_norm": 0.259765625, "learning_rate": 0.00029990688418010507, "loss": 0.4311, "step": 17320 }, { "epoch": 23.106666666666666, "grad_norm": 0.27734375, "learning_rate": 0.0002999067734317227, "loss": 0.4203, "step": 17330 }, { "epoch": 23.12, "grad_norm": 0.2734375, "learning_rate": 0.00029990666261754, "loss": 0.426, "step": 17340 }, { "epoch": 23.133333333333333, "grad_norm": 0.265625, "learning_rate": 0.000299906551737557, "loss": 0.4182, "step": 17350 }, { "epoch": 23.14666666666667, "grad_norm": 0.26953125, "learning_rate": 0.00029990644079177386, "loss": 0.436, "step": 17360 }, { "epoch": 23.16, "grad_norm": 0.2490234375, "learning_rate": 0.00029990632978019047, "loss": 0.4288, "step": 17370 }, { "epoch": 23.173333333333332, "grad_norm": 0.365234375, "learning_rate": 0.0002999062187028069, "loss": 0.4221, "step": 17380 }, { "epoch": 23.186666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002999061075596233, "loss": 0.4232, "step": 17390 }, { "epoch": 23.2, "grad_norm": 0.3984375, "learning_rate": 0.00029990599635063963, "loss": 0.4179, "step": 17400 }, { "epoch": 23.213333333333335, "grad_norm": 0.3203125, "learning_rate": 0.000299905885075856, "loss": 0.4181, "step": 17410 }, { "epoch": 23.226666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029990577373527246, "loss": 0.4315, "step": 17420 }, { "epoch": 23.24, "grad_norm": 0.296875, "learning_rate": 0.00029990566232888894, "loss": 0.4142, "step": 17430 }, { "epoch": 23.253333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002999055508567057, "loss": 0.4177, "step": 17440 }, { "epoch": 23.266666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029990543931872256, "loss": 0.4177, "step": 17450 }, { "epoch": 23.28, "grad_norm": 0.294921875, "learning_rate": 0.00029990532771493976, "loss": 0.4494, "step": 17460 }, { "epoch": 23.293333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002999052160453572, "loss": 0.4051, "step": 17470 }, { "epoch": 23.306666666666665, "grad_norm": 0.255859375, "learning_rate": 0.000299905104309975, "loss": 0.427, "step": 17480 }, { "epoch": 23.32, "grad_norm": 0.326171875, "learning_rate": 0.00029990499250879323, "loss": 0.4268, "step": 17490 }, { "epoch": 23.333333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029990488064181195, "loss": 0.4351, "step": 17500 }, { "epoch": 23.346666666666668, "grad_norm": 0.328125, "learning_rate": 0.0002999047687090311, "loss": 0.425, "step": 17510 }, { "epoch": 23.36, "grad_norm": 0.314453125, "learning_rate": 0.0002999046567104508, "loss": 0.4272, "step": 17520 }, { "epoch": 23.373333333333335, "grad_norm": 0.271484375, "learning_rate": 0.00029990454464607117, "loss": 0.4255, "step": 17530 }, { "epoch": 23.386666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029990443251589217, "loss": 0.4196, "step": 17540 }, { "epoch": 23.4, "grad_norm": 0.2734375, "learning_rate": 0.00029990432031991386, "loss": 0.4261, "step": 17550 }, { "epoch": 23.413333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029990420805813624, "loss": 0.4295, "step": 17560 }, { "epoch": 23.426666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0002999040957305595, "loss": 0.4314, "step": 17570 }, { "epoch": 23.44, "grad_norm": 0.259765625, "learning_rate": 0.00029990398333718356, "loss": 0.442, "step": 17580 }, { "epoch": 23.453333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029990387087800856, "loss": 0.4317, "step": 17590 }, { "epoch": 23.466666666666665, "grad_norm": 0.314453125, "learning_rate": 0.00029990375835303447, "loss": 0.4403, "step": 17600 }, { "epoch": 23.48, "grad_norm": 0.2470703125, "learning_rate": 0.0002999036457622614, "loss": 0.4218, "step": 17610 }, { "epoch": 23.493333333333332, "grad_norm": 0.26953125, "learning_rate": 0.00029990353310568933, "loss": 0.433, "step": 17620 }, { "epoch": 23.506666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0002999034203833184, "loss": 0.4289, "step": 17630 }, { "epoch": 23.52, "grad_norm": 0.23828125, "learning_rate": 0.0002999033075951486, "loss": 0.419, "step": 17640 }, { "epoch": 23.533333333333335, "grad_norm": 0.251953125, "learning_rate": 0.00029990319474117996, "loss": 0.4236, "step": 17650 }, { "epoch": 23.546666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029990308182141257, "loss": 0.4261, "step": 17660 }, { "epoch": 23.56, "grad_norm": 0.271484375, "learning_rate": 0.00029990296883584657, "loss": 0.4194, "step": 17670 }, { "epoch": 23.573333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002999028557844818, "loss": 0.4222, "step": 17680 }, { "epoch": 23.586666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029990274266731843, "loss": 0.4124, "step": 17690 }, { "epoch": 23.6, "grad_norm": 0.248046875, "learning_rate": 0.0002999026294843565, "loss": 0.4137, "step": 17700 }, { "epoch": 23.613333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.00029990251623559616, "loss": 0.4004, "step": 17710 }, { "epoch": 23.626666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029990240292103725, "loss": 0.4056, "step": 17720 }, { "epoch": 23.64, "grad_norm": 0.271484375, "learning_rate": 0.00029990228954067995, "loss": 0.4215, "step": 17730 }, { "epoch": 23.653333333333332, "grad_norm": 0.28125, "learning_rate": 0.0002999021760945243, "loss": 0.4313, "step": 17740 }, { "epoch": 23.666666666666668, "grad_norm": 0.294921875, "learning_rate": 0.00029990206258257037, "loss": 0.4161, "step": 17750 }, { "epoch": 23.68, "grad_norm": 0.279296875, "learning_rate": 0.00029990194900481813, "loss": 0.4096, "step": 17760 }, { "epoch": 23.693333333333335, "grad_norm": 0.23046875, "learning_rate": 0.0002999018353612677, "loss": 0.4181, "step": 17770 }, { "epoch": 23.706666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029990172165191914, "loss": 0.413, "step": 17780 }, { "epoch": 23.72, "grad_norm": 0.302734375, "learning_rate": 0.00029990160787677245, "loss": 0.4365, "step": 17790 }, { "epoch": 23.733333333333334, "grad_norm": 0.265625, "learning_rate": 0.0002999014940358277, "loss": 0.4298, "step": 17800 }, { "epoch": 23.746666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002999013801290849, "loss": 0.4295, "step": 17810 }, { "epoch": 23.76, "grad_norm": 0.271484375, "learning_rate": 0.00029990126615654417, "loss": 0.4429, "step": 17820 }, { "epoch": 23.773333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002999011521182055, "loss": 0.4329, "step": 17830 }, { "epoch": 23.786666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.00029990103801406904, "loss": 0.4314, "step": 17840 }, { "epoch": 23.8, "grad_norm": 0.318359375, "learning_rate": 0.00029990092384413474, "loss": 0.4303, "step": 17850 }, { "epoch": 23.813333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029990080960840264, "loss": 0.4032, "step": 17860 }, { "epoch": 23.826666666666668, "grad_norm": 0.25390625, "learning_rate": 0.0002999006953068728, "loss": 0.4162, "step": 17870 }, { "epoch": 23.84, "grad_norm": 0.333984375, "learning_rate": 0.0002999005809395454, "loss": 0.4284, "step": 17880 }, { "epoch": 23.85333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002999004665064203, "loss": 0.4216, "step": 17890 }, { "epoch": 23.866666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002999003520074977, "loss": 0.4252, "step": 17900 }, { "epoch": 23.88, "grad_norm": 0.259765625, "learning_rate": 0.00029990023744277754, "loss": 0.4045, "step": 17910 }, { "epoch": 23.893333333333334, "grad_norm": 0.29296875, "learning_rate": 0.00029990012281226, "loss": 0.4151, "step": 17920 }, { "epoch": 23.906666666666666, "grad_norm": 0.30859375, "learning_rate": 0.000299900008115945, "loss": 0.4237, "step": 17930 }, { "epoch": 23.92, "grad_norm": 0.28125, "learning_rate": 0.0002998998933538326, "loss": 0.4247, "step": 17940 }, { "epoch": 23.933333333333334, "grad_norm": 0.2265625, "learning_rate": 0.000299899778525923, "loss": 0.4177, "step": 17950 }, { "epoch": 23.946666666666665, "grad_norm": 0.28515625, "learning_rate": 0.0002998996636322161, "loss": 0.4195, "step": 17960 }, { "epoch": 23.96, "grad_norm": 0.287109375, "learning_rate": 0.00029989954867271193, "loss": 0.417, "step": 17970 }, { "epoch": 23.973333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029989943364741063, "loss": 0.4419, "step": 17980 }, { "epoch": 23.986666666666668, "grad_norm": 0.279296875, "learning_rate": 0.00029989931855631225, "loss": 0.4201, "step": 17990 }, { "epoch": 24.0, "grad_norm": 0.30078125, "learning_rate": 0.0002998992033994168, "loss": 0.4115, "step": 18000 }, { "epoch": 24.0, "eval_loss": 0.4436083436012268, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8922, "eval_samples_per_second": 1.617, "eval_steps_per_second": 0.101, "step": 18000 }, { "epoch": 24.013333333333332, "grad_norm": 0.28125, "learning_rate": 0.00029989908817672434, "loss": 0.4317, "step": 18010 }, { "epoch": 24.026666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0002998989728882349, "loss": 0.4401, "step": 18020 }, { "epoch": 24.04, "grad_norm": 0.298828125, "learning_rate": 0.00029989885753394863, "loss": 0.4524, "step": 18030 }, { "epoch": 24.053333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0002998987421138654, "loss": 0.4395, "step": 18040 }, { "epoch": 24.066666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002998986266279855, "loss": 0.4266, "step": 18050 }, { "epoch": 24.08, "grad_norm": 0.33984375, "learning_rate": 0.0002998985110763087, "loss": 0.4311, "step": 18060 }, { "epoch": 24.093333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002998983954588353, "loss": 0.431, "step": 18070 }, { "epoch": 24.106666666666666, "grad_norm": 0.287109375, "learning_rate": 0.00029989827977556523, "loss": 0.4195, "step": 18080 }, { "epoch": 24.12, "grad_norm": 0.287109375, "learning_rate": 0.00029989816402649854, "loss": 0.4256, "step": 18090 }, { "epoch": 24.133333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002998980482116353, "loss": 0.4178, "step": 18100 }, { "epoch": 24.14666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002998979323309756, "loss": 0.4355, "step": 18110 }, { "epoch": 24.16, "grad_norm": 0.25390625, "learning_rate": 0.0002998978163845194, "loss": 0.4282, "step": 18120 }, { "epoch": 24.173333333333332, "grad_norm": 0.283203125, "learning_rate": 0.00029989770037226683, "loss": 0.4203, "step": 18130 }, { "epoch": 24.186666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0002998975842942179, "loss": 0.4219, "step": 18140 }, { "epoch": 24.2, "grad_norm": 0.283203125, "learning_rate": 0.0002998974681503727, "loss": 0.4163, "step": 18150 }, { "epoch": 24.213333333333335, "grad_norm": 0.28125, "learning_rate": 0.00029989735194073126, "loss": 0.4163, "step": 18160 }, { "epoch": 24.226666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029989723566529363, "loss": 0.4303, "step": 18170 }, { "epoch": 24.24, "grad_norm": 0.314453125, "learning_rate": 0.0002998971193240598, "loss": 0.413, "step": 18180 }, { "epoch": 24.253333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029989700291702993, "loss": 0.4167, "step": 18190 }, { "epoch": 24.266666666666666, "grad_norm": 0.248046875, "learning_rate": 0.00029989688644420397, "loss": 0.4179, "step": 18200 }, { "epoch": 24.28, "grad_norm": 0.26953125, "learning_rate": 0.0002998967699055821, "loss": 0.4475, "step": 18210 }, { "epoch": 24.293333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029989665330116427, "loss": 0.4039, "step": 18220 }, { "epoch": 24.306666666666665, "grad_norm": 0.26953125, "learning_rate": 0.0002998965366309505, "loss": 0.4262, "step": 18230 }, { "epoch": 24.32, "grad_norm": 0.287109375, "learning_rate": 0.00029989641989494094, "loss": 0.4266, "step": 18240 }, { "epoch": 24.333333333333332, "grad_norm": 0.259765625, "learning_rate": 0.0002998963030931356, "loss": 0.4337, "step": 18250 }, { "epoch": 24.346666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029989618622553447, "loss": 0.4236, "step": 18260 }, { "epoch": 24.36, "grad_norm": 0.31640625, "learning_rate": 0.00029989606929213775, "loss": 0.4267, "step": 18270 }, { "epoch": 24.373333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0002998959522929453, "loss": 0.4236, "step": 18280 }, { "epoch": 24.386666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002998958352279573, "loss": 0.4182, "step": 18290 }, { "epoch": 24.4, "grad_norm": 0.2734375, "learning_rate": 0.0002998957180971739, "loss": 0.4245, "step": 18300 }, { "epoch": 24.413333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002998956009005949, "loss": 0.4288, "step": 18310 }, { "epoch": 24.426666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0002998954836382205, "loss": 0.4297, "step": 18320 }, { "epoch": 24.44, "grad_norm": 0.2890625, "learning_rate": 0.0002998953663100507, "loss": 0.4406, "step": 18330 }, { "epoch": 24.453333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002998952489160856, "loss": 0.4306, "step": 18340 }, { "epoch": 24.466666666666665, "grad_norm": 0.341796875, "learning_rate": 0.00029989513145632526, "loss": 0.4404, "step": 18350 }, { "epoch": 24.48, "grad_norm": 0.2890625, "learning_rate": 0.0002998950139307696, "loss": 0.4218, "step": 18360 }, { "epoch": 24.493333333333332, "grad_norm": 0.2734375, "learning_rate": 0.0002998948963394189, "loss": 0.4331, "step": 18370 }, { "epoch": 24.506666666666668, "grad_norm": 0.29296875, "learning_rate": 0.000299894778682273, "loss": 0.4288, "step": 18380 }, { "epoch": 24.52, "grad_norm": 0.28515625, "learning_rate": 0.00029989466095933206, "loss": 0.4186, "step": 18390 }, { "epoch": 24.533333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029989454317059616, "loss": 0.4231, "step": 18400 }, { "epoch": 24.546666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029989442531606523, "loss": 0.4261, "step": 18410 }, { "epoch": 24.56, "grad_norm": 0.2236328125, "learning_rate": 0.0002998943073957394, "loss": 0.4188, "step": 18420 }, { "epoch": 24.573333333333334, "grad_norm": 0.265625, "learning_rate": 0.0002998941894096188, "loss": 0.4221, "step": 18430 }, { "epoch": 24.586666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0002998940713577033, "loss": 0.4108, "step": 18440 }, { "epoch": 24.6, "grad_norm": 0.271484375, "learning_rate": 0.0002998939532399931, "loss": 0.4135, "step": 18450 }, { "epoch": 24.613333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0002998938350564881, "loss": 0.3995, "step": 18460 }, { "epoch": 24.626666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029989371680718855, "loss": 0.4041, "step": 18470 }, { "epoch": 24.64, "grad_norm": 0.26171875, "learning_rate": 0.00029989359849209434, "loss": 0.4208, "step": 18480 }, { "epoch": 24.653333333333332, "grad_norm": 0.263671875, "learning_rate": 0.00029989348011120564, "loss": 0.4315, "step": 18490 }, { "epoch": 24.666666666666668, "grad_norm": 0.2578125, "learning_rate": 0.00029989336166452246, "loss": 0.4153, "step": 18500 }, { "epoch": 24.68, "grad_norm": 0.28515625, "learning_rate": 0.00029989324315204475, "loss": 0.4085, "step": 18510 }, { "epoch": 24.693333333333335, "grad_norm": 0.298828125, "learning_rate": 0.00029989312457377276, "loss": 0.4171, "step": 18520 }, { "epoch": 24.706666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029989300592970635, "loss": 0.4111, "step": 18530 }, { "epoch": 24.72, "grad_norm": 0.28125, "learning_rate": 0.00029989288721984567, "loss": 0.4344, "step": 18540 }, { "epoch": 24.733333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029989276844419083, "loss": 0.4285, "step": 18550 }, { "epoch": 24.746666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002998926496027417, "loss": 0.4286, "step": 18560 }, { "epoch": 24.76, "grad_norm": 0.294921875, "learning_rate": 0.00029989253069549846, "loss": 0.4412, "step": 18570 }, { "epoch": 24.773333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002998924117224612, "loss": 0.4323, "step": 18580 }, { "epoch": 24.786666666666665, "grad_norm": 0.279296875, "learning_rate": 0.0002998922926836299, "loss": 0.4305, "step": 18590 }, { "epoch": 24.8, "grad_norm": 0.310546875, "learning_rate": 0.00029989217357900464, "loss": 0.4301, "step": 18600 }, { "epoch": 24.813333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029989205440858545, "loss": 0.404, "step": 18610 }, { "epoch": 24.826666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0002998919351723723, "loss": 0.4157, "step": 18620 }, { "epoch": 24.84, "grad_norm": 0.333984375, "learning_rate": 0.00029989181587036545, "loss": 0.4272, "step": 18630 }, { "epoch": 24.85333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002998916965025648, "loss": 0.4217, "step": 18640 }, { "epoch": 24.866666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029989157706897045, "loss": 0.4238, "step": 18650 }, { "epoch": 24.88, "grad_norm": 0.2734375, "learning_rate": 0.0002998914575695824, "loss": 0.403, "step": 18660 }, { "epoch": 24.893333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0002998913380044008, "loss": 0.4132, "step": 18670 }, { "epoch": 24.906666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002998912183734256, "loss": 0.4234, "step": 18680 }, { "epoch": 24.92, "grad_norm": 0.30078125, "learning_rate": 0.00029989109867665695, "loss": 0.4234, "step": 18690 }, { "epoch": 24.933333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0002998909789140948, "loss": 0.4164, "step": 18700 }, { "epoch": 24.946666666666665, "grad_norm": 0.3125, "learning_rate": 0.00029989085908573926, "loss": 0.4183, "step": 18710 }, { "epoch": 24.96, "grad_norm": 0.29296875, "learning_rate": 0.0002998907391915904, "loss": 0.416, "step": 18720 }, { "epoch": 24.973333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002998906192316483, "loss": 0.4415, "step": 18730 }, { "epoch": 24.986666666666668, "grad_norm": 0.2578125, "learning_rate": 0.00029989049920591286, "loss": 0.4179, "step": 18740 }, { "epoch": 25.0, "grad_norm": 0.25390625, "learning_rate": 0.0002998903791143843, "loss": 0.4103, "step": 18750 }, { "epoch": 25.0, "eval_loss": 0.4437078833580017, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6466, "eval_samples_per_second": 1.659, "eval_steps_per_second": 0.104, "step": 18750 }, { "epoch": 25.013333333333332, "grad_norm": 0.326171875, "learning_rate": 0.0002998902589570626, "loss": 0.4301, "step": 18760 }, { "epoch": 25.026666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002998901387339478, "loss": 0.4396, "step": 18770 }, { "epoch": 25.04, "grad_norm": 0.33203125, "learning_rate": 0.00029989001844503996, "loss": 0.4527, "step": 18780 }, { "epoch": 25.053333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002998898980903392, "loss": 0.4392, "step": 18790 }, { "epoch": 25.066666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029988977766984547, "loss": 0.4267, "step": 18800 }, { "epoch": 25.08, "grad_norm": 0.275390625, "learning_rate": 0.0002998896571835589, "loss": 0.4305, "step": 18810 }, { "epoch": 25.093333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002998895366314795, "loss": 0.4304, "step": 18820 }, { "epoch": 25.106666666666666, "grad_norm": 0.294921875, "learning_rate": 0.00029988941601360737, "loss": 0.4192, "step": 18830 }, { "epoch": 25.12, "grad_norm": 0.31640625, "learning_rate": 0.0002998892953299425, "loss": 0.4247, "step": 18840 }, { "epoch": 25.133333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002998891745804849, "loss": 0.416, "step": 18850 }, { "epoch": 25.14666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002998890537652348, "loss": 0.4346, "step": 18860 }, { "epoch": 25.16, "grad_norm": 0.265625, "learning_rate": 0.00029988893288419215, "loss": 0.4271, "step": 18870 }, { "epoch": 25.173333333333332, "grad_norm": 0.255859375, "learning_rate": 0.0002998888119373569, "loss": 0.4219, "step": 18880 }, { "epoch": 25.186666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002998886909247293, "loss": 0.4219, "step": 18890 }, { "epoch": 25.2, "grad_norm": 0.330078125, "learning_rate": 0.0002998885698463093, "loss": 0.4149, "step": 18900 }, { "epoch": 25.213333333333335, "grad_norm": 0.376953125, "learning_rate": 0.00029988844870209696, "loss": 0.4164, "step": 18910 }, { "epoch": 25.226666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002998883274920923, "loss": 0.4288, "step": 18920 }, { "epoch": 25.24, "grad_norm": 0.28515625, "learning_rate": 0.00029988820621629545, "loss": 0.4111, "step": 18930 }, { "epoch": 25.253333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002998880848747064, "loss": 0.4148, "step": 18940 }, { "epoch": 25.266666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0002998879634673252, "loss": 0.4161, "step": 18950 }, { "epoch": 25.28, "grad_norm": 0.306640625, "learning_rate": 0.00029988784199415196, "loss": 0.4463, "step": 18960 }, { "epoch": 25.293333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029988772045518676, "loss": 0.4025, "step": 18970 }, { "epoch": 25.306666666666665, "grad_norm": 0.248046875, "learning_rate": 0.00029988759885042946, "loss": 0.4249, "step": 18980 }, { "epoch": 25.32, "grad_norm": 0.2470703125, "learning_rate": 0.0002998874771798804, "loss": 0.4249, "step": 18990 }, { "epoch": 25.333333333333332, "grad_norm": 0.275390625, "learning_rate": 0.0002998873554435394, "loss": 0.4332, "step": 19000 }, { "epoch": 25.346666666666668, "grad_norm": 0.2890625, "learning_rate": 0.00029988723364140655, "loss": 0.423, "step": 19010 }, { "epoch": 25.36, "grad_norm": 0.302734375, "learning_rate": 0.000299887111773482, "loss": 0.4257, "step": 19020 }, { "epoch": 25.373333333333335, "grad_norm": 0.263671875, "learning_rate": 0.00029988698983976573, "loss": 0.4222, "step": 19030 }, { "epoch": 25.386666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029988686784025785, "loss": 0.4177, "step": 19040 }, { "epoch": 25.4, "grad_norm": 0.28515625, "learning_rate": 0.00029988674577495836, "loss": 0.4237, "step": 19050 }, { "epoch": 25.413333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0002998866236438673, "loss": 0.4278, "step": 19060 }, { "epoch": 25.426666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0002998865014469848, "loss": 0.4287, "step": 19070 }, { "epoch": 25.44, "grad_norm": 0.267578125, "learning_rate": 0.00029988637918431087, "loss": 0.4395, "step": 19080 }, { "epoch": 25.453333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029988625685584553, "loss": 0.4302, "step": 19090 }, { "epoch": 25.466666666666665, "grad_norm": 0.326171875, "learning_rate": 0.0002998861344615889, "loss": 0.4392, "step": 19100 }, { "epoch": 25.48, "grad_norm": 0.349609375, "learning_rate": 0.000299886012001541, "loss": 0.4199, "step": 19110 }, { "epoch": 25.493333333333332, "grad_norm": 0.271484375, "learning_rate": 0.00029988588947570187, "loss": 0.4318, "step": 19120 }, { "epoch": 25.506666666666668, "grad_norm": 0.287109375, "learning_rate": 0.0002998857668840716, "loss": 0.4272, "step": 19130 }, { "epoch": 25.52, "grad_norm": 0.2734375, "learning_rate": 0.00029988564422665017, "loss": 0.4178, "step": 19140 }, { "epoch": 25.533333333333335, "grad_norm": 0.2734375, "learning_rate": 0.00029988552150343777, "loss": 0.4226, "step": 19150 }, { "epoch": 25.546666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002998853987144343, "loss": 0.4244, "step": 19160 }, { "epoch": 25.56, "grad_norm": 0.255859375, "learning_rate": 0.0002998852758596399, "loss": 0.4182, "step": 19170 }, { "epoch": 25.573333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002998851529390546, "loss": 0.421, "step": 19180 }, { "epoch": 25.586666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002998850299526785, "loss": 0.4106, "step": 19190 }, { "epoch": 25.6, "grad_norm": 0.24609375, "learning_rate": 0.00029988490690051155, "loss": 0.412, "step": 19200 }, { "epoch": 25.613333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.00029988478378255393, "loss": 0.3993, "step": 19210 }, { "epoch": 25.626666666666665, "grad_norm": 0.28125, "learning_rate": 0.00029988466059880563, "loss": 0.4043, "step": 19220 }, { "epoch": 25.64, "grad_norm": 0.26171875, "learning_rate": 0.0002998845373492667, "loss": 0.4201, "step": 19230 }, { "epoch": 25.653333333333332, "grad_norm": 0.26171875, "learning_rate": 0.00029988441403393717, "loss": 0.4298, "step": 19240 }, { "epoch": 25.666666666666668, "grad_norm": 0.29296875, "learning_rate": 0.0002998842906528172, "loss": 0.4136, "step": 19250 }, { "epoch": 25.68, "grad_norm": 0.296875, "learning_rate": 0.00029988416720590666, "loss": 0.408, "step": 19260 }, { "epoch": 25.693333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0002998840436932058, "loss": 0.4166, "step": 19270 }, { "epoch": 25.706666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029988392011471454, "loss": 0.4108, "step": 19280 }, { "epoch": 25.72, "grad_norm": 0.3125, "learning_rate": 0.00029988379647043304, "loss": 0.4343, "step": 19290 }, { "epoch": 25.733333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029988367276036123, "loss": 0.4275, "step": 19300 }, { "epoch": 25.746666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002998835489844993, "loss": 0.4285, "step": 19310 }, { "epoch": 25.76, "grad_norm": 0.29296875, "learning_rate": 0.00029988342514284717, "loss": 0.4407, "step": 19320 }, { "epoch": 25.773333333333333, "grad_norm": 0.296875, "learning_rate": 0.000299883301235405, "loss": 0.4309, "step": 19330 }, { "epoch": 25.786666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029988317726217274, "loss": 0.4297, "step": 19340 }, { "epoch": 25.8, "grad_norm": 0.328125, "learning_rate": 0.0002998830532231506, "loss": 0.4279, "step": 19350 }, { "epoch": 25.813333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002998829291183385, "loss": 0.4018, "step": 19360 }, { "epoch": 25.826666666666668, "grad_norm": 0.30078125, "learning_rate": 0.0002998828049477365, "loss": 0.4145, "step": 19370 }, { "epoch": 25.84, "grad_norm": 0.30078125, "learning_rate": 0.0002998826807113448, "loss": 0.425, "step": 19380 }, { "epoch": 25.85333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002998825564091633, "loss": 0.4207, "step": 19390 }, { "epoch": 25.866666666666667, "grad_norm": 0.28515625, "learning_rate": 0.000299882432041192, "loss": 0.4243, "step": 19400 }, { "epoch": 25.88, "grad_norm": 0.291015625, "learning_rate": 0.0002998823076074312, "loss": 0.4022, "step": 19410 }, { "epoch": 25.893333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002998821831078807, "loss": 0.4128, "step": 19420 }, { "epoch": 25.906666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029988205854254073, "loss": 0.4214, "step": 19430 }, { "epoch": 25.92, "grad_norm": 0.3046875, "learning_rate": 0.00029988193391141126, "loss": 0.4238, "step": 19440 }, { "epoch": 25.933333333333334, "grad_norm": 0.25, "learning_rate": 0.0002998818092144924, "loss": 0.4162, "step": 19450 }, { "epoch": 25.946666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002998816844517841, "loss": 0.4187, "step": 19460 }, { "epoch": 25.96, "grad_norm": 0.306640625, "learning_rate": 0.00029988155962328656, "loss": 0.4144, "step": 19470 }, { "epoch": 25.973333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002998814347289997, "loss": 0.4405, "step": 19480 }, { "epoch": 25.986666666666668, "grad_norm": 0.30859375, "learning_rate": 0.0002998813097689236, "loss": 0.4175, "step": 19490 }, { "epoch": 26.0, "grad_norm": 0.3046875, "learning_rate": 0.00029988118474305847, "loss": 0.4096, "step": 19500 }, { "epoch": 26.0, "eval_loss": 0.44359347224235535, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7448, "eval_samples_per_second": 1.642, "eval_steps_per_second": 0.103, "step": 19500 }, { "epoch": 26.013333333333332, "grad_norm": 0.298828125, "learning_rate": 0.0002998810596514042, "loss": 0.4286, "step": 19510 }, { "epoch": 26.026666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002998809344939608, "loss": 0.439, "step": 19520 }, { "epoch": 26.04, "grad_norm": 0.259765625, "learning_rate": 0.00029988080927072854, "loss": 0.4512, "step": 19530 }, { "epoch": 26.053333333333335, "grad_norm": 0.28515625, "learning_rate": 0.00029988068398170725, "loss": 0.4387, "step": 19540 }, { "epoch": 26.066666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002998805586268971, "loss": 0.4245, "step": 19550 }, { "epoch": 26.08, "grad_norm": 0.298828125, "learning_rate": 0.0002998804332062982, "loss": 0.4288, "step": 19560 }, { "epoch": 26.093333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029988030771991046, "loss": 0.4292, "step": 19570 }, { "epoch": 26.106666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.000299880182167734, "loss": 0.4167, "step": 19580 }, { "epoch": 26.12, "grad_norm": 0.28515625, "learning_rate": 0.00029988005654976897, "loss": 0.4232, "step": 19590 }, { "epoch": 26.133333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029987993086601526, "loss": 0.4155, "step": 19600 }, { "epoch": 26.14666666666667, "grad_norm": 0.27734375, "learning_rate": 0.000299879805116473, "loss": 0.4348, "step": 19610 }, { "epoch": 26.16, "grad_norm": 0.29296875, "learning_rate": 0.0002998796793011423, "loss": 0.4261, "step": 19620 }, { "epoch": 26.173333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002998795534200231, "loss": 0.4201, "step": 19630 }, { "epoch": 26.186666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029987942747311563, "loss": 0.4214, "step": 19640 }, { "epoch": 26.2, "grad_norm": 0.3046875, "learning_rate": 0.00029987930146041974, "loss": 0.4145, "step": 19650 }, { "epoch": 26.213333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002998791753819356, "loss": 0.4154, "step": 19660 }, { "epoch": 26.226666666666667, "grad_norm": 0.25, "learning_rate": 0.0002998790492376633, "loss": 0.4277, "step": 19670 }, { "epoch": 26.24, "grad_norm": 0.283203125, "learning_rate": 0.0002998789230276027, "loss": 0.4114, "step": 19680 }, { "epoch": 26.253333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029987879675175415, "loss": 0.4142, "step": 19690 }, { "epoch": 26.266666666666666, "grad_norm": 0.2734375, "learning_rate": 0.00029987867041011745, "loss": 0.4156, "step": 19700 }, { "epoch": 26.28, "grad_norm": 0.275390625, "learning_rate": 0.0002998785440026928, "loss": 0.4457, "step": 19710 }, { "epoch": 26.293333333333333, "grad_norm": 0.25390625, "learning_rate": 0.00029987841752948023, "loss": 0.402, "step": 19720 }, { "epoch": 26.306666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00029987829099047976, "loss": 0.4239, "step": 19730 }, { "epoch": 26.32, "grad_norm": 0.25390625, "learning_rate": 0.0002998781643856914, "loss": 0.4243, "step": 19740 }, { "epoch": 26.333333333333332, "grad_norm": 0.263671875, "learning_rate": 0.0002998780377151154, "loss": 0.4314, "step": 19750 }, { "epoch": 26.346666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002998779109787516, "loss": 0.4216, "step": 19760 }, { "epoch": 26.36, "grad_norm": 0.361328125, "learning_rate": 0.00029987778417660016, "loss": 0.4242, "step": 19770 }, { "epoch": 26.373333333333335, "grad_norm": 0.283203125, "learning_rate": 0.00029987765730866105, "loss": 0.4215, "step": 19780 }, { "epoch": 26.386666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002998775303749345, "loss": 0.4163, "step": 19790 }, { "epoch": 26.4, "grad_norm": 0.271484375, "learning_rate": 0.0002998774033754204, "loss": 0.4225, "step": 19800 }, { "epoch": 26.413333333333334, "grad_norm": 0.28125, "learning_rate": 0.00029987727631011887, "loss": 0.4269, "step": 19810 }, { "epoch": 26.426666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029987714917902996, "loss": 0.4292, "step": 19820 }, { "epoch": 26.44, "grad_norm": 0.26171875, "learning_rate": 0.0002998770219821537, "loss": 0.4386, "step": 19830 }, { "epoch": 26.453333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002998768947194902, "loss": 0.429, "step": 19840 }, { "epoch": 26.466666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0002998767673910395, "loss": 0.439, "step": 19850 }, { "epoch": 26.48, "grad_norm": 0.267578125, "learning_rate": 0.0002998766399968017, "loss": 0.4194, "step": 19860 }, { "epoch": 26.493333333333332, "grad_norm": 0.28125, "learning_rate": 0.00029987651253677666, "loss": 0.4306, "step": 19870 }, { "epoch": 26.506666666666668, "grad_norm": 0.29296875, "learning_rate": 0.00029987638501096465, "loss": 0.4267, "step": 19880 }, { "epoch": 26.52, "grad_norm": 0.2734375, "learning_rate": 0.00029987625741936564, "loss": 0.4169, "step": 19890 }, { "epoch": 26.533333333333335, "grad_norm": 0.30078125, "learning_rate": 0.00029987612976197967, "loss": 0.4208, "step": 19900 }, { "epoch": 26.546666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029987600203880687, "loss": 0.4243, "step": 19910 }, { "epoch": 26.56, "grad_norm": 0.26953125, "learning_rate": 0.0002998758742498472, "loss": 0.4175, "step": 19920 }, { "epoch": 26.573333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002998757463951008, "loss": 0.4204, "step": 19930 }, { "epoch": 26.586666666666666, "grad_norm": 0.265625, "learning_rate": 0.00029987561847456774, "loss": 0.4092, "step": 19940 }, { "epoch": 26.6, "grad_norm": 0.263671875, "learning_rate": 0.0002998754904882479, "loss": 0.4117, "step": 19950 }, { "epoch": 26.613333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029987536243614155, "loss": 0.3979, "step": 19960 }, { "epoch": 26.626666666666665, "grad_norm": 0.23828125, "learning_rate": 0.0002998752343182486, "loss": 0.4036, "step": 19970 }, { "epoch": 26.64, "grad_norm": 0.275390625, "learning_rate": 0.00029987510613456924, "loss": 0.4181, "step": 19980 }, { "epoch": 26.653333333333332, "grad_norm": 0.345703125, "learning_rate": 0.00029987497788510345, "loss": 0.4287, "step": 19990 }, { "epoch": 26.666666666666668, "grad_norm": 0.2431640625, "learning_rate": 0.0002998748495698512, "loss": 0.4127, "step": 20000 }, { "epoch": 26.68, "grad_norm": 0.275390625, "learning_rate": 0.0002998747211888127, "loss": 0.4064, "step": 20010 }, { "epoch": 26.693333333333335, "grad_norm": 0.298828125, "learning_rate": 0.0002998745927419879, "loss": 0.4152, "step": 20020 }, { "epoch": 26.706666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029987446422937694, "loss": 0.4105, "step": 20030 }, { "epoch": 26.72, "grad_norm": 0.283203125, "learning_rate": 0.0002998743356509798, "loss": 0.4328, "step": 20040 }, { "epoch": 26.733333333333334, "grad_norm": 0.28515625, "learning_rate": 0.00029987420700679663, "loss": 0.4264, "step": 20050 }, { "epoch": 26.746666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029987407829682735, "loss": 0.4266, "step": 20060 }, { "epoch": 26.76, "grad_norm": 0.26953125, "learning_rate": 0.00029987394952107215, "loss": 0.4397, "step": 20070 }, { "epoch": 26.773333333333333, "grad_norm": 0.283203125, "learning_rate": 0.000299873820679531, "loss": 0.4295, "step": 20080 }, { "epoch": 26.786666666666665, "grad_norm": 0.240234375, "learning_rate": 0.000299873691772204, "loss": 0.4288, "step": 20090 }, { "epoch": 26.8, "grad_norm": 0.3359375, "learning_rate": 0.0002998735627990912, "loss": 0.4289, "step": 20100 }, { "epoch": 26.813333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002998734337601926, "loss": 0.4012, "step": 20110 }, { "epoch": 26.826666666666668, "grad_norm": 0.251953125, "learning_rate": 0.0002998733046555084, "loss": 0.4132, "step": 20120 }, { "epoch": 26.84, "grad_norm": 0.298828125, "learning_rate": 0.0002998731754850385, "loss": 0.4242, "step": 20130 }, { "epoch": 26.85333333333333, "grad_norm": 0.271484375, "learning_rate": 0.000299873046248783, "loss": 0.4186, "step": 20140 }, { "epoch": 26.866666666666667, "grad_norm": 0.302734375, "learning_rate": 0.000299872916946742, "loss": 0.422, "step": 20150 }, { "epoch": 26.88, "grad_norm": 0.326171875, "learning_rate": 0.00029987278757891557, "loss": 0.4016, "step": 20160 }, { "epoch": 26.893333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002998726581453037, "loss": 0.4113, "step": 20170 }, { "epoch": 26.906666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002998725286459064, "loss": 0.4221, "step": 20180 }, { "epoch": 26.92, "grad_norm": 0.26171875, "learning_rate": 0.0002998723990807239, "loss": 0.4233, "step": 20190 }, { "epoch": 26.933333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002998722694497561, "loss": 0.4156, "step": 20200 }, { "epoch": 26.946666666666665, "grad_norm": 0.255859375, "learning_rate": 0.0002998721397530032, "loss": 0.4175, "step": 20210 }, { "epoch": 26.96, "grad_norm": 0.27734375, "learning_rate": 0.00029987200999046507, "loss": 0.4131, "step": 20220 }, { "epoch": 26.973333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029987188016214196, "loss": 0.4382, "step": 20230 }, { "epoch": 26.986666666666668, "grad_norm": 0.294921875, "learning_rate": 0.00029987175026803374, "loss": 0.4166, "step": 20240 }, { "epoch": 27.0, "grad_norm": 0.298828125, "learning_rate": 0.00029987162030814063, "loss": 0.4078, "step": 20250 }, { "epoch": 27.0, "eval_loss": 0.4428989291191101, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8837, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 20250 }, { "epoch": 27.013333333333332, "grad_norm": 0.30859375, "learning_rate": 0.00029987149028246263, "loss": 0.4291, "step": 20260 }, { "epoch": 27.026666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029987136019099975, "loss": 0.4381, "step": 20270 }, { "epoch": 27.04, "grad_norm": 0.310546875, "learning_rate": 0.0002998712300337521, "loss": 0.4492, "step": 20280 }, { "epoch": 27.053333333333335, "grad_norm": 0.318359375, "learning_rate": 0.00029987109981071975, "loss": 0.4382, "step": 20290 }, { "epoch": 27.066666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002998709695219027, "loss": 0.4241, "step": 20300 }, { "epoch": 27.08, "grad_norm": 0.330078125, "learning_rate": 0.00029987083916730106, "loss": 0.4281, "step": 20310 }, { "epoch": 27.093333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0002998707087469149, "loss": 0.4276, "step": 20320 }, { "epoch": 27.106666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002998705782607441, "loss": 0.4167, "step": 20330 }, { "epoch": 27.12, "grad_norm": 0.392578125, "learning_rate": 0.00029987044770878903, "loss": 0.4233, "step": 20340 }, { "epoch": 27.133333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002998703170910495, "loss": 0.4153, "step": 20350 }, { "epoch": 27.14666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002998701864075256, "loss": 0.4326, "step": 20360 }, { "epoch": 27.16, "grad_norm": 0.2333984375, "learning_rate": 0.0002998700556582175, "loss": 0.4261, "step": 20370 }, { "epoch": 27.173333333333332, "grad_norm": 0.2734375, "learning_rate": 0.0002998699248431252, "loss": 0.4196, "step": 20380 }, { "epoch": 27.186666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002998697939622487, "loss": 0.4199, "step": 20390 }, { "epoch": 27.2, "grad_norm": 0.28125, "learning_rate": 0.0002998696630155881, "loss": 0.4134, "step": 20400 }, { "epoch": 27.213333333333335, "grad_norm": 0.302734375, "learning_rate": 0.00029986953200314344, "loss": 0.4136, "step": 20410 }, { "epoch": 27.226666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002998694009249149, "loss": 0.4268, "step": 20420 }, { "epoch": 27.24, "grad_norm": 0.28515625, "learning_rate": 0.00029986926978090234, "loss": 0.4101, "step": 20430 }, { "epoch": 27.253333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002998691385711059, "loss": 0.4139, "step": 20440 }, { "epoch": 27.266666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0002998690072955257, "loss": 0.4139, "step": 20450 }, { "epoch": 27.28, "grad_norm": 0.3046875, "learning_rate": 0.00029986887595416175, "loss": 0.4456, "step": 20460 }, { "epoch": 27.293333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029986874454701406, "loss": 0.4017, "step": 20470 }, { "epoch": 27.306666666666665, "grad_norm": 0.2421875, "learning_rate": 0.00029986861307408283, "loss": 0.4229, "step": 20480 }, { "epoch": 27.32, "grad_norm": 0.2451171875, "learning_rate": 0.00029986848153536796, "loss": 0.4237, "step": 20490 }, { "epoch": 27.333333333333332, "grad_norm": 0.29296875, "learning_rate": 0.00029986834993086956, "loss": 0.4301, "step": 20500 }, { "epoch": 27.346666666666668, "grad_norm": 0.31640625, "learning_rate": 0.0002998682182605877, "loss": 0.4203, "step": 20510 }, { "epoch": 27.36, "grad_norm": 0.35546875, "learning_rate": 0.0002998680865245225, "loss": 0.424, "step": 20520 }, { "epoch": 27.373333333333335, "grad_norm": 0.2412109375, "learning_rate": 0.00029986795472267385, "loss": 0.421, "step": 20530 }, { "epoch": 27.386666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029986782285504196, "loss": 0.4157, "step": 20540 }, { "epoch": 27.4, "grad_norm": 0.2734375, "learning_rate": 0.0002998676909216268, "loss": 0.4218, "step": 20550 }, { "epoch": 27.413333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0002998675589224285, "loss": 0.4265, "step": 20560 }, { "epoch": 27.426666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002998674268574471, "loss": 0.4271, "step": 20570 }, { "epoch": 27.44, "grad_norm": 0.279296875, "learning_rate": 0.0002998672947266826, "loss": 0.4388, "step": 20580 }, { "epoch": 27.453333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002998671625301352, "loss": 0.4289, "step": 20590 }, { "epoch": 27.466666666666665, "grad_norm": 0.310546875, "learning_rate": 0.00029986703026780475, "loss": 0.4373, "step": 20600 }, { "epoch": 27.48, "grad_norm": 0.30078125, "learning_rate": 0.00029986689793969144, "loss": 0.4182, "step": 20610 }, { "epoch": 27.493333333333332, "grad_norm": 0.275390625, "learning_rate": 0.00029986676554579535, "loss": 0.4293, "step": 20620 }, { "epoch": 27.506666666666668, "grad_norm": 0.263671875, "learning_rate": 0.00029986663308611644, "loss": 0.4252, "step": 20630 }, { "epoch": 27.52, "grad_norm": 0.26953125, "learning_rate": 0.00029986650056065486, "loss": 0.4175, "step": 20640 }, { "epoch": 27.533333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0002998663679694106, "loss": 0.4209, "step": 20650 }, { "epoch": 27.546666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029986623531238376, "loss": 0.4228, "step": 20660 }, { "epoch": 27.56, "grad_norm": 0.26171875, "learning_rate": 0.0002998661025895744, "loss": 0.4171, "step": 20670 }, { "epoch": 27.573333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029986596980098254, "loss": 0.4196, "step": 20680 }, { "epoch": 27.586666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002998658369466083, "loss": 0.4084, "step": 20690 }, { "epoch": 27.6, "grad_norm": 0.2490234375, "learning_rate": 0.00029986570402645163, "loss": 0.4103, "step": 20700 }, { "epoch": 27.613333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0002998655710405127, "loss": 0.3977, "step": 20710 }, { "epoch": 27.626666666666665, "grad_norm": 0.2314453125, "learning_rate": 0.0002998654379887915, "loss": 0.4022, "step": 20720 }, { "epoch": 27.64, "grad_norm": 0.26171875, "learning_rate": 0.00029986530487128817, "loss": 0.418, "step": 20730 }, { "epoch": 27.653333333333332, "grad_norm": 0.265625, "learning_rate": 0.0002998651716880027, "loss": 0.4283, "step": 20740 }, { "epoch": 27.666666666666668, "grad_norm": 0.291015625, "learning_rate": 0.0002998650384389351, "loss": 0.4118, "step": 20750 }, { "epoch": 27.68, "grad_norm": 0.255859375, "learning_rate": 0.00029986490512408555, "loss": 0.4059, "step": 20760 }, { "epoch": 27.693333333333335, "grad_norm": 0.361328125, "learning_rate": 0.0002998647717434541, "loss": 0.4151, "step": 20770 }, { "epoch": 27.706666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029986463829704066, "loss": 0.4094, "step": 20780 }, { "epoch": 27.72, "grad_norm": 0.28515625, "learning_rate": 0.0002998645047848454, "loss": 0.4319, "step": 20790 }, { "epoch": 27.733333333333334, "grad_norm": 0.25, "learning_rate": 0.0002998643712068684, "loss": 0.4256, "step": 20800 }, { "epoch": 27.746666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029986423756310965, "loss": 0.4267, "step": 20810 }, { "epoch": 27.76, "grad_norm": 0.318359375, "learning_rate": 0.0002998641038535693, "loss": 0.4392, "step": 20820 }, { "epoch": 27.773333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029986397007824726, "loss": 0.4291, "step": 20830 }, { "epoch": 27.786666666666665, "grad_norm": 0.271484375, "learning_rate": 0.00029986383623714375, "loss": 0.4281, "step": 20840 }, { "epoch": 27.8, "grad_norm": 0.31640625, "learning_rate": 0.00029986370233025877, "loss": 0.4265, "step": 20850 }, { "epoch": 27.813333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002998635683575923, "loss": 0.4006, "step": 20860 }, { "epoch": 27.826666666666668, "grad_norm": 0.263671875, "learning_rate": 0.00029986343431914454, "loss": 0.4125, "step": 20870 }, { "epoch": 27.84, "grad_norm": 0.345703125, "learning_rate": 0.0002998633002149154, "loss": 0.4238, "step": 20880 }, { "epoch": 27.85333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002998631660449051, "loss": 0.4188, "step": 20890 }, { "epoch": 27.866666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029986303180911354, "loss": 0.421, "step": 20900 }, { "epoch": 27.88, "grad_norm": 0.296875, "learning_rate": 0.0002998628975075409, "loss": 0.3999, "step": 20910 }, { "epoch": 27.893333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029986276314018713, "loss": 0.4111, "step": 20920 }, { "epoch": 27.906666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0002998626287070524, "loss": 0.4202, "step": 20930 }, { "epoch": 27.92, "grad_norm": 0.283203125, "learning_rate": 0.00029986249420813673, "loss": 0.4235, "step": 20940 }, { "epoch": 27.933333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0002998623596434401, "loss": 0.4142, "step": 20950 }, { "epoch": 27.946666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002998622250129627, "loss": 0.4159, "step": 20960 }, { "epoch": 27.96, "grad_norm": 0.2578125, "learning_rate": 0.0002998620903167045, "loss": 0.412, "step": 20970 }, { "epoch": 27.973333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029986195555466557, "loss": 0.4386, "step": 20980 }, { "epoch": 27.986666666666668, "grad_norm": 0.267578125, "learning_rate": 0.00029986182072684603, "loss": 0.4158, "step": 20990 }, { "epoch": 28.0, "grad_norm": 0.2890625, "learning_rate": 0.00029986168583324583, "loss": 0.4076, "step": 21000 }, { "epoch": 28.0, "eval_loss": 0.4439062774181366, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6979, "eval_samples_per_second": 1.65, "eval_steps_per_second": 0.103, "step": 21000 }, { "epoch": 28.013333333333332, "grad_norm": 0.255859375, "learning_rate": 0.0002998615508738652, "loss": 0.4273, "step": 21010 }, { "epoch": 28.026666666666667, "grad_norm": 0.259765625, "learning_rate": 0.000299861415848704, "loss": 0.437, "step": 21020 }, { "epoch": 28.04, "grad_norm": 0.283203125, "learning_rate": 0.00029986128075776237, "loss": 0.4496, "step": 21030 }, { "epoch": 28.053333333333335, "grad_norm": 0.353515625, "learning_rate": 0.0002998611456010404, "loss": 0.4372, "step": 21040 }, { "epoch": 28.066666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029986101037853815, "loss": 0.4237, "step": 21050 }, { "epoch": 28.08, "grad_norm": 0.310546875, "learning_rate": 0.0002998608750902556, "loss": 0.4284, "step": 21060 }, { "epoch": 28.093333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.000299860739736193, "loss": 0.4283, "step": 21070 }, { "epoch": 28.106666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002998606043163502, "loss": 0.4164, "step": 21080 }, { "epoch": 28.12, "grad_norm": 0.3203125, "learning_rate": 0.00029986046883072727, "loss": 0.4223, "step": 21090 }, { "epoch": 28.133333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002998603332793245, "loss": 0.4137, "step": 21100 }, { "epoch": 28.14666666666667, "grad_norm": 0.271484375, "learning_rate": 0.00029986019766214164, "loss": 0.432, "step": 21110 }, { "epoch": 28.16, "grad_norm": 0.322265625, "learning_rate": 0.0002998600619791789, "loss": 0.4242, "step": 21120 }, { "epoch": 28.173333333333332, "grad_norm": 0.42578125, "learning_rate": 0.0002998599262304364, "loss": 0.4187, "step": 21130 }, { "epoch": 28.186666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002998597904159141, "loss": 0.4192, "step": 21140 }, { "epoch": 28.2, "grad_norm": 0.427734375, "learning_rate": 0.0002998596545356121, "loss": 0.4124, "step": 21150 }, { "epoch": 28.213333333333335, "grad_norm": 0.330078125, "learning_rate": 0.00029985951858953045, "loss": 0.4129, "step": 21160 }, { "epoch": 28.226666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002998593825776693, "loss": 0.4252, "step": 21170 }, { "epoch": 28.24, "grad_norm": 0.296875, "learning_rate": 0.0002998592465000285, "loss": 0.4094, "step": 21180 }, { "epoch": 28.253333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029985911035660827, "loss": 0.4122, "step": 21190 }, { "epoch": 28.266666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029985897414740864, "loss": 0.414, "step": 21200 }, { "epoch": 28.28, "grad_norm": 0.291015625, "learning_rate": 0.00029985883787242966, "loss": 0.4438, "step": 21210 }, { "epoch": 28.293333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002998587015316714, "loss": 0.4, "step": 21220 }, { "epoch": 28.306666666666665, "grad_norm": 0.2578125, "learning_rate": 0.00029985856512513393, "loss": 0.4218, "step": 21230 }, { "epoch": 28.32, "grad_norm": 0.31640625, "learning_rate": 0.00029985842865281725, "loss": 0.4231, "step": 21240 }, { "epoch": 28.333333333333332, "grad_norm": 0.326171875, "learning_rate": 0.0002998582921147215, "loss": 0.4309, "step": 21250 }, { "epoch": 28.346666666666668, "grad_norm": 0.369140625, "learning_rate": 0.0002998581555108467, "loss": 0.4208, "step": 21260 }, { "epoch": 28.36, "grad_norm": 0.302734375, "learning_rate": 0.00029985801884119284, "loss": 0.422, "step": 21270 }, { "epoch": 28.373333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002998578821057601, "loss": 0.4198, "step": 21280 }, { "epoch": 28.386666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002998577453045485, "loss": 0.4154, "step": 21290 }, { "epoch": 28.4, "grad_norm": 0.328125, "learning_rate": 0.0002998576084375581, "loss": 0.4213, "step": 21300 }, { "epoch": 28.413333333333334, "grad_norm": 0.279296875, "learning_rate": 0.000299857471504789, "loss": 0.4252, "step": 21310 }, { "epoch": 28.426666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0002998573345062411, "loss": 0.4267, "step": 21320 }, { "epoch": 28.44, "grad_norm": 0.275390625, "learning_rate": 0.00029985719744191465, "loss": 0.4374, "step": 21330 }, { "epoch": 28.453333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029985706031180964, "loss": 0.4267, "step": 21340 }, { "epoch": 28.466666666666665, "grad_norm": 0.310546875, "learning_rate": 0.0002998569231159261, "loss": 0.4361, "step": 21350 }, { "epoch": 28.48, "grad_norm": 0.3203125, "learning_rate": 0.0002998567858542641, "loss": 0.4171, "step": 21360 }, { "epoch": 28.493333333333332, "grad_norm": 0.30078125, "learning_rate": 0.0002998566485268237, "loss": 0.429, "step": 21370 }, { "epoch": 28.506666666666668, "grad_norm": 0.271484375, "learning_rate": 0.000299856511133605, "loss": 0.4245, "step": 21380 }, { "epoch": 28.52, "grad_norm": 0.2236328125, "learning_rate": 0.000299856373674608, "loss": 0.4157, "step": 21390 }, { "epoch": 28.533333333333335, "grad_norm": 0.2578125, "learning_rate": 0.00029985623614983285, "loss": 0.4178, "step": 21400 }, { "epoch": 28.546666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002998560985592795, "loss": 0.4216, "step": 21410 }, { "epoch": 28.56, "grad_norm": 0.2470703125, "learning_rate": 0.0002998559609029481, "loss": 0.416, "step": 21420 }, { "epoch": 28.573333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002998558231808387, "loss": 0.4184, "step": 21430 }, { "epoch": 28.586666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002998556853929513, "loss": 0.4079, "step": 21440 }, { "epoch": 28.6, "grad_norm": 0.26171875, "learning_rate": 0.000299855547539286, "loss": 0.4102, "step": 21450 }, { "epoch": 28.613333333333333, "grad_norm": 0.259765625, "learning_rate": 0.00029985540961984284, "loss": 0.396, "step": 21460 }, { "epoch": 28.626666666666665, "grad_norm": 0.283203125, "learning_rate": 0.0002998552716346219, "loss": 0.402, "step": 21470 }, { "epoch": 28.64, "grad_norm": 0.291015625, "learning_rate": 0.00029985513358362324, "loss": 0.4178, "step": 21480 }, { "epoch": 28.653333333333332, "grad_norm": 0.298828125, "learning_rate": 0.0002998549954668469, "loss": 0.4271, "step": 21490 }, { "epoch": 28.666666666666668, "grad_norm": 0.298828125, "learning_rate": 0.00029985485728429304, "loss": 0.4123, "step": 21500 }, { "epoch": 28.68, "grad_norm": 0.267578125, "learning_rate": 0.0002998547190359616, "loss": 0.4056, "step": 21510 }, { "epoch": 28.693333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002998545807218526, "loss": 0.4143, "step": 21520 }, { "epoch": 28.706666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002998544423419663, "loss": 0.4074, "step": 21530 }, { "epoch": 28.72, "grad_norm": 0.294921875, "learning_rate": 0.00029985430389630255, "loss": 0.4312, "step": 21540 }, { "epoch": 28.733333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002998541653848616, "loss": 0.4241, "step": 21550 }, { "epoch": 28.746666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002998540268076433, "loss": 0.4255, "step": 21560 }, { "epoch": 28.76, "grad_norm": 0.3046875, "learning_rate": 0.0002998538881646479, "loss": 0.4384, "step": 21570 }, { "epoch": 28.773333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002998537494558754, "loss": 0.4279, "step": 21580 }, { "epoch": 28.786666666666665, "grad_norm": 0.26953125, "learning_rate": 0.0002998536106813258, "loss": 0.4274, "step": 21590 }, { "epoch": 28.8, "grad_norm": 0.30078125, "learning_rate": 0.0002998534718409992, "loss": 0.4264, "step": 21600 }, { "epoch": 28.813333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002998533329348957, "loss": 0.3998, "step": 21610 }, { "epoch": 28.826666666666668, "grad_norm": 0.28515625, "learning_rate": 0.0002998531939630153, "loss": 0.4116, "step": 21620 }, { "epoch": 28.84, "grad_norm": 0.357421875, "learning_rate": 0.0002998530549253581, "loss": 0.4224, "step": 21630 }, { "epoch": 28.85333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002998529158219242, "loss": 0.4179, "step": 21640 }, { "epoch": 28.866666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002998527766527135, "loss": 0.4201, "step": 21650 }, { "epoch": 28.88, "grad_norm": 0.296875, "learning_rate": 0.00029985263741772627, "loss": 0.399, "step": 21660 }, { "epoch": 28.893333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002998524981169624, "loss": 0.4102, "step": 21670 }, { "epoch": 28.906666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002998523587504221, "loss": 0.4204, "step": 21680 }, { "epoch": 28.92, "grad_norm": 0.287109375, "learning_rate": 0.00029985221931810537, "loss": 0.4216, "step": 21690 }, { "epoch": 28.933333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002998520798200122, "loss": 0.4131, "step": 21700 }, { "epoch": 28.946666666666665, "grad_norm": 0.291015625, "learning_rate": 0.00029985194025614265, "loss": 0.4159, "step": 21710 }, { "epoch": 28.96, "grad_norm": 0.279296875, "learning_rate": 0.00029985180062649697, "loss": 0.4121, "step": 21720 }, { "epoch": 28.973333333333333, "grad_norm": 0.32421875, "learning_rate": 0.000299851660931075, "loss": 0.438, "step": 21730 }, { "epoch": 28.986666666666668, "grad_norm": 0.298828125, "learning_rate": 0.00029985152116987696, "loss": 0.4149, "step": 21740 }, { "epoch": 29.0, "grad_norm": 0.341796875, "learning_rate": 0.0002998513813429028, "loss": 0.4064, "step": 21750 }, { "epoch": 29.0, "eval_loss": 0.443122923374176, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7609, "eval_samples_per_second": 1.639, "eval_steps_per_second": 0.102, "step": 21750 }, { "epoch": 29.013333333333332, "grad_norm": 0.30859375, "learning_rate": 0.00029985124145015264, "loss": 0.4262, "step": 21760 }, { "epoch": 29.026666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002998511014916265, "loss": 0.4366, "step": 21770 }, { "epoch": 29.04, "grad_norm": 0.279296875, "learning_rate": 0.0002998509614673245, "loss": 0.4485, "step": 21780 }, { "epoch": 29.053333333333335, "grad_norm": 0.294921875, "learning_rate": 0.00029985082137724665, "loss": 0.4353, "step": 21790 }, { "epoch": 29.066666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029985068122139304, "loss": 0.4227, "step": 21800 }, { "epoch": 29.08, "grad_norm": 0.326171875, "learning_rate": 0.00029985054099976376, "loss": 0.4268, "step": 21810 }, { "epoch": 29.093333333333334, "grad_norm": 0.2734375, "learning_rate": 0.00029985040071235875, "loss": 0.4265, "step": 21820 }, { "epoch": 29.106666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002998502603591782, "loss": 0.4155, "step": 21830 }, { "epoch": 29.12, "grad_norm": 0.310546875, "learning_rate": 0.00029985011994022214, "loss": 0.4217, "step": 21840 }, { "epoch": 29.133333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029984997945549065, "loss": 0.4131, "step": 21850 }, { "epoch": 29.14666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002998498389049837, "loss": 0.4314, "step": 21860 }, { "epoch": 29.16, "grad_norm": 0.2392578125, "learning_rate": 0.0002998496982887014, "loss": 0.4233, "step": 21870 }, { "epoch": 29.173333333333332, "grad_norm": 0.640625, "learning_rate": 0.0002998495576066439, "loss": 0.4169, "step": 21880 }, { "epoch": 29.186666666666667, "grad_norm": 0.84765625, "learning_rate": 0.0002998494168588111, "loss": 0.4175, "step": 21890 }, { "epoch": 29.2, "grad_norm": 0.3359375, "learning_rate": 0.0002998492760452032, "loss": 0.4136, "step": 21900 }, { "epoch": 29.213333333333335, "grad_norm": 0.341796875, "learning_rate": 0.00029984913516582025, "loss": 0.4134, "step": 21910 }, { "epoch": 29.226666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002998489942206622, "loss": 0.4236, "step": 21920 }, { "epoch": 29.24, "grad_norm": 0.291015625, "learning_rate": 0.00029984885320972923, "loss": 0.4093, "step": 21930 }, { "epoch": 29.253333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029984871213302135, "loss": 0.4124, "step": 21940 }, { "epoch": 29.266666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029984857099053856, "loss": 0.413, "step": 21950 }, { "epoch": 29.28, "grad_norm": 0.291015625, "learning_rate": 0.000299848429782281, "loss": 0.4436, "step": 21960 }, { "epoch": 29.293333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002998482885082488, "loss": 0.3988, "step": 21970 }, { "epoch": 29.306666666666665, "grad_norm": 0.30859375, "learning_rate": 0.0002998481471684419, "loss": 0.4205, "step": 21980 }, { "epoch": 29.32, "grad_norm": 0.2890625, "learning_rate": 0.0002998480057628604, "loss": 0.422, "step": 21990 }, { "epoch": 29.333333333333332, "grad_norm": 0.302734375, "learning_rate": 0.00029984786429150436, "loss": 0.4288, "step": 22000 }, { "epoch": 29.346666666666668, "grad_norm": 0.2890625, "learning_rate": 0.0002998477227543739, "loss": 0.4199, "step": 22010 }, { "epoch": 29.36, "grad_norm": 0.396484375, "learning_rate": 0.00029984758115146897, "loss": 0.4214, "step": 22020 }, { "epoch": 29.373333333333335, "grad_norm": 0.30859375, "learning_rate": 0.00029984743948278974, "loss": 0.4198, "step": 22030 }, { "epoch": 29.386666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029984729774833614, "loss": 0.4137, "step": 22040 }, { "epoch": 29.4, "grad_norm": 0.26953125, "learning_rate": 0.0002998471559481084, "loss": 0.4197, "step": 22050 }, { "epoch": 29.413333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002998470140821065, "loss": 0.4246, "step": 22060 }, { "epoch": 29.426666666666666, "grad_norm": 0.283203125, "learning_rate": 0.00029984687215033046, "loss": 0.4258, "step": 22070 }, { "epoch": 29.44, "grad_norm": 0.3203125, "learning_rate": 0.00029984673015278046, "loss": 0.437, "step": 22080 }, { "epoch": 29.453333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002998465880894564, "loss": 0.4272, "step": 22090 }, { "epoch": 29.466666666666665, "grad_norm": 0.27734375, "learning_rate": 0.0002998464459603585, "loss": 0.4373, "step": 22100 }, { "epoch": 29.48, "grad_norm": 0.310546875, "learning_rate": 0.00029984630376548666, "loss": 0.4166, "step": 22110 }, { "epoch": 29.493333333333332, "grad_norm": 0.29296875, "learning_rate": 0.0002998461615048411, "loss": 0.4278, "step": 22120 }, { "epoch": 29.506666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0002998460191784218, "loss": 0.4241, "step": 22130 }, { "epoch": 29.52, "grad_norm": 0.26171875, "learning_rate": 0.0002998458767862288, "loss": 0.4145, "step": 22140 }, { "epoch": 29.533333333333335, "grad_norm": 0.298828125, "learning_rate": 0.0002998457343282623, "loss": 0.4185, "step": 22150 }, { "epoch": 29.546666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002998455918045222, "loss": 0.4204, "step": 22160 }, { "epoch": 29.56, "grad_norm": 0.251953125, "learning_rate": 0.0002998454492150087, "loss": 0.4144, "step": 22170 }, { "epoch": 29.573333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002998453065597217, "loss": 0.4186, "step": 22180 }, { "epoch": 29.586666666666666, "grad_norm": 0.3203125, "learning_rate": 0.00029984516383866136, "loss": 0.4074, "step": 22190 }, { "epoch": 29.6, "grad_norm": 0.29296875, "learning_rate": 0.0002998450210518278, "loss": 0.4094, "step": 22200 }, { "epoch": 29.613333333333333, "grad_norm": 0.283203125, "learning_rate": 0.00029984487819922093, "loss": 0.3963, "step": 22210 }, { "epoch": 29.626666666666665, "grad_norm": 0.27734375, "learning_rate": 0.00029984473528084094, "loss": 0.4017, "step": 22220 }, { "epoch": 29.64, "grad_norm": 0.27734375, "learning_rate": 0.00029984459229668784, "loss": 0.4164, "step": 22230 }, { "epoch": 29.653333333333332, "grad_norm": 0.37109375, "learning_rate": 0.00029984444924676176, "loss": 0.426, "step": 22240 }, { "epoch": 29.666666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0002998443061310627, "loss": 0.4102, "step": 22250 }, { "epoch": 29.68, "grad_norm": 0.3046875, "learning_rate": 0.0002998441629495906, "loss": 0.4048, "step": 22260 }, { "epoch": 29.693333333333335, "grad_norm": 0.255859375, "learning_rate": 0.0002998440197023458, "loss": 0.4133, "step": 22270 }, { "epoch": 29.706666666666667, "grad_norm": 0.2578125, "learning_rate": 0.00029984387638932813, "loss": 0.4078, "step": 22280 }, { "epoch": 29.72, "grad_norm": 0.298828125, "learning_rate": 0.0002998437330105378, "loss": 0.4301, "step": 22290 }, { "epoch": 29.733333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002998435895659748, "loss": 0.4242, "step": 22300 }, { "epoch": 29.746666666666666, "grad_norm": 0.275390625, "learning_rate": 0.00029984344605563914, "loss": 0.4242, "step": 22310 }, { "epoch": 29.76, "grad_norm": 0.357421875, "learning_rate": 0.00029984330247953106, "loss": 0.4365, "step": 22320 }, { "epoch": 29.773333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029984315883765044, "loss": 0.4277, "step": 22330 }, { "epoch": 29.786666666666665, "grad_norm": 0.263671875, "learning_rate": 0.00029984301512999746, "loss": 0.4259, "step": 22340 }, { "epoch": 29.8, "grad_norm": 0.298828125, "learning_rate": 0.0002998428713565721, "loss": 0.4253, "step": 22350 }, { "epoch": 29.813333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029984272751737445, "loss": 0.3978, "step": 22360 }, { "epoch": 29.826666666666668, "grad_norm": 0.322265625, "learning_rate": 0.0002998425836124046, "loss": 0.4099, "step": 22370 }, { "epoch": 29.84, "grad_norm": 0.37109375, "learning_rate": 0.00029984243964166263, "loss": 0.4217, "step": 22380 }, { "epoch": 29.85333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002998422956051485, "loss": 0.4175, "step": 22390 }, { "epoch": 29.866666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029984215150286237, "loss": 0.4197, "step": 22400 }, { "epoch": 29.88, "grad_norm": 0.265625, "learning_rate": 0.0002998420073348043, "loss": 0.3997, "step": 22410 }, { "epoch": 29.893333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029984186310097434, "loss": 0.4096, "step": 22420 }, { "epoch": 29.906666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002998417188013725, "loss": 0.4197, "step": 22430 }, { "epoch": 29.92, "grad_norm": 0.330078125, "learning_rate": 0.00029984157443599895, "loss": 0.4211, "step": 22440 }, { "epoch": 29.933333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002998414300048537, "loss": 0.4131, "step": 22450 }, { "epoch": 29.946666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0002998412855079367, "loss": 0.4157, "step": 22460 }, { "epoch": 29.96, "grad_norm": 0.302734375, "learning_rate": 0.0002998411409452481, "loss": 0.4114, "step": 22470 }, { "epoch": 29.973333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029984099631678813, "loss": 0.4375, "step": 22480 }, { "epoch": 29.986666666666668, "grad_norm": 0.28125, "learning_rate": 0.0002998408516225566, "loss": 0.4142, "step": 22490 }, { "epoch": 30.0, "grad_norm": 0.29296875, "learning_rate": 0.00029984070686255374, "loss": 0.4067, "step": 22500 }, { "epoch": 30.0, "eval_loss": 0.43998971581459045, "eval_model_preparation_time": 0.0017, "eval_runtime": 8.3736, "eval_samples_per_second": 1.911, "eval_steps_per_second": 0.119, "step": 22500 }, { "epoch": 30.013333333333332, "grad_norm": 0.30859375, "learning_rate": 0.0002998405620367795, "loss": 0.4267, "step": 22510 }, { "epoch": 30.026666666666667, "grad_norm": 0.30078125, "learning_rate": 0.000299840417145234, "loss": 0.4357, "step": 22520 }, { "epoch": 30.04, "grad_norm": 0.28515625, "learning_rate": 0.0002998402721879173, "loss": 0.4479, "step": 22530 }, { "epoch": 30.053333333333335, "grad_norm": 0.26953125, "learning_rate": 0.00029984012716482945, "loss": 0.4347, "step": 22540 }, { "epoch": 30.066666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029983998207597055, "loss": 0.4219, "step": 22550 }, { "epoch": 30.08, "grad_norm": 0.3203125, "learning_rate": 0.0002998398369213406, "loss": 0.4244, "step": 22560 }, { "epoch": 30.093333333333334, "grad_norm": 0.275390625, "learning_rate": 0.0002998396917009398, "loss": 0.426, "step": 22570 }, { "epoch": 30.106666666666666, "grad_norm": 0.28125, "learning_rate": 0.000299839546414768, "loss": 0.4134, "step": 22580 }, { "epoch": 30.12, "grad_norm": 0.298828125, "learning_rate": 0.00029983940106282546, "loss": 0.4201, "step": 22590 }, { "epoch": 30.133333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002998392556451121, "loss": 0.4117, "step": 22600 }, { "epoch": 30.14666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002998391101616281, "loss": 0.4299, "step": 22610 }, { "epoch": 30.16, "grad_norm": 0.283203125, "learning_rate": 0.0002998389646123735, "loss": 0.4227, "step": 22620 }, { "epoch": 30.173333333333332, "grad_norm": 0.259765625, "learning_rate": 0.00029983881899734826, "loss": 0.4171, "step": 22630 }, { "epoch": 30.186666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029983867331655255, "loss": 0.4168, "step": 22640 }, { "epoch": 30.2, "grad_norm": 0.310546875, "learning_rate": 0.0002998385275699864, "loss": 0.4116, "step": 22650 }, { "epoch": 30.213333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002998383817576499, "loss": 0.412, "step": 22660 }, { "epoch": 30.226666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002998382358795431, "loss": 0.4233, "step": 22670 }, { "epoch": 30.24, "grad_norm": 0.314453125, "learning_rate": 0.000299838089935666, "loss": 0.4078, "step": 22680 }, { "epoch": 30.253333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029983794392601874, "loss": 0.4119, "step": 22690 }, { "epoch": 30.266666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029983779785060135, "loss": 0.4119, "step": 22700 }, { "epoch": 30.28, "grad_norm": 0.32421875, "learning_rate": 0.00029983765170941393, "loss": 0.4436, "step": 22710 }, { "epoch": 30.293333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002998375055024565, "loss": 0.3985, "step": 22720 }, { "epoch": 30.306666666666665, "grad_norm": 0.302734375, "learning_rate": 0.0002998373592297292, "loss": 0.421, "step": 22730 }, { "epoch": 30.32, "grad_norm": 0.326171875, "learning_rate": 0.000299837212891232, "loss": 0.4204, "step": 22740 }, { "epoch": 30.333333333333332, "grad_norm": 0.337890625, "learning_rate": 0.00029983706648696503, "loss": 0.4283, "step": 22750 }, { "epoch": 30.346666666666668, "grad_norm": 0.3515625, "learning_rate": 0.00029983692001692825, "loss": 0.4184, "step": 22760 }, { "epoch": 30.36, "grad_norm": 0.302734375, "learning_rate": 0.0002998367734811219, "loss": 0.4206, "step": 22770 }, { "epoch": 30.373333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002998366268795459, "loss": 0.4185, "step": 22780 }, { "epoch": 30.386666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029983648021220035, "loss": 0.4136, "step": 22790 }, { "epoch": 30.4, "grad_norm": 0.3125, "learning_rate": 0.0002998363334790854, "loss": 0.4196, "step": 22800 }, { "epoch": 30.413333333333334, "grad_norm": 0.271484375, "learning_rate": 0.000299836186680201, "loss": 0.4235, "step": 22810 }, { "epoch": 30.426666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029983603981554723, "loss": 0.4258, "step": 22820 }, { "epoch": 30.44, "grad_norm": 0.265625, "learning_rate": 0.0002998358928851242, "loss": 0.4359, "step": 22830 }, { "epoch": 30.453333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002998357458889319, "loss": 0.4254, "step": 22840 }, { "epoch": 30.466666666666665, "grad_norm": 0.357421875, "learning_rate": 0.0002998355988269705, "loss": 0.4358, "step": 22850 }, { "epoch": 30.48, "grad_norm": 0.326171875, "learning_rate": 0.00029983545169924006, "loss": 0.4169, "step": 22860 }, { "epoch": 30.493333333333332, "grad_norm": 0.28125, "learning_rate": 0.00029983530450574053, "loss": 0.427, "step": 22870 }, { "epoch": 30.506666666666668, "grad_norm": 0.349609375, "learning_rate": 0.00029983515724647206, "loss": 0.4243, "step": 22880 }, { "epoch": 30.52, "grad_norm": 0.267578125, "learning_rate": 0.0002998350099214347, "loss": 0.4144, "step": 22890 }, { "epoch": 30.533333333333335, "grad_norm": 0.298828125, "learning_rate": 0.0002998348625306285, "loss": 0.4187, "step": 22900 }, { "epoch": 30.546666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029983471507405353, "loss": 0.4205, "step": 22910 }, { "epoch": 30.56, "grad_norm": 0.24609375, "learning_rate": 0.00029983456755170986, "loss": 0.4147, "step": 22920 }, { "epoch": 30.573333333333334, "grad_norm": 0.291015625, "learning_rate": 0.0002998344199635976, "loss": 0.4166, "step": 22930 }, { "epoch": 30.586666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029983427230971673, "loss": 0.406, "step": 22940 }, { "epoch": 30.6, "grad_norm": 0.2578125, "learning_rate": 0.00029983412459006734, "loss": 0.4073, "step": 22950 }, { "epoch": 30.613333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002998339768046496, "loss": 0.3951, "step": 22960 }, { "epoch": 30.626666666666665, "grad_norm": 0.2353515625, "learning_rate": 0.0002998338289534634, "loss": 0.4003, "step": 22970 }, { "epoch": 30.64, "grad_norm": 0.271484375, "learning_rate": 0.0002998336810365089, "loss": 0.4161, "step": 22980 }, { "epoch": 30.653333333333332, "grad_norm": 0.291015625, "learning_rate": 0.00029983353305378617, "loss": 0.4258, "step": 22990 }, { "epoch": 30.666666666666668, "grad_norm": 0.318359375, "learning_rate": 0.0002998333850052953, "loss": 0.4112, "step": 23000 }, { "epoch": 30.68, "grad_norm": 0.31640625, "learning_rate": 0.0002998332368910362, "loss": 0.4027, "step": 23010 }, { "epoch": 30.693333333333335, "grad_norm": 0.2578125, "learning_rate": 0.00029983308871100913, "loss": 0.4124, "step": 23020 }, { "epoch": 30.706666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002998329404652141, "loss": 0.4067, "step": 23030 }, { "epoch": 30.72, "grad_norm": 0.302734375, "learning_rate": 0.0002998327921536511, "loss": 0.4299, "step": 23040 }, { "epoch": 30.733333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029983264377632027, "loss": 0.4227, "step": 23050 }, { "epoch": 30.746666666666666, "grad_norm": 0.296875, "learning_rate": 0.00029983249533322164, "loss": 0.4237, "step": 23060 }, { "epoch": 30.76, "grad_norm": 0.32421875, "learning_rate": 0.00029983234682435524, "loss": 0.4372, "step": 23070 }, { "epoch": 30.773333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029983219824972126, "loss": 0.426, "step": 23080 }, { "epoch": 30.786666666666665, "grad_norm": 0.35546875, "learning_rate": 0.0002998320496093197, "loss": 0.4255, "step": 23090 }, { "epoch": 30.8, "grad_norm": 0.3203125, "learning_rate": 0.0002998319009031505, "loss": 0.4239, "step": 23100 }, { "epoch": 30.813333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002998317521312139, "loss": 0.3985, "step": 23110 }, { "epoch": 30.826666666666668, "grad_norm": 0.30859375, "learning_rate": 0.0002998316032935099, "loss": 0.4111, "step": 23120 }, { "epoch": 30.84, "grad_norm": 0.34765625, "learning_rate": 0.0002998314543900386, "loss": 0.4214, "step": 23130 }, { "epoch": 30.85333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029983130542079995, "loss": 0.4167, "step": 23140 }, { "epoch": 30.866666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029983115638579415, "loss": 0.4193, "step": 23150 }, { "epoch": 30.88, "grad_norm": 0.30078125, "learning_rate": 0.00029983100728502124, "loss": 0.3974, "step": 23160 }, { "epoch": 30.893333333333334, "grad_norm": 0.28125, "learning_rate": 0.0002998308581184812, "loss": 0.4093, "step": 23170 }, { "epoch": 30.906666666666666, "grad_norm": 0.279296875, "learning_rate": 0.00029983070888617416, "loss": 0.4186, "step": 23180 }, { "epoch": 30.92, "grad_norm": 0.294921875, "learning_rate": 0.0002998305595881002, "loss": 0.42, "step": 23190 }, { "epoch": 30.933333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0002998304102242594, "loss": 0.4122, "step": 23200 }, { "epoch": 30.946666666666665, "grad_norm": 0.265625, "learning_rate": 0.0002998302607946517, "loss": 0.4138, "step": 23210 }, { "epoch": 30.96, "grad_norm": 0.263671875, "learning_rate": 0.00029983011129927736, "loss": 0.4096, "step": 23220 }, { "epoch": 30.973333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002998299617381363, "loss": 0.4367, "step": 23230 }, { "epoch": 30.986666666666668, "grad_norm": 0.32421875, "learning_rate": 0.0002998298121112286, "loss": 0.4138, "step": 23240 }, { "epoch": 31.0, "grad_norm": 0.322265625, "learning_rate": 0.0002998296624185544, "loss": 0.4056, "step": 23250 }, { "epoch": 31.0, "eval_loss": 0.4408172070980072, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9269, "eval_samples_per_second": 1.612, "eval_steps_per_second": 0.101, "step": 23250 }, { "epoch": 31.013333333333332, "grad_norm": 0.333984375, "learning_rate": 0.0002998295126601137, "loss": 0.4253, "step": 23260 }, { "epoch": 31.026666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029982936283590655, "loss": 0.4349, "step": 23270 }, { "epoch": 31.04, "grad_norm": 0.28515625, "learning_rate": 0.00029982921294593307, "loss": 0.4478, "step": 23280 }, { "epoch": 31.053333333333335, "grad_norm": 0.29296875, "learning_rate": 0.0002998290629901933, "loss": 0.4354, "step": 23290 }, { "epoch": 31.066666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002998289129686874, "loss": 0.4205, "step": 23300 }, { "epoch": 31.08, "grad_norm": 0.302734375, "learning_rate": 0.00029982876288141524, "loss": 0.4249, "step": 23310 }, { "epoch": 31.093333333333334, "grad_norm": 0.265625, "learning_rate": 0.000299828612728377, "loss": 0.4256, "step": 23320 }, { "epoch": 31.106666666666666, "grad_norm": 0.267578125, "learning_rate": 0.00029982846250957277, "loss": 0.4138, "step": 23330 }, { "epoch": 31.12, "grad_norm": 0.318359375, "learning_rate": 0.00029982831222500256, "loss": 0.4194, "step": 23340 }, { "epoch": 31.133333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029982816187466653, "loss": 0.4112, "step": 23350 }, { "epoch": 31.14666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002998280114585646, "loss": 0.43, "step": 23360 }, { "epoch": 31.16, "grad_norm": 0.3125, "learning_rate": 0.00029982786097669696, "loss": 0.4227, "step": 23370 }, { "epoch": 31.173333333333332, "grad_norm": 0.375, "learning_rate": 0.00029982771042906363, "loss": 0.4152, "step": 23380 }, { "epoch": 31.186666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029982755981566465, "loss": 0.4167, "step": 23390 }, { "epoch": 31.2, "grad_norm": 0.3125, "learning_rate": 0.00029982740913650014, "loss": 0.4104, "step": 23400 }, { "epoch": 31.213333333333335, "grad_norm": 0.29296875, "learning_rate": 0.0002998272583915701, "loss": 0.4114, "step": 23410 }, { "epoch": 31.226666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029982710758087467, "loss": 0.4244, "step": 23420 }, { "epoch": 31.24, "grad_norm": 0.376953125, "learning_rate": 0.0002998269567044139, "loss": 0.4072, "step": 23430 }, { "epoch": 31.253333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029982680576218777, "loss": 0.4096, "step": 23440 }, { "epoch": 31.266666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029982665475419644, "loss": 0.4109, "step": 23450 }, { "epoch": 31.28, "grad_norm": 0.318359375, "learning_rate": 0.0002998265036804399, "loss": 0.4416, "step": 23460 }, { "epoch": 31.293333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029982635254091833, "loss": 0.398, "step": 23470 }, { "epoch": 31.306666666666665, "grad_norm": 0.26171875, "learning_rate": 0.00029982620133563176, "loss": 0.4201, "step": 23480 }, { "epoch": 31.32, "grad_norm": 0.337890625, "learning_rate": 0.00029982605006458014, "loss": 0.4209, "step": 23490 }, { "epoch": 31.333333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002998258987277637, "loss": 0.4273, "step": 23500 }, { "epoch": 31.346666666666668, "grad_norm": 0.30859375, "learning_rate": 0.00029982574732518235, "loss": 0.4176, "step": 23510 }, { "epoch": 31.36, "grad_norm": 0.337890625, "learning_rate": 0.0002998255958568363, "loss": 0.421, "step": 23520 }, { "epoch": 31.373333333333335, "grad_norm": 0.34375, "learning_rate": 0.00029982544432272557, "loss": 0.4181, "step": 23530 }, { "epoch": 31.386666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002998252927228502, "loss": 0.4126, "step": 23540 }, { "epoch": 31.4, "grad_norm": 0.267578125, "learning_rate": 0.0002998251410572102, "loss": 0.4195, "step": 23550 }, { "epoch": 31.413333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029982498932580576, "loss": 0.4223, "step": 23560 }, { "epoch": 31.426666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029982483752863685, "loss": 0.4242, "step": 23570 }, { "epoch": 31.44, "grad_norm": 0.30859375, "learning_rate": 0.00029982468566570365, "loss": 0.4358, "step": 23580 }, { "epoch": 31.453333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029982453373700606, "loss": 0.4252, "step": 23590 }, { "epoch": 31.466666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029982438174254434, "loss": 0.4348, "step": 23600 }, { "epoch": 31.48, "grad_norm": 0.30078125, "learning_rate": 0.0002998242296823184, "loss": 0.415, "step": 23610 }, { "epoch": 31.493333333333332, "grad_norm": 0.314453125, "learning_rate": 0.0002998240775563284, "loss": 0.4276, "step": 23620 }, { "epoch": 31.506666666666668, "grad_norm": 0.265625, "learning_rate": 0.0002998239253645743, "loss": 0.4228, "step": 23630 }, { "epoch": 31.52, "grad_norm": 0.2470703125, "learning_rate": 0.0002998237731070563, "loss": 0.414, "step": 23640 }, { "epoch": 31.533333333333335, "grad_norm": 0.34765625, "learning_rate": 0.0002998236207837744, "loss": 0.4174, "step": 23650 }, { "epoch": 31.546666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002998234683947286, "loss": 0.4196, "step": 23660 }, { "epoch": 31.56, "grad_norm": 0.236328125, "learning_rate": 0.0002998233159399191, "loss": 0.4129, "step": 23670 }, { "epoch": 31.573333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029982316341934593, "loss": 0.4164, "step": 23680 }, { "epoch": 31.586666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0002998230108330091, "loss": 0.405, "step": 23690 }, { "epoch": 31.6, "grad_norm": 0.306640625, "learning_rate": 0.00029982285818090865, "loss": 0.4082, "step": 23700 }, { "epoch": 31.613333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002998227054630448, "loss": 0.3939, "step": 23710 }, { "epoch": 31.626666666666665, "grad_norm": 0.2578125, "learning_rate": 0.00029982255267941747, "loss": 0.4, "step": 23720 }, { "epoch": 31.64, "grad_norm": 0.30859375, "learning_rate": 0.00029982239983002677, "loss": 0.4147, "step": 23730 }, { "epoch": 31.653333333333332, "grad_norm": 0.306640625, "learning_rate": 0.0002998222469148728, "loss": 0.4259, "step": 23740 }, { "epoch": 31.666666666666668, "grad_norm": 0.244140625, "learning_rate": 0.0002998220939339556, "loss": 0.4092, "step": 23750 }, { "epoch": 31.68, "grad_norm": 0.30859375, "learning_rate": 0.0002998219408872753, "loss": 0.4029, "step": 23760 }, { "epoch": 31.693333333333335, "grad_norm": 0.291015625, "learning_rate": 0.00029982178777483183, "loss": 0.4123, "step": 23770 }, { "epoch": 31.706666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029982163459662533, "loss": 0.4055, "step": 23780 }, { "epoch": 31.72, "grad_norm": 0.29296875, "learning_rate": 0.00029982148135265595, "loss": 0.4292, "step": 23790 }, { "epoch": 31.733333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029982132804292364, "loss": 0.4223, "step": 23800 }, { "epoch": 31.746666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029982117466742844, "loss": 0.4235, "step": 23810 }, { "epoch": 31.76, "grad_norm": 0.32421875, "learning_rate": 0.00029982102122617054, "loss": 0.4358, "step": 23820 }, { "epoch": 31.773333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029982086771915, "loss": 0.426, "step": 23830 }, { "epoch": 31.786666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0002998207141463668, "loss": 0.4243, "step": 23840 }, { "epoch": 31.8, "grad_norm": 0.29296875, "learning_rate": 0.000299820560507821, "loss": 0.4246, "step": 23850 }, { "epoch": 31.813333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002998204068035127, "loss": 0.397, "step": 23860 }, { "epoch": 31.826666666666668, "grad_norm": 0.265625, "learning_rate": 0.0002998202530334421, "loss": 0.4093, "step": 23870 }, { "epoch": 31.84, "grad_norm": 0.318359375, "learning_rate": 0.00029982009919760907, "loss": 0.4196, "step": 23880 }, { "epoch": 31.85333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029981994529601377, "loss": 0.4154, "step": 23890 }, { "epoch": 31.866666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029981979132865625, "loss": 0.4183, "step": 23900 }, { "epoch": 31.88, "grad_norm": 0.2890625, "learning_rate": 0.0002998196372955366, "loss": 0.3979, "step": 23910 }, { "epoch": 31.893333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029981948319665483, "loss": 0.4084, "step": 23920 }, { "epoch": 31.906666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002998193290320111, "loss": 0.4178, "step": 23930 }, { "epoch": 31.92, "grad_norm": 0.3046875, "learning_rate": 0.00029981917480160537, "loss": 0.4195, "step": 23940 }, { "epoch": 31.933333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002998190205054378, "loss": 0.4115, "step": 23950 }, { "epoch": 31.946666666666665, "grad_norm": 0.2578125, "learning_rate": 0.0002998188661435084, "loss": 0.4143, "step": 23960 }, { "epoch": 31.96, "grad_norm": 0.279296875, "learning_rate": 0.0002998187117158173, "loss": 0.4104, "step": 23970 }, { "epoch": 31.973333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002998185572223644, "loss": 0.4356, "step": 23980 }, { "epoch": 31.986666666666668, "grad_norm": 0.287109375, "learning_rate": 0.00029981840266315, "loss": 0.4127, "step": 23990 }, { "epoch": 32.0, "grad_norm": 0.3046875, "learning_rate": 0.0002998182480381741, "loss": 0.4048, "step": 24000 }, { "epoch": 32.0, "eval_loss": 0.4415372908115387, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2222, "eval_samples_per_second": 1.565, "eval_steps_per_second": 0.098, "step": 24000 }, { "epoch": 32.013333333333335, "grad_norm": 0.30859375, "learning_rate": 0.00029981809334743664, "loss": 0.424, "step": 24010 }, { "epoch": 32.026666666666664, "grad_norm": 0.26171875, "learning_rate": 0.0002998179385909378, "loss": 0.4343, "step": 24020 }, { "epoch": 32.04, "grad_norm": 0.28515625, "learning_rate": 0.0002998177837686777, "loss": 0.4457, "step": 24030 }, { "epoch": 32.053333333333335, "grad_norm": 0.283203125, "learning_rate": 0.00029981762888065623, "loss": 0.4336, "step": 24040 }, { "epoch": 32.06666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029981747392687357, "loss": 0.421, "step": 24050 }, { "epoch": 32.08, "grad_norm": 0.392578125, "learning_rate": 0.0002998173189073298, "loss": 0.4243, "step": 24060 }, { "epoch": 32.093333333333334, "grad_norm": 0.294921875, "learning_rate": 0.000299817163822025, "loss": 0.4241, "step": 24070 }, { "epoch": 32.10666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0002998170086709592, "loss": 0.4132, "step": 24080 }, { "epoch": 32.12, "grad_norm": 0.27734375, "learning_rate": 0.00029981685345413246, "loss": 0.4193, "step": 24090 }, { "epoch": 32.13333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029981669817154483, "loss": 0.4107, "step": 24100 }, { "epoch": 32.14666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029981654282319644, "loss": 0.4294, "step": 24110 }, { "epoch": 32.16, "grad_norm": 0.31640625, "learning_rate": 0.0002998163874090873, "loss": 0.422, "step": 24120 }, { "epoch": 32.17333333333333, "grad_norm": 0.4921875, "learning_rate": 0.00029981623192921753, "loss": 0.4158, "step": 24130 }, { "epoch": 32.18666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002998160763835872, "loss": 0.4163, "step": 24140 }, { "epoch": 32.2, "grad_norm": 0.38671875, "learning_rate": 0.00029981592077219627, "loss": 0.4102, "step": 24150 }, { "epoch": 32.21333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002998157650950449, "loss": 0.4105, "step": 24160 }, { "epoch": 32.22666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029981560935213325, "loss": 0.4229, "step": 24170 }, { "epoch": 32.24, "grad_norm": 0.330078125, "learning_rate": 0.00029981545354346124, "loss": 0.4068, "step": 24180 }, { "epoch": 32.25333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029981529766902895, "loss": 0.41, "step": 24190 }, { "epoch": 32.266666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002998151417288365, "loss": 0.4109, "step": 24200 }, { "epoch": 32.28, "grad_norm": 0.318359375, "learning_rate": 0.000299814985722884, "loss": 0.4411, "step": 24210 }, { "epoch": 32.29333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029981482965117136, "loss": 0.3969, "step": 24220 }, { "epoch": 32.306666666666665, "grad_norm": 0.283203125, "learning_rate": 0.00029981467351369883, "loss": 0.4198, "step": 24230 }, { "epoch": 32.32, "grad_norm": 0.33203125, "learning_rate": 0.00029981451731046635, "loss": 0.4196, "step": 24240 }, { "epoch": 32.333333333333336, "grad_norm": 0.28125, "learning_rate": 0.0002998143610414741, "loss": 0.4265, "step": 24250 }, { "epoch": 32.346666666666664, "grad_norm": 0.3515625, "learning_rate": 0.000299814204706722, "loss": 0.4169, "step": 24260 }, { "epoch": 32.36, "grad_norm": 0.41796875, "learning_rate": 0.00029981404830621024, "loss": 0.4186, "step": 24270 }, { "epoch": 32.373333333333335, "grad_norm": 0.3203125, "learning_rate": 0.0002998138918399388, "loss": 0.4167, "step": 24280 }, { "epoch": 32.38666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002998137353079079, "loss": 0.4134, "step": 24290 }, { "epoch": 32.4, "grad_norm": 0.31640625, "learning_rate": 0.0002998135787101175, "loss": 0.4182, "step": 24300 }, { "epoch": 32.413333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002998134220465676, "loss": 0.423, "step": 24310 }, { "epoch": 32.42666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00029981326531725846, "loss": 0.4235, "step": 24320 }, { "epoch": 32.44, "grad_norm": 0.337890625, "learning_rate": 0.0002998131085221899, "loss": 0.434, "step": 24330 }, { "epoch": 32.45333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029981295166136223, "loss": 0.4245, "step": 24340 }, { "epoch": 32.46666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002998127947347754, "loss": 0.4346, "step": 24350 }, { "epoch": 32.48, "grad_norm": 0.29296875, "learning_rate": 0.0002998126377424295, "loss": 0.4146, "step": 24360 }, { "epoch": 32.49333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029981248068432453, "loss": 0.4262, "step": 24370 }, { "epoch": 32.50666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029981232356046065, "loss": 0.4224, "step": 24380 }, { "epoch": 32.52, "grad_norm": 0.271484375, "learning_rate": 0.0002998121663708379, "loss": 0.413, "step": 24390 }, { "epoch": 32.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002998120091154563, "loss": 0.4164, "step": 24400 }, { "epoch": 32.54666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002998118517943161, "loss": 0.419, "step": 24410 }, { "epoch": 32.56, "grad_norm": 0.251953125, "learning_rate": 0.0002998116944074171, "loss": 0.4132, "step": 24420 }, { "epoch": 32.57333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002998115369547596, "loss": 0.4152, "step": 24430 }, { "epoch": 32.586666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0002998113794363435, "loss": 0.4046, "step": 24440 }, { "epoch": 32.6, "grad_norm": 0.30859375, "learning_rate": 0.000299811221852169, "loss": 0.4063, "step": 24450 }, { "epoch": 32.61333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029981106420223606, "loss": 0.3945, "step": 24460 }, { "epoch": 32.626666666666665, "grad_norm": 0.29296875, "learning_rate": 0.00029981090648654486, "loss": 0.3995, "step": 24470 }, { "epoch": 32.64, "grad_norm": 0.2734375, "learning_rate": 0.0002998107487050954, "loss": 0.4142, "step": 24480 }, { "epoch": 32.653333333333336, "grad_norm": 0.314453125, "learning_rate": 0.00029981059085788775, "loss": 0.424, "step": 24490 }, { "epoch": 32.666666666666664, "grad_norm": 0.3046875, "learning_rate": 0.00029981043294492196, "loss": 0.4099, "step": 24500 }, { "epoch": 32.68, "grad_norm": 0.30078125, "learning_rate": 0.00029981027496619816, "loss": 0.4024, "step": 24510 }, { "epoch": 32.693333333333335, "grad_norm": 0.314453125, "learning_rate": 0.00029981011692171636, "loss": 0.4096, "step": 24520 }, { "epoch": 32.70666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002998099588114767, "loss": 0.4052, "step": 24530 }, { "epoch": 32.72, "grad_norm": 0.29296875, "learning_rate": 0.0002998098006354792, "loss": 0.4288, "step": 24540 }, { "epoch": 32.733333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029980964239372394, "loss": 0.4223, "step": 24550 }, { "epoch": 32.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029980948408621095, "loss": 0.4217, "step": 24560 }, { "epoch": 32.76, "grad_norm": 0.29296875, "learning_rate": 0.0002998093257129404, "loss": 0.4356, "step": 24570 }, { "epoch": 32.77333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002998091672739122, "loss": 0.426, "step": 24580 }, { "epoch": 32.78666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002998090087691266, "loss": 0.4244, "step": 24590 }, { "epoch": 32.8, "grad_norm": 0.328125, "learning_rate": 0.00029980885019858356, "loss": 0.423, "step": 24600 }, { "epoch": 32.81333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002998086915622832, "loss": 0.397, "step": 24610 }, { "epoch": 32.82666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002998085328602255, "loss": 0.4083, "step": 24620 }, { "epoch": 32.84, "grad_norm": 0.294921875, "learning_rate": 0.0002998083740924106, "loss": 0.4192, "step": 24630 }, { "epoch": 32.85333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002998082152588386, "loss": 0.415, "step": 24640 }, { "epoch": 32.86666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002998080563595095, "loss": 0.4175, "step": 24650 }, { "epoch": 32.88, "grad_norm": 0.2734375, "learning_rate": 0.00029980789739442344, "loss": 0.3976, "step": 24660 }, { "epoch": 32.89333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002998077383635804, "loss": 0.4083, "step": 24670 }, { "epoch": 32.906666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0002998075792669806, "loss": 0.4174, "step": 24680 }, { "epoch": 32.92, "grad_norm": 0.33203125, "learning_rate": 0.0002998074201046239, "loss": 0.4181, "step": 24690 }, { "epoch": 32.93333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0002998072608765106, "loss": 0.4117, "step": 24700 }, { "epoch": 32.946666666666665, "grad_norm": 0.279296875, "learning_rate": 0.00029980710158264054, "loss": 0.4128, "step": 24710 }, { "epoch": 32.96, "grad_norm": 0.2890625, "learning_rate": 0.000299806942223014, "loss": 0.4094, "step": 24720 }, { "epoch": 32.973333333333336, "grad_norm": 0.34765625, "learning_rate": 0.00029980678279763087, "loss": 0.4344, "step": 24730 }, { "epoch": 32.986666666666665, "grad_norm": 0.322265625, "learning_rate": 0.00029980662330649134, "loss": 0.4128, "step": 24740 }, { "epoch": 33.0, "grad_norm": 0.28515625, "learning_rate": 0.00029980646374959543, "loss": 0.4042, "step": 24750 }, { "epoch": 33.0, "eval_loss": 0.43970879912376404, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.5927, "eval_samples_per_second": 1.51, "eval_steps_per_second": 0.094, "step": 24750 }, { "epoch": 33.013333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002998063041269432, "loss": 0.4232, "step": 24760 }, { "epoch": 33.026666666666664, "grad_norm": 0.314453125, "learning_rate": 0.00029980614443853476, "loss": 0.4334, "step": 24770 }, { "epoch": 33.04, "grad_norm": 0.2578125, "learning_rate": 0.00029980598468437017, "loss": 0.4453, "step": 24780 }, { "epoch": 33.053333333333335, "grad_norm": 0.26953125, "learning_rate": 0.00029980582486444947, "loss": 0.4323, "step": 24790 }, { "epoch": 33.06666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002998056649787728, "loss": 0.4195, "step": 24800 }, { "epoch": 33.08, "grad_norm": 0.33984375, "learning_rate": 0.0002998055050273401, "loss": 0.4233, "step": 24810 }, { "epoch": 33.093333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0002998053450101516, "loss": 0.4236, "step": 24820 }, { "epoch": 33.10666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0002998051849272073, "loss": 0.4117, "step": 24830 }, { "epoch": 33.12, "grad_norm": 0.279296875, "learning_rate": 0.0002998050247785072, "loss": 0.4178, "step": 24840 }, { "epoch": 33.13333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029980486456405146, "loss": 0.4096, "step": 24850 }, { "epoch": 33.14666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029980470428384015, "loss": 0.4277, "step": 24860 }, { "epoch": 33.16, "grad_norm": 0.365234375, "learning_rate": 0.0002998045439378733, "loss": 0.4212, "step": 24870 }, { "epoch": 33.17333333333333, "grad_norm": 0.462890625, "learning_rate": 0.000299804383526151, "loss": 0.4147, "step": 24880 }, { "epoch": 33.18666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029980422304867326, "loss": 0.416, "step": 24890 }, { "epoch": 33.2, "grad_norm": 0.361328125, "learning_rate": 0.00029980406250544025, "loss": 0.4086, "step": 24900 }, { "epoch": 33.21333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029980390189645196, "loss": 0.4097, "step": 24910 }, { "epoch": 33.22666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029980374122170854, "loss": 0.4222, "step": 24920 }, { "epoch": 33.24, "grad_norm": 0.322265625, "learning_rate": 0.00029980358048121, "loss": 0.4057, "step": 24930 }, { "epoch": 33.25333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002998034196749564, "loss": 0.4093, "step": 24940 }, { "epoch": 33.266666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002998032588029479, "loss": 0.4097, "step": 24950 }, { "epoch": 33.28, "grad_norm": 0.271484375, "learning_rate": 0.00029980309786518445, "loss": 0.441, "step": 24960 }, { "epoch": 33.29333333333334, "grad_norm": 0.283203125, "learning_rate": 0.00029980293686166626, "loss": 0.3961, "step": 24970 }, { "epoch": 33.306666666666665, "grad_norm": 0.28125, "learning_rate": 0.0002998027757923932, "loss": 0.42, "step": 24980 }, { "epoch": 33.32, "grad_norm": 0.26953125, "learning_rate": 0.00029980261465736553, "loss": 0.42, "step": 24990 }, { "epoch": 33.333333333333336, "grad_norm": 0.361328125, "learning_rate": 0.0002998024534565833, "loss": 0.4266, "step": 25000 }, { "epoch": 33.346666666666664, "grad_norm": 0.33984375, "learning_rate": 0.0002998022921900464, "loss": 0.4166, "step": 25010 }, { "epoch": 33.36, "grad_norm": 0.388671875, "learning_rate": 0.0002998021308577552, "loss": 0.418, "step": 25020 }, { "epoch": 33.373333333333335, "grad_norm": 0.271484375, "learning_rate": 0.0002998019694597095, "loss": 0.4172, "step": 25030 }, { "epoch": 33.38666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002998018079959094, "loss": 0.411, "step": 25040 }, { "epoch": 33.4, "grad_norm": 0.296875, "learning_rate": 0.0002998016464663552, "loss": 0.4179, "step": 25050 }, { "epoch": 33.413333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002998014848710467, "loss": 0.4221, "step": 25060 }, { "epoch": 33.42666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029980132320998415, "loss": 0.4231, "step": 25070 }, { "epoch": 33.44, "grad_norm": 0.2578125, "learning_rate": 0.0002998011614831676, "loss": 0.4332, "step": 25080 }, { "epoch": 33.45333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029980099969059704, "loss": 0.4242, "step": 25090 }, { "epoch": 33.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029980083783227255, "loss": 0.4332, "step": 25100 }, { "epoch": 33.48, "grad_norm": 0.318359375, "learning_rate": 0.0002998006759081942, "loss": 0.4141, "step": 25110 }, { "epoch": 33.49333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029980051391836215, "loss": 0.4246, "step": 25120 }, { "epoch": 33.50666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002998003518627764, "loss": 0.4223, "step": 25130 }, { "epoch": 33.52, "grad_norm": 0.330078125, "learning_rate": 0.00029980018974143705, "loss": 0.4136, "step": 25140 }, { "epoch": 33.53333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029980002755434414, "loss": 0.4155, "step": 25150 }, { "epoch": 33.54666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002997998653014978, "loss": 0.4195, "step": 25160 }, { "epoch": 33.56, "grad_norm": 0.32421875, "learning_rate": 0.000299799702982898, "loss": 0.4129, "step": 25170 }, { "epoch": 33.57333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029979954059854483, "loss": 0.4154, "step": 25180 }, { "epoch": 33.586666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029979937814843846, "loss": 0.4046, "step": 25190 }, { "epoch": 33.6, "grad_norm": 0.283203125, "learning_rate": 0.0002997992156325789, "loss": 0.4056, "step": 25200 }, { "epoch": 33.61333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00029979905305096624, "loss": 0.393, "step": 25210 }, { "epoch": 33.626666666666665, "grad_norm": 0.302734375, "learning_rate": 0.0002997988904036005, "loss": 0.3985, "step": 25220 }, { "epoch": 33.64, "grad_norm": 0.283203125, "learning_rate": 0.0002997987276904818, "loss": 0.414, "step": 25230 }, { "epoch": 33.653333333333336, "grad_norm": 0.35546875, "learning_rate": 0.0002997985649116102, "loss": 0.4246, "step": 25240 }, { "epoch": 33.666666666666664, "grad_norm": 0.287109375, "learning_rate": 0.00029979840206698576, "loss": 0.4087, "step": 25250 }, { "epoch": 33.68, "grad_norm": 0.326171875, "learning_rate": 0.00029979823915660857, "loss": 0.4018, "step": 25260 }, { "epoch": 33.693333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002997980761804787, "loss": 0.4104, "step": 25270 }, { "epoch": 33.70666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002997979131385962, "loss": 0.4051, "step": 25280 }, { "epoch": 33.72, "grad_norm": 0.30859375, "learning_rate": 0.00029979775003096114, "loss": 0.428, "step": 25290 }, { "epoch": 33.733333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029979758685757363, "loss": 0.4209, "step": 25300 }, { "epoch": 33.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002997974236184337, "loss": 0.422, "step": 25310 }, { "epoch": 33.76, "grad_norm": 0.35546875, "learning_rate": 0.0002997972603135415, "loss": 0.4334, "step": 25320 }, { "epoch": 33.77333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029979709694289694, "loss": 0.4245, "step": 25330 }, { "epoch": 33.78666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029979693350650025, "loss": 0.4236, "step": 25340 }, { "epoch": 33.8, "grad_norm": 0.322265625, "learning_rate": 0.0002997967700043515, "loss": 0.4223, "step": 25350 }, { "epoch": 33.81333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002997966064364506, "loss": 0.3958, "step": 25360 }, { "epoch": 33.82666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029979644280279775, "loss": 0.4078, "step": 25370 }, { "epoch": 33.84, "grad_norm": 0.302734375, "learning_rate": 0.000299796279103393, "loss": 0.4184, "step": 25380 }, { "epoch": 33.85333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002997961153382365, "loss": 0.4142, "step": 25390 }, { "epoch": 33.86666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029979595150732817, "loss": 0.4178, "step": 25400 }, { "epoch": 33.88, "grad_norm": 0.275390625, "learning_rate": 0.0002997957876106682, "loss": 0.3972, "step": 25410 }, { "epoch": 33.89333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002997956236482566, "loss": 0.4082, "step": 25420 }, { "epoch": 33.906666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002997954596200934, "loss": 0.4161, "step": 25430 }, { "epoch": 33.92, "grad_norm": 0.30859375, "learning_rate": 0.00029979529552617883, "loss": 0.4189, "step": 25440 }, { "epoch": 33.93333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0002997951313665128, "loss": 0.4103, "step": 25450 }, { "epoch": 33.946666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002997949671410955, "loss": 0.4126, "step": 25460 }, { "epoch": 33.96, "grad_norm": 0.279296875, "learning_rate": 0.0002997948028499269, "loss": 0.409, "step": 25470 }, { "epoch": 33.973333333333336, "grad_norm": 0.310546875, "learning_rate": 0.00029979463849300715, "loss": 0.4344, "step": 25480 }, { "epoch": 33.986666666666665, "grad_norm": 0.279296875, "learning_rate": 0.00029979447407033625, "loss": 0.4113, "step": 25490 }, { "epoch": 34.0, "grad_norm": 0.310546875, "learning_rate": 0.00029979430958191434, "loss": 0.4033, "step": 25500 }, { "epoch": 34.0, "eval_loss": 0.4383305609226227, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6393, "eval_samples_per_second": 1.66, "eval_steps_per_second": 0.104, "step": 25500 }, { "epoch": 34.013333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002997941450277414, "loss": 0.4222, "step": 25510 }, { "epoch": 34.026666666666664, "grad_norm": 0.28515625, "learning_rate": 0.00029979398040781767, "loss": 0.4339, "step": 25520 }, { "epoch": 34.04, "grad_norm": 0.28515625, "learning_rate": 0.0002997938157221431, "loss": 0.446, "step": 25530 }, { "epoch": 34.053333333333335, "grad_norm": 0.28125, "learning_rate": 0.0002997936509707178, "loss": 0.4316, "step": 25540 }, { "epoch": 34.06666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029979348615354176, "loss": 0.4199, "step": 25550 }, { "epoch": 34.08, "grad_norm": 0.30859375, "learning_rate": 0.00029979332127061517, "loss": 0.4226, "step": 25560 }, { "epoch": 34.093333333333334, "grad_norm": 0.291015625, "learning_rate": 0.000299793156321938, "loss": 0.4234, "step": 25570 }, { "epoch": 34.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002997929913075104, "loss": 0.4113, "step": 25580 }, { "epoch": 34.12, "grad_norm": 0.318359375, "learning_rate": 0.0002997928262273325, "loss": 0.4181, "step": 25590 }, { "epoch": 34.13333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029979266108140414, "loss": 0.4089, "step": 25600 }, { "epoch": 34.14666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002997924958697256, "loss": 0.4276, "step": 25610 }, { "epoch": 34.16, "grad_norm": 0.279296875, "learning_rate": 0.0002997923305922969, "loss": 0.4208, "step": 25620 }, { "epoch": 34.17333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002997921652491181, "loss": 0.4144, "step": 25630 }, { "epoch": 34.18666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002997919998401893, "loss": 0.4146, "step": 25640 }, { "epoch": 34.2, "grad_norm": 0.314453125, "learning_rate": 0.00029979183436551054, "loss": 0.4086, "step": 25650 }, { "epoch": 34.21333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002997916688250819, "loss": 0.4083, "step": 25660 }, { "epoch": 34.22666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002997915032189035, "loss": 0.4228, "step": 25670 }, { "epoch": 34.24, "grad_norm": 0.28125, "learning_rate": 0.00029979133754697533, "loss": 0.4047, "step": 25680 }, { "epoch": 34.25333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029979117180929746, "loss": 0.409, "step": 25690 }, { "epoch": 34.266666666666666, "grad_norm": 0.263671875, "learning_rate": 0.00029979100600587005, "loss": 0.4093, "step": 25700 }, { "epoch": 34.28, "grad_norm": 0.287109375, "learning_rate": 0.0002997908401366931, "loss": 0.4402, "step": 25710 }, { "epoch": 34.29333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029979067420176676, "loss": 0.3954, "step": 25720 }, { "epoch": 34.306666666666665, "grad_norm": 0.30859375, "learning_rate": 0.000299790508201091, "loss": 0.4189, "step": 25730 }, { "epoch": 34.32, "grad_norm": 0.28515625, "learning_rate": 0.00029979034213466595, "loss": 0.4187, "step": 25740 }, { "epoch": 34.333333333333336, "grad_norm": 0.291015625, "learning_rate": 0.0002997901760024917, "loss": 0.4252, "step": 25750 }, { "epoch": 34.346666666666664, "grad_norm": 0.33203125, "learning_rate": 0.00029979000980456826, "loss": 0.4169, "step": 25760 }, { "epoch": 34.36, "grad_norm": 0.310546875, "learning_rate": 0.0002997898435408958, "loss": 0.4177, "step": 25770 }, { "epoch": 34.373333333333335, "grad_norm": 0.26171875, "learning_rate": 0.0002997896772114743, "loss": 0.4155, "step": 25780 }, { "epoch": 34.38666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002997895108163039, "loss": 0.4102, "step": 25790 }, { "epoch": 34.4, "grad_norm": 0.28125, "learning_rate": 0.0002997893443553846, "loss": 0.4166, "step": 25800 }, { "epoch": 34.413333333333334, "grad_norm": 0.26953125, "learning_rate": 0.00029978917782871655, "loss": 0.4207, "step": 25810 }, { "epoch": 34.42666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029978901123629977, "loss": 0.4218, "step": 25820 }, { "epoch": 34.44, "grad_norm": 0.30078125, "learning_rate": 0.00029978884457813437, "loss": 0.4329, "step": 25830 }, { "epoch": 34.45333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002997886778542204, "loss": 0.4221, "step": 25840 }, { "epoch": 34.46666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0002997885110645579, "loss": 0.4319, "step": 25850 }, { "epoch": 34.48, "grad_norm": 0.32421875, "learning_rate": 0.000299788344209147, "loss": 0.4135, "step": 25860 }, { "epoch": 34.49333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002997881772879878, "loss": 0.4253, "step": 25870 }, { "epoch": 34.50666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002997880103010803, "loss": 0.4197, "step": 25880 }, { "epoch": 34.52, "grad_norm": 0.29296875, "learning_rate": 0.0002997878432484246, "loss": 0.4121, "step": 25890 }, { "epoch": 34.53333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002997876761300208, "loss": 0.4154, "step": 25900 }, { "epoch": 34.54666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029978750894586894, "loss": 0.4179, "step": 25910 }, { "epoch": 34.56, "grad_norm": 0.28125, "learning_rate": 0.0002997873416959691, "loss": 0.4107, "step": 25920 }, { "epoch": 34.57333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002997871743803213, "loss": 0.4148, "step": 25930 }, { "epoch": 34.586666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0002997870069989257, "loss": 0.4035, "step": 25940 }, { "epoch": 34.6, "grad_norm": 0.275390625, "learning_rate": 0.0002997868395517824, "loss": 0.4053, "step": 25950 }, { "epoch": 34.61333333333333, "grad_norm": 0.26171875, "learning_rate": 0.00029978667203889135, "loss": 0.3926, "step": 25960 }, { "epoch": 34.626666666666665, "grad_norm": 0.25, "learning_rate": 0.0002997865044602527, "loss": 0.3982, "step": 25970 }, { "epoch": 34.64, "grad_norm": 0.28515625, "learning_rate": 0.0002997863368158665, "loss": 0.4132, "step": 25980 }, { "epoch": 34.653333333333336, "grad_norm": 0.30078125, "learning_rate": 0.00029978616910573285, "loss": 0.4227, "step": 25990 }, { "epoch": 34.666666666666664, "grad_norm": 0.26953125, "learning_rate": 0.0002997860013298519, "loss": 0.4082, "step": 26000 }, { "epoch": 34.68, "grad_norm": 0.283203125, "learning_rate": 0.0002997858334882235, "loss": 0.401, "step": 26010 }, { "epoch": 34.693333333333335, "grad_norm": 0.3203125, "learning_rate": 0.0002997856655808479, "loss": 0.4099, "step": 26020 }, { "epoch": 34.70666666666666, "grad_norm": 0.30859375, "learning_rate": 0.0002997854976077251, "loss": 0.4038, "step": 26030 }, { "epoch": 34.72, "grad_norm": 0.30078125, "learning_rate": 0.0002997853295688553, "loss": 0.4266, "step": 26040 }, { "epoch": 34.733333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0002997851614642384, "loss": 0.4209, "step": 26050 }, { "epoch": 34.74666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002997849932938746, "loss": 0.4216, "step": 26060 }, { "epoch": 34.76, "grad_norm": 0.34375, "learning_rate": 0.00029978482505776385, "loss": 0.4343, "step": 26070 }, { "epoch": 34.77333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002997846567559064, "loss": 0.4236, "step": 26080 }, { "epoch": 34.78666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0002997844883883021, "loss": 0.4233, "step": 26090 }, { "epoch": 34.8, "grad_norm": 0.36328125, "learning_rate": 0.00029978431995495125, "loss": 0.4228, "step": 26100 }, { "epoch": 34.81333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029978415145585376, "loss": 0.3956, "step": 26110 }, { "epoch": 34.82666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002997839828910098, "loss": 0.4074, "step": 26120 }, { "epoch": 34.84, "grad_norm": 0.353515625, "learning_rate": 0.0002997838142604194, "loss": 0.418, "step": 26130 }, { "epoch": 34.85333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002997836455640827, "loss": 0.4138, "step": 26140 }, { "epoch": 34.86666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029978347680199966, "loss": 0.4168, "step": 26150 }, { "epoch": 34.88, "grad_norm": 0.28125, "learning_rate": 0.0002997833079741704, "loss": 0.3969, "step": 26160 }, { "epoch": 34.89333333333333, "grad_norm": 0.265625, "learning_rate": 0.00029978313908059505, "loss": 0.4071, "step": 26170 }, { "epoch": 34.906666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0002997829701212736, "loss": 0.4152, "step": 26180 }, { "epoch": 34.92, "grad_norm": 0.2890625, "learning_rate": 0.0002997828010962062, "loss": 0.4182, "step": 26190 }, { "epoch": 34.93333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029978263200539285, "loss": 0.4101, "step": 26200 }, { "epoch": 34.946666666666665, "grad_norm": 0.30859375, "learning_rate": 0.00029978246284883365, "loss": 0.4114, "step": 26210 }, { "epoch": 34.96, "grad_norm": 0.29296875, "learning_rate": 0.0002997822936265287, "loss": 0.4084, "step": 26220 }, { "epoch": 34.973333333333336, "grad_norm": 0.369140625, "learning_rate": 0.0002997821243384781, "loss": 0.4339, "step": 26230 }, { "epoch": 34.986666666666665, "grad_norm": 0.298828125, "learning_rate": 0.0002997819549846819, "loss": 0.4104, "step": 26240 }, { "epoch": 35.0, "grad_norm": 0.337890625, "learning_rate": 0.00029978178556514006, "loss": 0.4029, "step": 26250 }, { "epoch": 35.0, "eval_loss": 0.4359012544155121, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7438, "eval_samples_per_second": 1.642, "eval_steps_per_second": 0.103, "step": 26250 }, { "epoch": 35.013333333333335, "grad_norm": 0.341796875, "learning_rate": 0.0002997816160798528, "loss": 0.4219, "step": 26260 }, { "epoch": 35.026666666666664, "grad_norm": 0.283203125, "learning_rate": 0.0002997814465288202, "loss": 0.4317, "step": 26270 }, { "epoch": 35.04, "grad_norm": 0.2890625, "learning_rate": 0.00029978127691204223, "loss": 0.4445, "step": 26280 }, { "epoch": 35.053333333333335, "grad_norm": 0.30078125, "learning_rate": 0.000299781107229519, "loss": 0.4313, "step": 26290 }, { "epoch": 35.06666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029978093748125065, "loss": 0.4185, "step": 26300 }, { "epoch": 35.08, "grad_norm": 0.333984375, "learning_rate": 0.00029978076766723716, "loss": 0.423, "step": 26310 }, { "epoch": 35.093333333333334, "grad_norm": 0.271484375, "learning_rate": 0.00029978059778747873, "loss": 0.4229, "step": 26320 }, { "epoch": 35.10666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002997804278419753, "loss": 0.4111, "step": 26330 }, { "epoch": 35.12, "grad_norm": 0.447265625, "learning_rate": 0.000299780257830727, "loss": 0.4166, "step": 26340 }, { "epoch": 35.13333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002997800877537339, "loss": 0.4078, "step": 26350 }, { "epoch": 35.14666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002997799176109961, "loss": 0.4268, "step": 26360 }, { "epoch": 35.16, "grad_norm": 0.3046875, "learning_rate": 0.00029977974740251365, "loss": 0.4195, "step": 26370 }, { "epoch": 35.17333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029977957712828664, "loss": 0.4138, "step": 26380 }, { "epoch": 35.18666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002997794067883151, "loss": 0.414, "step": 26390 }, { "epoch": 35.2, "grad_norm": 0.376953125, "learning_rate": 0.00029977923638259917, "loss": 0.4083, "step": 26400 }, { "epoch": 35.21333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002997790659111388, "loss": 0.4083, "step": 26410 }, { "epoch": 35.22666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029977889537393423, "loss": 0.4203, "step": 26420 }, { "epoch": 35.24, "grad_norm": 0.380859375, "learning_rate": 0.00029977872477098547, "loss": 0.4041, "step": 26430 }, { "epoch": 35.25333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029977855410229264, "loss": 0.4077, "step": 26440 }, { "epoch": 35.266666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002997783833678557, "loss": 0.4088, "step": 26450 }, { "epoch": 35.28, "grad_norm": 0.275390625, "learning_rate": 0.0002997782125676748, "loss": 0.4395, "step": 26460 }, { "epoch": 35.29333333333334, "grad_norm": 0.310546875, "learning_rate": 0.00029977804170174997, "loss": 0.3956, "step": 26470 }, { "epoch": 35.306666666666665, "grad_norm": 0.287109375, "learning_rate": 0.00029977787077008135, "loss": 0.4189, "step": 26480 }, { "epoch": 35.32, "grad_norm": 0.328125, "learning_rate": 0.00029977769977266894, "loss": 0.4192, "step": 26490 }, { "epoch": 35.333333333333336, "grad_norm": 0.30078125, "learning_rate": 0.0002997775287095129, "loss": 0.4249, "step": 26500 }, { "epoch": 35.346666666666664, "grad_norm": 0.353515625, "learning_rate": 0.00029977735758061327, "loss": 0.4148, "step": 26510 }, { "epoch": 35.36, "grad_norm": 0.35546875, "learning_rate": 0.0002997771863859701, "loss": 0.4181, "step": 26520 }, { "epoch": 35.373333333333335, "grad_norm": 0.337890625, "learning_rate": 0.00029977701512558344, "loss": 0.4157, "step": 26530 }, { "epoch": 35.38666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029977684379945346, "loss": 0.4105, "step": 26540 }, { "epoch": 35.4, "grad_norm": 0.330078125, "learning_rate": 0.00029977667240758016, "loss": 0.416, "step": 26550 }, { "epoch": 35.413333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029977650094996366, "loss": 0.4201, "step": 26560 }, { "epoch": 35.42666666666667, "grad_norm": 0.279296875, "learning_rate": 0.000299776329426604, "loss": 0.4216, "step": 26570 }, { "epoch": 35.44, "grad_norm": 0.28515625, "learning_rate": 0.0002997761578375013, "loss": 0.4321, "step": 26580 }, { "epoch": 35.45333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029977598618265557, "loss": 0.4221, "step": 26590 }, { "epoch": 35.46666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029977581446206697, "loss": 0.4313, "step": 26600 }, { "epoch": 35.48, "grad_norm": 0.28515625, "learning_rate": 0.00029977564267573545, "loss": 0.4119, "step": 26610 }, { "epoch": 35.49333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002997754708236612, "loss": 0.4238, "step": 26620 }, { "epoch": 35.50666666666667, "grad_norm": 0.27734375, "learning_rate": 0.00029977529890584426, "loss": 0.421, "step": 26630 }, { "epoch": 35.52, "grad_norm": 0.271484375, "learning_rate": 0.0002997751269222847, "loss": 0.4109, "step": 26640 }, { "epoch": 35.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002997749548729826, "loss": 0.4149, "step": 26650 }, { "epoch": 35.54666666666667, "grad_norm": 0.33203125, "learning_rate": 0.000299774782757938, "loss": 0.417, "step": 26660 }, { "epoch": 35.56, "grad_norm": 0.283203125, "learning_rate": 0.000299774610577151, "loss": 0.4109, "step": 26670 }, { "epoch": 35.57333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029977443833062174, "loss": 0.4147, "step": 26680 }, { "epoch": 35.586666666666666, "grad_norm": 0.28125, "learning_rate": 0.0002997742660183502, "loss": 0.4038, "step": 26690 }, { "epoch": 35.6, "grad_norm": 0.291015625, "learning_rate": 0.0002997740936403365, "loss": 0.4057, "step": 26700 }, { "epoch": 35.61333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002997739211965807, "loss": 0.3922, "step": 26710 }, { "epoch": 35.626666666666665, "grad_norm": 0.2734375, "learning_rate": 0.0002997737486870829, "loss": 0.3982, "step": 26720 }, { "epoch": 35.64, "grad_norm": 0.29296875, "learning_rate": 0.00029977357611184316, "loss": 0.4131, "step": 26730 }, { "epoch": 35.653333333333336, "grad_norm": 0.298828125, "learning_rate": 0.00029977340347086157, "loss": 0.4216, "step": 26740 }, { "epoch": 35.666666666666664, "grad_norm": 0.298828125, "learning_rate": 0.0002997732307641382, "loss": 0.4065, "step": 26750 }, { "epoch": 35.68, "grad_norm": 0.32421875, "learning_rate": 0.0002997730579916731, "loss": 0.4008, "step": 26760 }, { "epoch": 35.693333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002997728851534663, "loss": 0.4096, "step": 26770 }, { "epoch": 35.70666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029977271224951806, "loss": 0.404, "step": 26780 }, { "epoch": 35.72, "grad_norm": 0.3046875, "learning_rate": 0.0002997725392798283, "loss": 0.4272, "step": 26790 }, { "epoch": 35.733333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002997723662443971, "loss": 0.4199, "step": 26800 }, { "epoch": 35.74666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002997721931432246, "loss": 0.421, "step": 26810 }, { "epoch": 35.76, "grad_norm": 0.3203125, "learning_rate": 0.0002997720199763108, "loss": 0.4337, "step": 26820 }, { "epoch": 35.77333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002997718467436559, "loss": 0.4226, "step": 26830 }, { "epoch": 35.78666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002997716734452598, "loss": 0.4223, "step": 26840 }, { "epoch": 35.8, "grad_norm": 0.30078125, "learning_rate": 0.0002997715000811227, "loss": 0.4206, "step": 26850 }, { "epoch": 35.81333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002997713266512447, "loss": 0.3953, "step": 26860 }, { "epoch": 35.82666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029977115315562577, "loss": 0.407, "step": 26870 }, { "epoch": 35.84, "grad_norm": 0.34765625, "learning_rate": 0.00029977097959426604, "loss": 0.418, "step": 26880 }, { "epoch": 35.85333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002997708059671656, "loss": 0.4141, "step": 26890 }, { "epoch": 35.86666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029977063227432457, "loss": 0.4149, "step": 26900 }, { "epoch": 35.88, "grad_norm": 0.2578125, "learning_rate": 0.0002997704585157429, "loss": 0.3956, "step": 26910 }, { "epoch": 35.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029977028469142076, "loss": 0.4065, "step": 26920 }, { "epoch": 35.906666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0002997701108013582, "loss": 0.4148, "step": 26930 }, { "epoch": 35.92, "grad_norm": 0.314453125, "learning_rate": 0.0002997699368455553, "loss": 0.4167, "step": 26940 }, { "epoch": 35.93333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002997697628240121, "loss": 0.4093, "step": 26950 }, { "epoch": 35.946666666666665, "grad_norm": 0.29296875, "learning_rate": 0.00029976958873672877, "loss": 0.4111, "step": 26960 }, { "epoch": 35.96, "grad_norm": 0.265625, "learning_rate": 0.0002997694145837053, "loss": 0.4079, "step": 26970 }, { "epoch": 35.973333333333336, "grad_norm": 0.34375, "learning_rate": 0.0002997692403649418, "loss": 0.4337, "step": 26980 }, { "epoch": 35.986666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002997690660804383, "loss": 0.4101, "step": 26990 }, { "epoch": 36.0, "grad_norm": 0.302734375, "learning_rate": 0.000299768891730195, "loss": 0.4022, "step": 27000 }, { "epoch": 36.0, "eval_loss": 0.438571035861969, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6536, "eval_samples_per_second": 1.657, "eval_steps_per_second": 0.104, "step": 27000 }, { "epoch": 36.013333333333335, "grad_norm": 0.294921875, "learning_rate": 0.00029976871731421183, "loss": 0.4219, "step": 27010 }, { "epoch": 36.026666666666664, "grad_norm": 0.318359375, "learning_rate": 0.0002997685428324889, "loss": 0.4322, "step": 27020 }, { "epoch": 36.04, "grad_norm": 0.2490234375, "learning_rate": 0.0002997683682850264, "loss": 0.4438, "step": 27030 }, { "epoch": 36.053333333333335, "grad_norm": 0.310546875, "learning_rate": 0.0002997681936718243, "loss": 0.4311, "step": 27040 }, { "epoch": 36.06666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029976801899288263, "loss": 0.4194, "step": 27050 }, { "epoch": 36.08, "grad_norm": 0.302734375, "learning_rate": 0.00029976784424820167, "loss": 0.4221, "step": 27060 }, { "epoch": 36.093333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029976766943778124, "loss": 0.4224, "step": 27070 }, { "epoch": 36.10666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029976749456162163, "loss": 0.4098, "step": 27080 }, { "epoch": 36.12, "grad_norm": 0.333984375, "learning_rate": 0.0002997673196197227, "loss": 0.4165, "step": 27090 }, { "epoch": 36.13333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002997671446120848, "loss": 0.4081, "step": 27100 }, { "epoch": 36.14666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002997669695387078, "loss": 0.4264, "step": 27110 }, { "epoch": 36.16, "grad_norm": 0.271484375, "learning_rate": 0.0002997667943995918, "loss": 0.4188, "step": 27120 }, { "epoch": 36.17333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029976661919473696, "loss": 0.4144, "step": 27130 }, { "epoch": 36.18666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002997664439241433, "loss": 0.4136, "step": 27140 }, { "epoch": 36.2, "grad_norm": 0.328125, "learning_rate": 0.0002997662685878109, "loss": 0.4066, "step": 27150 }, { "epoch": 36.21333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029976609318573986, "loss": 0.408, "step": 27160 }, { "epoch": 36.22666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029976591771793025, "loss": 0.4198, "step": 27170 }, { "epoch": 36.24, "grad_norm": 0.306640625, "learning_rate": 0.0002997657421843821, "loss": 0.4031, "step": 27180 }, { "epoch": 36.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029976556658509553, "loss": 0.4068, "step": 27190 }, { "epoch": 36.266666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002997653909200707, "loss": 0.4094, "step": 27200 }, { "epoch": 36.28, "grad_norm": 0.306640625, "learning_rate": 0.0002997652151893075, "loss": 0.4399, "step": 27210 }, { "epoch": 36.29333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029976503939280614, "loss": 0.3952, "step": 27220 }, { "epoch": 36.306666666666665, "grad_norm": 0.255859375, "learning_rate": 0.00029976486353056666, "loss": 0.4171, "step": 27230 }, { "epoch": 36.32, "grad_norm": 0.3203125, "learning_rate": 0.0002997646876025892, "loss": 0.4182, "step": 27240 }, { "epoch": 36.333333333333336, "grad_norm": 0.3046875, "learning_rate": 0.0002997645116088737, "loss": 0.4242, "step": 27250 }, { "epoch": 36.346666666666664, "grad_norm": 0.326171875, "learning_rate": 0.00029976433554942033, "loss": 0.4158, "step": 27260 }, { "epoch": 36.36, "grad_norm": 0.3359375, "learning_rate": 0.00029976415942422913, "loss": 0.4176, "step": 27270 }, { "epoch": 36.373333333333335, "grad_norm": 0.291015625, "learning_rate": 0.00029976398323330026, "loss": 0.4152, "step": 27280 }, { "epoch": 36.38666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002997638069766337, "loss": 0.4096, "step": 27290 }, { "epoch": 36.4, "grad_norm": 0.302734375, "learning_rate": 0.0002997636306542296, "loss": 0.4162, "step": 27300 }, { "epoch": 36.413333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029976345426608794, "loss": 0.4193, "step": 27310 }, { "epoch": 36.42666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029976327781220893, "loss": 0.421, "step": 27320 }, { "epoch": 36.44, "grad_norm": 0.296875, "learning_rate": 0.0002997631012925925, "loss": 0.4322, "step": 27330 }, { "epoch": 36.45333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002997629247072389, "loss": 0.4218, "step": 27340 }, { "epoch": 36.46666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002997627480561481, "loss": 0.4316, "step": 27350 }, { "epoch": 36.48, "grad_norm": 0.30859375, "learning_rate": 0.0002997625713393201, "loss": 0.4122, "step": 27360 }, { "epoch": 36.49333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029976239455675513, "loss": 0.4244, "step": 27370 }, { "epoch": 36.50666666666667, "grad_norm": 0.275390625, "learning_rate": 0.00029976221770845323, "loss": 0.42, "step": 27380 }, { "epoch": 36.52, "grad_norm": 0.28125, "learning_rate": 0.0002997620407944144, "loss": 0.4109, "step": 27390 }, { "epoch": 36.53333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002997618638146388, "loss": 0.4143, "step": 27400 }, { "epoch": 36.54666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002997616867691265, "loss": 0.4166, "step": 27410 }, { "epoch": 36.56, "grad_norm": 0.2490234375, "learning_rate": 0.0002997615096578775, "loss": 0.4102, "step": 27420 }, { "epoch": 36.57333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029976133248089194, "loss": 0.4135, "step": 27430 }, { "epoch": 36.586666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002997611552381699, "loss": 0.4025, "step": 27440 }, { "epoch": 36.6, "grad_norm": 0.30859375, "learning_rate": 0.0002997609779297115, "loss": 0.4034, "step": 27450 }, { "epoch": 36.61333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002997608005555167, "loss": 0.3923, "step": 27460 }, { "epoch": 36.626666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.0002997606231155857, "loss": 0.3967, "step": 27470 }, { "epoch": 36.64, "grad_norm": 0.34765625, "learning_rate": 0.0002997604456099185, "loss": 0.4122, "step": 27480 }, { "epoch": 36.653333333333336, "grad_norm": 0.2734375, "learning_rate": 0.0002997602680385152, "loss": 0.4221, "step": 27490 }, { "epoch": 36.666666666666664, "grad_norm": 0.298828125, "learning_rate": 0.00029976009040137594, "loss": 0.4071, "step": 27500 }, { "epoch": 36.68, "grad_norm": 0.318359375, "learning_rate": 0.0002997599126985006, "loss": 0.4, "step": 27510 }, { "epoch": 36.693333333333335, "grad_norm": 0.2734375, "learning_rate": 0.0002997597349298895, "loss": 0.4086, "step": 27520 }, { "epoch": 36.70666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002997595570955426, "loss": 0.4025, "step": 27530 }, { "epoch": 36.72, "grad_norm": 0.298828125, "learning_rate": 0.00029975937919545994, "loss": 0.4256, "step": 27540 }, { "epoch": 36.733333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002997592012296417, "loss": 0.4194, "step": 27550 }, { "epoch": 36.74666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002997590231980879, "loss": 0.4207, "step": 27560 }, { "epoch": 36.76, "grad_norm": 0.361328125, "learning_rate": 0.0002997588451007986, "loss": 0.4334, "step": 27570 }, { "epoch": 36.77333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029975866693777395, "loss": 0.4233, "step": 27580 }, { "epoch": 36.78666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002997584887090139, "loss": 0.4215, "step": 27590 }, { "epoch": 36.8, "grad_norm": 0.275390625, "learning_rate": 0.0002997583104145187, "loss": 0.4203, "step": 27600 }, { "epoch": 36.81333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002997581320542883, "loss": 0.3944, "step": 27610 }, { "epoch": 36.82666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002997579536283228, "loss": 0.406, "step": 27620 }, { "epoch": 36.84, "grad_norm": 0.365234375, "learning_rate": 0.0002997577751366223, "loss": 0.4164, "step": 27630 }, { "epoch": 36.85333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029975759657918687, "loss": 0.4127, "step": 27640 }, { "epoch": 36.86666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029975741795601664, "loss": 0.4151, "step": 27650 }, { "epoch": 36.88, "grad_norm": 0.26953125, "learning_rate": 0.00029975723926711155, "loss": 0.3943, "step": 27660 }, { "epoch": 36.89333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002997570605124719, "loss": 0.405, "step": 27670 }, { "epoch": 36.906666666666666, "grad_norm": 0.3046875, "learning_rate": 0.0002997568816920975, "loss": 0.4149, "step": 27680 }, { "epoch": 36.92, "grad_norm": 0.326171875, "learning_rate": 0.0002997567028059886, "loss": 0.4165, "step": 27690 }, { "epoch": 36.93333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0002997565238541453, "loss": 0.4088, "step": 27700 }, { "epoch": 36.946666666666665, "grad_norm": 0.29296875, "learning_rate": 0.0002997563448365676, "loss": 0.4106, "step": 27710 }, { "epoch": 36.96, "grad_norm": 0.265625, "learning_rate": 0.00029975616575325556, "loss": 0.4079, "step": 27720 }, { "epoch": 36.973333333333336, "grad_norm": 0.3515625, "learning_rate": 0.0002997559866042094, "loss": 0.4322, "step": 27730 }, { "epoch": 36.986666666666665, "grad_norm": 0.296875, "learning_rate": 0.000299755807389429, "loss": 0.4094, "step": 27740 }, { "epoch": 37.0, "grad_norm": 0.298828125, "learning_rate": 0.00029975562810891456, "loss": 0.4011, "step": 27750 }, { "epoch": 37.0, "eval_loss": 0.43838781118392944, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.4532, "eval_samples_per_second": 1.693, "eval_steps_per_second": 0.106, "step": 27750 }, { "epoch": 37.013333333333335, "grad_norm": 0.30078125, "learning_rate": 0.00029975544876266615, "loss": 0.4205, "step": 27760 }, { "epoch": 37.026666666666664, "grad_norm": 0.291015625, "learning_rate": 0.0002997552693506838, "loss": 0.4317, "step": 27770 }, { "epoch": 37.04, "grad_norm": 0.296875, "learning_rate": 0.00029975508987296765, "loss": 0.4425, "step": 27780 }, { "epoch": 37.053333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002997549103295177, "loss": 0.4297, "step": 27790 }, { "epoch": 37.06666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002997547307203342, "loss": 0.4178, "step": 27800 }, { "epoch": 37.08, "grad_norm": 0.31640625, "learning_rate": 0.00029975455104541704, "loss": 0.4212, "step": 27810 }, { "epoch": 37.093333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029975437130476634, "loss": 0.4211, "step": 27820 }, { "epoch": 37.10666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029975419149838226, "loss": 0.4092, "step": 27830 }, { "epoch": 37.12, "grad_norm": 0.310546875, "learning_rate": 0.0002997540116262648, "loss": 0.4152, "step": 27840 }, { "epoch": 37.13333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029975383168841404, "loss": 0.4072, "step": 27850 }, { "epoch": 37.14666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002997536516848301, "loss": 0.4252, "step": 27860 }, { "epoch": 37.16, "grad_norm": 0.287109375, "learning_rate": 0.00029975347161551307, "loss": 0.4187, "step": 27870 }, { "epoch": 37.17333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029975329148046296, "loss": 0.4133, "step": 27880 }, { "epoch": 37.18666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029975311127967996, "loss": 0.4132, "step": 27890 }, { "epoch": 37.2, "grad_norm": 0.30078125, "learning_rate": 0.00029975293101316405, "loss": 0.4053, "step": 27900 }, { "epoch": 37.21333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002997527506809153, "loss": 0.4067, "step": 27910 }, { "epoch": 37.22666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029975257028293386, "loss": 0.4191, "step": 27920 }, { "epoch": 37.24, "grad_norm": 0.30859375, "learning_rate": 0.0002997523898192198, "loss": 0.4037, "step": 27930 }, { "epoch": 37.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029975220928977315, "loss": 0.4068, "step": 27940 }, { "epoch": 37.266666666666666, "grad_norm": 0.30078125, "learning_rate": 0.000299752028694594, "loss": 0.4075, "step": 27950 }, { "epoch": 37.28, "grad_norm": 0.34375, "learning_rate": 0.0002997518480336824, "loss": 0.4387, "step": 27960 }, { "epoch": 37.29333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002997516673070386, "loss": 0.3948, "step": 27970 }, { "epoch": 37.306666666666665, "grad_norm": 0.275390625, "learning_rate": 0.00029975148651466244, "loss": 0.4165, "step": 27980 }, { "epoch": 37.32, "grad_norm": 0.32421875, "learning_rate": 0.0002997513056565542, "loss": 0.4174, "step": 27990 }, { "epoch": 37.333333333333336, "grad_norm": 0.275390625, "learning_rate": 0.0002997511247327138, "loss": 0.4238, "step": 28000 }, { "epoch": 37.346666666666664, "grad_norm": 0.36328125, "learning_rate": 0.0002997509437431414, "loss": 0.4145, "step": 28010 }, { "epoch": 37.36, "grad_norm": 0.30859375, "learning_rate": 0.00029975076268783714, "loss": 0.4159, "step": 28020 }, { "epoch": 37.373333333333335, "grad_norm": 0.279296875, "learning_rate": 0.000299750581566801, "loss": 0.4134, "step": 28030 }, { "epoch": 37.38666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029975040038003305, "loss": 0.4092, "step": 28040 }, { "epoch": 37.4, "grad_norm": 0.29296875, "learning_rate": 0.00029975021912753344, "loss": 0.4147, "step": 28050 }, { "epoch": 37.413333333333334, "grad_norm": 0.279296875, "learning_rate": 0.00029975003780930223, "loss": 0.419, "step": 28060 }, { "epoch": 37.42666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029974985642533953, "loss": 0.4202, "step": 28070 }, { "epoch": 37.44, "grad_norm": 0.28125, "learning_rate": 0.0002997496749756453, "loss": 0.4312, "step": 28080 }, { "epoch": 37.45333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029974949346021977, "loss": 0.4213, "step": 28090 }, { "epoch": 37.46666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029974931187906286, "loss": 0.4298, "step": 28100 }, { "epoch": 37.48, "grad_norm": 0.314453125, "learning_rate": 0.0002997491302321748, "loss": 0.4112, "step": 28110 }, { "epoch": 37.49333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029974894851955556, "loss": 0.4226, "step": 28120 }, { "epoch": 37.50666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002997487667412053, "loss": 0.4197, "step": 28130 }, { "epoch": 37.52, "grad_norm": 0.27734375, "learning_rate": 0.0002997485848971241, "loss": 0.4102, "step": 28140 }, { "epoch": 37.53333333333333, "grad_norm": 0.30078125, "learning_rate": 0.000299748402987312, "loss": 0.4137, "step": 28150 }, { "epoch": 37.54666666666667, "grad_norm": 0.318359375, "learning_rate": 0.000299748221011769, "loss": 0.4155, "step": 28160 }, { "epoch": 37.56, "grad_norm": 0.25390625, "learning_rate": 0.00029974803897049536, "loss": 0.4097, "step": 28170 }, { "epoch": 37.57333333333333, "grad_norm": 0.287109375, "learning_rate": 0.000299747856863491, "loss": 0.4138, "step": 28180 }, { "epoch": 37.586666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002997476746907561, "loss": 0.4016, "step": 28190 }, { "epoch": 37.6, "grad_norm": 0.35546875, "learning_rate": 0.00029974749245229075, "loss": 0.4042, "step": 28200 }, { "epoch": 37.61333333333333, "grad_norm": 0.265625, "learning_rate": 0.0002997473101480949, "loss": 0.3918, "step": 28210 }, { "epoch": 37.626666666666665, "grad_norm": 0.28125, "learning_rate": 0.00029974712777816874, "loss": 0.3966, "step": 28220 }, { "epoch": 37.64, "grad_norm": 0.25390625, "learning_rate": 0.0002997469453425124, "loss": 0.4109, "step": 28230 }, { "epoch": 37.653333333333336, "grad_norm": 0.333984375, "learning_rate": 0.0002997467628411258, "loss": 0.4209, "step": 28240 }, { "epoch": 37.666666666666664, "grad_norm": 0.3203125, "learning_rate": 0.00029974658027400917, "loss": 0.4064, "step": 28250 }, { "epoch": 37.68, "grad_norm": 0.31640625, "learning_rate": 0.0002997463976411625, "loss": 0.3998, "step": 28260 }, { "epoch": 37.693333333333335, "grad_norm": 0.26171875, "learning_rate": 0.00029974621494258585, "loss": 0.4086, "step": 28270 }, { "epoch": 37.70666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002997460321782794, "loss": 0.4022, "step": 28280 }, { "epoch": 37.72, "grad_norm": 0.29296875, "learning_rate": 0.0002997458493482432, "loss": 0.4254, "step": 28290 }, { "epoch": 37.733333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002997456664524772, "loss": 0.4183, "step": 28300 }, { "epoch": 37.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002997454834909817, "loss": 0.4197, "step": 28310 }, { "epoch": 37.76, "grad_norm": 0.322265625, "learning_rate": 0.00029974530046375666, "loss": 0.4327, "step": 28320 }, { "epoch": 37.77333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002997451173708021, "loss": 0.4226, "step": 28330 }, { "epoch": 37.78666666666667, "grad_norm": 0.259765625, "learning_rate": 0.00029974493421211826, "loss": 0.4211, "step": 28340 }, { "epoch": 37.8, "grad_norm": 0.3046875, "learning_rate": 0.00029974475098770503, "loss": 0.4203, "step": 28350 }, { "epoch": 37.81333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002997445676975627, "loss": 0.3942, "step": 28360 }, { "epoch": 37.82666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002997443843416912, "loss": 0.406, "step": 28370 }, { "epoch": 37.84, "grad_norm": 0.451171875, "learning_rate": 0.0002997442009200906, "loss": 0.4167, "step": 28380 }, { "epoch": 37.85333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002997440174327611, "loss": 0.4113, "step": 28390 }, { "epoch": 37.86666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029974383387970264, "loss": 0.4147, "step": 28400 }, { "epoch": 37.88, "grad_norm": 0.283203125, "learning_rate": 0.0002997436502609154, "loss": 0.3944, "step": 28410 }, { "epoch": 37.89333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002997434665763994, "loss": 0.4045, "step": 28420 }, { "epoch": 37.906666666666666, "grad_norm": 0.287109375, "learning_rate": 0.00029974328282615485, "loss": 0.4143, "step": 28430 }, { "epoch": 37.92, "grad_norm": 0.341796875, "learning_rate": 0.00029974309901018167, "loss": 0.4158, "step": 28440 }, { "epoch": 37.93333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029974291512848, "loss": 0.4073, "step": 28450 }, { "epoch": 37.946666666666665, "grad_norm": 0.3359375, "learning_rate": 0.00029974273118104993, "loss": 0.4107, "step": 28460 }, { "epoch": 37.96, "grad_norm": 0.32421875, "learning_rate": 0.00029974254716789154, "loss": 0.4059, "step": 28470 }, { "epoch": 37.973333333333336, "grad_norm": 0.328125, "learning_rate": 0.00029974236308900497, "loss": 0.4327, "step": 28480 }, { "epoch": 37.986666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002997421789443901, "loss": 0.4088, "step": 28490 }, { "epoch": 38.0, "grad_norm": 0.294921875, "learning_rate": 0.00029974199473404726, "loss": 0.4002, "step": 28500 }, { "epoch": 38.0, "eval_loss": 0.43744945526123047, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0693, "eval_samples_per_second": 1.589, "eval_steps_per_second": 0.099, "step": 28500 }, { "epoch": 38.013333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002997418104579764, "loss": 0.4201, "step": 28510 }, { "epoch": 38.026666666666664, "grad_norm": 0.296875, "learning_rate": 0.00029974162611617764, "loss": 0.4309, "step": 28520 }, { "epoch": 38.04, "grad_norm": 0.33984375, "learning_rate": 0.000299741441708651, "loss": 0.4422, "step": 28530 }, { "epoch": 38.053333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0002997412572353966, "loss": 0.4302, "step": 28540 }, { "epoch": 38.06666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029974107269641455, "loss": 0.4171, "step": 28550 }, { "epoch": 38.08, "grad_norm": 0.306640625, "learning_rate": 0.0002997408880917049, "loss": 0.421, "step": 28560 }, { "epoch": 38.093333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002997407034212677, "loss": 0.4217, "step": 28570 }, { "epoch": 38.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002997405186851031, "loss": 0.4096, "step": 28580 }, { "epoch": 38.12, "grad_norm": 0.291015625, "learning_rate": 0.00029974033388321117, "loss": 0.4152, "step": 28590 }, { "epoch": 38.13333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002997401490155919, "loss": 0.4069, "step": 28600 }, { "epoch": 38.14666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002997399640822455, "loss": 0.425, "step": 28610 }, { "epoch": 38.16, "grad_norm": 0.326171875, "learning_rate": 0.000299739779083172, "loss": 0.4178, "step": 28620 }, { "epoch": 38.17333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002997395940183714, "loss": 0.4125, "step": 28630 }, { "epoch": 38.18666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002997394088878439, "loss": 0.4125, "step": 28640 }, { "epoch": 38.2, "grad_norm": 0.326171875, "learning_rate": 0.0002997392236915895, "loss": 0.4054, "step": 28650 }, { "epoch": 38.21333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002997390384296084, "loss": 0.406, "step": 28660 }, { "epoch": 38.22666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002997388531019005, "loss": 0.4196, "step": 28670 }, { "epoch": 38.24, "grad_norm": 0.328125, "learning_rate": 0.000299738667708466, "loss": 0.4039, "step": 28680 }, { "epoch": 38.25333333333333, "grad_norm": 0.373046875, "learning_rate": 0.000299738482249305, "loss": 0.4059, "step": 28690 }, { "epoch": 38.266666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002997382967244176, "loss": 0.4068, "step": 28700 }, { "epoch": 38.28, "grad_norm": 0.330078125, "learning_rate": 0.00029973811113380373, "loss": 0.4377, "step": 28710 }, { "epoch": 38.29333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002997379254774636, "loss": 0.3935, "step": 28720 }, { "epoch": 38.306666666666665, "grad_norm": 0.30859375, "learning_rate": 0.0002997377397553972, "loss": 0.4153, "step": 28730 }, { "epoch": 38.32, "grad_norm": 0.330078125, "learning_rate": 0.0002997375539676047, "loss": 0.417, "step": 28740 }, { "epoch": 38.333333333333336, "grad_norm": 0.3359375, "learning_rate": 0.00029973736811408615, "loss": 0.4237, "step": 28750 }, { "epoch": 38.346666666666664, "grad_norm": 0.3828125, "learning_rate": 0.0002997371821948417, "loss": 0.4126, "step": 28760 }, { "epoch": 38.36, "grad_norm": 0.318359375, "learning_rate": 0.00029973699620987126, "loss": 0.4148, "step": 28770 }, { "epoch": 38.373333333333335, "grad_norm": 0.30078125, "learning_rate": 0.00029973681015917503, "loss": 0.4137, "step": 28780 }, { "epoch": 38.38666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002997366240427531, "loss": 0.408, "step": 28790 }, { "epoch": 38.4, "grad_norm": 0.333984375, "learning_rate": 0.00029973643786060557, "loss": 0.4148, "step": 28800 }, { "epoch": 38.413333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0002997362516127324, "loss": 0.4183, "step": 28810 }, { "epoch": 38.42666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029973606529913377, "loss": 0.4196, "step": 28820 }, { "epoch": 38.44, "grad_norm": 0.31640625, "learning_rate": 0.0002997358789198098, "loss": 0.4306, "step": 28830 }, { "epoch": 38.45333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029973569247476045, "loss": 0.4202, "step": 28840 }, { "epoch": 38.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029973550596398585, "loss": 0.4299, "step": 28850 }, { "epoch": 38.48, "grad_norm": 0.3046875, "learning_rate": 0.00029973531938748616, "loss": 0.4108, "step": 28860 }, { "epoch": 38.49333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002997351327452614, "loss": 0.4226, "step": 28870 }, { "epoch": 38.50666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002997349460373116, "loss": 0.4192, "step": 28880 }, { "epoch": 38.52, "grad_norm": 0.26953125, "learning_rate": 0.00029973475926363695, "loss": 0.4094, "step": 28890 }, { "epoch": 38.53333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002997345724242374, "loss": 0.4134, "step": 28900 }, { "epoch": 38.54666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002997343855191132, "loss": 0.4164, "step": 28910 }, { "epoch": 38.56, "grad_norm": 0.248046875, "learning_rate": 0.00029973419854826427, "loss": 0.4085, "step": 28920 }, { "epoch": 38.57333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029973401151169076, "loss": 0.413, "step": 28930 }, { "epoch": 38.586666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002997338244093928, "loss": 0.4015, "step": 28940 }, { "epoch": 38.6, "grad_norm": 0.28515625, "learning_rate": 0.0002997336372413704, "loss": 0.4033, "step": 28950 }, { "epoch": 38.61333333333333, "grad_norm": 0.2578125, "learning_rate": 0.00029973345000762366, "loss": 0.3902, "step": 28960 }, { "epoch": 38.626666666666665, "grad_norm": 0.283203125, "learning_rate": 0.0002997332627081527, "loss": 0.3967, "step": 28970 }, { "epoch": 38.64, "grad_norm": 0.306640625, "learning_rate": 0.00029973307534295757, "loss": 0.4116, "step": 28980 }, { "epoch": 38.653333333333336, "grad_norm": 0.291015625, "learning_rate": 0.0002997328879120383, "loss": 0.4204, "step": 28990 }, { "epoch": 38.666666666666664, "grad_norm": 0.3125, "learning_rate": 0.0002997327004153951, "loss": 0.4056, "step": 29000 }, { "epoch": 38.68, "grad_norm": 0.353515625, "learning_rate": 0.00029973251285302793, "loss": 0.3986, "step": 29010 }, { "epoch": 38.693333333333335, "grad_norm": 0.298828125, "learning_rate": 0.0002997323252249369, "loss": 0.4075, "step": 29020 }, { "epoch": 38.70666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002997321375311222, "loss": 0.402, "step": 29030 }, { "epoch": 38.72, "grad_norm": 0.27734375, "learning_rate": 0.0002997319497715838, "loss": 0.4246, "step": 29040 }, { "epoch": 38.733333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029973176194632176, "loss": 0.4176, "step": 29050 }, { "epoch": 38.74666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002997315740553362, "loss": 0.4191, "step": 29060 }, { "epoch": 38.76, "grad_norm": 0.3359375, "learning_rate": 0.00029973138609862727, "loss": 0.4326, "step": 29070 }, { "epoch": 38.77333333333333, "grad_norm": 0.3671875, "learning_rate": 0.000299731198076195, "loss": 0.4208, "step": 29080 }, { "epoch": 38.78666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002997310099880395, "loss": 0.4217, "step": 29090 }, { "epoch": 38.8, "grad_norm": 0.318359375, "learning_rate": 0.00029973082183416073, "loss": 0.4197, "step": 29100 }, { "epoch": 38.81333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002997306336145589, "loss": 0.3932, "step": 29110 }, { "epoch": 38.82666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029973044532923405, "loss": 0.405, "step": 29120 }, { "epoch": 38.84, "grad_norm": 0.36328125, "learning_rate": 0.0002997302569781863, "loss": 0.4158, "step": 29130 }, { "epoch": 38.85333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029973006856141566, "loss": 0.411, "step": 29140 }, { "epoch": 38.86666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002997298800789223, "loss": 0.4153, "step": 29150 }, { "epoch": 38.88, "grad_norm": 0.330078125, "learning_rate": 0.0002997296915307062, "loss": 0.3932, "step": 29160 }, { "epoch": 38.89333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002997295029167676, "loss": 0.4045, "step": 29170 }, { "epoch": 38.906666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002997293142371064, "loss": 0.4136, "step": 29180 }, { "epoch": 38.92, "grad_norm": 0.322265625, "learning_rate": 0.00029972912549172274, "loss": 0.4152, "step": 29190 }, { "epoch": 38.93333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002997289366806168, "loss": 0.4085, "step": 29200 }, { "epoch": 38.946666666666665, "grad_norm": 0.314453125, "learning_rate": 0.00029972874780378854, "loss": 0.41, "step": 29210 }, { "epoch": 38.96, "grad_norm": 0.283203125, "learning_rate": 0.00029972855886123813, "loss": 0.4064, "step": 29220 }, { "epoch": 38.973333333333336, "grad_norm": 0.318359375, "learning_rate": 0.0002997283698529656, "loss": 0.431, "step": 29230 }, { "epoch": 38.986666666666665, "grad_norm": 0.31640625, "learning_rate": 0.00029972818077897103, "loss": 0.4083, "step": 29240 }, { "epoch": 39.0, "grad_norm": 0.29296875, "learning_rate": 0.00029972799163925456, "loss": 0.4002, "step": 29250 }, { "epoch": 39.0, "eval_loss": 0.4372062087059021, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1342, "eval_samples_per_second": 1.579, "eval_steps_per_second": 0.099, "step": 29250 }, { "epoch": 39.013333333333335, "grad_norm": 0.36328125, "learning_rate": 0.00029972780243381624, "loss": 0.4193, "step": 29260 }, { "epoch": 39.026666666666664, "grad_norm": 0.279296875, "learning_rate": 0.00029972761316265613, "loss": 0.4305, "step": 29270 }, { "epoch": 39.04, "grad_norm": 0.302734375, "learning_rate": 0.00029972742382577435, "loss": 0.442, "step": 29280 }, { "epoch": 39.053333333333335, "grad_norm": 0.3125, "learning_rate": 0.00029972723442317094, "loss": 0.4289, "step": 29290 }, { "epoch": 39.06666666666667, "grad_norm": 0.330078125, "learning_rate": 0.000299727044954846, "loss": 0.4168, "step": 29300 }, { "epoch": 39.08, "grad_norm": 0.30078125, "learning_rate": 0.0002997268554207997, "loss": 0.4209, "step": 29310 }, { "epoch": 39.093333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029972666582103193, "loss": 0.4209, "step": 29320 }, { "epoch": 39.10666666666667, "grad_norm": 0.283203125, "learning_rate": 0.000299726476155543, "loss": 0.4096, "step": 29330 }, { "epoch": 39.12, "grad_norm": 0.435546875, "learning_rate": 0.0002997262864243328, "loss": 0.4143, "step": 29340 }, { "epoch": 39.13333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002997260966274015, "loss": 0.406, "step": 29350 }, { "epoch": 39.14666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002997259067647492, "loss": 0.4244, "step": 29360 }, { "epoch": 39.16, "grad_norm": 0.326171875, "learning_rate": 0.00029972571683637594, "loss": 0.4174, "step": 29370 }, { "epoch": 39.17333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002997255268422819, "loss": 0.4122, "step": 29380 }, { "epoch": 39.18666666666667, "grad_norm": 0.29296875, "learning_rate": 0.000299725336782467, "loss": 0.412, "step": 29390 }, { "epoch": 39.2, "grad_norm": 0.310546875, "learning_rate": 0.0002997251466569315, "loss": 0.4056, "step": 29400 }, { "epoch": 39.21333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002997249564656753, "loss": 0.4065, "step": 29410 }, { "epoch": 39.22666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002997247662086986, "loss": 0.4179, "step": 29420 }, { "epoch": 39.24, "grad_norm": 0.3203125, "learning_rate": 0.0002997245758860015, "loss": 0.4027, "step": 29430 }, { "epoch": 39.25333333333333, "grad_norm": 0.431640625, "learning_rate": 0.000299724385497584, "loss": 0.4055, "step": 29440 }, { "epoch": 39.266666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0002997241950434463, "loss": 0.4079, "step": 29450 }, { "epoch": 39.28, "grad_norm": 0.353515625, "learning_rate": 0.00029972400452358834, "loss": 0.438, "step": 29460 }, { "epoch": 39.29333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002997238139380103, "loss": 0.3931, "step": 29470 }, { "epoch": 39.306666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002997236232867123, "loss": 0.4164, "step": 29480 }, { "epoch": 39.32, "grad_norm": 0.271484375, "learning_rate": 0.0002997234325696943, "loss": 0.4164, "step": 29490 }, { "epoch": 39.333333333333336, "grad_norm": 0.337890625, "learning_rate": 0.0002997232417869564, "loss": 0.4232, "step": 29500 }, { "epoch": 39.346666666666664, "grad_norm": 0.36328125, "learning_rate": 0.00029972305093849886, "loss": 0.4125, "step": 29510 }, { "epoch": 39.36, "grad_norm": 0.330078125, "learning_rate": 0.0002997228600243215, "loss": 0.4138, "step": 29520 }, { "epoch": 39.373333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0002997226690444246, "loss": 0.4131, "step": 29530 }, { "epoch": 39.38666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002997224779988082, "loss": 0.4071, "step": 29540 }, { "epoch": 39.4, "grad_norm": 0.28515625, "learning_rate": 0.00029972228688747237, "loss": 0.4138, "step": 29550 }, { "epoch": 39.413333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002997220957104171, "loss": 0.4183, "step": 29560 }, { "epoch": 39.42666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002997219044676427, "loss": 0.4194, "step": 29570 }, { "epoch": 39.44, "grad_norm": 0.322265625, "learning_rate": 0.00029972171315914906, "loss": 0.4306, "step": 29580 }, { "epoch": 39.45333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002997215217849363, "loss": 0.42, "step": 29590 }, { "epoch": 39.46666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002997213303450046, "loss": 0.4294, "step": 29600 }, { "epoch": 39.48, "grad_norm": 0.3125, "learning_rate": 0.0002997211388393539, "loss": 0.4105, "step": 29610 }, { "epoch": 39.49333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029972094726798433, "loss": 0.4214, "step": 29620 }, { "epoch": 39.50666666666667, "grad_norm": 0.32421875, "learning_rate": 0.000299720755630896, "loss": 0.4189, "step": 29630 }, { "epoch": 39.52, "grad_norm": 0.275390625, "learning_rate": 0.000299720563928089, "loss": 0.4091, "step": 29640 }, { "epoch": 39.53333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002997203721595635, "loss": 0.413, "step": 29650 }, { "epoch": 39.54666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002997201803253194, "loss": 0.4143, "step": 29660 }, { "epoch": 39.56, "grad_norm": 0.310546875, "learning_rate": 0.0002997199884253569, "loss": 0.4088, "step": 29670 }, { "epoch": 39.57333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002997197964596761, "loss": 0.4125, "step": 29680 }, { "epoch": 39.586666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029971960442827695, "loss": 0.4007, "step": 29690 }, { "epoch": 39.6, "grad_norm": 0.28515625, "learning_rate": 0.00029971941233115966, "loss": 0.4027, "step": 29700 }, { "epoch": 39.61333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0002997192201683243, "loss": 0.3905, "step": 29710 }, { "epoch": 39.626666666666665, "grad_norm": 0.255859375, "learning_rate": 0.000299719027939771, "loss": 0.3959, "step": 29720 }, { "epoch": 39.64, "grad_norm": 0.3046875, "learning_rate": 0.0002997188356454997, "loss": 0.4108, "step": 29730 }, { "epoch": 39.653333333333336, "grad_norm": 0.3515625, "learning_rate": 0.00029971864328551056, "loss": 0.4205, "step": 29740 }, { "epoch": 39.666666666666664, "grad_norm": 0.3046875, "learning_rate": 0.00029971845085980373, "loss": 0.4052, "step": 29750 }, { "epoch": 39.68, "grad_norm": 0.271484375, "learning_rate": 0.0002997182583683792, "loss": 0.398, "step": 29760 }, { "epoch": 39.693333333333335, "grad_norm": 0.28515625, "learning_rate": 0.000299718065811237, "loss": 0.4077, "step": 29770 }, { "epoch": 39.70666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029971787318837747, "loss": 0.4018, "step": 29780 }, { "epoch": 39.72, "grad_norm": 0.345703125, "learning_rate": 0.0002997176804998004, "loss": 0.4245, "step": 29790 }, { "epoch": 39.733333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002997174877455061, "loss": 0.4182, "step": 29800 }, { "epoch": 39.74666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029971729492549447, "loss": 0.4185, "step": 29810 }, { "epoch": 39.76, "grad_norm": 0.3203125, "learning_rate": 0.00029971710203976576, "loss": 0.4312, "step": 29820 }, { "epoch": 39.77333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002997169090883199, "loss": 0.4209, "step": 29830 }, { "epoch": 39.78666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029971671607115707, "loss": 0.4203, "step": 29840 }, { "epoch": 39.8, "grad_norm": 0.314453125, "learning_rate": 0.0002997165229882774, "loss": 0.4184, "step": 29850 }, { "epoch": 39.81333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029971632983968085, "loss": 0.394, "step": 29860 }, { "epoch": 39.82666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029971613662536754, "loss": 0.404, "step": 29870 }, { "epoch": 39.84, "grad_norm": 0.369140625, "learning_rate": 0.00029971594334533765, "loss": 0.414, "step": 29880 }, { "epoch": 39.85333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002997157499995911, "loss": 0.4109, "step": 29890 }, { "epoch": 39.86666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029971555658812817, "loss": 0.4141, "step": 29900 }, { "epoch": 39.88, "grad_norm": 0.279296875, "learning_rate": 0.0002997153631109488, "loss": 0.3936, "step": 29910 }, { "epoch": 39.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029971516956805316, "loss": 0.4041, "step": 29920 }, { "epoch": 39.906666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002997149759594412, "loss": 0.4127, "step": 29930 }, { "epoch": 39.92, "grad_norm": 0.302734375, "learning_rate": 0.0002997147822851132, "loss": 0.4148, "step": 29940 }, { "epoch": 39.93333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0002997145885450691, "loss": 0.4068, "step": 29950 }, { "epoch": 39.946666666666665, "grad_norm": 0.291015625, "learning_rate": 0.000299714394739309, "loss": 0.4083, "step": 29960 }, { "epoch": 39.96, "grad_norm": 0.29296875, "learning_rate": 0.0002997142008678331, "loss": 0.4056, "step": 29970 }, { "epoch": 39.973333333333336, "grad_norm": 0.345703125, "learning_rate": 0.0002997140069306413, "loss": 0.431, "step": 29980 }, { "epoch": 39.986666666666665, "grad_norm": 0.291015625, "learning_rate": 0.00029971381292773387, "loss": 0.4082, "step": 29990 }, { "epoch": 40.0, "grad_norm": 0.3203125, "learning_rate": 0.0002997136188591108, "loss": 0.3995, "step": 30000 }, { "epoch": 40.0, "eval_loss": 0.4372086822986603, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0297, "eval_samples_per_second": 1.595, "eval_steps_per_second": 0.1, "step": 30000 }, { "epoch": 40.013333333333335, "grad_norm": 0.349609375, "learning_rate": 0.0002997134247247721, "loss": 0.4192, "step": 30010 }, { "epoch": 40.026666666666664, "grad_norm": 0.3125, "learning_rate": 0.00029971323052471803, "loss": 0.4304, "step": 30020 }, { "epoch": 40.04, "grad_norm": 0.328125, "learning_rate": 0.00029971303625894854, "loss": 0.4414, "step": 30030 }, { "epoch": 40.053333333333335, "grad_norm": 0.349609375, "learning_rate": 0.0002997128419274638, "loss": 0.4291, "step": 30040 }, { "epoch": 40.06666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029971264753026383, "loss": 0.4161, "step": 30050 }, { "epoch": 40.08, "grad_norm": 0.3359375, "learning_rate": 0.0002997124530673487, "loss": 0.4199, "step": 30060 }, { "epoch": 40.093333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002997122585387186, "loss": 0.4214, "step": 30070 }, { "epoch": 40.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002997120639443735, "loss": 0.4083, "step": 30080 }, { "epoch": 40.12, "grad_norm": 0.294921875, "learning_rate": 0.0002997118692843136, "loss": 0.4148, "step": 30090 }, { "epoch": 40.13333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002997116745585389, "loss": 0.4056, "step": 30100 }, { "epoch": 40.14666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029971147976704947, "loss": 0.424, "step": 30110 }, { "epoch": 40.16, "grad_norm": 0.275390625, "learning_rate": 0.0002997112849098455, "loss": 0.4168, "step": 30120 }, { "epoch": 40.17333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002997110899869269, "loss": 0.4115, "step": 30130 }, { "epoch": 40.18666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029971089499829397, "loss": 0.4118, "step": 30140 }, { "epoch": 40.2, "grad_norm": 0.3203125, "learning_rate": 0.0002997106999439467, "loss": 0.4044, "step": 30150 }, { "epoch": 40.21333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002997105048238851, "loss": 0.4059, "step": 30160 }, { "epoch": 40.22666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002997103096381094, "loss": 0.4178, "step": 30170 }, { "epoch": 40.24, "grad_norm": 0.3046875, "learning_rate": 0.0002997101143866195, "loss": 0.4014, "step": 30180 }, { "epoch": 40.25333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002997099190694156, "loss": 0.4052, "step": 30190 }, { "epoch": 40.266666666666666, "grad_norm": 0.314453125, "learning_rate": 0.0002997097236864979, "loss": 0.4054, "step": 30200 }, { "epoch": 40.28, "grad_norm": 0.322265625, "learning_rate": 0.00029970952823786626, "loss": 0.4361, "step": 30210 }, { "epoch": 40.29333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0002997093327235209, "loss": 0.3929, "step": 30220 }, { "epoch": 40.306666666666665, "grad_norm": 0.271484375, "learning_rate": 0.00029970913714346184, "loss": 0.4153, "step": 30230 }, { "epoch": 40.32, "grad_norm": 0.275390625, "learning_rate": 0.00029970894149768926, "loss": 0.4158, "step": 30240 }, { "epoch": 40.333333333333336, "grad_norm": 0.359375, "learning_rate": 0.0002997087457862032, "loss": 0.4213, "step": 30250 }, { "epoch": 40.346666666666664, "grad_norm": 0.36328125, "learning_rate": 0.00029970855000900366, "loss": 0.4123, "step": 30260 }, { "epoch": 40.36, "grad_norm": 0.359375, "learning_rate": 0.00029970835416609086, "loss": 0.4145, "step": 30270 }, { "epoch": 40.373333333333335, "grad_norm": 0.30859375, "learning_rate": 0.00029970815825746484, "loss": 0.4126, "step": 30280 }, { "epoch": 40.38666666666666, "grad_norm": 0.328125, "learning_rate": 0.00029970796228312566, "loss": 0.408, "step": 30290 }, { "epoch": 40.4, "grad_norm": 0.33984375, "learning_rate": 0.00029970776624307335, "loss": 0.4136, "step": 30300 }, { "epoch": 40.413333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002997075701373081, "loss": 0.4171, "step": 30310 }, { "epoch": 40.42666666666667, "grad_norm": 0.287109375, "learning_rate": 0.00029970737396583, "loss": 0.4179, "step": 30320 }, { "epoch": 40.44, "grad_norm": 0.328125, "learning_rate": 0.00029970717772863907, "loss": 0.4301, "step": 30330 }, { "epoch": 40.45333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002997069814257354, "loss": 0.4191, "step": 30340 }, { "epoch": 40.46666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029970678505711915, "loss": 0.4284, "step": 30350 }, { "epoch": 40.48, "grad_norm": 0.26171875, "learning_rate": 0.0002997065886227903, "loss": 0.4097, "step": 30360 }, { "epoch": 40.49333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029970639212274905, "loss": 0.4211, "step": 30370 }, { "epoch": 40.50666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029970619555699535, "loss": 0.4184, "step": 30380 }, { "epoch": 40.52, "grad_norm": 0.28125, "learning_rate": 0.0002997059989255294, "loss": 0.409, "step": 30390 }, { "epoch": 40.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002997058022283513, "loss": 0.4121, "step": 30400 }, { "epoch": 40.54666666666667, "grad_norm": 0.330078125, "learning_rate": 0.000299705605465461, "loss": 0.4136, "step": 30410 }, { "epoch": 40.56, "grad_norm": 0.28125, "learning_rate": 0.0002997054086368587, "loss": 0.4085, "step": 30420 }, { "epoch": 40.57333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029970521174254455, "loss": 0.4111, "step": 30430 }, { "epoch": 40.586666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029970501478251846, "loss": 0.4005, "step": 30440 }, { "epoch": 40.6, "grad_norm": 0.31640625, "learning_rate": 0.0002997048177567806, "loss": 0.4029, "step": 30450 }, { "epoch": 40.61333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029970462066533106, "loss": 0.3899, "step": 30460 }, { "epoch": 40.626666666666665, "grad_norm": 0.287109375, "learning_rate": 0.0002997044235081699, "loss": 0.3952, "step": 30470 }, { "epoch": 40.64, "grad_norm": 0.341796875, "learning_rate": 0.0002997042262852973, "loss": 0.4097, "step": 30480 }, { "epoch": 40.653333333333336, "grad_norm": 0.28125, "learning_rate": 0.00029970402899671326, "loss": 0.4197, "step": 30490 }, { "epoch": 40.666666666666664, "grad_norm": 0.294921875, "learning_rate": 0.0002997038316424178, "loss": 0.4044, "step": 30500 }, { "epoch": 40.68, "grad_norm": 0.283203125, "learning_rate": 0.0002997036342224112, "loss": 0.3982, "step": 30510 }, { "epoch": 40.693333333333335, "grad_norm": 0.400390625, "learning_rate": 0.00029970343673669343, "loss": 0.4062, "step": 30520 }, { "epoch": 40.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029970323918526454, "loss": 0.4004, "step": 30530 }, { "epoch": 40.72, "grad_norm": 0.33984375, "learning_rate": 0.00029970304156812466, "loss": 0.4235, "step": 30540 }, { "epoch": 40.733333333333334, "grad_norm": 0.3125, "learning_rate": 0.0002997028438852739, "loss": 0.4178, "step": 30550 }, { "epoch": 40.74666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002997026461367123, "loss": 0.418, "step": 30560 }, { "epoch": 40.76, "grad_norm": 0.318359375, "learning_rate": 0.00029970244832244, "loss": 0.4306, "step": 30570 }, { "epoch": 40.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.000299702250442457, "loss": 0.4196, "step": 30580 }, { "epoch": 40.78666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002997020524967635, "loss": 0.4195, "step": 30590 }, { "epoch": 40.8, "grad_norm": 0.33203125, "learning_rate": 0.00029970185448535957, "loss": 0.4183, "step": 30600 }, { "epoch": 40.81333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002997016564082452, "loss": 0.3918, "step": 30610 }, { "epoch": 40.82666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029970145826542055, "loss": 0.4038, "step": 30620 }, { "epoch": 40.84, "grad_norm": 0.34375, "learning_rate": 0.0002997012600568857, "loss": 0.415, "step": 30630 }, { "epoch": 40.85333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029970106178264067, "loss": 0.411, "step": 30640 }, { "epoch": 40.86666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0002997008634426857, "loss": 0.413, "step": 30650 }, { "epoch": 40.88, "grad_norm": 0.337890625, "learning_rate": 0.0002997006650370207, "loss": 0.3923, "step": 30660 }, { "epoch": 40.89333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002997004665656459, "loss": 0.4038, "step": 30670 }, { "epoch": 40.906666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002997002680285613, "loss": 0.412, "step": 30680 }, { "epoch": 40.92, "grad_norm": 0.30859375, "learning_rate": 0.000299700069425767, "loss": 0.4147, "step": 30690 }, { "epoch": 40.93333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002996998707572632, "loss": 0.4073, "step": 30700 }, { "epoch": 40.946666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002996996720230498, "loss": 0.4083, "step": 30710 }, { "epoch": 40.96, "grad_norm": 0.28515625, "learning_rate": 0.000299699473223127, "loss": 0.4058, "step": 30720 }, { "epoch": 40.973333333333336, "grad_norm": 0.373046875, "learning_rate": 0.00029969927435749484, "loss": 0.4307, "step": 30730 }, { "epoch": 40.986666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029969907542615345, "loss": 0.407, "step": 30740 }, { "epoch": 41.0, "grad_norm": 0.33203125, "learning_rate": 0.0002996988764291029, "loss": 0.4008, "step": 30750 }, { "epoch": 41.0, "eval_loss": 0.43654143810272217, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8407, "eval_samples_per_second": 1.626, "eval_steps_per_second": 0.102, "step": 30750 }, { "epoch": 41.013333333333335, "grad_norm": 0.400390625, "learning_rate": 0.0002996986773663433, "loss": 0.418, "step": 30760 }, { "epoch": 41.026666666666664, "grad_norm": 0.333984375, "learning_rate": 0.00029969847823787464, "loss": 0.4291, "step": 30770 }, { "epoch": 41.04, "grad_norm": 0.310546875, "learning_rate": 0.00029969827904369715, "loss": 0.4406, "step": 30780 }, { "epoch": 41.053333333333335, "grad_norm": 0.333984375, "learning_rate": 0.00029969807978381084, "loss": 0.4287, "step": 30790 }, { "epoch": 41.06666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002996978804582158, "loss": 0.4149, "step": 30800 }, { "epoch": 41.08, "grad_norm": 0.3359375, "learning_rate": 0.0002996976810669121, "loss": 0.4193, "step": 30810 }, { "epoch": 41.093333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002996974816098999, "loss": 0.42, "step": 30820 }, { "epoch": 41.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029969728208717916, "loss": 0.4074, "step": 30830 }, { "epoch": 41.12, "grad_norm": 0.310546875, "learning_rate": 0.0002996970824987501, "loss": 0.4125, "step": 30840 }, { "epoch": 41.13333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029969688284461275, "loss": 0.4048, "step": 30850 }, { "epoch": 41.14666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002996966831247672, "loss": 0.423, "step": 30860 }, { "epoch": 41.16, "grad_norm": 0.30078125, "learning_rate": 0.0002996964833392135, "loss": 0.417, "step": 30870 }, { "epoch": 41.17333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0002996962834879518, "loss": 0.4114, "step": 30880 }, { "epoch": 41.18666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029969608357098223, "loss": 0.4109, "step": 30890 }, { "epoch": 41.2, "grad_norm": 0.306640625, "learning_rate": 0.0002996958835883048, "loss": 0.4041, "step": 30900 }, { "epoch": 41.21333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002996956835399195, "loss": 0.4045, "step": 30910 }, { "epoch": 41.22666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002996954834258266, "loss": 0.4164, "step": 30920 }, { "epoch": 41.24, "grad_norm": 0.36328125, "learning_rate": 0.00029969528324602613, "loss": 0.4006, "step": 30930 }, { "epoch": 41.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029969508300051813, "loss": 0.4032, "step": 30940 }, { "epoch": 41.266666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029969488268930276, "loss": 0.4059, "step": 30950 }, { "epoch": 41.28, "grad_norm": 0.357421875, "learning_rate": 0.00029969468231238, "loss": 0.4354, "step": 30960 }, { "epoch": 41.29333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002996944818697501, "loss": 0.3926, "step": 30970 }, { "epoch": 41.306666666666665, "grad_norm": 0.271484375, "learning_rate": 0.000299694281361413, "loss": 0.4145, "step": 30980 }, { "epoch": 41.32, "grad_norm": 0.318359375, "learning_rate": 0.00029969408078736885, "loss": 0.4153, "step": 30990 }, { "epoch": 41.333333333333336, "grad_norm": 0.326171875, "learning_rate": 0.00029969388014761773, "loss": 0.4214, "step": 31000 }, { "epoch": 41.346666666666664, "grad_norm": 0.328125, "learning_rate": 0.00029969367944215967, "loss": 0.4115, "step": 31010 }, { "epoch": 41.36, "grad_norm": 0.33203125, "learning_rate": 0.00029969347867099495, "loss": 0.413, "step": 31020 }, { "epoch": 41.373333333333335, "grad_norm": 0.3359375, "learning_rate": 0.00029969327783412346, "loss": 0.4126, "step": 31030 }, { "epoch": 41.38666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002996930769315453, "loss": 0.4066, "step": 31040 }, { "epoch": 41.4, "grad_norm": 0.333984375, "learning_rate": 0.0002996928759632607, "loss": 0.4125, "step": 31050 }, { "epoch": 41.413333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002996926749292696, "loss": 0.4167, "step": 31060 }, { "epoch": 41.42666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029969247382957215, "loss": 0.4184, "step": 31070 }, { "epoch": 41.44, "grad_norm": 0.2890625, "learning_rate": 0.0002996922726641685, "loss": 0.4292, "step": 31080 }, { "epoch": 41.45333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029969207143305864, "loss": 0.419, "step": 31090 }, { "epoch": 41.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002996918701362426, "loss": 0.428, "step": 31100 }, { "epoch": 41.48, "grad_norm": 0.28125, "learning_rate": 0.0002996916687737207, "loss": 0.4094, "step": 31110 }, { "epoch": 41.49333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002996914673454928, "loss": 0.4215, "step": 31120 }, { "epoch": 41.50666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002996912658515591, "loss": 0.4172, "step": 31130 }, { "epoch": 41.52, "grad_norm": 0.30859375, "learning_rate": 0.0002996910642919197, "loss": 0.4083, "step": 31140 }, { "epoch": 41.53333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029969086266657465, "loss": 0.4118, "step": 31150 }, { "epoch": 41.54666666666667, "grad_norm": 0.33984375, "learning_rate": 0.000299690660975524, "loss": 0.4143, "step": 31160 }, { "epoch": 41.56, "grad_norm": 0.369140625, "learning_rate": 0.00029969045921876796, "loss": 0.4065, "step": 31170 }, { "epoch": 41.57333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002996902573963065, "loss": 0.4121, "step": 31180 }, { "epoch": 41.586666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029969005550813967, "loss": 0.3986, "step": 31190 }, { "epoch": 41.6, "grad_norm": 0.30859375, "learning_rate": 0.00029968985355426775, "loss": 0.4009, "step": 31200 }, { "epoch": 41.61333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002996896515346907, "loss": 0.3891, "step": 31210 }, { "epoch": 41.626666666666665, "grad_norm": 0.2578125, "learning_rate": 0.0002996894494494086, "loss": 0.3939, "step": 31220 }, { "epoch": 41.64, "grad_norm": 0.29296875, "learning_rate": 0.00029968924729842155, "loss": 0.4094, "step": 31230 }, { "epoch": 41.653333333333336, "grad_norm": 0.322265625, "learning_rate": 0.00029968904508172965, "loss": 0.4189, "step": 31240 }, { "epoch": 41.666666666666664, "grad_norm": 0.287109375, "learning_rate": 0.000299688842799333, "loss": 0.404, "step": 31250 }, { "epoch": 41.68, "grad_norm": 0.287109375, "learning_rate": 0.0002996886404512317, "loss": 0.3977, "step": 31260 }, { "epoch": 41.693333333333335, "grad_norm": 0.330078125, "learning_rate": 0.00029968843803742577, "loss": 0.4067, "step": 31270 }, { "epoch": 41.70666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029968823555791545, "loss": 0.3999, "step": 31280 }, { "epoch": 41.72, "grad_norm": 0.33203125, "learning_rate": 0.00029968803301270064, "loss": 0.4234, "step": 31290 }, { "epoch": 41.733333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029968783040178155, "loss": 0.4165, "step": 31300 }, { "epoch": 41.74666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002996876277251582, "loss": 0.4179, "step": 31310 }, { "epoch": 41.76, "grad_norm": 0.31640625, "learning_rate": 0.00029968742498283075, "loss": 0.431, "step": 31320 }, { "epoch": 41.77333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002996872221747992, "loss": 0.4202, "step": 31330 }, { "epoch": 41.78666666666667, "grad_norm": 0.28125, "learning_rate": 0.00029968701930106376, "loss": 0.4192, "step": 31340 }, { "epoch": 41.8, "grad_norm": 0.30859375, "learning_rate": 0.0002996868163616244, "loss": 0.4184, "step": 31350 }, { "epoch": 41.81333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029968661335648134, "loss": 0.3911, "step": 31360 }, { "epoch": 41.82666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029968641028563453, "loss": 0.4024, "step": 31370 }, { "epoch": 41.84, "grad_norm": 0.357421875, "learning_rate": 0.0002996862071490841, "loss": 0.413, "step": 31380 }, { "epoch": 41.85333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002996860039468302, "loss": 0.41, "step": 31390 }, { "epoch": 41.86666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002996858006788728, "loss": 0.4122, "step": 31400 }, { "epoch": 41.88, "grad_norm": 0.2890625, "learning_rate": 0.00029968559734521214, "loss": 0.3917, "step": 31410 }, { "epoch": 41.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029968539394584817, "loss": 0.4042, "step": 31420 }, { "epoch": 41.906666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002996851904807811, "loss": 0.4123, "step": 31430 }, { "epoch": 41.92, "grad_norm": 0.287109375, "learning_rate": 0.00029968498695001096, "loss": 0.4129, "step": 31440 }, { "epoch": 41.93333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0002996847833535379, "loss": 0.406, "step": 31450 }, { "epoch": 41.946666666666665, "grad_norm": 0.326171875, "learning_rate": 0.0002996845796913618, "loss": 0.4085, "step": 31460 }, { "epoch": 41.96, "grad_norm": 0.287109375, "learning_rate": 0.00029968437596348304, "loss": 0.4044, "step": 31470 }, { "epoch": 41.973333333333336, "grad_norm": 0.365234375, "learning_rate": 0.00029968417216990153, "loss": 0.431, "step": 31480 }, { "epoch": 41.986666666666665, "grad_norm": 0.328125, "learning_rate": 0.00029968396831061737, "loss": 0.4071, "step": 31490 }, { "epoch": 42.0, "grad_norm": 0.306640625, "learning_rate": 0.00029968376438563066, "loss": 0.3992, "step": 31500 }, { "epoch": 42.0, "eval_loss": 0.4370481073856354, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0465, "eval_samples_per_second": 1.593, "eval_steps_per_second": 0.1, "step": 31500 }, { "epoch": 42.013333333333335, "grad_norm": 0.341796875, "learning_rate": 0.0002996835603949416, "loss": 0.4169, "step": 31510 }, { "epoch": 42.026666666666664, "grad_norm": 0.326171875, "learning_rate": 0.0002996833563385501, "loss": 0.4294, "step": 31520 }, { "epoch": 42.04, "grad_norm": 0.294921875, "learning_rate": 0.0002996831522164564, "loss": 0.4409, "step": 31530 }, { "epoch": 42.053333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002996829480286605, "loss": 0.4268, "step": 31540 }, { "epoch": 42.06666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002996827437751625, "loss": 0.4147, "step": 31550 }, { "epoch": 42.08, "grad_norm": 0.3359375, "learning_rate": 0.00029968253945596255, "loss": 0.4186, "step": 31560 }, { "epoch": 42.093333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029968233507106064, "loss": 0.4192, "step": 31570 }, { "epoch": 42.10666666666667, "grad_norm": 0.275390625, "learning_rate": 0.000299682130620457, "loss": 0.4066, "step": 31580 }, { "epoch": 42.12, "grad_norm": 0.318359375, "learning_rate": 0.0002996819261041516, "loss": 0.4137, "step": 31590 }, { "epoch": 42.13333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002996817215221445, "loss": 0.4039, "step": 31600 }, { "epoch": 42.14666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029968151687443593, "loss": 0.4233, "step": 31610 }, { "epoch": 42.16, "grad_norm": 0.349609375, "learning_rate": 0.0002996813121610259, "loss": 0.4161, "step": 31620 }, { "epoch": 42.17333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002996811073819145, "loss": 0.4107, "step": 31630 }, { "epoch": 42.18666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002996809025371018, "loss": 0.4104, "step": 31640 }, { "epoch": 42.2, "grad_norm": 0.380859375, "learning_rate": 0.000299680697626588, "loss": 0.4033, "step": 31650 }, { "epoch": 42.21333333333333, "grad_norm": 0.330078125, "learning_rate": 0.000299680492650373, "loss": 0.4048, "step": 31660 }, { "epoch": 42.22666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029968028760845705, "loss": 0.4166, "step": 31670 }, { "epoch": 42.24, "grad_norm": 0.32421875, "learning_rate": 0.0002996800825008402, "loss": 0.4015, "step": 31680 }, { "epoch": 42.25333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029967987732752244, "loss": 0.4036, "step": 31690 }, { "epoch": 42.266666666666666, "grad_norm": 0.337890625, "learning_rate": 0.000299679672088504, "loss": 0.405, "step": 31700 }, { "epoch": 42.28, "grad_norm": 0.33203125, "learning_rate": 0.000299679466783785, "loss": 0.4359, "step": 31710 }, { "epoch": 42.29333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002996792614133653, "loss": 0.3914, "step": 31720 }, { "epoch": 42.306666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0002996790559772452, "loss": 0.4142, "step": 31730 }, { "epoch": 42.32, "grad_norm": 0.296875, "learning_rate": 0.00029967885047542473, "loss": 0.4148, "step": 31740 }, { "epoch": 42.333333333333336, "grad_norm": 0.3203125, "learning_rate": 0.000299678644907904, "loss": 0.4208, "step": 31750 }, { "epoch": 42.346666666666664, "grad_norm": 0.318359375, "learning_rate": 0.00029967843927468303, "loss": 0.4117, "step": 31760 }, { "epoch": 42.36, "grad_norm": 0.353515625, "learning_rate": 0.000299678233575762, "loss": 0.4129, "step": 31770 }, { "epoch": 42.373333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0002996780278111409, "loss": 0.4117, "step": 31780 }, { "epoch": 42.38666666666666, "grad_norm": 0.32421875, "learning_rate": 0.00029967782198081993, "loss": 0.406, "step": 31790 }, { "epoch": 42.4, "grad_norm": 0.30859375, "learning_rate": 0.0002996776160847991, "loss": 0.4115, "step": 31800 }, { "epoch": 42.413333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029967741012307855, "loss": 0.4162, "step": 31810 }, { "epoch": 42.42666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002996772040956583, "loss": 0.4183, "step": 31820 }, { "epoch": 42.44, "grad_norm": 0.294921875, "learning_rate": 0.00029967699800253854, "loss": 0.4284, "step": 31830 }, { "epoch": 42.45333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002996767918437193, "loss": 0.4181, "step": 31840 }, { "epoch": 42.46666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029967658561920067, "loss": 0.4273, "step": 31850 }, { "epoch": 42.48, "grad_norm": 0.328125, "learning_rate": 0.0002996763793289828, "loss": 0.4091, "step": 31860 }, { "epoch": 42.49333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029967617297306563, "loss": 0.4204, "step": 31870 }, { "epoch": 42.50666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029967596655144945, "loss": 0.4168, "step": 31880 }, { "epoch": 42.52, "grad_norm": 0.279296875, "learning_rate": 0.0002996757600641342, "loss": 0.4079, "step": 31890 }, { "epoch": 42.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029967555351112003, "loss": 0.4102, "step": 31900 }, { "epoch": 42.54666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029967534689240706, "loss": 0.4134, "step": 31910 }, { "epoch": 42.56, "grad_norm": 0.283203125, "learning_rate": 0.00029967514020799523, "loss": 0.4061, "step": 31920 }, { "epoch": 42.57333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029967493345788487, "loss": 0.4104, "step": 31930 }, { "epoch": 42.586666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029967472664207593, "loss": 0.3989, "step": 31940 }, { "epoch": 42.6, "grad_norm": 0.30078125, "learning_rate": 0.0002996745197605685, "loss": 0.4007, "step": 31950 }, { "epoch": 42.61333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00029967431281336266, "loss": 0.3888, "step": 31960 }, { "epoch": 42.626666666666665, "grad_norm": 0.263671875, "learning_rate": 0.00029967410580045855, "loss": 0.3941, "step": 31970 }, { "epoch": 42.64, "grad_norm": 0.33203125, "learning_rate": 0.00029967389872185624, "loss": 0.409, "step": 31980 }, { "epoch": 42.653333333333336, "grad_norm": 0.3203125, "learning_rate": 0.0002996736915775558, "loss": 0.4189, "step": 31990 }, { "epoch": 42.666666666666664, "grad_norm": 0.318359375, "learning_rate": 0.0002996734843675574, "loss": 0.4041, "step": 32000 }, { "epoch": 42.68, "grad_norm": 0.3125, "learning_rate": 0.00029967327709186093, "loss": 0.3969, "step": 32010 }, { "epoch": 42.693333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029967306975046677, "loss": 0.4058, "step": 32020 }, { "epoch": 42.70666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002996728623433748, "loss": 0.4, "step": 32030 }, { "epoch": 42.72, "grad_norm": 0.32421875, "learning_rate": 0.0002996726548705852, "loss": 0.4227, "step": 32040 }, { "epoch": 42.733333333333334, "grad_norm": 0.310546875, "learning_rate": 0.00029967244733209797, "loss": 0.4162, "step": 32050 }, { "epoch": 42.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029967223972791337, "loss": 0.4177, "step": 32060 }, { "epoch": 42.76, "grad_norm": 0.36328125, "learning_rate": 0.0002996720320580313, "loss": 0.4299, "step": 32070 }, { "epoch": 42.77333333333333, "grad_norm": 0.3359375, "learning_rate": 0.000299671824322452, "loss": 0.4191, "step": 32080 }, { "epoch": 42.78666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029967161652117547, "loss": 0.4181, "step": 32090 }, { "epoch": 42.8, "grad_norm": 0.30859375, "learning_rate": 0.00029967140865420184, "loss": 0.4174, "step": 32100 }, { "epoch": 42.81333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002996712007215312, "loss": 0.3909, "step": 32110 }, { "epoch": 42.82666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029967099272316364, "loss": 0.4026, "step": 32120 }, { "epoch": 42.84, "grad_norm": 0.33203125, "learning_rate": 0.00029967078465909923, "loss": 0.4129, "step": 32130 }, { "epoch": 42.85333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002996705765293381, "loss": 0.4089, "step": 32140 }, { "epoch": 42.86666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029967036833388025, "loss": 0.4118, "step": 32150 }, { "epoch": 42.88, "grad_norm": 0.32421875, "learning_rate": 0.0002996701600727259, "loss": 0.3919, "step": 32160 }, { "epoch": 42.89333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029966995174587506, "loss": 0.4031, "step": 32170 }, { "epoch": 42.906666666666666, "grad_norm": 0.29296875, "learning_rate": 0.00029966974335332786, "loss": 0.412, "step": 32180 }, { "epoch": 42.92, "grad_norm": 0.33203125, "learning_rate": 0.00029966953489508435, "loss": 0.4137, "step": 32190 }, { "epoch": 42.93333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002996693263711447, "loss": 0.4064, "step": 32200 }, { "epoch": 42.946666666666665, "grad_norm": 0.318359375, "learning_rate": 0.0002996691177815089, "loss": 0.4079, "step": 32210 }, { "epoch": 42.96, "grad_norm": 0.291015625, "learning_rate": 0.00029966890912617707, "loss": 0.404, "step": 32220 }, { "epoch": 42.973333333333336, "grad_norm": 0.3515625, "learning_rate": 0.00029966870040514936, "loss": 0.4307, "step": 32230 }, { "epoch": 42.986666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002996684916184258, "loss": 0.4065, "step": 32240 }, { "epoch": 43.0, "grad_norm": 0.318359375, "learning_rate": 0.0002996682827660065, "loss": 0.3988, "step": 32250 }, { "epoch": 43.0, "eval_loss": 0.4350269138813019, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9064, "eval_samples_per_second": 1.615, "eval_steps_per_second": 0.101, "step": 32250 }, { "epoch": 43.013333333333335, "grad_norm": 0.36328125, "learning_rate": 0.00029966807384789157, "loss": 0.4185, "step": 32260 }, { "epoch": 43.026666666666664, "grad_norm": 0.318359375, "learning_rate": 0.00029966786486408106, "loss": 0.4284, "step": 32270 }, { "epoch": 43.04, "grad_norm": 0.314453125, "learning_rate": 0.00029966765581457516, "loss": 0.4407, "step": 32280 }, { "epoch": 43.053333333333335, "grad_norm": 0.322265625, "learning_rate": 0.0002996674466993738, "loss": 0.4265, "step": 32290 }, { "epoch": 43.06666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002996672375184772, "loss": 0.4136, "step": 32300 }, { "epoch": 43.08, "grad_norm": 0.322265625, "learning_rate": 0.0002996670282718854, "loss": 0.4172, "step": 32310 }, { "epoch": 43.093333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029966681895959857, "loss": 0.4191, "step": 32320 }, { "epoch": 43.10666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029966660958161666, "loss": 0.4066, "step": 32330 }, { "epoch": 43.12, "grad_norm": 0.337890625, "learning_rate": 0.0002996664001379399, "loss": 0.4135, "step": 32340 }, { "epoch": 43.13333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029966619062856824, "loss": 0.4046, "step": 32350 }, { "epoch": 43.14666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029966598105350196, "loss": 0.4229, "step": 32360 }, { "epoch": 43.16, "grad_norm": 0.296875, "learning_rate": 0.000299665771412741, "loss": 0.4152, "step": 32370 }, { "epoch": 43.17333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029966556170628545, "loss": 0.4097, "step": 32380 }, { "epoch": 43.18666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002996653519341355, "loss": 0.4101, "step": 32390 }, { "epoch": 43.2, "grad_norm": 0.34765625, "learning_rate": 0.0002996651420962912, "loss": 0.4033, "step": 32400 }, { "epoch": 43.21333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029966493219275256, "loss": 0.4031, "step": 32410 }, { "epoch": 43.22666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002996647222235198, "loss": 0.4164, "step": 32420 }, { "epoch": 43.24, "grad_norm": 0.328125, "learning_rate": 0.00029966451218859297, "loss": 0.4005, "step": 32430 }, { "epoch": 43.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029966430208797215, "loss": 0.4033, "step": 32440 }, { "epoch": 43.266666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002996640919216574, "loss": 0.4053, "step": 32450 }, { "epoch": 43.28, "grad_norm": 0.296875, "learning_rate": 0.00029966388168964884, "loss": 0.4358, "step": 32460 }, { "epoch": 43.29333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002996636713919466, "loss": 0.3915, "step": 32470 }, { "epoch": 43.306666666666665, "grad_norm": 0.296875, "learning_rate": 0.0002996634610285507, "loss": 0.413, "step": 32480 }, { "epoch": 43.32, "grad_norm": 0.294921875, "learning_rate": 0.00029966325059946136, "loss": 0.4141, "step": 32490 }, { "epoch": 43.333333333333336, "grad_norm": 0.306640625, "learning_rate": 0.00029966304010467846, "loss": 0.4207, "step": 32500 }, { "epoch": 43.346666666666664, "grad_norm": 0.341796875, "learning_rate": 0.0002996628295442023, "loss": 0.4103, "step": 32510 }, { "epoch": 43.36, "grad_norm": 0.3671875, "learning_rate": 0.00029966261891803284, "loss": 0.4122, "step": 32520 }, { "epoch": 43.373333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0002996624082261703, "loss": 0.4103, "step": 32530 }, { "epoch": 43.38666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002996621974686146, "loss": 0.4056, "step": 32540 }, { "epoch": 43.4, "grad_norm": 0.32421875, "learning_rate": 0.000299661986645366, "loss": 0.4121, "step": 32550 }, { "epoch": 43.413333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029966177575642443, "loss": 0.4165, "step": 32560 }, { "epoch": 43.42666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029966156480179014, "loss": 0.4175, "step": 32570 }, { "epoch": 43.44, "grad_norm": 0.359375, "learning_rate": 0.00029966135378146317, "loss": 0.428, "step": 32580 }, { "epoch": 43.45333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029966114269544357, "loss": 0.4177, "step": 32590 }, { "epoch": 43.46666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002996609315437314, "loss": 0.4274, "step": 32600 }, { "epoch": 43.48, "grad_norm": 0.30859375, "learning_rate": 0.00029966072032632695, "loss": 0.4086, "step": 32610 }, { "epoch": 43.49333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029966050904323, "loss": 0.4195, "step": 32620 }, { "epoch": 43.50666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029966029769444097, "loss": 0.4158, "step": 32630 }, { "epoch": 43.52, "grad_norm": 0.2734375, "learning_rate": 0.0002996600862799597, "loss": 0.408, "step": 32640 }, { "epoch": 43.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029965987479978646, "loss": 0.4115, "step": 32650 }, { "epoch": 43.54666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029965966325392127, "loss": 0.4117, "step": 32660 }, { "epoch": 43.56, "grad_norm": 0.32421875, "learning_rate": 0.00029965945164236416, "loss": 0.4064, "step": 32670 }, { "epoch": 43.57333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002996592399651153, "loss": 0.4113, "step": 32680 }, { "epoch": 43.586666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029965902822217473, "loss": 0.399, "step": 32690 }, { "epoch": 43.6, "grad_norm": 0.294921875, "learning_rate": 0.00029965881641354263, "loss": 0.4006, "step": 32700 }, { "epoch": 43.61333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029965860453921904, "loss": 0.3882, "step": 32710 }, { "epoch": 43.626666666666665, "grad_norm": 0.28515625, "learning_rate": 0.000299658392599204, "loss": 0.3944, "step": 32720 }, { "epoch": 43.64, "grad_norm": 0.310546875, "learning_rate": 0.0002996581805934977, "loss": 0.4086, "step": 32730 }, { "epoch": 43.653333333333336, "grad_norm": 0.337890625, "learning_rate": 0.0002996579685221002, "loss": 0.4179, "step": 32740 }, { "epoch": 43.666666666666664, "grad_norm": 0.314453125, "learning_rate": 0.00029965775638501153, "loss": 0.4043, "step": 32750 }, { "epoch": 43.68, "grad_norm": 0.3359375, "learning_rate": 0.0002996575441822319, "loss": 0.3964, "step": 32760 }, { "epoch": 43.693333333333335, "grad_norm": 0.27734375, "learning_rate": 0.0002996573319137613, "loss": 0.4049, "step": 32770 }, { "epoch": 43.70666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029965711957959985, "loss": 0.4003, "step": 32780 }, { "epoch": 43.72, "grad_norm": 0.337890625, "learning_rate": 0.00029965690717974764, "loss": 0.4223, "step": 32790 }, { "epoch": 43.733333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002996566947142048, "loss": 0.416, "step": 32800 }, { "epoch": 43.74666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002996564821829714, "loss": 0.4174, "step": 32810 }, { "epoch": 43.76, "grad_norm": 0.35546875, "learning_rate": 0.0002996562695860476, "loss": 0.4296, "step": 32820 }, { "epoch": 43.77333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029965605692343334, "loss": 0.4185, "step": 32830 }, { "epoch": 43.78666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029965584419512886, "loss": 0.418, "step": 32840 }, { "epoch": 43.8, "grad_norm": 0.36328125, "learning_rate": 0.00029965563140113414, "loss": 0.4174, "step": 32850 }, { "epoch": 43.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002996554185414494, "loss": 0.3906, "step": 32860 }, { "epoch": 43.82666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002996552056160746, "loss": 0.4021, "step": 32870 }, { "epoch": 43.84, "grad_norm": 0.361328125, "learning_rate": 0.0002996549926250099, "loss": 0.413, "step": 32880 }, { "epoch": 43.85333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029965477956825544, "loss": 0.4083, "step": 32890 }, { "epoch": 43.86666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002996545664458112, "loss": 0.4121, "step": 32900 }, { "epoch": 43.88, "grad_norm": 0.298828125, "learning_rate": 0.00029965435325767734, "loss": 0.3918, "step": 32910 }, { "epoch": 43.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.000299654140003854, "loss": 0.4021, "step": 32920 }, { "epoch": 43.906666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029965392668434117, "loss": 0.411, "step": 32930 }, { "epoch": 43.92, "grad_norm": 0.31640625, "learning_rate": 0.00029965371329913903, "loss": 0.4134, "step": 32940 }, { "epoch": 43.93333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029965349984824763, "loss": 0.4057, "step": 32950 }, { "epoch": 43.946666666666665, "grad_norm": 0.31640625, "learning_rate": 0.0002996532863316671, "loss": 0.4071, "step": 32960 }, { "epoch": 43.96, "grad_norm": 0.271484375, "learning_rate": 0.0002996530727493975, "loss": 0.4037, "step": 32970 }, { "epoch": 43.973333333333336, "grad_norm": 0.3671875, "learning_rate": 0.0002996528591014389, "loss": 0.4297, "step": 32980 }, { "epoch": 43.986666666666665, "grad_norm": 0.3046875, "learning_rate": 0.0002996526453877914, "loss": 0.4067, "step": 32990 }, { "epoch": 44.0, "grad_norm": 0.341796875, "learning_rate": 0.0002996524316084552, "loss": 0.3989, "step": 33000 }, { "epoch": 44.0, "eval_loss": 0.4345279633998871, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6929, "eval_samples_per_second": 1.651, "eval_steps_per_second": 0.103, "step": 33000 }, { "epoch": 44.013333333333335, "grad_norm": 0.345703125, "learning_rate": 0.00029965221776343025, "loss": 0.4171, "step": 33010 }, { "epoch": 44.026666666666664, "grad_norm": 0.35546875, "learning_rate": 0.0002996520038527167, "loss": 0.4281, "step": 33020 }, { "epoch": 44.04, "grad_norm": 0.302734375, "learning_rate": 0.0002996517898763147, "loss": 0.4401, "step": 33030 }, { "epoch": 44.053333333333335, "grad_norm": 0.34375, "learning_rate": 0.0002996515758342243, "loss": 0.4267, "step": 33040 }, { "epoch": 44.06666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029965136172644557, "loss": 0.4139, "step": 33050 }, { "epoch": 44.08, "grad_norm": 0.34375, "learning_rate": 0.0002996511475529786, "loss": 0.4178, "step": 33060 }, { "epoch": 44.093333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002996509333138235, "loss": 0.4181, "step": 33070 }, { "epoch": 44.10666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002996507190089804, "loss": 0.4066, "step": 33080 }, { "epoch": 44.12, "grad_norm": 0.31640625, "learning_rate": 0.00029965050463844935, "loss": 0.4119, "step": 33090 }, { "epoch": 44.13333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029965029020223046, "loss": 0.404, "step": 33100 }, { "epoch": 44.14666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002996500757003238, "loss": 0.4227, "step": 33110 }, { "epoch": 44.16, "grad_norm": 0.275390625, "learning_rate": 0.00029964986113272955, "loss": 0.4153, "step": 33120 }, { "epoch": 44.17333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029964964649944765, "loss": 0.4087, "step": 33130 }, { "epoch": 44.18666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002996494318004784, "loss": 0.4099, "step": 33140 }, { "epoch": 44.2, "grad_norm": 0.357421875, "learning_rate": 0.00029964921703582164, "loss": 0.4026, "step": 33150 }, { "epoch": 44.21333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029964900220547775, "loss": 0.4035, "step": 33160 }, { "epoch": 44.22666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029964878730944655, "loss": 0.4154, "step": 33170 }, { "epoch": 44.24, "grad_norm": 0.326171875, "learning_rate": 0.00029964857234772836, "loss": 0.3996, "step": 33180 }, { "epoch": 44.25333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029964835732032314, "loss": 0.4023, "step": 33190 }, { "epoch": 44.266666666666666, "grad_norm": 0.283203125, "learning_rate": 0.000299648142227231, "loss": 0.4048, "step": 33200 }, { "epoch": 44.28, "grad_norm": 0.296875, "learning_rate": 0.00029964792706845206, "loss": 0.4342, "step": 33210 }, { "epoch": 44.29333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002996477118439864, "loss": 0.3907, "step": 33220 }, { "epoch": 44.306666666666665, "grad_norm": 0.30078125, "learning_rate": 0.0002996474965538342, "loss": 0.4125, "step": 33230 }, { "epoch": 44.32, "grad_norm": 0.333984375, "learning_rate": 0.0002996472811979954, "loss": 0.4145, "step": 33240 }, { "epoch": 44.333333333333336, "grad_norm": 0.33984375, "learning_rate": 0.0002996470657764702, "loss": 0.4196, "step": 33250 }, { "epoch": 44.346666666666664, "grad_norm": 0.333984375, "learning_rate": 0.0002996468502892587, "loss": 0.4101, "step": 33260 }, { "epoch": 44.36, "grad_norm": 0.375, "learning_rate": 0.00029964663473636095, "loss": 0.4117, "step": 33270 }, { "epoch": 44.373333333333335, "grad_norm": 0.28515625, "learning_rate": 0.000299646419117777, "loss": 0.4099, "step": 33280 }, { "epoch": 44.38666666666666, "grad_norm": 0.376953125, "learning_rate": 0.000299646203433507, "loss": 0.4048, "step": 33290 }, { "epoch": 44.4, "grad_norm": 0.310546875, "learning_rate": 0.0002996459876835511, "loss": 0.4103, "step": 33300 }, { "epoch": 44.413333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029964577186790935, "loss": 0.4158, "step": 33310 }, { "epoch": 44.42666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029964555598658183, "loss": 0.4164, "step": 33320 }, { "epoch": 44.44, "grad_norm": 0.341796875, "learning_rate": 0.00029964534003956863, "loss": 0.4277, "step": 33330 }, { "epoch": 44.45333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002996451240268698, "loss": 0.4177, "step": 33340 }, { "epoch": 44.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029964490794848555, "loss": 0.4264, "step": 33350 }, { "epoch": 44.48, "grad_norm": 0.306640625, "learning_rate": 0.00029964469180441595, "loss": 0.4072, "step": 33360 }, { "epoch": 44.49333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029964447559466104, "loss": 0.4196, "step": 33370 }, { "epoch": 44.50666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002996442593192209, "loss": 0.416, "step": 33380 }, { "epoch": 44.52, "grad_norm": 0.275390625, "learning_rate": 0.00029964404297809564, "loss": 0.4058, "step": 33390 }, { "epoch": 44.53333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002996438265712854, "loss": 0.4099, "step": 33400 }, { "epoch": 44.54666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029964361009879027, "loss": 0.4114, "step": 33410 }, { "epoch": 44.56, "grad_norm": 0.27734375, "learning_rate": 0.0002996433935606103, "loss": 0.407, "step": 33420 }, { "epoch": 44.57333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029964317695674563, "loss": 0.4094, "step": 33430 }, { "epoch": 44.586666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002996429602871963, "loss": 0.3981, "step": 33440 }, { "epoch": 44.6, "grad_norm": 0.28125, "learning_rate": 0.0002996427435519625, "loss": 0.4007, "step": 33450 }, { "epoch": 44.61333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029964252675104423, "loss": 0.3882, "step": 33460 }, { "epoch": 44.626666666666665, "grad_norm": 0.31640625, "learning_rate": 0.0002996423098844416, "loss": 0.393, "step": 33470 }, { "epoch": 44.64, "grad_norm": 0.32421875, "learning_rate": 0.00029964209295215474, "loss": 0.4082, "step": 33480 }, { "epoch": 44.653333333333336, "grad_norm": 0.34375, "learning_rate": 0.00029964187595418377, "loss": 0.4175, "step": 33490 }, { "epoch": 44.666666666666664, "grad_norm": 0.279296875, "learning_rate": 0.0002996416588905287, "loss": 0.4023, "step": 33500 }, { "epoch": 44.68, "grad_norm": 0.314453125, "learning_rate": 0.0002996414417611897, "loss": 0.3962, "step": 33510 }, { "epoch": 44.693333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029964122456616684, "loss": 0.4049, "step": 33520 }, { "epoch": 44.70666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002996410073054602, "loss": 0.3989, "step": 33530 }, { "epoch": 44.72, "grad_norm": 0.33984375, "learning_rate": 0.00029964078997906984, "loss": 0.4214, "step": 33540 }, { "epoch": 44.733333333333334, "grad_norm": 0.29296875, "learning_rate": 0.000299640572586996, "loss": 0.4155, "step": 33550 }, { "epoch": 44.74666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029964035512923857, "loss": 0.4172, "step": 33560 }, { "epoch": 44.76, "grad_norm": 0.32421875, "learning_rate": 0.0002996401376057978, "loss": 0.4292, "step": 33570 }, { "epoch": 44.77333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002996399200166738, "loss": 0.4178, "step": 33580 }, { "epoch": 44.78666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029963970236186646, "loss": 0.4182, "step": 33590 }, { "epoch": 44.8, "grad_norm": 0.31640625, "learning_rate": 0.0002996394846413761, "loss": 0.4164, "step": 33600 }, { "epoch": 44.81333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002996392668552028, "loss": 0.3901, "step": 33610 }, { "epoch": 44.82666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002996390490033465, "loss": 0.4025, "step": 33620 }, { "epoch": 44.84, "grad_norm": 0.400390625, "learning_rate": 0.00029963883108580745, "loss": 0.4131, "step": 33630 }, { "epoch": 44.85333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029963861310258565, "loss": 0.4077, "step": 33640 }, { "epoch": 44.86666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029963839505368125, "loss": 0.4109, "step": 33650 }, { "epoch": 44.88, "grad_norm": 0.29296875, "learning_rate": 0.0002996381769390943, "loss": 0.3914, "step": 33660 }, { "epoch": 44.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029963795875882494, "loss": 0.4013, "step": 33670 }, { "epoch": 44.906666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002996377405128732, "loss": 0.4101, "step": 33680 }, { "epoch": 44.92, "grad_norm": 0.337890625, "learning_rate": 0.00029963752220123923, "loss": 0.4131, "step": 33690 }, { "epoch": 44.93333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00029963730382392316, "loss": 0.4045, "step": 33700 }, { "epoch": 44.946666666666665, "grad_norm": 0.373046875, "learning_rate": 0.00029963708538092505, "loss": 0.4074, "step": 33710 }, { "epoch": 44.96, "grad_norm": 0.359375, "learning_rate": 0.000299636866872245, "loss": 0.4044, "step": 33720 }, { "epoch": 44.973333333333336, "grad_norm": 0.41796875, "learning_rate": 0.00029963664829788303, "loss": 0.4289, "step": 33730 }, { "epoch": 44.986666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0002996364296578393, "loss": 0.4054, "step": 33740 }, { "epoch": 45.0, "grad_norm": 0.384765625, "learning_rate": 0.00029963621095211395, "loss": 0.3983, "step": 33750 }, { "epoch": 45.0, "eval_loss": 0.4378819167613983, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5085, "eval_samples_per_second": 1.683, "eval_steps_per_second": 0.105, "step": 33750 }, { "epoch": 45.013333333333335, "grad_norm": 0.330078125, "learning_rate": 0.00029963599218070703, "loss": 0.4166, "step": 33760 }, { "epoch": 45.026666666666664, "grad_norm": 0.30078125, "learning_rate": 0.0002996357733436186, "loss": 0.4276, "step": 33770 }, { "epoch": 45.04, "grad_norm": 0.29296875, "learning_rate": 0.00029963555444084884, "loss": 0.4392, "step": 33780 }, { "epoch": 45.053333333333335, "grad_norm": 0.328125, "learning_rate": 0.00029963533547239777, "loss": 0.4264, "step": 33790 }, { "epoch": 45.06666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002996351164382655, "loss": 0.4147, "step": 33800 }, { "epoch": 45.08, "grad_norm": 0.310546875, "learning_rate": 0.0002996348973384522, "loss": 0.417, "step": 33810 }, { "epoch": 45.093333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0002996346781729579, "loss": 0.4179, "step": 33820 }, { "epoch": 45.10666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0002996344589417827, "loss": 0.406, "step": 33830 }, { "epoch": 45.12, "grad_norm": 0.333984375, "learning_rate": 0.0002996342396449267, "loss": 0.4126, "step": 33840 }, { "epoch": 45.13333333333333, "grad_norm": 0.2890625, "learning_rate": 0.00029963402028238993, "loss": 0.4037, "step": 33850 }, { "epoch": 45.14666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029963380085417263, "loss": 0.4217, "step": 33860 }, { "epoch": 45.16, "grad_norm": 0.296875, "learning_rate": 0.0002996335813602748, "loss": 0.4146, "step": 33870 }, { "epoch": 45.17333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029963336180069655, "loss": 0.4096, "step": 33880 }, { "epoch": 45.18666666666667, "grad_norm": 0.318359375, "learning_rate": 0.000299633142175438, "loss": 0.408, "step": 33890 }, { "epoch": 45.2, "grad_norm": 0.302734375, "learning_rate": 0.0002996329224844992, "loss": 0.4021, "step": 33900 }, { "epoch": 45.21333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002996327027278803, "loss": 0.4023, "step": 33910 }, { "epoch": 45.22666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002996324829055814, "loss": 0.4148, "step": 33920 }, { "epoch": 45.24, "grad_norm": 0.3046875, "learning_rate": 0.0002996322630176025, "loss": 0.4007, "step": 33930 }, { "epoch": 45.25333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029963204306394383, "loss": 0.4021, "step": 33940 }, { "epoch": 45.266666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002996318230446054, "loss": 0.4037, "step": 33950 }, { "epoch": 45.28, "grad_norm": 0.322265625, "learning_rate": 0.00029963160295958733, "loss": 0.4346, "step": 33960 }, { "epoch": 45.29333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002996313828088897, "loss": 0.3907, "step": 33970 }, { "epoch": 45.306666666666665, "grad_norm": 0.341796875, "learning_rate": 0.0002996311625925126, "loss": 0.4128, "step": 33980 }, { "epoch": 45.32, "grad_norm": 0.294921875, "learning_rate": 0.00029963094231045623, "loss": 0.4136, "step": 33990 }, { "epoch": 45.333333333333336, "grad_norm": 0.318359375, "learning_rate": 0.00029963072196272057, "loss": 0.4193, "step": 34000 }, { "epoch": 45.346666666666664, "grad_norm": 0.40234375, "learning_rate": 0.0002996305015493057, "loss": 0.4101, "step": 34010 }, { "epoch": 45.36, "grad_norm": 0.357421875, "learning_rate": 0.0002996302810702118, "loss": 0.4108, "step": 34020 }, { "epoch": 45.373333333333335, "grad_norm": 0.27734375, "learning_rate": 0.00029963006052543894, "loss": 0.4106, "step": 34030 }, { "epoch": 45.38666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002996298399149872, "loss": 0.4035, "step": 34040 }, { "epoch": 45.4, "grad_norm": 0.306640625, "learning_rate": 0.00029962961923885674, "loss": 0.4108, "step": 34050 }, { "epoch": 45.413333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002996293984970476, "loss": 0.4148, "step": 34060 }, { "epoch": 45.42666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029962917768955983, "loss": 0.416, "step": 34070 }, { "epoch": 45.44, "grad_norm": 0.326171875, "learning_rate": 0.0002996289568163936, "loss": 0.4277, "step": 34080 }, { "epoch": 45.45333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029962873587754897, "loss": 0.4169, "step": 34090 }, { "epoch": 45.46666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002996285148730261, "loss": 0.4267, "step": 34100 }, { "epoch": 45.48, "grad_norm": 0.30078125, "learning_rate": 0.00029962829380282503, "loss": 0.407, "step": 34110 }, { "epoch": 45.49333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002996280726669458, "loss": 0.4186, "step": 34120 }, { "epoch": 45.50666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002996278514653886, "loss": 0.4153, "step": 34130 }, { "epoch": 45.52, "grad_norm": 0.345703125, "learning_rate": 0.00029962763019815355, "loss": 0.4057, "step": 34140 }, { "epoch": 45.53333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002996274088652407, "loss": 0.409, "step": 34150 }, { "epoch": 45.54666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002996271874666501, "loss": 0.412, "step": 34160 }, { "epoch": 45.56, "grad_norm": 0.2890625, "learning_rate": 0.0002996269660023819, "loss": 0.4058, "step": 34170 }, { "epoch": 45.57333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002996267444724362, "loss": 0.4089, "step": 34180 }, { "epoch": 45.586666666666666, "grad_norm": 0.302734375, "learning_rate": 0.00029962652287681313, "loss": 0.3981, "step": 34190 }, { "epoch": 45.6, "grad_norm": 0.310546875, "learning_rate": 0.0002996263012155127, "loss": 0.3993, "step": 34200 }, { "epoch": 45.61333333333333, "grad_norm": 0.287109375, "learning_rate": 0.00029962607948853505, "loss": 0.388, "step": 34210 }, { "epoch": 45.626666666666665, "grad_norm": 0.2734375, "learning_rate": 0.0002996258576958803, "loss": 0.393, "step": 34220 }, { "epoch": 45.64, "grad_norm": 0.30078125, "learning_rate": 0.00029962563583754855, "loss": 0.4074, "step": 34230 }, { "epoch": 45.653333333333336, "grad_norm": 0.337890625, "learning_rate": 0.0002996254139135398, "loss": 0.4174, "step": 34240 }, { "epoch": 45.666666666666664, "grad_norm": 0.3125, "learning_rate": 0.00029962519192385434, "loss": 0.4024, "step": 34250 }, { "epoch": 45.68, "grad_norm": 0.296875, "learning_rate": 0.000299624969868492, "loss": 0.3968, "step": 34260 }, { "epoch": 45.693333333333335, "grad_norm": 0.263671875, "learning_rate": 0.0002996247477474531, "loss": 0.4039, "step": 34270 }, { "epoch": 45.70666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002996245255607377, "loss": 0.3985, "step": 34280 }, { "epoch": 45.72, "grad_norm": 0.330078125, "learning_rate": 0.0002996243033083458, "loss": 0.4214, "step": 34290 }, { "epoch": 45.733333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029962408099027765, "loss": 0.4144, "step": 34300 }, { "epoch": 45.74666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029962385860653315, "loss": 0.4164, "step": 34310 }, { "epoch": 45.76, "grad_norm": 0.34765625, "learning_rate": 0.00029962363615711256, "loss": 0.4287, "step": 34320 }, { "epoch": 45.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029962341364201593, "loss": 0.4168, "step": 34330 }, { "epoch": 45.78666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002996231910612433, "loss": 0.418, "step": 34340 }, { "epoch": 45.8, "grad_norm": 0.359375, "learning_rate": 0.00029962296841479485, "loss": 0.416, "step": 34350 }, { "epoch": 45.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029962274570267066, "loss": 0.3897, "step": 34360 }, { "epoch": 45.82666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002996225229248708, "loss": 0.4009, "step": 34370 }, { "epoch": 45.84, "grad_norm": 0.375, "learning_rate": 0.0002996223000813954, "loss": 0.4121, "step": 34380 }, { "epoch": 45.85333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002996220771722445, "loss": 0.4079, "step": 34390 }, { "epoch": 45.86666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002996218541974183, "loss": 0.4104, "step": 34400 }, { "epoch": 45.88, "grad_norm": 0.275390625, "learning_rate": 0.00029962163115691674, "loss": 0.3909, "step": 34410 }, { "epoch": 45.89333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002996214080507401, "loss": 0.4024, "step": 34420 }, { "epoch": 45.906666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002996211848788883, "loss": 0.4104, "step": 34430 }, { "epoch": 45.92, "grad_norm": 0.353515625, "learning_rate": 0.0002996209616413616, "loss": 0.4122, "step": 34440 }, { "epoch": 45.93333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029962073833816004, "loss": 0.4059, "step": 34450 }, { "epoch": 45.946666666666665, "grad_norm": 0.32421875, "learning_rate": 0.00029962051496928364, "loss": 0.4073, "step": 34460 }, { "epoch": 45.96, "grad_norm": 0.3203125, "learning_rate": 0.00029962029153473256, "loss": 0.4031, "step": 34470 }, { "epoch": 45.973333333333336, "grad_norm": 0.3203125, "learning_rate": 0.00029962006803450696, "loss": 0.4291, "step": 34480 }, { "epoch": 45.986666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029961984446860685, "loss": 0.4041, "step": 34490 }, { "epoch": 46.0, "grad_norm": 0.302734375, "learning_rate": 0.0002996196208370324, "loss": 0.3976, "step": 34500 }, { "epoch": 46.0, "eval_loss": 0.43458878993988037, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5141, "eval_samples_per_second": 1.682, "eval_steps_per_second": 0.105, "step": 34500 }, { "epoch": 46.013333333333335, "grad_norm": 0.34765625, "learning_rate": 0.0002996193971397836, "loss": 0.4152, "step": 34510 }, { "epoch": 46.026666666666664, "grad_norm": 0.306640625, "learning_rate": 0.0002996191733768606, "loss": 0.4281, "step": 34520 }, { "epoch": 46.04, "grad_norm": 0.30078125, "learning_rate": 0.00029961894954826356, "loss": 0.4398, "step": 34530 }, { "epoch": 46.053333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002996187256539925, "loss": 0.4271, "step": 34540 }, { "epoch": 46.06666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029961850169404756, "loss": 0.4129, "step": 34550 }, { "epoch": 46.08, "grad_norm": 0.32421875, "learning_rate": 0.00029961827766842886, "loss": 0.4169, "step": 34560 }, { "epoch": 46.093333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002996180535771364, "loss": 0.4183, "step": 34570 }, { "epoch": 46.10666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002996178294201704, "loss": 0.4059, "step": 34580 }, { "epoch": 46.12, "grad_norm": 0.380859375, "learning_rate": 0.0002996176051975309, "loss": 0.4115, "step": 34590 }, { "epoch": 46.13333333333333, "grad_norm": 0.341796875, "learning_rate": 0.000299617380909218, "loss": 0.4033, "step": 34600 }, { "epoch": 46.14666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002996171565552317, "loss": 0.4223, "step": 34610 }, { "epoch": 46.16, "grad_norm": 0.322265625, "learning_rate": 0.00029961693213557234, "loss": 0.4147, "step": 34620 }, { "epoch": 46.17333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002996167076502398, "loss": 0.4091, "step": 34630 }, { "epoch": 46.18666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002996164830992342, "loss": 0.4092, "step": 34640 }, { "epoch": 46.2, "grad_norm": 0.34765625, "learning_rate": 0.0002996162584825558, "loss": 0.401, "step": 34650 }, { "epoch": 46.21333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029961603380020455, "loss": 0.4024, "step": 34660 }, { "epoch": 46.22666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029961580905218054, "loss": 0.4141, "step": 34670 }, { "epoch": 46.24, "grad_norm": 0.330078125, "learning_rate": 0.00029961558423848396, "loss": 0.3979, "step": 34680 }, { "epoch": 46.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002996153593591149, "loss": 0.402, "step": 34690 }, { "epoch": 46.266666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002996151344140734, "loss": 0.4039, "step": 34700 }, { "epoch": 46.28, "grad_norm": 0.322265625, "learning_rate": 0.00029961490940335955, "loss": 0.433, "step": 34710 }, { "epoch": 46.29333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002996146843269735, "loss": 0.3898, "step": 34720 }, { "epoch": 46.306666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002996144591849153, "loss": 0.412, "step": 34730 }, { "epoch": 46.32, "grad_norm": 0.298828125, "learning_rate": 0.0002996142339771852, "loss": 0.415, "step": 34740 }, { "epoch": 46.333333333333336, "grad_norm": 0.3359375, "learning_rate": 0.00029961400870378305, "loss": 0.4191, "step": 34750 }, { "epoch": 46.346666666666664, "grad_norm": 0.361328125, "learning_rate": 0.00029961378336470915, "loss": 0.4105, "step": 34760 }, { "epoch": 46.36, "grad_norm": 0.330078125, "learning_rate": 0.00029961355795996345, "loss": 0.4109, "step": 34770 }, { "epoch": 46.373333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002996133324895462, "loss": 0.4099, "step": 34780 }, { "epoch": 46.38666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029961310695345744, "loss": 0.4038, "step": 34790 }, { "epoch": 46.4, "grad_norm": 0.337890625, "learning_rate": 0.0002996128813516972, "loss": 0.411, "step": 34800 }, { "epoch": 46.413333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029961265568426566, "loss": 0.4142, "step": 34810 }, { "epoch": 46.42666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002996124299511629, "loss": 0.4166, "step": 34820 }, { "epoch": 46.44, "grad_norm": 0.330078125, "learning_rate": 0.00029961220415238894, "loss": 0.4265, "step": 34830 }, { "epoch": 46.45333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029961197828794406, "loss": 0.4168, "step": 34840 }, { "epoch": 46.46666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002996117523578282, "loss": 0.4256, "step": 34850 }, { "epoch": 46.48, "grad_norm": 0.392578125, "learning_rate": 0.0002996115263620415, "loss": 0.4069, "step": 34860 }, { "epoch": 46.49333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029961130030058407, "loss": 0.4187, "step": 34870 }, { "epoch": 46.50666666666667, "grad_norm": 0.31640625, "learning_rate": 0.000299611074173456, "loss": 0.4157, "step": 34880 }, { "epoch": 46.52, "grad_norm": 0.26953125, "learning_rate": 0.0002996108479806574, "loss": 0.405, "step": 34890 }, { "epoch": 46.53333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029961062172218834, "loss": 0.4096, "step": 34900 }, { "epoch": 46.54666666666667, "grad_norm": 0.341796875, "learning_rate": 0.000299610395398049, "loss": 0.4109, "step": 34910 }, { "epoch": 46.56, "grad_norm": 0.25, "learning_rate": 0.00029961016900823944, "loss": 0.406, "step": 34920 }, { "epoch": 46.57333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029960994255275963, "loss": 0.4095, "step": 34930 }, { "epoch": 46.586666666666666, "grad_norm": 0.28125, "learning_rate": 0.00029960971603160987, "loss": 0.3973, "step": 34940 }, { "epoch": 46.6, "grad_norm": 0.326171875, "learning_rate": 0.0002996094894447902, "loss": 0.3984, "step": 34950 }, { "epoch": 46.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002996092627923006, "loss": 0.3873, "step": 34960 }, { "epoch": 46.626666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00029960903607414134, "loss": 0.3924, "step": 34970 }, { "epoch": 46.64, "grad_norm": 0.306640625, "learning_rate": 0.0002996088092903124, "loss": 0.4073, "step": 34980 }, { "epoch": 46.653333333333336, "grad_norm": 0.330078125, "learning_rate": 0.00029960858244081393, "loss": 0.4168, "step": 34990 }, { "epoch": 46.666666666666664, "grad_norm": 0.314453125, "learning_rate": 0.00029960835552564607, "loss": 0.4023, "step": 35000 }, { "epoch": 46.68, "grad_norm": 0.306640625, "learning_rate": 0.0002996081285448088, "loss": 0.3961, "step": 35010 }, { "epoch": 46.693333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002996079014983023, "loss": 0.4041, "step": 35020 }, { "epoch": 46.70666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029960767438612666, "loss": 0.3984, "step": 35030 }, { "epoch": 46.72, "grad_norm": 0.3359375, "learning_rate": 0.000299607447208282, "loss": 0.4213, "step": 35040 }, { "epoch": 46.733333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029960721996476837, "loss": 0.4146, "step": 35050 }, { "epoch": 46.74666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029960699265558593, "loss": 0.416, "step": 35060 }, { "epoch": 46.76, "grad_norm": 0.32421875, "learning_rate": 0.00029960676528073473, "loss": 0.4285, "step": 35070 }, { "epoch": 46.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002996065378402149, "loss": 0.4171, "step": 35080 }, { "epoch": 46.78666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029960631033402655, "loss": 0.4167, "step": 35090 }, { "epoch": 46.8, "grad_norm": 0.310546875, "learning_rate": 0.00029960608276216973, "loss": 0.4143, "step": 35100 }, { "epoch": 46.81333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029960585512464453, "loss": 0.3894, "step": 35110 }, { "epoch": 46.82666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002996056274214511, "loss": 0.4003, "step": 35120 }, { "epoch": 46.84, "grad_norm": 0.3359375, "learning_rate": 0.00029960539965258955, "loss": 0.4114, "step": 35130 }, { "epoch": 46.85333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029960517181806, "loss": 0.4074, "step": 35140 }, { "epoch": 46.86666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002996049439178624, "loss": 0.4099, "step": 35150 }, { "epoch": 46.88, "grad_norm": 0.322265625, "learning_rate": 0.00029960471595199704, "loss": 0.3905, "step": 35160 }, { "epoch": 46.89333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029960448792046393, "loss": 0.4011, "step": 35170 }, { "epoch": 46.906666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029960425982326314, "loss": 0.4095, "step": 35180 }, { "epoch": 46.92, "grad_norm": 0.3515625, "learning_rate": 0.0002996040316603948, "loss": 0.4108, "step": 35190 }, { "epoch": 46.93333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002996038034318591, "loss": 0.4043, "step": 35200 }, { "epoch": 46.946666666666665, "grad_norm": 0.302734375, "learning_rate": 0.000299603575137656, "loss": 0.4046, "step": 35210 }, { "epoch": 46.96, "grad_norm": 0.298828125, "learning_rate": 0.00029960334677778564, "loss": 0.4032, "step": 35220 }, { "epoch": 46.973333333333336, "grad_norm": 0.392578125, "learning_rate": 0.00029960311835224815, "loss": 0.4282, "step": 35230 }, { "epoch": 46.986666666666665, "grad_norm": 0.337890625, "learning_rate": 0.0002996028898610436, "loss": 0.4035, "step": 35240 }, { "epoch": 47.0, "grad_norm": 0.365234375, "learning_rate": 0.00029960266130417217, "loss": 0.397, "step": 35250 }, { "epoch": 47.0, "eval_loss": 0.434810072183609, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8232, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 35250 }, { "epoch": 47.013333333333335, "grad_norm": 0.369140625, "learning_rate": 0.0002996024326816339, "loss": 0.4148, "step": 35260 }, { "epoch": 47.026666666666664, "grad_norm": 0.314453125, "learning_rate": 0.00029960220399342886, "loss": 0.4266, "step": 35270 }, { "epoch": 47.04, "grad_norm": 0.3125, "learning_rate": 0.0002996019752395571, "loss": 0.4388, "step": 35280 }, { "epoch": 47.053333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002996017464200189, "loss": 0.4248, "step": 35290 }, { "epoch": 47.06666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029960151753481425, "loss": 0.4131, "step": 35300 }, { "epoch": 47.08, "grad_norm": 0.345703125, "learning_rate": 0.00029960128858394323, "loss": 0.4168, "step": 35310 }, { "epoch": 47.093333333333334, "grad_norm": 0.306640625, "learning_rate": 0.00029960105956740605, "loss": 0.4178, "step": 35320 }, { "epoch": 47.10666666666667, "grad_norm": 0.28125, "learning_rate": 0.0002996008304852026, "loss": 0.4046, "step": 35330 }, { "epoch": 47.12, "grad_norm": 0.322265625, "learning_rate": 0.0002996006013373332, "loss": 0.4114, "step": 35340 }, { "epoch": 47.13333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002996003721237979, "loss": 0.4027, "step": 35350 }, { "epoch": 47.14666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002996001428445967, "loss": 0.4215, "step": 35360 }, { "epoch": 47.16, "grad_norm": 0.306640625, "learning_rate": 0.00029959991349972975, "loss": 0.4146, "step": 35370 }, { "epoch": 47.17333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002995996840891972, "loss": 0.4072, "step": 35380 }, { "epoch": 47.18666666666667, "grad_norm": 0.4765625, "learning_rate": 0.0002995994546129991, "loss": 0.4081, "step": 35390 }, { "epoch": 47.2, "grad_norm": 0.380859375, "learning_rate": 0.00029959922507113556, "loss": 0.4016, "step": 35400 }, { "epoch": 47.21333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029959899546360666, "loss": 0.4028, "step": 35410 }, { "epoch": 47.22666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002995987657904126, "loss": 0.4139, "step": 35420 }, { "epoch": 47.24, "grad_norm": 0.330078125, "learning_rate": 0.0002995985360515534, "loss": 0.4, "step": 35430 }, { "epoch": 47.25333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029959830624702913, "loss": 0.4017, "step": 35440 }, { "epoch": 47.266666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002995980763768399, "loss": 0.4021, "step": 35450 }, { "epoch": 47.28, "grad_norm": 0.333984375, "learning_rate": 0.00029959784644098596, "loss": 0.4329, "step": 35460 }, { "epoch": 47.29333333333334, "grad_norm": 0.3046875, "learning_rate": 0.0002995976164394672, "loss": 0.3891, "step": 35470 }, { "epoch": 47.306666666666665, "grad_norm": 0.2890625, "learning_rate": 0.00029959738637228386, "loss": 0.4119, "step": 35480 }, { "epoch": 47.32, "grad_norm": 0.2890625, "learning_rate": 0.0002995971562394359, "loss": 0.4126, "step": 35490 }, { "epoch": 47.333333333333336, "grad_norm": 0.322265625, "learning_rate": 0.0002995969260409236, "loss": 0.4185, "step": 35500 }, { "epoch": 47.346666666666664, "grad_norm": 0.380859375, "learning_rate": 0.000299596695776747, "loss": 0.4085, "step": 35510 }, { "epoch": 47.36, "grad_norm": 0.328125, "learning_rate": 0.0002995964654469061, "loss": 0.4105, "step": 35520 }, { "epoch": 47.373333333333335, "grad_norm": 0.306640625, "learning_rate": 0.00029959623505140115, "loss": 0.4096, "step": 35530 }, { "epoch": 47.38666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002995960045902321, "loss": 0.4028, "step": 35540 }, { "epoch": 47.4, "grad_norm": 0.306640625, "learning_rate": 0.00029959577406339926, "loss": 0.4093, "step": 35550 }, { "epoch": 47.413333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029959554347090244, "loss": 0.4144, "step": 35560 }, { "epoch": 47.42666666666667, "grad_norm": 0.30859375, "learning_rate": 0.000299595312812742, "loss": 0.4148, "step": 35570 }, { "epoch": 47.44, "grad_norm": 0.318359375, "learning_rate": 0.0002995950820889179, "loss": 0.4261, "step": 35580 }, { "epoch": 47.45333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029959485129943034, "loss": 0.4169, "step": 35590 }, { "epoch": 47.46666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002995946204442793, "loss": 0.4259, "step": 35600 }, { "epoch": 47.48, "grad_norm": 0.333984375, "learning_rate": 0.000299594389523465, "loss": 0.4065, "step": 35610 }, { "epoch": 47.49333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002995941585369875, "loss": 0.4179, "step": 35620 }, { "epoch": 47.50666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002995939274848469, "loss": 0.4152, "step": 35630 }, { "epoch": 47.52, "grad_norm": 0.29296875, "learning_rate": 0.00029959369636704326, "loss": 0.4047, "step": 35640 }, { "epoch": 47.53333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002995934651835767, "loss": 0.4087, "step": 35650 }, { "epoch": 47.54666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029959323393444735, "loss": 0.4116, "step": 35660 }, { "epoch": 47.56, "grad_norm": 0.3046875, "learning_rate": 0.0002995930026196553, "loss": 0.4052, "step": 35670 }, { "epoch": 47.57333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029959277123920065, "loss": 0.4097, "step": 35680 }, { "epoch": 47.586666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0002995925397930835, "loss": 0.3977, "step": 35690 }, { "epoch": 47.6, "grad_norm": 0.302734375, "learning_rate": 0.0002995923082813039, "loss": 0.3991, "step": 35700 }, { "epoch": 47.61333333333333, "grad_norm": 0.26953125, "learning_rate": 0.00029959207670386207, "loss": 0.3868, "step": 35710 }, { "epoch": 47.626666666666665, "grad_norm": 0.279296875, "learning_rate": 0.00029959184506075806, "loss": 0.3925, "step": 35720 }, { "epoch": 47.64, "grad_norm": 0.328125, "learning_rate": 0.0002995916133519919, "loss": 0.4069, "step": 35730 }, { "epoch": 47.653333333333336, "grad_norm": 0.349609375, "learning_rate": 0.00029959138157756375, "loss": 0.4172, "step": 35740 }, { "epoch": 47.666666666666664, "grad_norm": 0.287109375, "learning_rate": 0.00029959114973747376, "loss": 0.4021, "step": 35750 }, { "epoch": 47.68, "grad_norm": 0.34765625, "learning_rate": 0.000299590917831722, "loss": 0.3952, "step": 35760 }, { "epoch": 47.693333333333335, "grad_norm": 0.275390625, "learning_rate": 0.00029959068586030846, "loss": 0.4031, "step": 35770 }, { "epoch": 47.70666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002995904538232334, "loss": 0.3979, "step": 35780 }, { "epoch": 47.72, "grad_norm": 0.35546875, "learning_rate": 0.00029959022172049686, "loss": 0.4202, "step": 35790 }, { "epoch": 47.733333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029958998955209885, "loss": 0.4143, "step": 35800 }, { "epoch": 47.74666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029958975731803967, "loss": 0.4162, "step": 35810 }, { "epoch": 47.76, "grad_norm": 0.365234375, "learning_rate": 0.0002995895250183193, "loss": 0.428, "step": 35820 }, { "epoch": 47.77333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002995892926529378, "loss": 0.4176, "step": 35830 }, { "epoch": 47.78666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029958906022189535, "loss": 0.4165, "step": 35840 }, { "epoch": 47.8, "grad_norm": 0.333984375, "learning_rate": 0.00029958882772519204, "loss": 0.4151, "step": 35850 }, { "epoch": 47.81333333333333, "grad_norm": 0.369140625, "learning_rate": 0.000299588595162828, "loss": 0.388, "step": 35860 }, { "epoch": 47.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002995883625348032, "loss": 0.4007, "step": 35870 }, { "epoch": 47.84, "grad_norm": 0.359375, "learning_rate": 0.0002995881298411179, "loss": 0.4108, "step": 35880 }, { "epoch": 47.85333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002995878970817721, "loss": 0.4075, "step": 35890 }, { "epoch": 47.86666666666667, "grad_norm": 0.33203125, "learning_rate": 0.000299587664256766, "loss": 0.4102, "step": 35900 }, { "epoch": 47.88, "grad_norm": 0.275390625, "learning_rate": 0.00029958743136609955, "loss": 0.3895, "step": 35910 }, { "epoch": 47.89333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029958719840977307, "loss": 0.4013, "step": 35920 }, { "epoch": 47.906666666666666, "grad_norm": 0.3046875, "learning_rate": 0.00029958696538778644, "loss": 0.4092, "step": 35930 }, { "epoch": 47.92, "grad_norm": 0.34375, "learning_rate": 0.00029958673230013987, "loss": 0.4109, "step": 35940 }, { "epoch": 47.93333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029958649914683347, "loss": 0.4037, "step": 35950 }, { "epoch": 47.946666666666665, "grad_norm": 0.328125, "learning_rate": 0.0002995862659278673, "loss": 0.4047, "step": 35960 }, { "epoch": 47.96, "grad_norm": 0.287109375, "learning_rate": 0.0002995860326432415, "loss": 0.4021, "step": 35970 }, { "epoch": 47.973333333333336, "grad_norm": 0.3984375, "learning_rate": 0.00029958579929295615, "loss": 0.4284, "step": 35980 }, { "epoch": 47.986666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002995855658770114, "loss": 0.4036, "step": 35990 }, { "epoch": 48.0, "grad_norm": 0.390625, "learning_rate": 0.00029958533239540726, "loss": 0.396, "step": 36000 }, { "epoch": 48.0, "eval_loss": 0.43318748474121094, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6114, "eval_samples_per_second": 1.665, "eval_steps_per_second": 0.104, "step": 36000 }, { "epoch": 48.013333333333335, "grad_norm": 0.349609375, "learning_rate": 0.0002995850988481439, "loss": 0.4147, "step": 36010 }, { "epoch": 48.026666666666664, "grad_norm": 0.314453125, "learning_rate": 0.00029958486523522145, "loss": 0.4265, "step": 36020 }, { "epoch": 48.04, "grad_norm": 0.29296875, "learning_rate": 0.0002995846315566399, "loss": 0.4382, "step": 36030 }, { "epoch": 48.053333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0002995843978123995, "loss": 0.4252, "step": 36040 }, { "epoch": 48.06666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002995841640025002, "loss": 0.4132, "step": 36050 }, { "epoch": 48.08, "grad_norm": 0.353515625, "learning_rate": 0.00029958393012694223, "loss": 0.4159, "step": 36060 }, { "epoch": 48.093333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002995836961857256, "loss": 0.4167, "step": 36070 }, { "epoch": 48.10666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029958346217885055, "loss": 0.4049, "step": 36080 }, { "epoch": 48.12, "grad_norm": 0.30859375, "learning_rate": 0.000299583228106317, "loss": 0.4112, "step": 36090 }, { "epoch": 48.13333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029958299396812515, "loss": 0.4023, "step": 36100 }, { "epoch": 48.14666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002995827597642751, "loss": 0.4215, "step": 36110 }, { "epoch": 48.16, "grad_norm": 0.3125, "learning_rate": 0.00029958252549476696, "loss": 0.4139, "step": 36120 }, { "epoch": 48.17333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002995822911596008, "loss": 0.4075, "step": 36130 }, { "epoch": 48.18666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002995820567587767, "loss": 0.4078, "step": 36140 }, { "epoch": 48.2, "grad_norm": 0.337890625, "learning_rate": 0.00029958182229229485, "loss": 0.4008, "step": 36150 }, { "epoch": 48.21333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002995815877601553, "loss": 0.4018, "step": 36160 }, { "epoch": 48.22666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002995813531623581, "loss": 0.4139, "step": 36170 }, { "epoch": 48.24, "grad_norm": 0.35546875, "learning_rate": 0.0002995811184989035, "loss": 0.3984, "step": 36180 }, { "epoch": 48.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002995808837697915, "loss": 0.4, "step": 36190 }, { "epoch": 48.266666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002995806489750222, "loss": 0.4027, "step": 36200 }, { "epoch": 48.28, "grad_norm": 0.35546875, "learning_rate": 0.0002995804141145957, "loss": 0.4329, "step": 36210 }, { "epoch": 48.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002995801791885122, "loss": 0.3882, "step": 36220 }, { "epoch": 48.306666666666665, "grad_norm": 0.283203125, "learning_rate": 0.00029957994419677167, "loss": 0.4109, "step": 36230 }, { "epoch": 48.32, "grad_norm": 0.365234375, "learning_rate": 0.00029957970913937424, "loss": 0.412, "step": 36240 }, { "epoch": 48.333333333333336, "grad_norm": 0.345703125, "learning_rate": 0.0002995794740163201, "loss": 0.4182, "step": 36250 }, { "epoch": 48.346666666666664, "grad_norm": 0.349609375, "learning_rate": 0.0002995792388276093, "loss": 0.4088, "step": 36260 }, { "epoch": 48.36, "grad_norm": 0.35546875, "learning_rate": 0.00029957900357324187, "loss": 0.4101, "step": 36270 }, { "epoch": 48.373333333333335, "grad_norm": 0.322265625, "learning_rate": 0.00029957876825321804, "loss": 0.409, "step": 36280 }, { "epoch": 48.38666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029957853286753785, "loss": 0.4021, "step": 36290 }, { "epoch": 48.4, "grad_norm": 0.349609375, "learning_rate": 0.0002995782974162014, "loss": 0.4098, "step": 36300 }, { "epoch": 48.413333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029957806189920885, "loss": 0.4141, "step": 36310 }, { "epoch": 48.42666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002995778263165602, "loss": 0.4155, "step": 36320 }, { "epoch": 48.44, "grad_norm": 0.31640625, "learning_rate": 0.0002995775906682556, "loss": 0.4267, "step": 36330 }, { "epoch": 48.45333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002995773549542952, "loss": 0.4161, "step": 36340 }, { "epoch": 48.46666666666667, "grad_norm": 0.30859375, "learning_rate": 0.00029957711917467906, "loss": 0.4248, "step": 36350 }, { "epoch": 48.48, "grad_norm": 0.31640625, "learning_rate": 0.0002995768833294073, "loss": 0.4058, "step": 36360 }, { "epoch": 48.49333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029957664741847996, "loss": 0.4178, "step": 36370 }, { "epoch": 48.50666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029957641144189723, "loss": 0.4139, "step": 36380 }, { "epoch": 48.52, "grad_norm": 0.28125, "learning_rate": 0.00029957617539965917, "loss": 0.4047, "step": 36390 }, { "epoch": 48.53333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029957593929176595, "loss": 0.4082, "step": 36400 }, { "epoch": 48.54666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029957570311821757, "loss": 0.41, "step": 36410 }, { "epoch": 48.56, "grad_norm": 0.291015625, "learning_rate": 0.0002995754668790142, "loss": 0.4043, "step": 36420 }, { "epoch": 48.57333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002995752305741559, "loss": 0.4073, "step": 36430 }, { "epoch": 48.586666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029957499420364285, "loss": 0.3969, "step": 36440 }, { "epoch": 48.6, "grad_norm": 0.3203125, "learning_rate": 0.00029957475776747506, "loss": 0.3983, "step": 36450 }, { "epoch": 48.61333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002995745212656527, "loss": 0.3869, "step": 36460 }, { "epoch": 48.626666666666665, "grad_norm": 0.29296875, "learning_rate": 0.00029957428469817583, "loss": 0.3916, "step": 36470 }, { "epoch": 48.64, "grad_norm": 0.330078125, "learning_rate": 0.0002995740480650446, "loss": 0.4053, "step": 36480 }, { "epoch": 48.653333333333336, "grad_norm": 0.326171875, "learning_rate": 0.0002995738113662591, "loss": 0.4157, "step": 36490 }, { "epoch": 48.666666666666664, "grad_norm": 0.318359375, "learning_rate": 0.0002995735746018194, "loss": 0.4015, "step": 36500 }, { "epoch": 48.68, "grad_norm": 0.3046875, "learning_rate": 0.0002995733377717256, "loss": 0.3946, "step": 36510 }, { "epoch": 48.693333333333335, "grad_norm": 0.3046875, "learning_rate": 0.00029957310087597785, "loss": 0.4031, "step": 36520 }, { "epoch": 48.70666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002995728639145762, "loss": 0.3976, "step": 36530 }, { "epoch": 48.72, "grad_norm": 0.3359375, "learning_rate": 0.00029957262688752085, "loss": 0.4206, "step": 36540 }, { "epoch": 48.733333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029957238979481184, "loss": 0.4137, "step": 36550 }, { "epoch": 48.74666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002995721526364492, "loss": 0.4146, "step": 36560 }, { "epoch": 48.76, "grad_norm": 0.34765625, "learning_rate": 0.00029957191541243324, "loss": 0.4269, "step": 36570 }, { "epoch": 48.77333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029957167812276383, "loss": 0.4167, "step": 36580 }, { "epoch": 48.78666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0002995714407674412, "loss": 0.4166, "step": 36590 }, { "epoch": 48.8, "grad_norm": 0.294921875, "learning_rate": 0.0002995712033464654, "loss": 0.4154, "step": 36600 }, { "epoch": 48.81333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029957096585983664, "loss": 0.3888, "step": 36610 }, { "epoch": 48.82666666666667, "grad_norm": 0.33203125, "learning_rate": 0.000299570728307555, "loss": 0.4007, "step": 36620 }, { "epoch": 48.84, "grad_norm": 0.380859375, "learning_rate": 0.00029957049068962037, "loss": 0.4104, "step": 36630 }, { "epoch": 48.85333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029957025300603315, "loss": 0.4061, "step": 36640 }, { "epoch": 48.86666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029957001525679326, "loss": 0.4106, "step": 36650 }, { "epoch": 48.88, "grad_norm": 0.296875, "learning_rate": 0.00029956977744190086, "loss": 0.3897, "step": 36660 }, { "epoch": 48.89333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029956953956135606, "loss": 0.3995, "step": 36670 }, { "epoch": 48.906666666666666, "grad_norm": 0.30859375, "learning_rate": 0.0002995693016151589, "loss": 0.4089, "step": 36680 }, { "epoch": 48.92, "grad_norm": 0.306640625, "learning_rate": 0.00029956906360330965, "loss": 0.4105, "step": 36690 }, { "epoch": 48.93333333333333, "grad_norm": 0.294921875, "learning_rate": 0.00029956882552580825, "loss": 0.4038, "step": 36700 }, { "epoch": 48.946666666666665, "grad_norm": 0.33203125, "learning_rate": 0.00029956858738265483, "loss": 0.4048, "step": 36710 }, { "epoch": 48.96, "grad_norm": 0.29296875, "learning_rate": 0.0002995683491738496, "loss": 0.403, "step": 36720 }, { "epoch": 48.973333333333336, "grad_norm": 0.37890625, "learning_rate": 0.00029956811089939254, "loss": 0.4277, "step": 36730 }, { "epoch": 48.986666666666665, "grad_norm": 0.314453125, "learning_rate": 0.0002995678725592838, "loss": 0.4037, "step": 36740 }, { "epoch": 49.0, "grad_norm": 0.306640625, "learning_rate": 0.00029956763415352357, "loss": 0.3963, "step": 36750 }, { "epoch": 49.0, "eval_loss": 0.4348917007446289, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.657, "eval_samples_per_second": 1.657, "eval_steps_per_second": 0.104, "step": 36750 }, { "epoch": 49.013333333333335, "grad_norm": 0.318359375, "learning_rate": 0.0002995673956821118, "loss": 0.4149, "step": 36760 }, { "epoch": 49.026666666666664, "grad_norm": 0.328125, "learning_rate": 0.0002995671571450487, "loss": 0.4263, "step": 36770 }, { "epoch": 49.04, "grad_norm": 0.310546875, "learning_rate": 0.0002995669185423343, "loss": 0.4385, "step": 36780 }, { "epoch": 49.053333333333335, "grad_norm": 0.33203125, "learning_rate": 0.0002995666798739688, "loss": 0.4239, "step": 36790 }, { "epoch": 49.06666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002995664411399522, "loss": 0.412, "step": 36800 }, { "epoch": 49.08, "grad_norm": 0.333984375, "learning_rate": 0.00029956620234028463, "loss": 0.4152, "step": 36810 }, { "epoch": 49.093333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002995659634749663, "loss": 0.4169, "step": 36820 }, { "epoch": 49.10666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029956572454399724, "loss": 0.4043, "step": 36830 }, { "epoch": 49.12, "grad_norm": 0.34375, "learning_rate": 0.0002995654855473775, "loss": 0.4105, "step": 36840 }, { "epoch": 49.13333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029956524648510724, "loss": 0.4023, "step": 36850 }, { "epoch": 49.14666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002995650073571866, "loss": 0.4213, "step": 36860 }, { "epoch": 49.16, "grad_norm": 0.34765625, "learning_rate": 0.0002995647681636156, "loss": 0.4142, "step": 36870 }, { "epoch": 49.17333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029956452890439445, "loss": 0.4077, "step": 36880 }, { "epoch": 49.18666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029956428957952317, "loss": 0.4069, "step": 36890 }, { "epoch": 49.2, "grad_norm": 0.32421875, "learning_rate": 0.00029956405018900193, "loss": 0.4006, "step": 36900 }, { "epoch": 49.21333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029956381073283073, "loss": 0.4012, "step": 36910 }, { "epoch": 49.22666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002995635712110098, "loss": 0.4136, "step": 36920 }, { "epoch": 49.24, "grad_norm": 0.39453125, "learning_rate": 0.00029956333162353915, "loss": 0.3978, "step": 36930 }, { "epoch": 49.25333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029956309197041894, "loss": 0.4012, "step": 36940 }, { "epoch": 49.266666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0002995628522516492, "loss": 0.4021, "step": 36950 }, { "epoch": 49.28, "grad_norm": 0.345703125, "learning_rate": 0.00029956261246723016, "loss": 0.4325, "step": 36960 }, { "epoch": 49.29333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002995623726171618, "loss": 0.3885, "step": 36970 }, { "epoch": 49.306666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029956213270144436, "loss": 0.4109, "step": 36980 }, { "epoch": 49.32, "grad_norm": 0.3046875, "learning_rate": 0.0002995618927200778, "loss": 0.4127, "step": 36990 }, { "epoch": 49.333333333333336, "grad_norm": 0.31640625, "learning_rate": 0.00029956165267306235, "loss": 0.4188, "step": 37000 }, { "epoch": 49.346666666666664, "grad_norm": 0.333984375, "learning_rate": 0.000299561412560398, "loss": 0.4081, "step": 37010 }, { "epoch": 49.36, "grad_norm": 0.408203125, "learning_rate": 0.00029956117238208495, "loss": 0.4103, "step": 37020 }, { "epoch": 49.373333333333335, "grad_norm": 0.310546875, "learning_rate": 0.0002995609321381233, "loss": 0.4087, "step": 37030 }, { "epoch": 49.38666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002995606918285131, "loss": 0.4029, "step": 37040 }, { "epoch": 49.4, "grad_norm": 0.33203125, "learning_rate": 0.0002995604514532545, "loss": 0.4096, "step": 37050 }, { "epoch": 49.413333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002995602110123475, "loss": 0.4141, "step": 37060 }, { "epoch": 49.42666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029955997050579234, "loss": 0.4146, "step": 37070 }, { "epoch": 49.44, "grad_norm": 0.33984375, "learning_rate": 0.0002995597299335891, "loss": 0.4259, "step": 37080 }, { "epoch": 49.45333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002995594892957379, "loss": 0.4159, "step": 37090 }, { "epoch": 49.46666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002995592485922387, "loss": 0.4237, "step": 37100 }, { "epoch": 49.48, "grad_norm": 0.345703125, "learning_rate": 0.0002995590078230918, "loss": 0.4059, "step": 37110 }, { "epoch": 49.49333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002995587669882972, "loss": 0.4167, "step": 37120 }, { "epoch": 49.50666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029955852608785504, "loss": 0.4135, "step": 37130 }, { "epoch": 49.52, "grad_norm": 0.271484375, "learning_rate": 0.0002995582851217654, "loss": 0.405, "step": 37140 }, { "epoch": 49.53333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029955804409002835, "loss": 0.4078, "step": 37150 }, { "epoch": 49.54666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002995578029926441, "loss": 0.4108, "step": 37160 }, { "epoch": 49.56, "grad_norm": 0.294921875, "learning_rate": 0.0002995575618296127, "loss": 0.4049, "step": 37170 }, { "epoch": 49.57333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029955732060093425, "loss": 0.4075, "step": 37180 }, { "epoch": 49.586666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029955707930660885, "loss": 0.3971, "step": 37190 }, { "epoch": 49.6, "grad_norm": 0.302734375, "learning_rate": 0.0002995568379466366, "loss": 0.3982, "step": 37200 }, { "epoch": 49.61333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029955659652101767, "loss": 0.386, "step": 37210 }, { "epoch": 49.626666666666665, "grad_norm": 0.279296875, "learning_rate": 0.00029955635502975205, "loss": 0.3916, "step": 37220 }, { "epoch": 49.64, "grad_norm": 0.34765625, "learning_rate": 0.00029955611347284, "loss": 0.406, "step": 37230 }, { "epoch": 49.653333333333336, "grad_norm": 0.3125, "learning_rate": 0.0002995558718502815, "loss": 0.4156, "step": 37240 }, { "epoch": 49.666666666666664, "grad_norm": 0.296875, "learning_rate": 0.00029955563016207667, "loss": 0.4004, "step": 37250 }, { "epoch": 49.68, "grad_norm": 0.302734375, "learning_rate": 0.0002995553884082256, "loss": 0.3945, "step": 37260 }, { "epoch": 49.693333333333335, "grad_norm": 0.298828125, "learning_rate": 0.00029955514658872853, "loss": 0.4028, "step": 37270 }, { "epoch": 49.70666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002995549047035855, "loss": 0.3962, "step": 37280 }, { "epoch": 49.72, "grad_norm": 0.361328125, "learning_rate": 0.00029955466275279654, "loss": 0.4187, "step": 37290 }, { "epoch": 49.733333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002995544207363618, "loss": 0.4125, "step": 37300 }, { "epoch": 49.74666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002995541786542814, "loss": 0.4144, "step": 37310 }, { "epoch": 49.76, "grad_norm": 0.3359375, "learning_rate": 0.00029955393650655545, "loss": 0.4284, "step": 37320 }, { "epoch": 49.77333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029955369429318407, "loss": 0.4156, "step": 37330 }, { "epoch": 49.78666666666667, "grad_norm": 0.2890625, "learning_rate": 0.0002995534520141673, "loss": 0.4159, "step": 37340 }, { "epoch": 49.8, "grad_norm": 0.3125, "learning_rate": 0.00029955320966950527, "loss": 0.4143, "step": 37350 }, { "epoch": 49.81333333333333, "grad_norm": 0.375, "learning_rate": 0.00029955296725919816, "loss": 0.3886, "step": 37360 }, { "epoch": 49.82666666666667, "grad_norm": 0.291015625, "learning_rate": 0.000299552724783246, "loss": 0.3992, "step": 37370 }, { "epoch": 49.84, "grad_norm": 0.349609375, "learning_rate": 0.00029955248224164887, "loss": 0.4094, "step": 37380 }, { "epoch": 49.85333333333333, "grad_norm": 0.37890625, "learning_rate": 0.000299552239634407, "loss": 0.4064, "step": 37390 }, { "epoch": 49.86666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029955199696152034, "loss": 0.4093, "step": 37400 }, { "epoch": 49.88, "grad_norm": 0.326171875, "learning_rate": 0.00029955175422298914, "loss": 0.3894, "step": 37410 }, { "epoch": 49.89333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029955151141881345, "loss": 0.4002, "step": 37420 }, { "epoch": 49.906666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0002995512685489934, "loss": 0.4089, "step": 37430 }, { "epoch": 49.92, "grad_norm": 0.322265625, "learning_rate": 0.000299551025613529, "loss": 0.4113, "step": 37440 }, { "epoch": 49.93333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029955078261242044, "loss": 0.4034, "step": 37450 }, { "epoch": 49.946666666666665, "grad_norm": 0.357421875, "learning_rate": 0.00029955053954566784, "loss": 0.4041, "step": 37460 }, { "epoch": 49.96, "grad_norm": 0.3046875, "learning_rate": 0.0002995502964132712, "loss": 0.4009, "step": 37470 }, { "epoch": 49.973333333333336, "grad_norm": 0.349609375, "learning_rate": 0.00029955005321523077, "loss": 0.4266, "step": 37480 }, { "epoch": 49.986666666666665, "grad_norm": 0.3203125, "learning_rate": 0.00029954980995154656, "loss": 0.4032, "step": 37490 }, { "epoch": 50.0, "grad_norm": 0.337890625, "learning_rate": 0.00029954956662221874, "loss": 0.3959, "step": 37500 }, { "epoch": 50.0, "eval_loss": 0.43659400939941406, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8203, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 37500 }, { "epoch": 50.013333333333335, "grad_norm": 0.3515625, "learning_rate": 0.0002995493232272474, "loss": 0.4156, "step": 37510 }, { "epoch": 50.026666666666664, "grad_norm": 0.337890625, "learning_rate": 0.00029954907976663256, "loss": 0.426, "step": 37520 }, { "epoch": 50.04, "grad_norm": 0.28515625, "learning_rate": 0.0002995488362403745, "loss": 0.4374, "step": 37530 }, { "epoch": 50.053333333333335, "grad_norm": 0.34375, "learning_rate": 0.0002995485926484731, "loss": 0.4244, "step": 37540 }, { "epoch": 50.06666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002995483489909287, "loss": 0.4123, "step": 37550 }, { "epoch": 50.08, "grad_norm": 0.341796875, "learning_rate": 0.00029954810526774126, "loss": 0.4153, "step": 37560 }, { "epoch": 50.093333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029954786147891094, "loss": 0.4165, "step": 37570 }, { "epoch": 50.10666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002995476176244378, "loss": 0.404, "step": 37580 }, { "epoch": 50.12, "grad_norm": 0.330078125, "learning_rate": 0.000299547373704322, "loss": 0.4103, "step": 37590 }, { "epoch": 50.13333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029954712971856363, "loss": 0.4016, "step": 37600 }, { "epoch": 50.14666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029954688566716275, "loss": 0.4195, "step": 37610 }, { "epoch": 50.16, "grad_norm": 0.3125, "learning_rate": 0.00029954664155011954, "loss": 0.4127, "step": 37620 }, { "epoch": 50.17333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002995463973674341, "loss": 0.4072, "step": 37630 }, { "epoch": 50.18666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002995461531191065, "loss": 0.4073, "step": 37640 }, { "epoch": 50.2, "grad_norm": 0.29296875, "learning_rate": 0.00029954590880513685, "loss": 0.3997, "step": 37650 }, { "epoch": 50.21333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002995456644255253, "loss": 0.3999, "step": 37660 }, { "epoch": 50.22666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029954541998027193, "loss": 0.4129, "step": 37670 }, { "epoch": 50.24, "grad_norm": 0.396484375, "learning_rate": 0.00029954517546937684, "loss": 0.3983, "step": 37680 }, { "epoch": 50.25333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002995449308928401, "loss": 0.3998, "step": 37690 }, { "epoch": 50.266666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002995446862506619, "loss": 0.4016, "step": 37700 }, { "epoch": 50.28, "grad_norm": 0.390625, "learning_rate": 0.0002995444415428423, "loss": 0.4321, "step": 37710 }, { "epoch": 50.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002995441967693814, "loss": 0.3883, "step": 37720 }, { "epoch": 50.306666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029954395193027933, "loss": 0.4104, "step": 37730 }, { "epoch": 50.32, "grad_norm": 0.306640625, "learning_rate": 0.00029954370702553614, "loss": 0.4119, "step": 37740 }, { "epoch": 50.333333333333336, "grad_norm": 0.376953125, "learning_rate": 0.00029954346205515205, "loss": 0.4174, "step": 37750 }, { "epoch": 50.346666666666664, "grad_norm": 0.3359375, "learning_rate": 0.0002995432170191271, "loss": 0.4077, "step": 37760 }, { "epoch": 50.36, "grad_norm": 0.353515625, "learning_rate": 0.0002995429719174614, "loss": 0.4089, "step": 37770 }, { "epoch": 50.373333333333335, "grad_norm": 0.314453125, "learning_rate": 0.00029954272675015504, "loss": 0.4077, "step": 37780 }, { "epoch": 50.38666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029954248151720813, "loss": 0.4026, "step": 37790 }, { "epoch": 50.4, "grad_norm": 0.349609375, "learning_rate": 0.0002995422362186208, "loss": 0.4086, "step": 37800 }, { "epoch": 50.413333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029954199085439323, "loss": 0.4135, "step": 37810 }, { "epoch": 50.42666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002995417454245254, "loss": 0.4149, "step": 37820 }, { "epoch": 50.44, "grad_norm": 0.31640625, "learning_rate": 0.00029954149992901747, "loss": 0.4258, "step": 37830 }, { "epoch": 50.45333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029954125436786955, "loss": 0.4152, "step": 37840 }, { "epoch": 50.46666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002995410087410817, "loss": 0.4248, "step": 37850 }, { "epoch": 50.48, "grad_norm": 0.33984375, "learning_rate": 0.0002995407630486541, "loss": 0.4055, "step": 37860 }, { "epoch": 50.49333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002995405172905868, "loss": 0.4175, "step": 37870 }, { "epoch": 50.50666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029954027146688, "loss": 0.4135, "step": 37880 }, { "epoch": 50.52, "grad_norm": 0.30078125, "learning_rate": 0.00029954002557753374, "loss": 0.4043, "step": 37890 }, { "epoch": 50.53333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002995397796225481, "loss": 0.4073, "step": 37900 }, { "epoch": 50.54666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002995395336019232, "loss": 0.4096, "step": 37910 }, { "epoch": 50.56, "grad_norm": 0.298828125, "learning_rate": 0.00029953928751565916, "loss": 0.404, "step": 37920 }, { "epoch": 50.57333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029953904136375615, "loss": 0.4087, "step": 37930 }, { "epoch": 50.586666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002995387951462142, "loss": 0.3964, "step": 37940 }, { "epoch": 50.6, "grad_norm": 0.306640625, "learning_rate": 0.00029953854886303344, "loss": 0.3976, "step": 37950 }, { "epoch": 50.61333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029953830251421395, "loss": 0.3856, "step": 37960 }, { "epoch": 50.626666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00029953805609975593, "loss": 0.3911, "step": 37970 }, { "epoch": 50.64, "grad_norm": 0.31640625, "learning_rate": 0.0002995378096196594, "loss": 0.4055, "step": 37980 }, { "epoch": 50.653333333333336, "grad_norm": 0.341796875, "learning_rate": 0.0002995375630739245, "loss": 0.417, "step": 37990 }, { "epoch": 50.666666666666664, "grad_norm": 0.33203125, "learning_rate": 0.0002995373164625513, "loss": 0.4, "step": 38000 }, { "epoch": 50.68, "grad_norm": 0.35546875, "learning_rate": 0.00029953706978554, "loss": 0.3941, "step": 38010 }, { "epoch": 50.693333333333335, "grad_norm": 0.353515625, "learning_rate": 0.0002995368230428906, "loss": 0.4025, "step": 38020 }, { "epoch": 50.70666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002995365762346033, "loss": 0.3963, "step": 38030 }, { "epoch": 50.72, "grad_norm": 0.36328125, "learning_rate": 0.00029953632936067815, "loss": 0.4187, "step": 38040 }, { "epoch": 50.733333333333334, "grad_norm": 0.298828125, "learning_rate": 0.0002995360824211153, "loss": 0.413, "step": 38050 }, { "epoch": 50.74666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029953583541591475, "loss": 0.414, "step": 38060 }, { "epoch": 50.76, "grad_norm": 0.345703125, "learning_rate": 0.00029953558834507673, "loss": 0.4274, "step": 38070 }, { "epoch": 50.77333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002995353412086014, "loss": 0.4148, "step": 38080 }, { "epoch": 50.78666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029953509400648865, "loss": 0.4152, "step": 38090 }, { "epoch": 50.8, "grad_norm": 0.310546875, "learning_rate": 0.00029953484673873876, "loss": 0.4147, "step": 38100 }, { "epoch": 50.81333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002995345994053518, "loss": 0.3881, "step": 38110 }, { "epoch": 50.82666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029953435200632785, "loss": 0.3977, "step": 38120 }, { "epoch": 50.84, "grad_norm": 0.330078125, "learning_rate": 0.0002995341045416671, "loss": 0.4091, "step": 38130 }, { "epoch": 50.85333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002995338570113696, "loss": 0.4062, "step": 38140 }, { "epoch": 50.86666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002995336094154354, "loss": 0.4092, "step": 38150 }, { "epoch": 50.88, "grad_norm": 0.287109375, "learning_rate": 0.0002995333617538647, "loss": 0.388, "step": 38160 }, { "epoch": 50.89333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002995331140266576, "loss": 0.3996, "step": 38170 }, { "epoch": 50.906666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002995328662338142, "loss": 0.4081, "step": 38180 }, { "epoch": 50.92, "grad_norm": 0.28515625, "learning_rate": 0.00029953261837533453, "loss": 0.4095, "step": 38190 }, { "epoch": 50.93333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029953237045121883, "loss": 0.402, "step": 38200 }, { "epoch": 50.946666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029953212246146705, "loss": 0.4048, "step": 38210 }, { "epoch": 50.96, "grad_norm": 0.314453125, "learning_rate": 0.00029953187440607946, "loss": 0.3999, "step": 38220 }, { "epoch": 50.973333333333336, "grad_norm": 0.369140625, "learning_rate": 0.0002995316262850561, "loss": 0.4263, "step": 38230 }, { "epoch": 50.986666666666665, "grad_norm": 0.3203125, "learning_rate": 0.00029953137809839706, "loss": 0.402, "step": 38240 }, { "epoch": 51.0, "grad_norm": 0.314453125, "learning_rate": 0.00029953112984610253, "loss": 0.3954, "step": 38250 }, { "epoch": 51.0, "eval_loss": 0.4338240921497345, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.649, "eval_samples_per_second": 1.658, "eval_steps_per_second": 0.104, "step": 38250 }, { "epoch": 51.013333333333335, "grad_norm": 0.330078125, "learning_rate": 0.00029953088152817245, "loss": 0.4152, "step": 38260 }, { "epoch": 51.026666666666664, "grad_norm": 0.369140625, "learning_rate": 0.0002995306331446071, "loss": 0.4259, "step": 38270 }, { "epoch": 51.04, "grad_norm": 0.306640625, "learning_rate": 0.0002995303846954065, "loss": 0.4374, "step": 38280 }, { "epoch": 51.053333333333335, "grad_norm": 0.333984375, "learning_rate": 0.00029953013618057083, "loss": 0.4235, "step": 38290 }, { "epoch": 51.06666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002995298876001001, "loss": 0.4112, "step": 38300 }, { "epoch": 51.08, "grad_norm": 0.380859375, "learning_rate": 0.0002995296389539945, "loss": 0.4148, "step": 38310 }, { "epoch": 51.093333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002995293902422541, "loss": 0.4158, "step": 38320 }, { "epoch": 51.10666666666667, "grad_norm": 0.322265625, "learning_rate": 0.000299529141464879, "loss": 0.403, "step": 38330 }, { "epoch": 51.12, "grad_norm": 0.33984375, "learning_rate": 0.00029952889262186935, "loss": 0.4102, "step": 38340 }, { "epoch": 51.13333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029952864371322527, "loss": 0.4012, "step": 38350 }, { "epoch": 51.14666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002995283947389468, "loss": 0.4197, "step": 38360 }, { "epoch": 51.16, "grad_norm": 0.302734375, "learning_rate": 0.00029952814569903413, "loss": 0.4127, "step": 38370 }, { "epoch": 51.17333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002995278965934873, "loss": 0.4064, "step": 38380 }, { "epoch": 51.18666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002995276474223064, "loss": 0.4059, "step": 38390 }, { "epoch": 51.2, "grad_norm": 0.333984375, "learning_rate": 0.00029952739818549164, "loss": 0.3999, "step": 38400 }, { "epoch": 51.21333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002995271488830431, "loss": 0.4011, "step": 38410 }, { "epoch": 51.22666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002995268995149608, "loss": 0.4136, "step": 38420 }, { "epoch": 51.24, "grad_norm": 0.3671875, "learning_rate": 0.00029952665008124496, "loss": 0.3972, "step": 38430 }, { "epoch": 51.25333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029952640058189566, "loss": 0.4002, "step": 38440 }, { "epoch": 51.266666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029952615101691294, "loss": 0.4018, "step": 38450 }, { "epoch": 51.28, "grad_norm": 0.375, "learning_rate": 0.000299525901386297, "loss": 0.4321, "step": 38460 }, { "epoch": 51.29333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002995256516900479, "loss": 0.3873, "step": 38470 }, { "epoch": 51.306666666666665, "grad_norm": 0.26953125, "learning_rate": 0.00029952540192816575, "loss": 0.4101, "step": 38480 }, { "epoch": 51.32, "grad_norm": 0.28515625, "learning_rate": 0.0002995251521006507, "loss": 0.4121, "step": 38490 }, { "epoch": 51.333333333333336, "grad_norm": 0.34375, "learning_rate": 0.0002995249022075028, "loss": 0.4173, "step": 38500 }, { "epoch": 51.346666666666664, "grad_norm": 0.349609375, "learning_rate": 0.00029952465224872217, "loss": 0.408, "step": 38510 }, { "epoch": 51.36, "grad_norm": 0.375, "learning_rate": 0.000299524402224309, "loss": 0.4089, "step": 38520 }, { "epoch": 51.373333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0002995241521342633, "loss": 0.4076, "step": 38530 }, { "epoch": 51.38666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002995239019785852, "loss": 0.4021, "step": 38540 }, { "epoch": 51.4, "grad_norm": 0.314453125, "learning_rate": 0.0002995236517572749, "loss": 0.4084, "step": 38550 }, { "epoch": 51.413333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002995234014703324, "loss": 0.4126, "step": 38560 }, { "epoch": 51.42666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029952315111775785, "loss": 0.4138, "step": 38570 }, { "epoch": 51.44, "grad_norm": 0.31640625, "learning_rate": 0.00029952290069955133, "loss": 0.425, "step": 38580 }, { "epoch": 51.45333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029952265021571307, "loss": 0.4155, "step": 38590 }, { "epoch": 51.46666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029952239966624295, "loss": 0.4231, "step": 38600 }, { "epoch": 51.48, "grad_norm": 0.326171875, "learning_rate": 0.0002995221490511413, "loss": 0.4043, "step": 38610 }, { "epoch": 51.49333333333333, "grad_norm": 0.27734375, "learning_rate": 0.00029952189837040814, "loss": 0.4164, "step": 38620 }, { "epoch": 51.50666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002995216476240436, "loss": 0.4135, "step": 38630 }, { "epoch": 51.52, "grad_norm": 0.294921875, "learning_rate": 0.00029952139681204776, "loss": 0.4039, "step": 38640 }, { "epoch": 51.53333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002995211459344208, "loss": 0.4072, "step": 38650 }, { "epoch": 51.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029952089499116273, "loss": 0.41, "step": 38660 }, { "epoch": 51.56, "grad_norm": 0.283203125, "learning_rate": 0.0002995206439822737, "loss": 0.4042, "step": 38670 }, { "epoch": 51.57333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002995203929077539, "loss": 0.406, "step": 38680 }, { "epoch": 51.586666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0002995201417676033, "loss": 0.3959, "step": 38690 }, { "epoch": 51.6, "grad_norm": 0.28515625, "learning_rate": 0.0002995198905618221, "loss": 0.3978, "step": 38700 }, { "epoch": 51.61333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002995196392904104, "loss": 0.3865, "step": 38710 }, { "epoch": 51.626666666666665, "grad_norm": 0.287109375, "learning_rate": 0.0002995193879533683, "loss": 0.3911, "step": 38720 }, { "epoch": 51.64, "grad_norm": 0.30078125, "learning_rate": 0.0002995191365506959, "loss": 0.4055, "step": 38730 }, { "epoch": 51.653333333333336, "grad_norm": 0.30859375, "learning_rate": 0.0002995188850823933, "loss": 0.4155, "step": 38740 }, { "epoch": 51.666666666666664, "grad_norm": 0.32421875, "learning_rate": 0.0002995186335484607, "loss": 0.4001, "step": 38750 }, { "epoch": 51.68, "grad_norm": 0.310546875, "learning_rate": 0.0002995183819488981, "loss": 0.3935, "step": 38760 }, { "epoch": 51.693333333333335, "grad_norm": 0.298828125, "learning_rate": 0.0002995181302837056, "loss": 0.4021, "step": 38770 }, { "epoch": 51.70666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029951787855288345, "loss": 0.396, "step": 38780 }, { "epoch": 51.72, "grad_norm": 0.37890625, "learning_rate": 0.00029951762675643165, "loss": 0.4192, "step": 38790 }, { "epoch": 51.733333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029951737489435033, "loss": 0.4124, "step": 38800 }, { "epoch": 51.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002995171229666396, "loss": 0.4146, "step": 38810 }, { "epoch": 51.76, "grad_norm": 0.392578125, "learning_rate": 0.0002995168709732996, "loss": 0.4264, "step": 38820 }, { "epoch": 51.77333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029951661891433037, "loss": 0.4149, "step": 38830 }, { "epoch": 51.78666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002995163667897321, "loss": 0.4149, "step": 38840 }, { "epoch": 51.8, "grad_norm": 0.318359375, "learning_rate": 0.0002995161145995048, "loss": 0.4141, "step": 38850 }, { "epoch": 51.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002995158623436487, "loss": 0.3873, "step": 38860 }, { "epoch": 51.82666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002995156100221639, "loss": 0.3989, "step": 38870 }, { "epoch": 51.84, "grad_norm": 0.396484375, "learning_rate": 0.00029951535763505046, "loss": 0.409, "step": 38880 }, { "epoch": 51.85333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002995151051823085, "loss": 0.4058, "step": 38890 }, { "epoch": 51.86666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029951485266393806, "loss": 0.4081, "step": 38900 }, { "epoch": 51.88, "grad_norm": 0.298828125, "learning_rate": 0.00029951460007993937, "loss": 0.3882, "step": 38910 }, { "epoch": 51.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029951434743031246, "loss": 0.3994, "step": 38920 }, { "epoch": 51.906666666666666, "grad_norm": 0.318359375, "learning_rate": 0.00029951409471505754, "loss": 0.4077, "step": 38930 }, { "epoch": 51.92, "grad_norm": 0.349609375, "learning_rate": 0.00029951384193417456, "loss": 0.4102, "step": 38940 }, { "epoch": 51.93333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0002995135890876638, "loss": 0.4019, "step": 38950 }, { "epoch": 51.946666666666665, "grad_norm": 0.380859375, "learning_rate": 0.00029951333617552525, "loss": 0.4037, "step": 38960 }, { "epoch": 51.96, "grad_norm": 0.349609375, "learning_rate": 0.0002995130831977591, "loss": 0.4, "step": 38970 }, { "epoch": 51.973333333333336, "grad_norm": 0.37109375, "learning_rate": 0.00029951283015436543, "loss": 0.4272, "step": 38980 }, { "epoch": 51.986666666666665, "grad_norm": 0.330078125, "learning_rate": 0.00029951257704534433, "loss": 0.402, "step": 38990 }, { "epoch": 52.0, "grad_norm": 0.337890625, "learning_rate": 0.000299512323870696, "loss": 0.3957, "step": 39000 }, { "epoch": 52.0, "eval_loss": 0.4338739514350891, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6922, "eval_samples_per_second": 1.651, "eval_steps_per_second": 0.103, "step": 39000 }, { "epoch": 52.013333333333335, "grad_norm": 0.33984375, "learning_rate": 0.00029951207063042045, "loss": 0.4131, "step": 39010 }, { "epoch": 52.026666666666664, "grad_norm": 0.3203125, "learning_rate": 0.00029951181732451777, "loss": 0.4257, "step": 39020 }, { "epoch": 52.04, "grad_norm": 0.34765625, "learning_rate": 0.0002995115639529881, "loss": 0.4368, "step": 39030 }, { "epoch": 52.053333333333335, "grad_norm": 0.345703125, "learning_rate": 0.00029951131051583166, "loss": 0.4235, "step": 39040 }, { "epoch": 52.06666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029951105701304844, "loss": 0.4118, "step": 39050 }, { "epoch": 52.08, "grad_norm": 0.35546875, "learning_rate": 0.0002995108034446386, "loss": 0.4138, "step": 39060 }, { "epoch": 52.093333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002995105498106022, "loss": 0.4161, "step": 39070 }, { "epoch": 52.10666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029951029611093944, "loss": 0.403, "step": 39080 }, { "epoch": 52.12, "grad_norm": 0.330078125, "learning_rate": 0.0002995100423456503, "loss": 0.4099, "step": 39090 }, { "epoch": 52.13333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002995097885147351, "loss": 0.4011, "step": 39100 }, { "epoch": 52.14666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002995095346181938, "loss": 0.4184, "step": 39110 }, { "epoch": 52.16, "grad_norm": 0.318359375, "learning_rate": 0.00029950928065602646, "loss": 0.4123, "step": 39120 }, { "epoch": 52.17333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002995090266282333, "loss": 0.4072, "step": 39130 }, { "epoch": 52.18666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002995087725348144, "loss": 0.4064, "step": 39140 }, { "epoch": 52.2, "grad_norm": 0.375, "learning_rate": 0.0002995085183757699, "loss": 0.3993, "step": 39150 }, { "epoch": 52.21333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029950826415109984, "loss": 0.4001, "step": 39160 }, { "epoch": 52.22666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029950800986080437, "loss": 0.4126, "step": 39170 }, { "epoch": 52.24, "grad_norm": 0.33203125, "learning_rate": 0.00029950775550488366, "loss": 0.3974, "step": 39180 }, { "epoch": 52.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002995075010833377, "loss": 0.3995, "step": 39190 }, { "epoch": 52.266666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029950724659616674, "loss": 0.4002, "step": 39200 }, { "epoch": 52.28, "grad_norm": 0.333984375, "learning_rate": 0.0002995069920433708, "loss": 0.4302, "step": 39210 }, { "epoch": 52.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029950673742495, "loss": 0.3871, "step": 39220 }, { "epoch": 52.306666666666665, "grad_norm": 0.275390625, "learning_rate": 0.00029950648274090444, "loss": 0.4091, "step": 39230 }, { "epoch": 52.32, "grad_norm": 0.28125, "learning_rate": 0.00029950622799123424, "loss": 0.4118, "step": 39240 }, { "epoch": 52.333333333333336, "grad_norm": 0.337890625, "learning_rate": 0.00029950597317593956, "loss": 0.4172, "step": 39250 }, { "epoch": 52.346666666666664, "grad_norm": 0.37890625, "learning_rate": 0.0002995057182950205, "loss": 0.4077, "step": 39260 }, { "epoch": 52.36, "grad_norm": 0.37109375, "learning_rate": 0.00029950546334847714, "loss": 0.4072, "step": 39270 }, { "epoch": 52.373333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0002995052083363096, "loss": 0.4076, "step": 39280 }, { "epoch": 52.38666666666666, "grad_norm": 0.357421875, "learning_rate": 0.000299504953258518, "loss": 0.4011, "step": 39290 }, { "epoch": 52.4, "grad_norm": 0.318359375, "learning_rate": 0.0002995046981151024, "loss": 0.4078, "step": 39300 }, { "epoch": 52.413333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029950444290606303, "loss": 0.4117, "step": 39310 }, { "epoch": 52.42666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029950418763139986, "loss": 0.4142, "step": 39320 }, { "epoch": 52.44, "grad_norm": 0.30078125, "learning_rate": 0.00029950393229111313, "loss": 0.4238, "step": 39330 }, { "epoch": 52.45333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002995036768852029, "loss": 0.4146, "step": 39340 }, { "epoch": 52.46666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029950342141366927, "loss": 0.4242, "step": 39350 }, { "epoch": 52.48, "grad_norm": 0.333984375, "learning_rate": 0.0002995031658765123, "loss": 0.4043, "step": 39360 }, { "epoch": 52.49333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029950291027373225, "loss": 0.416, "step": 39370 }, { "epoch": 52.50666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002995026546053291, "loss": 0.413, "step": 39380 }, { "epoch": 52.52, "grad_norm": 0.318359375, "learning_rate": 0.000299502398871303, "loss": 0.4044, "step": 39390 }, { "epoch": 52.53333333333333, "grad_norm": 0.296875, "learning_rate": 0.00029950214307165407, "loss": 0.4068, "step": 39400 }, { "epoch": 52.54666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002995018872063824, "loss": 0.4093, "step": 39410 }, { "epoch": 52.56, "grad_norm": 0.2578125, "learning_rate": 0.0002995016312754882, "loss": 0.4038, "step": 39420 }, { "epoch": 52.57333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002995013752789714, "loss": 0.4069, "step": 39430 }, { "epoch": 52.586666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002995011192168323, "loss": 0.395, "step": 39440 }, { "epoch": 52.6, "grad_norm": 0.33203125, "learning_rate": 0.00029950086308907093, "loss": 0.3972, "step": 39450 }, { "epoch": 52.61333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0002995006068956873, "loss": 0.386, "step": 39460 }, { "epoch": 52.626666666666665, "grad_norm": 0.341796875, "learning_rate": 0.0002995003506366817, "loss": 0.3911, "step": 39470 }, { "epoch": 52.64, "grad_norm": 0.333984375, "learning_rate": 0.0002995000943120542, "loss": 0.4057, "step": 39480 }, { "epoch": 52.653333333333336, "grad_norm": 0.328125, "learning_rate": 0.0002994998379218048, "loss": 0.4154, "step": 39490 }, { "epoch": 52.666666666666664, "grad_norm": 0.291015625, "learning_rate": 0.0002994995814659338, "loss": 0.3997, "step": 39500 }, { "epoch": 52.68, "grad_norm": 0.33203125, "learning_rate": 0.0002994993249444411, "loss": 0.3933, "step": 39510 }, { "epoch": 52.693333333333335, "grad_norm": 0.3203125, "learning_rate": 0.000299499068357327, "loss": 0.4018, "step": 39520 }, { "epoch": 52.70666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002994988117045915, "loss": 0.3957, "step": 39530 }, { "epoch": 52.72, "grad_norm": 0.3515625, "learning_rate": 0.00029949855498623474, "loss": 0.4179, "step": 39540 }, { "epoch": 52.733333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002994982982022568, "loss": 0.4119, "step": 39550 }, { "epoch": 52.74666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029949804135265783, "loss": 0.4131, "step": 39560 }, { "epoch": 52.76, "grad_norm": 0.33984375, "learning_rate": 0.000299497784437438, "loss": 0.4265, "step": 39570 }, { "epoch": 52.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029949752745659736, "loss": 0.4147, "step": 39580 }, { "epoch": 52.78666666666667, "grad_norm": 0.326171875, "learning_rate": 0.000299497270410136, "loss": 0.4144, "step": 39590 }, { "epoch": 52.8, "grad_norm": 0.345703125, "learning_rate": 0.00029949701329805403, "loss": 0.4139, "step": 39600 }, { "epoch": 52.81333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002994967561203516, "loss": 0.3869, "step": 39610 }, { "epoch": 52.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029949649887702883, "loss": 0.3979, "step": 39620 }, { "epoch": 52.84, "grad_norm": 0.349609375, "learning_rate": 0.00029949624156808585, "loss": 0.4102, "step": 39630 }, { "epoch": 52.85333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029949598419352273, "loss": 0.4046, "step": 39640 }, { "epoch": 52.86666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002994957267533396, "loss": 0.4092, "step": 39650 }, { "epoch": 52.88, "grad_norm": 0.3359375, "learning_rate": 0.0002994954692475365, "loss": 0.3881, "step": 39660 }, { "epoch": 52.89333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029949521167611364, "loss": 0.3989, "step": 39670 }, { "epoch": 52.906666666666666, "grad_norm": 0.30859375, "learning_rate": 0.00029949495403907114, "loss": 0.4076, "step": 39680 }, { "epoch": 52.92, "grad_norm": 0.32421875, "learning_rate": 0.0002994946963364091, "loss": 0.4108, "step": 39690 }, { "epoch": 52.93333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029949443856812754, "loss": 0.4025, "step": 39700 }, { "epoch": 52.946666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029949418073422666, "loss": 0.4036, "step": 39710 }, { "epoch": 52.96, "grad_norm": 0.34375, "learning_rate": 0.00029949392283470656, "loss": 0.4, "step": 39720 }, { "epoch": 52.973333333333336, "grad_norm": 0.361328125, "learning_rate": 0.00029949366486956735, "loss": 0.4269, "step": 39730 }, { "epoch": 52.986666666666665, "grad_norm": 0.3359375, "learning_rate": 0.0002994934068388092, "loss": 0.401, "step": 39740 }, { "epoch": 53.0, "grad_norm": 0.33984375, "learning_rate": 0.00029949314874243207, "loss": 0.3946, "step": 39750 }, { "epoch": 53.0, "eval_loss": 0.4362297058105469, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2206, "eval_samples_per_second": 1.565, "eval_steps_per_second": 0.098, "step": 39750 }, { "epoch": 53.013333333333335, "grad_norm": 0.408203125, "learning_rate": 0.00029949289058043616, "loss": 0.4133, "step": 39760 }, { "epoch": 53.026666666666664, "grad_norm": 0.388671875, "learning_rate": 0.0002994926323528217, "loss": 0.4248, "step": 39770 }, { "epoch": 53.04, "grad_norm": 0.3046875, "learning_rate": 0.00029949237405958864, "loss": 0.4365, "step": 39780 }, { "epoch": 53.053333333333335, "grad_norm": 0.30078125, "learning_rate": 0.0002994921157007371, "loss": 0.4228, "step": 39790 }, { "epoch": 53.06666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029949185727626726, "loss": 0.4107, "step": 39800 }, { "epoch": 53.08, "grad_norm": 0.3515625, "learning_rate": 0.00029949159878617926, "loss": 0.4135, "step": 39810 }, { "epoch": 53.093333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029949134023047317, "loss": 0.4148, "step": 39820 }, { "epoch": 53.10666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029949108160914905, "loss": 0.4036, "step": 39830 }, { "epoch": 53.12, "grad_norm": 0.353515625, "learning_rate": 0.0002994908229222071, "loss": 0.409, "step": 39840 }, { "epoch": 53.13333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029949056416964743, "loss": 0.4, "step": 39850 }, { "epoch": 53.14666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002994903053514701, "loss": 0.42, "step": 39860 }, { "epoch": 53.16, "grad_norm": 0.298828125, "learning_rate": 0.0002994900464676752, "loss": 0.4116, "step": 39870 }, { "epoch": 53.17333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029948978751826295, "loss": 0.4054, "step": 39880 }, { "epoch": 53.18666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002994895285032334, "loss": 0.4056, "step": 39890 }, { "epoch": 53.2, "grad_norm": 0.330078125, "learning_rate": 0.0002994892694225867, "loss": 0.3994, "step": 39900 }, { "epoch": 53.21333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002994890102763228, "loss": 0.3999, "step": 39910 }, { "epoch": 53.22666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002994887510644421, "loss": 0.412, "step": 39920 }, { "epoch": 53.24, "grad_norm": 0.404296875, "learning_rate": 0.00029948849178694444, "loss": 0.3969, "step": 39930 }, { "epoch": 53.25333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029948823244383007, "loss": 0.3987, "step": 39940 }, { "epoch": 53.266666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029948797303509914, "loss": 0.4009, "step": 39950 }, { "epoch": 53.28, "grad_norm": 0.3671875, "learning_rate": 0.0002994877135607517, "loss": 0.4325, "step": 39960 }, { "epoch": 53.29333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029948745402078784, "loss": 0.3869, "step": 39970 }, { "epoch": 53.306666666666665, "grad_norm": 0.326171875, "learning_rate": 0.00029948719441520776, "loss": 0.409, "step": 39980 }, { "epoch": 53.32, "grad_norm": 0.2890625, "learning_rate": 0.0002994869347440115, "loss": 0.411, "step": 39990 }, { "epoch": 53.333333333333336, "grad_norm": 0.328125, "learning_rate": 0.00029948667500719913, "loss": 0.4163, "step": 40000 }, { "epoch": 53.346666666666664, "grad_norm": 0.369140625, "learning_rate": 0.0002994864152047709, "loss": 0.4071, "step": 40010 }, { "epoch": 53.36, "grad_norm": 0.41796875, "learning_rate": 0.00029948615533672684, "loss": 0.4085, "step": 40020 }, { "epoch": 53.373333333333335, "grad_norm": 0.3203125, "learning_rate": 0.00029948589540306706, "loss": 0.4077, "step": 40030 }, { "epoch": 53.38666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002994856354037917, "loss": 0.4006, "step": 40040 }, { "epoch": 53.4, "grad_norm": 0.3203125, "learning_rate": 0.0002994853753389009, "loss": 0.4071, "step": 40050 }, { "epoch": 53.413333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029948511520839474, "loss": 0.4108, "step": 40060 }, { "epoch": 53.42666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002994848550122733, "loss": 0.4136, "step": 40070 }, { "epoch": 53.44, "grad_norm": 0.306640625, "learning_rate": 0.0002994845947505367, "loss": 0.4247, "step": 40080 }, { "epoch": 53.45333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029948433442318514, "loss": 0.4133, "step": 40090 }, { "epoch": 53.46666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002994840740302187, "loss": 0.424, "step": 40100 }, { "epoch": 53.48, "grad_norm": 0.349609375, "learning_rate": 0.00029948381357163743, "loss": 0.4039, "step": 40110 }, { "epoch": 53.49333333333333, "grad_norm": 0.3125, "learning_rate": 0.00029948355304744147, "loss": 0.4165, "step": 40120 }, { "epoch": 53.50666666666667, "grad_norm": 0.333984375, "learning_rate": 0.000299483292457631, "loss": 0.4132, "step": 40130 }, { "epoch": 53.52, "grad_norm": 0.296875, "learning_rate": 0.00029948303180220607, "loss": 0.4035, "step": 40140 }, { "epoch": 53.53333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029948277108116675, "loss": 0.4061, "step": 40150 }, { "epoch": 53.54666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002994825102945133, "loss": 0.4077, "step": 40160 }, { "epoch": 53.56, "grad_norm": 0.298828125, "learning_rate": 0.0002994822494422457, "loss": 0.4028, "step": 40170 }, { "epoch": 53.57333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029948198852436413, "loss": 0.4066, "step": 40180 }, { "epoch": 53.586666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029948172754086863, "loss": 0.3944, "step": 40190 }, { "epoch": 53.6, "grad_norm": 0.373046875, "learning_rate": 0.00029948146649175943, "loss": 0.3967, "step": 40200 }, { "epoch": 53.61333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002994812053770366, "loss": 0.3851, "step": 40210 }, { "epoch": 53.626666666666665, "grad_norm": 0.296875, "learning_rate": 0.00029948094419670024, "loss": 0.3908, "step": 40220 }, { "epoch": 53.64, "grad_norm": 0.328125, "learning_rate": 0.00029948068295075045, "loss": 0.4039, "step": 40230 }, { "epoch": 53.653333333333336, "grad_norm": 0.328125, "learning_rate": 0.00029948042163918735, "loss": 0.4149, "step": 40240 }, { "epoch": 53.666666666666664, "grad_norm": 0.322265625, "learning_rate": 0.00029948016026201104, "loss": 0.4001, "step": 40250 }, { "epoch": 53.68, "grad_norm": 0.298828125, "learning_rate": 0.0002994798988192217, "loss": 0.3921, "step": 40260 }, { "epoch": 53.693333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002994796373108194, "loss": 0.4017, "step": 40270 }, { "epoch": 53.70666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002994793757368042, "loss": 0.3965, "step": 40280 }, { "epoch": 53.72, "grad_norm": 0.35546875, "learning_rate": 0.0002994791140971764, "loss": 0.4188, "step": 40290 }, { "epoch": 53.733333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002994788523919359, "loss": 0.4116, "step": 40300 }, { "epoch": 53.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002994785906210829, "loss": 0.4126, "step": 40310 }, { "epoch": 53.76, "grad_norm": 0.30859375, "learning_rate": 0.00029947832878461753, "loss": 0.4268, "step": 40320 }, { "epoch": 53.77333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002994780668825399, "loss": 0.4139, "step": 40330 }, { "epoch": 53.78666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029947780491485014, "loss": 0.4146, "step": 40340 }, { "epoch": 53.8, "grad_norm": 0.3515625, "learning_rate": 0.00029947754288154834, "loss": 0.4134, "step": 40350 }, { "epoch": 53.81333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002994772807826346, "loss": 0.3868, "step": 40360 }, { "epoch": 53.82666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029947701861810904, "loss": 0.3977, "step": 40370 }, { "epoch": 53.84, "grad_norm": 0.376953125, "learning_rate": 0.0002994767563879718, "loss": 0.4091, "step": 40380 }, { "epoch": 53.85333333333333, "grad_norm": 0.31640625, "learning_rate": 0.000299476494092223, "loss": 0.4044, "step": 40390 }, { "epoch": 53.86666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002994762317308627, "loss": 0.4075, "step": 40400 }, { "epoch": 53.88, "grad_norm": 0.296875, "learning_rate": 0.0002994759693038911, "loss": 0.3867, "step": 40410 }, { "epoch": 53.89333333333333, "grad_norm": 0.291015625, "learning_rate": 0.00029947570681130827, "loss": 0.399, "step": 40420 }, { "epoch": 53.906666666666666, "grad_norm": 0.31640625, "learning_rate": 0.0002994754442531143, "loss": 0.4072, "step": 40430 }, { "epoch": 53.92, "grad_norm": 0.337890625, "learning_rate": 0.0002994751816293093, "loss": 0.4094, "step": 40440 }, { "epoch": 53.93333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002994749189398935, "loss": 0.4, "step": 40450 }, { "epoch": 53.946666666666665, "grad_norm": 0.310546875, "learning_rate": 0.00029947465618486685, "loss": 0.4023, "step": 40460 }, { "epoch": 53.96, "grad_norm": 0.29296875, "learning_rate": 0.0002994743933642296, "loss": 0.4001, "step": 40470 }, { "epoch": 53.973333333333336, "grad_norm": 0.3828125, "learning_rate": 0.0002994741304779818, "loss": 0.4259, "step": 40480 }, { "epoch": 53.986666666666665, "grad_norm": 0.3046875, "learning_rate": 0.00029947386752612355, "loss": 0.401, "step": 40490 }, { "epoch": 54.0, "grad_norm": 0.31640625, "learning_rate": 0.000299473604508655, "loss": 0.3942, "step": 40500 }, { "epoch": 54.0, "eval_loss": 0.4341832399368286, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7299, "eval_samples_per_second": 1.644, "eval_steps_per_second": 0.103, "step": 40500 }, { "epoch": 54.013333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029947334142557626, "loss": 0.4142, "step": 40510 }, { "epoch": 54.026666666666664, "grad_norm": 0.306640625, "learning_rate": 0.0002994730782768875, "loss": 0.4248, "step": 40520 }, { "epoch": 54.04, "grad_norm": 0.31640625, "learning_rate": 0.0002994728150625887, "loss": 0.4369, "step": 40530 }, { "epoch": 54.053333333333335, "grad_norm": 0.30078125, "learning_rate": 0.00029947255178268005, "loss": 0.4232, "step": 40540 }, { "epoch": 54.06666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029947228843716175, "loss": 0.4105, "step": 40550 }, { "epoch": 54.08, "grad_norm": 0.34765625, "learning_rate": 0.00029947202502603377, "loss": 0.4156, "step": 40560 }, { "epoch": 54.093333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002994717615492963, "loss": 0.4157, "step": 40570 }, { "epoch": 54.10666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002994714980069495, "loss": 0.4027, "step": 40580 }, { "epoch": 54.12, "grad_norm": 0.3359375, "learning_rate": 0.0002994712343989933, "loss": 0.4087, "step": 40590 }, { "epoch": 54.13333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002994709707254281, "loss": 0.3999, "step": 40600 }, { "epoch": 54.14666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029947070698625375, "loss": 0.4187, "step": 40610 }, { "epoch": 54.16, "grad_norm": 0.271484375, "learning_rate": 0.0002994704431814705, "loss": 0.4113, "step": 40620 }, { "epoch": 54.17333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002994701793110785, "loss": 0.4066, "step": 40630 }, { "epoch": 54.18666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002994699153750778, "loss": 0.4055, "step": 40640 }, { "epoch": 54.2, "grad_norm": 0.353515625, "learning_rate": 0.00029946965137346847, "loss": 0.3988, "step": 40650 }, { "epoch": 54.21333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002994693873062507, "loss": 0.399, "step": 40660 }, { "epoch": 54.22666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002994691231734246, "loss": 0.4118, "step": 40670 }, { "epoch": 54.24, "grad_norm": 0.37109375, "learning_rate": 0.0002994688589749903, "loss": 0.3953, "step": 40680 }, { "epoch": 54.25333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002994685947109479, "loss": 0.3988, "step": 40690 }, { "epoch": 54.266666666666666, "grad_norm": 0.33203125, "learning_rate": 0.00029946833038129746, "loss": 0.4003, "step": 40700 }, { "epoch": 54.28, "grad_norm": 0.322265625, "learning_rate": 0.00029946806598603917, "loss": 0.4312, "step": 40710 }, { "epoch": 54.29333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002994678015251731, "loss": 0.3865, "step": 40720 }, { "epoch": 54.306666666666665, "grad_norm": 0.302734375, "learning_rate": 0.0002994675369986994, "loss": 0.4095, "step": 40730 }, { "epoch": 54.32, "grad_norm": 0.3125, "learning_rate": 0.0002994672724066182, "loss": 0.4099, "step": 40740 }, { "epoch": 54.333333333333336, "grad_norm": 0.333984375, "learning_rate": 0.0002994670077489295, "loss": 0.4164, "step": 40750 }, { "epoch": 54.346666666666664, "grad_norm": 0.333984375, "learning_rate": 0.0002994667430256336, "loss": 0.4063, "step": 40760 }, { "epoch": 54.36, "grad_norm": 0.373046875, "learning_rate": 0.00029946647823673046, "loss": 0.4068, "step": 40770 }, { "epoch": 54.373333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002994662133822203, "loss": 0.4071, "step": 40780 }, { "epoch": 54.38666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029946594846210313, "loss": 0.4007, "step": 40790 }, { "epoch": 54.4, "grad_norm": 0.314453125, "learning_rate": 0.0002994656834763792, "loss": 0.4074, "step": 40800 }, { "epoch": 54.413333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029946541842504847, "loss": 0.4111, "step": 40810 }, { "epoch": 54.42666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002994651533081112, "loss": 0.4134, "step": 40820 }, { "epoch": 54.44, "grad_norm": 0.3203125, "learning_rate": 0.00029946488812556744, "loss": 0.4233, "step": 40830 }, { "epoch": 54.45333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002994646228774173, "loss": 0.414, "step": 40840 }, { "epoch": 54.46666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002994643575636609, "loss": 0.4227, "step": 40850 }, { "epoch": 54.48, "grad_norm": 0.326171875, "learning_rate": 0.0002994640921842984, "loss": 0.4031, "step": 40860 }, { "epoch": 54.49333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029946382673932986, "loss": 0.4156, "step": 40870 }, { "epoch": 54.50666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002994635612287554, "loss": 0.4121, "step": 40880 }, { "epoch": 54.52, "grad_norm": 0.291015625, "learning_rate": 0.00029946329565257515, "loss": 0.4035, "step": 40890 }, { "epoch": 54.53333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002994630300107893, "loss": 0.4059, "step": 40900 }, { "epoch": 54.54666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002994627643033979, "loss": 0.4071, "step": 40910 }, { "epoch": 54.56, "grad_norm": 0.337890625, "learning_rate": 0.00029946249853040095, "loss": 0.4015, "step": 40920 }, { "epoch": 54.57333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002994622326917988, "loss": 0.406, "step": 40930 }, { "epoch": 54.586666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002994619667875914, "loss": 0.3942, "step": 40940 }, { "epoch": 54.6, "grad_norm": 0.3125, "learning_rate": 0.0002994617008177789, "loss": 0.396, "step": 40950 }, { "epoch": 54.61333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0002994614347823615, "loss": 0.3849, "step": 40960 }, { "epoch": 54.626666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002994611686813392, "loss": 0.3904, "step": 40970 }, { "epoch": 54.64, "grad_norm": 0.31640625, "learning_rate": 0.00029946090251471214, "loss": 0.4039, "step": 40980 }, { "epoch": 54.653333333333336, "grad_norm": 0.326171875, "learning_rate": 0.0002994606362824805, "loss": 0.4135, "step": 40990 }, { "epoch": 54.666666666666664, "grad_norm": 0.326171875, "learning_rate": 0.00029946036998464436, "loss": 0.3997, "step": 41000 }, { "epoch": 54.68, "grad_norm": 0.3203125, "learning_rate": 0.00029946010362120383, "loss": 0.3922, "step": 41010 }, { "epoch": 54.693333333333335, "grad_norm": 0.32421875, "learning_rate": 0.00029945983719215904, "loss": 0.4015, "step": 41020 }, { "epoch": 54.70666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029945957069751005, "loss": 0.3951, "step": 41030 }, { "epoch": 54.72, "grad_norm": 0.322265625, "learning_rate": 0.00029945930413725707, "loss": 0.419, "step": 41040 }, { "epoch": 54.733333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002994590375114002, "loss": 0.4109, "step": 41050 }, { "epoch": 54.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002994587708199395, "loss": 0.413, "step": 41060 }, { "epoch": 54.76, "grad_norm": 0.421875, "learning_rate": 0.0002994585040628751, "loss": 0.4254, "step": 41070 }, { "epoch": 54.77333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029945823724020714, "loss": 0.4144, "step": 41080 }, { "epoch": 54.78666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029945797035193584, "loss": 0.4137, "step": 41090 }, { "epoch": 54.8, "grad_norm": 0.333984375, "learning_rate": 0.0002994577033980611, "loss": 0.4132, "step": 41100 }, { "epoch": 54.81333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029945743637858316, "loss": 0.3855, "step": 41110 }, { "epoch": 54.82666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002994571692935021, "loss": 0.3971, "step": 41120 }, { "epoch": 54.84, "grad_norm": 0.384765625, "learning_rate": 0.0002994569021428181, "loss": 0.4088, "step": 41130 }, { "epoch": 54.85333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029945663492653125, "loss": 0.4039, "step": 41140 }, { "epoch": 54.86666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029945636764464165, "loss": 0.4078, "step": 41150 }, { "epoch": 54.88, "grad_norm": 0.326171875, "learning_rate": 0.0002994561002971494, "loss": 0.3862, "step": 41160 }, { "epoch": 54.89333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029945583288405465, "loss": 0.3983, "step": 41170 }, { "epoch": 54.906666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029945556540535753, "loss": 0.4066, "step": 41180 }, { "epoch": 54.92, "grad_norm": 0.3203125, "learning_rate": 0.0002994552978610581, "loss": 0.4084, "step": 41190 }, { "epoch": 54.93333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029945503025115657, "loss": 0.4012, "step": 41200 }, { "epoch": 54.946666666666665, "grad_norm": 0.326171875, "learning_rate": 0.00029945476257565296, "loss": 0.4029, "step": 41210 }, { "epoch": 54.96, "grad_norm": 0.31640625, "learning_rate": 0.0002994544948345474, "loss": 0.4008, "step": 41220 }, { "epoch": 54.973333333333336, "grad_norm": 0.376953125, "learning_rate": 0.00029945422702784005, "loss": 0.426, "step": 41230 }, { "epoch": 54.986666666666665, "grad_norm": 0.322265625, "learning_rate": 0.0002994539591555311, "loss": 0.4019, "step": 41240 }, { "epoch": 55.0, "grad_norm": 0.31640625, "learning_rate": 0.00029945369121762045, "loss": 0.3944, "step": 41250 }, { "epoch": 55.0, "eval_loss": 0.43345198035240173, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9771, "eval_samples_per_second": 1.604, "eval_steps_per_second": 0.1, "step": 41250 }, { "epoch": 55.013333333333335, "grad_norm": 0.3515625, "learning_rate": 0.00029945342321410843, "loss": 0.4139, "step": 41260 }, { "epoch": 55.026666666666664, "grad_norm": 0.326171875, "learning_rate": 0.00029945315514499503, "loss": 0.4246, "step": 41270 }, { "epoch": 55.04, "grad_norm": 0.345703125, "learning_rate": 0.00029945288701028046, "loss": 0.4368, "step": 41280 }, { "epoch": 55.053333333333335, "grad_norm": 0.375, "learning_rate": 0.00029945261880996477, "loss": 0.4229, "step": 41290 }, { "epoch": 55.06666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002994523505440481, "loss": 0.4109, "step": 41300 }, { "epoch": 55.08, "grad_norm": 0.392578125, "learning_rate": 0.0002994520822125306, "loss": 0.4141, "step": 41310 }, { "epoch": 55.093333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029945181381541225, "loss": 0.4143, "step": 41320 }, { "epoch": 55.10666666666667, "grad_norm": 0.302734375, "learning_rate": 0.00029945154535269335, "loss": 0.4025, "step": 41330 }, { "epoch": 55.12, "grad_norm": 0.353515625, "learning_rate": 0.0002994512768243739, "loss": 0.4079, "step": 41340 }, { "epoch": 55.13333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002994510082304541, "loss": 0.4004, "step": 41350 }, { "epoch": 55.14666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029945073957093405, "loss": 0.4182, "step": 41360 }, { "epoch": 55.16, "grad_norm": 0.287109375, "learning_rate": 0.00029945047084581377, "loss": 0.4116, "step": 41370 }, { "epoch": 55.17333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002994502020550935, "loss": 0.406, "step": 41380 }, { "epoch": 55.18666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002994499331987733, "loss": 0.4056, "step": 41390 }, { "epoch": 55.2, "grad_norm": 0.345703125, "learning_rate": 0.0002994496642768533, "loss": 0.3982, "step": 41400 }, { "epoch": 55.21333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002994493952893336, "loss": 0.3983, "step": 41410 }, { "epoch": 55.22666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002994491262362144, "loss": 0.4106, "step": 41420 }, { "epoch": 55.24, "grad_norm": 0.341796875, "learning_rate": 0.00029944885711749564, "loss": 0.3948, "step": 41430 }, { "epoch": 55.25333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029944858793317763, "loss": 0.3992, "step": 41440 }, { "epoch": 55.266666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029944831868326035, "loss": 0.4012, "step": 41450 }, { "epoch": 55.28, "grad_norm": 0.337890625, "learning_rate": 0.00029944804936774406, "loss": 0.4307, "step": 41460 }, { "epoch": 55.29333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002994477799866287, "loss": 0.3865, "step": 41470 }, { "epoch": 55.306666666666665, "grad_norm": 0.306640625, "learning_rate": 0.00029944751053991454, "loss": 0.4094, "step": 41480 }, { "epoch": 55.32, "grad_norm": 0.263671875, "learning_rate": 0.0002994472410276016, "loss": 0.4101, "step": 41490 }, { "epoch": 55.333333333333336, "grad_norm": 0.326171875, "learning_rate": 0.0002994469714496901, "loss": 0.4157, "step": 41500 }, { "epoch": 55.346666666666664, "grad_norm": 0.357421875, "learning_rate": 0.0002994467018061801, "loss": 0.4056, "step": 41510 }, { "epoch": 55.36, "grad_norm": 0.365234375, "learning_rate": 0.00029944643209707164, "loss": 0.4067, "step": 41520 }, { "epoch": 55.373333333333335, "grad_norm": 0.275390625, "learning_rate": 0.000299446162322365, "loss": 0.4061, "step": 41530 }, { "epoch": 55.38666666666666, "grad_norm": 0.48828125, "learning_rate": 0.00029944589248206017, "loss": 0.3995, "step": 41540 }, { "epoch": 55.4, "grad_norm": 0.3125, "learning_rate": 0.0002994456225761573, "loss": 0.4076, "step": 41550 }, { "epoch": 55.413333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029944535260465654, "loss": 0.411, "step": 41560 }, { "epoch": 55.42666666666667, "grad_norm": 0.357421875, "learning_rate": 0.000299445082567558, "loss": 0.4124, "step": 41570 }, { "epoch": 55.44, "grad_norm": 0.322265625, "learning_rate": 0.0002994448124648617, "loss": 0.4235, "step": 41580 }, { "epoch": 55.45333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029944454229656795, "loss": 0.4128, "step": 41590 }, { "epoch": 55.46666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002994442720626767, "loss": 0.422, "step": 41600 }, { "epoch": 55.48, "grad_norm": 0.376953125, "learning_rate": 0.0002994440017631882, "loss": 0.4032, "step": 41610 }, { "epoch": 55.49333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002994437313981025, "loss": 0.415, "step": 41620 }, { "epoch": 55.50666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002994434609674196, "loss": 0.4129, "step": 41630 }, { "epoch": 55.52, "grad_norm": 0.298828125, "learning_rate": 0.0002994431904711398, "loss": 0.4032, "step": 41640 }, { "epoch": 55.53333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002994429199092632, "loss": 0.4061, "step": 41650 }, { "epoch": 55.54666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029944264928178987, "loss": 0.4086, "step": 41660 }, { "epoch": 55.56, "grad_norm": 0.2890625, "learning_rate": 0.0002994423785887199, "loss": 0.4016, "step": 41670 }, { "epoch": 55.57333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029944210783005345, "loss": 0.4056, "step": 41680 }, { "epoch": 55.586666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0002994418370057907, "loss": 0.3936, "step": 41690 }, { "epoch": 55.6, "grad_norm": 0.298828125, "learning_rate": 0.00029944156611593165, "loss": 0.3959, "step": 41700 }, { "epoch": 55.61333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002994412951604764, "loss": 0.3852, "step": 41710 }, { "epoch": 55.626666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0002994410241394252, "loss": 0.3894, "step": 41720 }, { "epoch": 55.64, "grad_norm": 0.3046875, "learning_rate": 0.00029944075305277817, "loss": 0.403, "step": 41730 }, { "epoch": 55.653333333333336, "grad_norm": 0.33203125, "learning_rate": 0.0002994404819005353, "loss": 0.4139, "step": 41740 }, { "epoch": 55.666666666666664, "grad_norm": 0.36328125, "learning_rate": 0.0002994402106826968, "loss": 0.3995, "step": 41750 }, { "epoch": 55.68, "grad_norm": 0.392578125, "learning_rate": 0.00029943993939926273, "loss": 0.3923, "step": 41760 }, { "epoch": 55.693333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0002994396680502333, "loss": 0.4005, "step": 41770 }, { "epoch": 55.70666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002994393966356085, "loss": 0.395, "step": 41780 }, { "epoch": 55.72, "grad_norm": 0.35546875, "learning_rate": 0.0002994391251553886, "loss": 0.4167, "step": 41790 }, { "epoch": 55.733333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029943885360957356, "loss": 0.411, "step": 41800 }, { "epoch": 55.74666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029943858199816365, "loss": 0.4128, "step": 41810 }, { "epoch": 55.76, "grad_norm": 0.333984375, "learning_rate": 0.0002994383103211589, "loss": 0.4254, "step": 41820 }, { "epoch": 55.77333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002994380385785594, "loss": 0.4141, "step": 41830 }, { "epoch": 55.78666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002994377667703654, "loss": 0.4128, "step": 41840 }, { "epoch": 55.8, "grad_norm": 0.33203125, "learning_rate": 0.00029943749489657695, "loss": 0.4121, "step": 41850 }, { "epoch": 55.81333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029943722295719405, "loss": 0.3851, "step": 41860 }, { "epoch": 55.82666666666667, "grad_norm": 0.30078125, "learning_rate": 0.000299436950952217, "loss": 0.3968, "step": 41870 }, { "epoch": 55.84, "grad_norm": 0.318359375, "learning_rate": 0.0002994366788816458, "loss": 0.4081, "step": 41880 }, { "epoch": 55.85333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002994364067454807, "loss": 0.4039, "step": 41890 }, { "epoch": 55.86666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002994361345437217, "loss": 0.4072, "step": 41900 }, { "epoch": 55.88, "grad_norm": 0.30078125, "learning_rate": 0.00029943586227636893, "loss": 0.3861, "step": 41910 }, { "epoch": 55.89333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029943558994342253, "loss": 0.3985, "step": 41920 }, { "epoch": 55.906666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029943531754488266, "loss": 0.4075, "step": 41930 }, { "epoch": 55.92, "grad_norm": 0.33203125, "learning_rate": 0.0002994350450807493, "loss": 0.4084, "step": 41940 }, { "epoch": 55.93333333333333, "grad_norm": 0.28125, "learning_rate": 0.00029943477255102284, "loss": 0.4019, "step": 41950 }, { "epoch": 55.946666666666665, "grad_norm": 0.3203125, "learning_rate": 0.0002994344999557031, "loss": 0.4025, "step": 41960 }, { "epoch": 55.96, "grad_norm": 0.29296875, "learning_rate": 0.00029943422729479036, "loss": 0.3986, "step": 41970 }, { "epoch": 55.973333333333336, "grad_norm": 0.333984375, "learning_rate": 0.00029943395456828476, "loss": 0.4257, "step": 41980 }, { "epoch": 55.986666666666665, "grad_norm": 0.333984375, "learning_rate": 0.00029943368177618633, "loss": 0.4007, "step": 41990 }, { "epoch": 56.0, "grad_norm": 0.298828125, "learning_rate": 0.00029943340891849525, "loss": 0.395, "step": 42000 }, { "epoch": 56.0, "eval_loss": 0.43282973766326904, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.4527, "eval_samples_per_second": 1.693, "eval_steps_per_second": 0.106, "step": 42000 }, { "epoch": 56.013333333333335, "grad_norm": 0.37890625, "learning_rate": 0.0002994331359952116, "loss": 0.4131, "step": 42010 }, { "epoch": 56.026666666666664, "grad_norm": 0.349609375, "learning_rate": 0.00029943286300633553, "loss": 0.4243, "step": 42020 }, { "epoch": 56.04, "grad_norm": 0.345703125, "learning_rate": 0.0002994325899518671, "loss": 0.4355, "step": 42030 }, { "epoch": 56.053333333333335, "grad_norm": 0.31640625, "learning_rate": 0.0002994323168318066, "loss": 0.4227, "step": 42040 }, { "epoch": 56.06666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029943204364615394, "loss": 0.4104, "step": 42050 }, { "epoch": 56.08, "grad_norm": 0.359375, "learning_rate": 0.0002994317703949094, "loss": 0.4144, "step": 42060 }, { "epoch": 56.093333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029943149707807294, "loss": 0.4148, "step": 42070 }, { "epoch": 56.10666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002994312236956448, "loss": 0.4014, "step": 42080 }, { "epoch": 56.12, "grad_norm": 0.33984375, "learning_rate": 0.0002994309502476251, "loss": 0.4081, "step": 42090 }, { "epoch": 56.13333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029943067673401393, "loss": 0.3993, "step": 42100 }, { "epoch": 56.14666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029943040315481134, "loss": 0.418, "step": 42110 }, { "epoch": 56.16, "grad_norm": 0.29296875, "learning_rate": 0.0002994301295100176, "loss": 0.4114, "step": 42120 }, { "epoch": 56.17333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029942985579963275, "loss": 0.4053, "step": 42130 }, { "epoch": 56.18666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002994295820236569, "loss": 0.4053, "step": 42140 }, { "epoch": 56.2, "grad_norm": 0.333984375, "learning_rate": 0.0002994293081820901, "loss": 0.3975, "step": 42150 }, { "epoch": 56.21333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029942903427493265, "loss": 0.3983, "step": 42160 }, { "epoch": 56.22666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029942876030218457, "loss": 0.4115, "step": 42170 }, { "epoch": 56.24, "grad_norm": 0.3515625, "learning_rate": 0.00029942848626384594, "loss": 0.3958, "step": 42180 }, { "epoch": 56.25333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029942821215991693, "loss": 0.3985, "step": 42190 }, { "epoch": 56.266666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029942793799039765, "loss": 0.3996, "step": 42200 }, { "epoch": 56.28, "grad_norm": 0.326171875, "learning_rate": 0.0002994276637552882, "loss": 0.4301, "step": 42210 }, { "epoch": 56.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029942738945458875, "loss": 0.3861, "step": 42220 }, { "epoch": 56.306666666666665, "grad_norm": 0.31640625, "learning_rate": 0.0002994271150882994, "loss": 0.4089, "step": 42230 }, { "epoch": 56.32, "grad_norm": 0.3046875, "learning_rate": 0.0002994268406564203, "loss": 0.4102, "step": 42240 }, { "epoch": 56.333333333333336, "grad_norm": 0.3359375, "learning_rate": 0.00029942656615895147, "loss": 0.4161, "step": 42250 }, { "epoch": 56.346666666666664, "grad_norm": 0.38671875, "learning_rate": 0.0002994262915958931, "loss": 0.406, "step": 42260 }, { "epoch": 56.36, "grad_norm": 0.369140625, "learning_rate": 0.0002994260169672453, "loss": 0.4059, "step": 42270 }, { "epoch": 56.373333333333335, "grad_norm": 0.3046875, "learning_rate": 0.0002994257422730082, "loss": 0.4061, "step": 42280 }, { "epoch": 56.38666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029942546751318195, "loss": 0.3994, "step": 42290 }, { "epoch": 56.4, "grad_norm": 0.345703125, "learning_rate": 0.0002994251926877666, "loss": 0.4062, "step": 42300 }, { "epoch": 56.413333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002994249177967623, "loss": 0.4108, "step": 42310 }, { "epoch": 56.42666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029942464284016924, "loss": 0.4123, "step": 42320 }, { "epoch": 56.44, "grad_norm": 0.337890625, "learning_rate": 0.00029942436781798745, "loss": 0.4228, "step": 42330 }, { "epoch": 56.45333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029942409273021707, "loss": 0.413, "step": 42340 }, { "epoch": 56.46666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002994238175768582, "loss": 0.4214, "step": 42350 }, { "epoch": 56.48, "grad_norm": 0.3046875, "learning_rate": 0.000299423542357911, "loss": 0.403, "step": 42360 }, { "epoch": 56.49333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002994232670733756, "loss": 0.4149, "step": 42370 }, { "epoch": 56.50666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029942299172325217, "loss": 0.4114, "step": 42380 }, { "epoch": 56.52, "grad_norm": 0.27734375, "learning_rate": 0.00029942271630754066, "loss": 0.402, "step": 42390 }, { "epoch": 56.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002994224408262414, "loss": 0.4054, "step": 42400 }, { "epoch": 56.54666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002994221652793543, "loss": 0.4079, "step": 42410 }, { "epoch": 56.56, "grad_norm": 0.318359375, "learning_rate": 0.00029942188966687963, "loss": 0.4013, "step": 42420 }, { "epoch": 56.57333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029942161398881744, "loss": 0.4051, "step": 42430 }, { "epoch": 56.586666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002994213382451679, "loss": 0.3937, "step": 42440 }, { "epoch": 56.6, "grad_norm": 0.322265625, "learning_rate": 0.0002994210624359311, "loss": 0.3961, "step": 42450 }, { "epoch": 56.61333333333333, "grad_norm": 0.28125, "learning_rate": 0.0002994207865611072, "loss": 0.3839, "step": 42460 }, { "epoch": 56.626666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0002994205106206963, "loss": 0.389, "step": 42470 }, { "epoch": 56.64, "grad_norm": 0.33984375, "learning_rate": 0.00029942023461469844, "loss": 0.4038, "step": 42480 }, { "epoch": 56.653333333333336, "grad_norm": 0.396484375, "learning_rate": 0.00029941995854311385, "loss": 0.4133, "step": 42490 }, { "epoch": 56.666666666666664, "grad_norm": 0.33203125, "learning_rate": 0.00029941968240594267, "loss": 0.3988, "step": 42500 }, { "epoch": 56.68, "grad_norm": 0.32421875, "learning_rate": 0.0002994194062031849, "loss": 0.3913, "step": 42510 }, { "epoch": 56.693333333333335, "grad_norm": 0.3125, "learning_rate": 0.0002994191299348407, "loss": 0.4014, "step": 42520 }, { "epoch": 56.70666666666666, "grad_norm": 0.32421875, "learning_rate": 0.0002994188536009103, "loss": 0.3946, "step": 42530 }, { "epoch": 56.72, "grad_norm": 0.337890625, "learning_rate": 0.0002994185772013937, "loss": 0.4174, "step": 42540 }, { "epoch": 56.733333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029941830073629104, "loss": 0.4102, "step": 42550 }, { "epoch": 56.74666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002994180242056025, "loss": 0.4127, "step": 42560 }, { "epoch": 56.76, "grad_norm": 0.396484375, "learning_rate": 0.0002994177476093282, "loss": 0.4247, "step": 42570 }, { "epoch": 56.77333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029941747094746815, "loss": 0.4137, "step": 42580 }, { "epoch": 56.78666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029941719422002256, "loss": 0.4136, "step": 42590 }, { "epoch": 56.8, "grad_norm": 0.341796875, "learning_rate": 0.0002994169174269916, "loss": 0.4119, "step": 42600 }, { "epoch": 56.81333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029941664056837525, "loss": 0.3857, "step": 42610 }, { "epoch": 56.82666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029941636364417374, "loss": 0.3961, "step": 42620 }, { "epoch": 56.84, "grad_norm": 0.35546875, "learning_rate": 0.00029941608665438716, "loss": 0.4081, "step": 42630 }, { "epoch": 56.85333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029941580959901563, "loss": 0.4033, "step": 42640 }, { "epoch": 56.86666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002994155324780593, "loss": 0.4078, "step": 42650 }, { "epoch": 56.88, "grad_norm": 0.302734375, "learning_rate": 0.0002994152552915182, "loss": 0.3884, "step": 42660 }, { "epoch": 56.89333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002994149780393926, "loss": 0.3977, "step": 42670 }, { "epoch": 56.906666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002994147007216825, "loss": 0.4059, "step": 42680 }, { "epoch": 56.92, "grad_norm": 0.326171875, "learning_rate": 0.00029941442333838807, "loss": 0.4078, "step": 42690 }, { "epoch": 56.93333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0002994141458895095, "loss": 0.4014, "step": 42700 }, { "epoch": 56.946666666666665, "grad_norm": 0.345703125, "learning_rate": 0.00029941386837504673, "loss": 0.402, "step": 42710 }, { "epoch": 56.96, "grad_norm": 0.306640625, "learning_rate": 0.000299413590795, "loss": 0.3996, "step": 42720 }, { "epoch": 56.973333333333336, "grad_norm": 0.3671875, "learning_rate": 0.00029941331314936945, "loss": 0.425, "step": 42730 }, { "epoch": 56.986666666666665, "grad_norm": 0.376953125, "learning_rate": 0.0002994130354381552, "loss": 0.4001, "step": 42740 }, { "epoch": 57.0, "grad_norm": 0.3125, "learning_rate": 0.0002994127576613573, "loss": 0.3925, "step": 42750 }, { "epoch": 57.0, "eval_loss": 0.43237635493278503, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5084, "eval_samples_per_second": 1.683, "eval_steps_per_second": 0.105, "step": 42750 }, { "epoch": 57.013333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029941247981897593, "loss": 0.412, "step": 42760 }, { "epoch": 57.026666666666664, "grad_norm": 0.35546875, "learning_rate": 0.00029941220191101117, "loss": 0.4245, "step": 42770 }, { "epoch": 57.04, "grad_norm": 0.357421875, "learning_rate": 0.0002994119239374632, "loss": 0.4353, "step": 42780 }, { "epoch": 57.053333333333335, "grad_norm": 0.408203125, "learning_rate": 0.00029941164589833213, "loss": 0.4222, "step": 42790 }, { "epoch": 57.06666666666667, "grad_norm": 0.37890625, "learning_rate": 0.000299411367793618, "loss": 0.4095, "step": 42800 }, { "epoch": 57.08, "grad_norm": 0.361328125, "learning_rate": 0.00029941108962332105, "loss": 0.4125, "step": 42810 }, { "epoch": 57.093333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029941081138744135, "loss": 0.414, "step": 42820 }, { "epoch": 57.10666666666667, "grad_norm": 0.3203125, "learning_rate": 0.000299410533085979, "loss": 0.4023, "step": 42830 }, { "epoch": 57.12, "grad_norm": 0.390625, "learning_rate": 0.0002994102547189341, "loss": 0.4079, "step": 42840 }, { "epoch": 57.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002994099762863069, "loss": 0.3997, "step": 42850 }, { "epoch": 57.14666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002994096977880974, "loss": 0.4174, "step": 42860 }, { "epoch": 57.16, "grad_norm": 0.3125, "learning_rate": 0.00029940941922430576, "loss": 0.4105, "step": 42870 }, { "epoch": 57.17333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029940914059493206, "loss": 0.4044, "step": 42880 }, { "epoch": 57.18666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002994088618999765, "loss": 0.4047, "step": 42890 }, { "epoch": 57.2, "grad_norm": 0.3125, "learning_rate": 0.00029940858313943917, "loss": 0.3975, "step": 42900 }, { "epoch": 57.21333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002994083043133202, "loss": 0.3982, "step": 42910 }, { "epoch": 57.22666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029940802542161965, "loss": 0.4105, "step": 42920 }, { "epoch": 57.24, "grad_norm": 0.3359375, "learning_rate": 0.00029940774646433773, "loss": 0.3952, "step": 42930 }, { "epoch": 57.25333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029940746744147454, "loss": 0.3974, "step": 42940 }, { "epoch": 57.266666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029940718835303013, "loss": 0.3992, "step": 42950 }, { "epoch": 57.28, "grad_norm": 0.314453125, "learning_rate": 0.0002994069091990047, "loss": 0.4295, "step": 42960 }, { "epoch": 57.29333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002994066299793984, "loss": 0.3856, "step": 42970 }, { "epoch": 57.306666666666665, "grad_norm": 0.296875, "learning_rate": 0.0002994063506942113, "loss": 0.4081, "step": 42980 }, { "epoch": 57.32, "grad_norm": 0.3046875, "learning_rate": 0.0002994060713434435, "loss": 0.4103, "step": 42990 }, { "epoch": 57.333333333333336, "grad_norm": 0.3203125, "learning_rate": 0.0002994057919270951, "loss": 0.4149, "step": 43000 }, { "epoch": 57.346666666666664, "grad_norm": 0.384765625, "learning_rate": 0.00029940551244516636, "loss": 0.4056, "step": 43010 }, { "epoch": 57.36, "grad_norm": 0.369140625, "learning_rate": 0.0002994052328976573, "loss": 0.4061, "step": 43020 }, { "epoch": 57.373333333333335, "grad_norm": 0.29296875, "learning_rate": 0.000299404953284568, "loss": 0.4061, "step": 43030 }, { "epoch": 57.38666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029940467360589873, "loss": 0.3993, "step": 43040 }, { "epoch": 57.4, "grad_norm": 0.30078125, "learning_rate": 0.0002994043938616495, "loss": 0.4062, "step": 43050 }, { "epoch": 57.413333333333334, "grad_norm": 0.2890625, "learning_rate": 0.00029940411405182036, "loss": 0.4112, "step": 43060 }, { "epoch": 57.42666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029940383417641165, "loss": 0.4121, "step": 43070 }, { "epoch": 57.44, "grad_norm": 0.3046875, "learning_rate": 0.0002994035542354233, "loss": 0.4229, "step": 43080 }, { "epoch": 57.45333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029940327422885556, "loss": 0.4122, "step": 43090 }, { "epoch": 57.46666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029940299415670844, "loss": 0.422, "step": 43100 }, { "epoch": 57.48, "grad_norm": 0.33984375, "learning_rate": 0.00029940271401898217, "loss": 0.4021, "step": 43110 }, { "epoch": 57.49333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002994024338156768, "loss": 0.4145, "step": 43120 }, { "epoch": 57.50666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029940215354679246, "loss": 0.4113, "step": 43130 }, { "epoch": 57.52, "grad_norm": 0.3125, "learning_rate": 0.00029940187321232935, "loss": 0.4022, "step": 43140 }, { "epoch": 57.53333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029940159281228746, "loss": 0.4059, "step": 43150 }, { "epoch": 57.54666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029940131234666706, "loss": 0.4075, "step": 43160 }, { "epoch": 57.56, "grad_norm": 0.296875, "learning_rate": 0.00029940103181546815, "loss": 0.4015, "step": 43170 }, { "epoch": 57.57333333333333, "grad_norm": 0.375, "learning_rate": 0.0002994007512186909, "loss": 0.405, "step": 43180 }, { "epoch": 57.586666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029940047055633545, "loss": 0.3931, "step": 43190 }, { "epoch": 57.6, "grad_norm": 0.41015625, "learning_rate": 0.0002994001898284019, "loss": 0.3955, "step": 43200 }, { "epoch": 57.61333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002993999090348904, "loss": 0.3848, "step": 43210 }, { "epoch": 57.626666666666665, "grad_norm": 0.291015625, "learning_rate": 0.00029939962817580103, "loss": 0.3887, "step": 43220 }, { "epoch": 57.64, "grad_norm": 0.310546875, "learning_rate": 0.00029939934725113393, "loss": 0.4029, "step": 43230 }, { "epoch": 57.653333333333336, "grad_norm": 0.34375, "learning_rate": 0.0002993990662608893, "loss": 0.4127, "step": 43240 }, { "epoch": 57.666666666666664, "grad_norm": 0.322265625, "learning_rate": 0.0002993987852050671, "loss": 0.3987, "step": 43250 }, { "epoch": 57.68, "grad_norm": 0.3515625, "learning_rate": 0.00029939850408366764, "loss": 0.3919, "step": 43260 }, { "epoch": 57.693333333333335, "grad_norm": 0.32421875, "learning_rate": 0.00029939822289669094, "loss": 0.4002, "step": 43270 }, { "epoch": 57.70666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002993979416441371, "loss": 0.3943, "step": 43280 }, { "epoch": 57.72, "grad_norm": 0.37109375, "learning_rate": 0.0002993976603260063, "loss": 0.4163, "step": 43290 }, { "epoch": 57.733333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029939737894229857, "loss": 0.411, "step": 43300 }, { "epoch": 57.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002993970974930142, "loss": 0.4122, "step": 43310 }, { "epoch": 57.76, "grad_norm": 0.361328125, "learning_rate": 0.0002993968159781532, "loss": 0.4247, "step": 43320 }, { "epoch": 57.77333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002993965343977157, "loss": 0.4138, "step": 43330 }, { "epoch": 57.78666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002993962527517018, "loss": 0.4122, "step": 43340 }, { "epoch": 57.8, "grad_norm": 0.396484375, "learning_rate": 0.00029939597104011175, "loss": 0.411, "step": 43350 }, { "epoch": 57.81333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002993956892629455, "loss": 0.3858, "step": 43360 }, { "epoch": 57.82666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029939540742020325, "loss": 0.396, "step": 43370 }, { "epoch": 57.84, "grad_norm": 0.3515625, "learning_rate": 0.0002993951255118852, "loss": 0.4066, "step": 43380 }, { "epoch": 57.85333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002993948435379914, "loss": 0.4023, "step": 43390 }, { "epoch": 57.86666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002993945614985219, "loss": 0.4064, "step": 43400 }, { "epoch": 57.88, "grad_norm": 0.296875, "learning_rate": 0.00029939427939347697, "loss": 0.3863, "step": 43410 }, { "epoch": 57.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029939399722285666, "loss": 0.3974, "step": 43420 }, { "epoch": 57.906666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0002993937149866611, "loss": 0.4059, "step": 43430 }, { "epoch": 57.92, "grad_norm": 0.337890625, "learning_rate": 0.00029939343268489037, "loss": 0.4076, "step": 43440 }, { "epoch": 57.93333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029939315031754466, "loss": 0.3997, "step": 43450 }, { "epoch": 57.946666666666665, "grad_norm": 0.34375, "learning_rate": 0.00029939286788462413, "loss": 0.4012, "step": 43460 }, { "epoch": 57.96, "grad_norm": 0.318359375, "learning_rate": 0.0002993925853861288, "loss": 0.3993, "step": 43470 }, { "epoch": 57.973333333333336, "grad_norm": 0.40234375, "learning_rate": 0.0002993923028220588, "loss": 0.4246, "step": 43480 }, { "epoch": 57.986666666666665, "grad_norm": 0.376953125, "learning_rate": 0.00029939202019241436, "loss": 0.3998, "step": 43490 }, { "epoch": 58.0, "grad_norm": 0.3515625, "learning_rate": 0.0002993917374971955, "loss": 0.3934, "step": 43500 }, { "epoch": 58.0, "eval_loss": 0.4333595931529999, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8241, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 43500 }, { "epoch": 58.013333333333335, "grad_norm": 0.380859375, "learning_rate": 0.00029939145473640243, "loss": 0.411, "step": 43510 }, { "epoch": 58.026666666666664, "grad_norm": 0.314453125, "learning_rate": 0.0002993911719100352, "loss": 0.4237, "step": 43520 }, { "epoch": 58.04, "grad_norm": 0.328125, "learning_rate": 0.0002993908890180939, "loss": 0.4352, "step": 43530 }, { "epoch": 58.053333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002993906060605788, "loss": 0.4228, "step": 43540 }, { "epoch": 58.06666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029939032303748995, "loss": 0.4095, "step": 43550 }, { "epoch": 58.08, "grad_norm": 0.33984375, "learning_rate": 0.00029939003994882736, "loss": 0.4127, "step": 43560 }, { "epoch": 58.093333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029938975679459135, "loss": 0.4141, "step": 43570 }, { "epoch": 58.10666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002993894735747819, "loss": 0.4027, "step": 43580 }, { "epoch": 58.12, "grad_norm": 0.333984375, "learning_rate": 0.0002993891902893992, "loss": 0.4068, "step": 43590 }, { "epoch": 58.13333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002993889069384434, "loss": 0.3991, "step": 43600 }, { "epoch": 58.14666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029938862352191453, "loss": 0.417, "step": 43610 }, { "epoch": 58.16, "grad_norm": 0.314453125, "learning_rate": 0.0002993883400398128, "loss": 0.4102, "step": 43620 }, { "epoch": 58.17333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029938805649213827, "loss": 0.4048, "step": 43630 }, { "epoch": 58.18666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002993877728788911, "loss": 0.4041, "step": 43640 }, { "epoch": 58.2, "grad_norm": 0.369140625, "learning_rate": 0.0002993874892000715, "loss": 0.3967, "step": 43650 }, { "epoch": 58.21333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002993872054556794, "loss": 0.3984, "step": 43660 }, { "epoch": 58.22666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029938692164571505, "loss": 0.4102, "step": 43670 }, { "epoch": 58.24, "grad_norm": 0.3671875, "learning_rate": 0.00029938663777017864, "loss": 0.3948, "step": 43680 }, { "epoch": 58.25333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002993863538290701, "loss": 0.3982, "step": 43690 }, { "epoch": 58.266666666666666, "grad_norm": 0.328125, "learning_rate": 0.00029938606982238974, "loss": 0.4001, "step": 43700 }, { "epoch": 58.28, "grad_norm": 0.357421875, "learning_rate": 0.0002993857857501376, "loss": 0.43, "step": 43710 }, { "epoch": 58.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029938550161231375, "loss": 0.3855, "step": 43720 }, { "epoch": 58.306666666666665, "grad_norm": 0.3125, "learning_rate": 0.00029938521740891844, "loss": 0.4081, "step": 43730 }, { "epoch": 58.32, "grad_norm": 0.279296875, "learning_rate": 0.00029938493313995173, "loss": 0.4098, "step": 43740 }, { "epoch": 58.333333333333336, "grad_norm": 0.376953125, "learning_rate": 0.0002993846488054137, "loss": 0.4154, "step": 43750 }, { "epoch": 58.346666666666664, "grad_norm": 0.3671875, "learning_rate": 0.0002993843644053046, "loss": 0.4052, "step": 43760 }, { "epoch": 58.36, "grad_norm": 0.400390625, "learning_rate": 0.00029938407993962445, "loss": 0.4054, "step": 43770 }, { "epoch": 58.373333333333335, "grad_norm": 0.28125, "learning_rate": 0.00029938379540837335, "loss": 0.4061, "step": 43780 }, { "epoch": 58.38666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029938351081155155, "loss": 0.3995, "step": 43790 }, { "epoch": 58.4, "grad_norm": 0.3046875, "learning_rate": 0.0002993832261491591, "loss": 0.4057, "step": 43800 }, { "epoch": 58.413333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002993829414211961, "loss": 0.4095, "step": 43810 }, { "epoch": 58.42666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029938265662766267, "loss": 0.4122, "step": 43820 }, { "epoch": 58.44, "grad_norm": 0.3359375, "learning_rate": 0.0002993823717685591, "loss": 0.4226, "step": 43830 }, { "epoch": 58.45333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002993820868438852, "loss": 0.4119, "step": 43840 }, { "epoch": 58.46666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002993818018536414, "loss": 0.4218, "step": 43850 }, { "epoch": 58.48, "grad_norm": 0.369140625, "learning_rate": 0.00029938151679782766, "loss": 0.4026, "step": 43860 }, { "epoch": 58.49333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002993812316764442, "loss": 0.4142, "step": 43870 }, { "epoch": 58.50666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029938094648949103, "loss": 0.4118, "step": 43880 }, { "epoch": 58.52, "grad_norm": 0.361328125, "learning_rate": 0.00029938066123696836, "loss": 0.4024, "step": 43890 }, { "epoch": 58.53333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002993803759188763, "loss": 0.4059, "step": 43900 }, { "epoch": 58.54666666666667, "grad_norm": 0.333984375, "learning_rate": 0.000299380090535215, "loss": 0.4084, "step": 43910 }, { "epoch": 58.56, "grad_norm": 0.279296875, "learning_rate": 0.00029937980508598454, "loss": 0.4006, "step": 43920 }, { "epoch": 58.57333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029937951957118497, "loss": 0.4053, "step": 43930 }, { "epoch": 58.586666666666666, "grad_norm": 0.29296875, "learning_rate": 0.0002993792339908166, "loss": 0.3937, "step": 43940 }, { "epoch": 58.6, "grad_norm": 0.314453125, "learning_rate": 0.00029937894834487945, "loss": 0.3941, "step": 43950 }, { "epoch": 58.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002993786626333736, "loss": 0.3836, "step": 43960 }, { "epoch": 58.626666666666665, "grad_norm": 0.333984375, "learning_rate": 0.0002993783768562993, "loss": 0.3892, "step": 43970 }, { "epoch": 58.64, "grad_norm": 0.341796875, "learning_rate": 0.00029937809101365656, "loss": 0.4024, "step": 43980 }, { "epoch": 58.653333333333336, "grad_norm": 0.328125, "learning_rate": 0.0002993778051054456, "loss": 0.4123, "step": 43990 }, { "epoch": 58.666666666666664, "grad_norm": 0.3203125, "learning_rate": 0.00029937751913166645, "loss": 0.3988, "step": 44000 }, { "epoch": 58.68, "grad_norm": 0.302734375, "learning_rate": 0.00029937723309231935, "loss": 0.3912, "step": 44010 }, { "epoch": 58.693333333333335, "grad_norm": 0.296875, "learning_rate": 0.0002993769469874043, "loss": 0.3995, "step": 44020 }, { "epoch": 58.70666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002993766608169215, "loss": 0.3946, "step": 44030 }, { "epoch": 58.72, "grad_norm": 0.38671875, "learning_rate": 0.00029937637458087106, "loss": 0.4157, "step": 44040 }, { "epoch": 58.733333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029937608827925306, "loss": 0.41, "step": 44050 }, { "epoch": 58.74666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002993758019120678, "loss": 0.412, "step": 44060 }, { "epoch": 58.76, "grad_norm": 0.326171875, "learning_rate": 0.00029937551547931516, "loss": 0.4247, "step": 44070 }, { "epoch": 58.77333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029937522898099535, "loss": 0.412, "step": 44080 }, { "epoch": 58.78666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029937494241710864, "loss": 0.4135, "step": 44090 }, { "epoch": 58.8, "grad_norm": 0.314453125, "learning_rate": 0.00029937465578765496, "loss": 0.4107, "step": 44100 }, { "epoch": 58.81333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002993743690926346, "loss": 0.3845, "step": 44110 }, { "epoch": 58.82666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002993740823320476, "loss": 0.3955, "step": 44120 }, { "epoch": 58.84, "grad_norm": 0.380859375, "learning_rate": 0.00029937379550589404, "loss": 0.4069, "step": 44130 }, { "epoch": 58.85333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002993735086141741, "loss": 0.4028, "step": 44140 }, { "epoch": 58.86666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002993732216568879, "loss": 0.4066, "step": 44150 }, { "epoch": 58.88, "grad_norm": 0.3984375, "learning_rate": 0.0002993729346340356, "loss": 0.3865, "step": 44160 }, { "epoch": 58.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029937264754561723, "loss": 0.3978, "step": 44170 }, { "epoch": 58.906666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029937236039163305, "loss": 0.4046, "step": 44180 }, { "epoch": 58.92, "grad_norm": 0.349609375, "learning_rate": 0.0002993720731720831, "loss": 0.4079, "step": 44190 }, { "epoch": 58.93333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002993717858869675, "loss": 0.3996, "step": 44200 }, { "epoch": 58.946666666666665, "grad_norm": 0.38671875, "learning_rate": 0.00029937149853628646, "loss": 0.4017, "step": 44210 }, { "epoch": 58.96, "grad_norm": 0.328125, "learning_rate": 0.00029937121112004006, "loss": 0.3977, "step": 44220 }, { "epoch": 58.973333333333336, "grad_norm": 0.36328125, "learning_rate": 0.0002993709236382283, "loss": 0.4253, "step": 44230 }, { "epoch": 58.986666666666665, "grad_norm": 0.314453125, "learning_rate": 0.0002993706360908515, "loss": 0.4002, "step": 44240 }, { "epoch": 59.0, "grad_norm": 0.353515625, "learning_rate": 0.0002993703484779097, "loss": 0.3925, "step": 44250 }, { "epoch": 59.0, "eval_loss": 0.43168219923973083, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9145, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.101, "step": 44250 }, { "epoch": 59.013333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029937006079940303, "loss": 0.4114, "step": 44260 }, { "epoch": 59.026666666666664, "grad_norm": 0.345703125, "learning_rate": 0.00029936977305533157, "loss": 0.4225, "step": 44270 }, { "epoch": 59.04, "grad_norm": 0.322265625, "learning_rate": 0.0002993694852456955, "loss": 0.436, "step": 44280 }, { "epoch": 59.053333333333335, "grad_norm": 0.390625, "learning_rate": 0.00029936919737049496, "loss": 0.422, "step": 44290 }, { "epoch": 59.06666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002993689094297301, "loss": 0.4089, "step": 44300 }, { "epoch": 59.08, "grad_norm": 0.369140625, "learning_rate": 0.00029936862142340096, "loss": 0.4127, "step": 44310 }, { "epoch": 59.093333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029936833335150774, "loss": 0.4137, "step": 44320 }, { "epoch": 59.10666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002993680452140505, "loss": 0.4011, "step": 44330 }, { "epoch": 59.12, "grad_norm": 0.38671875, "learning_rate": 0.0002993677570110294, "loss": 0.4068, "step": 44340 }, { "epoch": 59.13333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002993674687424446, "loss": 0.3981, "step": 44350 }, { "epoch": 59.14666666666667, "grad_norm": 0.298828125, "learning_rate": 0.00029936718040829614, "loss": 0.4171, "step": 44360 }, { "epoch": 59.16, "grad_norm": 0.3515625, "learning_rate": 0.00029936689200858426, "loss": 0.4098, "step": 44370 }, { "epoch": 59.17333333333333, "grad_norm": 0.361328125, "learning_rate": 0.000299366603543309, "loss": 0.404, "step": 44380 }, { "epoch": 59.18666666666667, "grad_norm": 0.375, "learning_rate": 0.0002993663150124705, "loss": 0.4043, "step": 44390 }, { "epoch": 59.2, "grad_norm": 0.333984375, "learning_rate": 0.00029936602641606895, "loss": 0.3969, "step": 44400 }, { "epoch": 59.21333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029936573775410434, "loss": 0.3971, "step": 44410 }, { "epoch": 59.22666666666667, "grad_norm": 0.337890625, "learning_rate": 0.000299365449026577, "loss": 0.4097, "step": 44420 }, { "epoch": 59.24, "grad_norm": 0.375, "learning_rate": 0.00029936516023348686, "loss": 0.3952, "step": 44430 }, { "epoch": 59.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029936487137483415, "loss": 0.3978, "step": 44440 }, { "epoch": 59.266666666666666, "grad_norm": 0.322265625, "learning_rate": 0.000299364582450619, "loss": 0.3983, "step": 44450 }, { "epoch": 59.28, "grad_norm": 0.298828125, "learning_rate": 0.00029936429346084144, "loss": 0.4287, "step": 44460 }, { "epoch": 59.29333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002993640044055017, "loss": 0.3855, "step": 44470 }, { "epoch": 59.306666666666665, "grad_norm": 0.31640625, "learning_rate": 0.00029936371528459997, "loss": 0.4077, "step": 44480 }, { "epoch": 59.32, "grad_norm": 0.333984375, "learning_rate": 0.0002993634260981362, "loss": 0.4091, "step": 44490 }, { "epoch": 59.333333333333336, "grad_norm": 0.359375, "learning_rate": 0.0002993631368461106, "loss": 0.4147, "step": 44500 }, { "epoch": 59.346666666666664, "grad_norm": 0.35546875, "learning_rate": 0.0002993628475285233, "loss": 0.4043, "step": 44510 }, { "epoch": 59.36, "grad_norm": 0.4296875, "learning_rate": 0.0002993625581453744, "loss": 0.4073, "step": 44520 }, { "epoch": 59.373333333333335, "grad_norm": 0.302734375, "learning_rate": 0.00029936226869666405, "loss": 0.406, "step": 44530 }, { "epoch": 59.38666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029936197918239245, "loss": 0.3989, "step": 44540 }, { "epoch": 59.4, "grad_norm": 0.34765625, "learning_rate": 0.00029936168960255957, "loss": 0.4052, "step": 44550 }, { "epoch": 59.413333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029936139995716564, "loss": 0.4099, "step": 44560 }, { "epoch": 59.42666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002993611102462108, "loss": 0.4119, "step": 44570 }, { "epoch": 59.44, "grad_norm": 0.3984375, "learning_rate": 0.00029936082046969515, "loss": 0.4223, "step": 44580 }, { "epoch": 59.45333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029936053062761876, "loss": 0.4118, "step": 44590 }, { "epoch": 59.46666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029936024071998185, "loss": 0.4206, "step": 44600 }, { "epoch": 59.48, "grad_norm": 0.35546875, "learning_rate": 0.0002993599507467845, "loss": 0.4021, "step": 44610 }, { "epoch": 59.49333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002993596607080269, "loss": 0.4131, "step": 44620 }, { "epoch": 59.50666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029935937060370904, "loss": 0.4117, "step": 44630 }, { "epoch": 59.52, "grad_norm": 0.3125, "learning_rate": 0.0002993590804338311, "loss": 0.4016, "step": 44640 }, { "epoch": 59.53333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002993587901983934, "loss": 0.4048, "step": 44650 }, { "epoch": 59.54666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002993584998973957, "loss": 0.4065, "step": 44660 }, { "epoch": 59.56, "grad_norm": 0.32421875, "learning_rate": 0.00029935820953083843, "loss": 0.4005, "step": 44670 }, { "epoch": 59.57333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029935791909872165, "loss": 0.4039, "step": 44680 }, { "epoch": 59.586666666666666, "grad_norm": 0.322265625, "learning_rate": 0.00029935762860104544, "loss": 0.3931, "step": 44690 }, { "epoch": 59.6, "grad_norm": 0.322265625, "learning_rate": 0.0002993573380378099, "loss": 0.3948, "step": 44700 }, { "epoch": 59.61333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002993570474090153, "loss": 0.3838, "step": 44710 }, { "epoch": 59.626666666666665, "grad_norm": 0.28125, "learning_rate": 0.00029935675671466155, "loss": 0.3888, "step": 44720 }, { "epoch": 59.64, "grad_norm": 0.33984375, "learning_rate": 0.00029935646595474893, "loss": 0.4035, "step": 44730 }, { "epoch": 59.653333333333336, "grad_norm": 0.375, "learning_rate": 0.0002993561751292776, "loss": 0.4125, "step": 44740 }, { "epoch": 59.666666666666664, "grad_norm": 0.37109375, "learning_rate": 0.0002993558842382475, "loss": 0.3991, "step": 44750 }, { "epoch": 59.68, "grad_norm": 0.3203125, "learning_rate": 0.000299355593281659, "loss": 0.3906, "step": 44760 }, { "epoch": 59.693333333333335, "grad_norm": 0.3125, "learning_rate": 0.000299355302259512, "loss": 0.4005, "step": 44770 }, { "epoch": 59.70666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002993550111718068, "loss": 0.3932, "step": 44780 }, { "epoch": 59.72, "grad_norm": 0.357421875, "learning_rate": 0.00029935472001854353, "loss": 0.4162, "step": 44790 }, { "epoch": 59.733333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002993544287997221, "loss": 0.4103, "step": 44800 }, { "epoch": 59.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002993541375153429, "loss": 0.4116, "step": 44810 }, { "epoch": 59.76, "grad_norm": 0.337890625, "learning_rate": 0.00029935384616540595, "loss": 0.4255, "step": 44820 }, { "epoch": 59.77333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029935355474991135, "loss": 0.4118, "step": 44830 }, { "epoch": 59.78666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0002993532632688592, "loss": 0.4121, "step": 44840 }, { "epoch": 59.8, "grad_norm": 0.333984375, "learning_rate": 0.0002993529717222497, "loss": 0.4117, "step": 44850 }, { "epoch": 59.81333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029935268011008307, "loss": 0.3849, "step": 44860 }, { "epoch": 59.82666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002993523884323592, "loss": 0.3954, "step": 44870 }, { "epoch": 59.84, "grad_norm": 0.36328125, "learning_rate": 0.00029935209668907836, "loss": 0.4068, "step": 44880 }, { "epoch": 59.85333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002993518048802407, "loss": 0.4026, "step": 44890 }, { "epoch": 59.86666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002993515130058463, "loss": 0.4064, "step": 44900 }, { "epoch": 59.88, "grad_norm": 0.3515625, "learning_rate": 0.0002993512210658953, "loss": 0.3863, "step": 44910 }, { "epoch": 59.89333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002993509290603878, "loss": 0.3971, "step": 44920 }, { "epoch": 59.906666666666666, "grad_norm": 0.306640625, "learning_rate": 0.00029935063698932396, "loss": 0.4049, "step": 44930 }, { "epoch": 59.92, "grad_norm": 0.318359375, "learning_rate": 0.0002993503448527039, "loss": 0.4071, "step": 44940 }, { "epoch": 59.93333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002993500526505278, "loss": 0.4001, "step": 44950 }, { "epoch": 59.946666666666665, "grad_norm": 0.3125, "learning_rate": 0.0002993497603827957, "loss": 0.4014, "step": 44960 }, { "epoch": 59.96, "grad_norm": 0.279296875, "learning_rate": 0.00029934946804950776, "loss": 0.3988, "step": 44970 }, { "epoch": 59.973333333333336, "grad_norm": 0.412109375, "learning_rate": 0.0002993491756506641, "loss": 0.4248, "step": 44980 }, { "epoch": 59.986666666666665, "grad_norm": 0.373046875, "learning_rate": 0.0002993488831862649, "loss": 0.3996, "step": 44990 }, { "epoch": 60.0, "grad_norm": 0.357421875, "learning_rate": 0.0002993485906563103, "loss": 0.3936, "step": 45000 }, { "epoch": 60.0, "eval_loss": 0.43261629343032837, "eval_model_preparation_time": 0.0017, "eval_runtime": 8.5292, "eval_samples_per_second": 1.876, "eval_steps_per_second": 0.117, "step": 45000 }, { "epoch": 60.013333333333335, "grad_norm": 0.345703125, "learning_rate": 0.00029934829806080033, "loss": 0.4114, "step": 45010 }, { "epoch": 60.026666666666664, "grad_norm": 0.33203125, "learning_rate": 0.00029934800539973514, "loss": 0.422, "step": 45020 }, { "epoch": 60.04, "grad_norm": 0.33203125, "learning_rate": 0.0002993477126731149, "loss": 0.435, "step": 45030 }, { "epoch": 60.053333333333335, "grad_norm": 0.333984375, "learning_rate": 0.0002993474198809398, "loss": 0.4211, "step": 45040 }, { "epoch": 60.06666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029934712702320976, "loss": 0.4077, "step": 45050 }, { "epoch": 60.08, "grad_norm": 0.361328125, "learning_rate": 0.00029934683409992517, "loss": 0.4118, "step": 45060 }, { "epoch": 60.093333333333334, "grad_norm": 0.341796875, "learning_rate": 0.000299346541111086, "loss": 0.4131, "step": 45070 }, { "epoch": 60.10666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029934624805669235, "loss": 0.4013, "step": 45080 }, { "epoch": 60.12, "grad_norm": 0.349609375, "learning_rate": 0.00029934595493674444, "loss": 0.4065, "step": 45090 }, { "epoch": 60.13333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002993456617512424, "loss": 0.3976, "step": 45100 }, { "epoch": 60.14666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002993453685001863, "loss": 0.4167, "step": 45110 }, { "epoch": 60.16, "grad_norm": 0.318359375, "learning_rate": 0.0002993450751835763, "loss": 0.4096, "step": 45120 }, { "epoch": 60.17333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029934478180141256, "loss": 0.4043, "step": 45130 }, { "epoch": 60.18666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002993444883536951, "loss": 0.404, "step": 45140 }, { "epoch": 60.2, "grad_norm": 0.40234375, "learning_rate": 0.0002993441948404242, "loss": 0.3961, "step": 45150 }, { "epoch": 60.21333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002993439012615999, "loss": 0.3975, "step": 45160 }, { "epoch": 60.22666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029934360761722225, "loss": 0.4089, "step": 45170 }, { "epoch": 60.24, "grad_norm": 0.349609375, "learning_rate": 0.0002993433139072916, "loss": 0.3942, "step": 45180 }, { "epoch": 60.25333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002993430201318078, "loss": 0.397, "step": 45190 }, { "epoch": 60.266666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029934272629077125, "loss": 0.3983, "step": 45200 }, { "epoch": 60.28, "grad_norm": 0.330078125, "learning_rate": 0.0002993424323841819, "loss": 0.4296, "step": 45210 }, { "epoch": 60.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029934213841203993, "loss": 0.3851, "step": 45220 }, { "epoch": 60.306666666666665, "grad_norm": 0.349609375, "learning_rate": 0.0002993418443743455, "loss": 0.4084, "step": 45230 }, { "epoch": 60.32, "grad_norm": 0.30078125, "learning_rate": 0.0002993415502710987, "loss": 0.409, "step": 45240 }, { "epoch": 60.333333333333336, "grad_norm": 0.3671875, "learning_rate": 0.0002993412561022997, "loss": 0.4127, "step": 45250 }, { "epoch": 60.346666666666664, "grad_norm": 0.39453125, "learning_rate": 0.00029934096186794856, "loss": 0.4048, "step": 45260 }, { "epoch": 60.36, "grad_norm": 0.37109375, "learning_rate": 0.00029934066756804543, "loss": 0.4059, "step": 45270 }, { "epoch": 60.373333333333335, "grad_norm": 0.31640625, "learning_rate": 0.0002993403732025905, "loss": 0.4048, "step": 45280 }, { "epoch": 60.38666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029934007877158386, "loss": 0.3984, "step": 45290 }, { "epoch": 60.4, "grad_norm": 0.35546875, "learning_rate": 0.00029933978427502565, "loss": 0.4053, "step": 45300 }, { "epoch": 60.413333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0002993394897129159, "loss": 0.409, "step": 45310 }, { "epoch": 60.42666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029933919508525495, "loss": 0.4115, "step": 45320 }, { "epoch": 60.44, "grad_norm": 0.359375, "learning_rate": 0.00029933890039204273, "loss": 0.4228, "step": 45330 }, { "epoch": 60.45333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029933860563327943, "loss": 0.4113, "step": 45340 }, { "epoch": 60.46666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002993383108089653, "loss": 0.4216, "step": 45350 }, { "epoch": 60.48, "grad_norm": 0.359375, "learning_rate": 0.00029933801591910025, "loss": 0.4018, "step": 45360 }, { "epoch": 60.49333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029933772096368453, "loss": 0.4133, "step": 45370 }, { "epoch": 60.50666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002993374259427183, "loss": 0.4109, "step": 45380 }, { "epoch": 60.52, "grad_norm": 0.302734375, "learning_rate": 0.00029933713085620163, "loss": 0.401, "step": 45390 }, { "epoch": 60.53333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029933683570413473, "loss": 0.405, "step": 45400 }, { "epoch": 60.54666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002993365404865176, "loss": 0.4064, "step": 45410 }, { "epoch": 60.56, "grad_norm": 0.341796875, "learning_rate": 0.0002993362452033505, "loss": 0.4008, "step": 45420 }, { "epoch": 60.57333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029933594985463344, "loss": 0.4036, "step": 45430 }, { "epoch": 60.586666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029933565444036666, "loss": 0.3925, "step": 45440 }, { "epoch": 60.6, "grad_norm": 0.3046875, "learning_rate": 0.0002993353589605502, "loss": 0.3946, "step": 45450 }, { "epoch": 60.61333333333333, "grad_norm": 0.28515625, "learning_rate": 0.00029933506341518426, "loss": 0.3831, "step": 45460 }, { "epoch": 60.626666666666665, "grad_norm": 0.30078125, "learning_rate": 0.0002993347678042689, "loss": 0.3883, "step": 45470 }, { "epoch": 60.64, "grad_norm": 0.369140625, "learning_rate": 0.0002993344721278043, "loss": 0.4025, "step": 45480 }, { "epoch": 60.653333333333336, "grad_norm": 0.3515625, "learning_rate": 0.00029933417638579063, "loss": 0.4119, "step": 45490 }, { "epoch": 60.666666666666664, "grad_norm": 0.3125, "learning_rate": 0.0002993338805782279, "loss": 0.398, "step": 45500 }, { "epoch": 60.68, "grad_norm": 0.314453125, "learning_rate": 0.00029933358470511634, "loss": 0.3905, "step": 45510 }, { "epoch": 60.693333333333335, "grad_norm": 0.3359375, "learning_rate": 0.00029933328876645605, "loss": 0.3993, "step": 45520 }, { "epoch": 60.70666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002993329927622471, "loss": 0.3937, "step": 45530 }, { "epoch": 60.72, "grad_norm": 0.357421875, "learning_rate": 0.00029933269669248975, "loss": 0.4161, "step": 45540 }, { "epoch": 60.733333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002993324005571841, "loss": 0.4093, "step": 45550 }, { "epoch": 60.74666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029933210435633014, "loss": 0.4112, "step": 45560 }, { "epoch": 60.76, "grad_norm": 0.30859375, "learning_rate": 0.00029933180808992815, "loss": 0.4244, "step": 45570 }, { "epoch": 60.77333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002993315117579782, "loss": 0.4123, "step": 45580 }, { "epoch": 60.78666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002993312153604804, "loss": 0.4117, "step": 45590 }, { "epoch": 60.8, "grad_norm": 0.359375, "learning_rate": 0.0002993309188974349, "loss": 0.4101, "step": 45600 }, { "epoch": 60.81333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002993306223688419, "loss": 0.3854, "step": 45610 }, { "epoch": 60.82666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002993303257747014, "loss": 0.3948, "step": 45620 }, { "epoch": 60.84, "grad_norm": 0.400390625, "learning_rate": 0.00029933002911501367, "loss": 0.4063, "step": 45630 }, { "epoch": 60.85333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029932973238977874, "loss": 0.4018, "step": 45640 }, { "epoch": 60.86666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029932943559899674, "loss": 0.4052, "step": 45650 }, { "epoch": 60.88, "grad_norm": 0.328125, "learning_rate": 0.0002993291387426679, "loss": 0.3863, "step": 45660 }, { "epoch": 60.89333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002993288418207922, "loss": 0.3965, "step": 45670 }, { "epoch": 60.906666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029932854483336984, "loss": 0.4045, "step": 45680 }, { "epoch": 60.92, "grad_norm": 0.33203125, "learning_rate": 0.00029932824778040103, "loss": 0.4064, "step": 45690 }, { "epoch": 60.93333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029932795066188575, "loss": 0.3995, "step": 45700 }, { "epoch": 60.946666666666665, "grad_norm": 0.32421875, "learning_rate": 0.00029932765347782426, "loss": 0.4009, "step": 45710 }, { "epoch": 60.96, "grad_norm": 0.30078125, "learning_rate": 0.0002993273562282167, "loss": 0.3983, "step": 45720 }, { "epoch": 60.973333333333336, "grad_norm": 0.357421875, "learning_rate": 0.00029932705891306307, "loss": 0.4248, "step": 45730 }, { "epoch": 60.986666666666665, "grad_norm": 0.33984375, "learning_rate": 0.0002993267615323636, "loss": 0.3988, "step": 45740 }, { "epoch": 61.0, "grad_norm": 0.357421875, "learning_rate": 0.00029932646408611837, "loss": 0.3925, "step": 45750 }, { "epoch": 61.0, "eval_loss": 0.4304877817630768, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.845, "eval_samples_per_second": 1.625, "eval_steps_per_second": 0.102, "step": 45750 }, { "epoch": 61.013333333333335, "grad_norm": 0.361328125, "learning_rate": 0.0002993261665743275, "loss": 0.4115, "step": 45760 }, { "epoch": 61.026666666666664, "grad_norm": 0.3359375, "learning_rate": 0.0002993258689969912, "loss": 0.4221, "step": 45770 }, { "epoch": 61.04, "grad_norm": 0.3203125, "learning_rate": 0.00029932557135410956, "loss": 0.4356, "step": 45780 }, { "epoch": 61.053333333333335, "grad_norm": 0.328125, "learning_rate": 0.0002993252736456827, "loss": 0.4207, "step": 45790 }, { "epoch": 61.06666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029932497587171076, "loss": 0.4089, "step": 45800 }, { "epoch": 61.08, "grad_norm": 0.361328125, "learning_rate": 0.0002993246780321939, "loss": 0.412, "step": 45810 }, { "epoch": 61.093333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002993243801271321, "loss": 0.4127, "step": 45820 }, { "epoch": 61.10666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029932408215652573, "loss": 0.4004, "step": 45830 }, { "epoch": 61.12, "grad_norm": 0.359375, "learning_rate": 0.00029932378412037474, "loss": 0.4069, "step": 45840 }, { "epoch": 61.13333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002993234860186793, "loss": 0.3974, "step": 45850 }, { "epoch": 61.14666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002993231878514396, "loss": 0.4159, "step": 45860 }, { "epoch": 61.16, "grad_norm": 0.29296875, "learning_rate": 0.00029932288961865574, "loss": 0.4091, "step": 45870 }, { "epoch": 61.17333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002993225913203278, "loss": 0.4042, "step": 45880 }, { "epoch": 61.18666666666667, "grad_norm": 0.333984375, "learning_rate": 0.000299322292956456, "loss": 0.4026, "step": 45890 }, { "epoch": 61.2, "grad_norm": 0.341796875, "learning_rate": 0.00029932199452704044, "loss": 0.3956, "step": 45900 }, { "epoch": 61.21333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029932169603208116, "loss": 0.3979, "step": 45910 }, { "epoch": 61.22666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029932139747157845, "loss": 0.4086, "step": 45920 }, { "epoch": 61.24, "grad_norm": 0.3359375, "learning_rate": 0.0002993210988455323, "loss": 0.3938, "step": 45930 }, { "epoch": 61.25333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002993208001539429, "loss": 0.3962, "step": 45940 }, { "epoch": 61.266666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0002993205013968104, "loss": 0.398, "step": 45950 }, { "epoch": 61.28, "grad_norm": 0.33203125, "learning_rate": 0.0002993202025741349, "loss": 0.4291, "step": 45960 }, { "epoch": 61.29333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029931990368591656, "loss": 0.3842, "step": 45970 }, { "epoch": 61.306666666666665, "grad_norm": 0.337890625, "learning_rate": 0.00029931960473215545, "loss": 0.4071, "step": 45980 }, { "epoch": 61.32, "grad_norm": 0.310546875, "learning_rate": 0.0002993193057128518, "loss": 0.4087, "step": 45990 }, { "epoch": 61.333333333333336, "grad_norm": 0.361328125, "learning_rate": 0.00029931900662800564, "loss": 0.4132, "step": 46000 }, { "epoch": 61.346666666666664, "grad_norm": 0.3984375, "learning_rate": 0.00029931870747761715, "loss": 0.4039, "step": 46010 }, { "epoch": 61.36, "grad_norm": 0.361328125, "learning_rate": 0.00029931840826168647, "loss": 0.4043, "step": 46020 }, { "epoch": 61.373333333333335, "grad_norm": 0.322265625, "learning_rate": 0.0002993181089802137, "loss": 0.405, "step": 46030 }, { "epoch": 61.38666666666666, "grad_norm": 0.375, "learning_rate": 0.00029931780963319903, "loss": 0.3979, "step": 46040 }, { "epoch": 61.4, "grad_norm": 0.3671875, "learning_rate": 0.00029931751022064254, "loss": 0.4054, "step": 46050 }, { "epoch": 61.413333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029931721074254435, "loss": 0.409, "step": 46060 }, { "epoch": 61.42666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002993169111989047, "loss": 0.4109, "step": 46070 }, { "epoch": 61.44, "grad_norm": 0.322265625, "learning_rate": 0.0002993166115897235, "loss": 0.4214, "step": 46080 }, { "epoch": 61.45333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029931631191500114, "loss": 0.4112, "step": 46090 }, { "epoch": 61.46666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029931601217473756, "loss": 0.4205, "step": 46100 }, { "epoch": 61.48, "grad_norm": 0.345703125, "learning_rate": 0.00029931571236893297, "loss": 0.4017, "step": 46110 }, { "epoch": 61.49333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002993154124975875, "loss": 0.4134, "step": 46120 }, { "epoch": 61.50666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002993151125607013, "loss": 0.4107, "step": 46130 }, { "epoch": 61.52, "grad_norm": 0.34765625, "learning_rate": 0.0002993148125582744, "loss": 0.4008, "step": 46140 }, { "epoch": 61.53333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002993145124903071, "loss": 0.4042, "step": 46150 }, { "epoch": 61.54666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002993142123567994, "loss": 0.4068, "step": 46160 }, { "epoch": 61.56, "grad_norm": 0.318359375, "learning_rate": 0.00029931391215775146, "loss": 0.4005, "step": 46170 }, { "epoch": 61.57333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002993136118931634, "loss": 0.4037, "step": 46180 }, { "epoch": 61.586666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029931331156303546, "loss": 0.3932, "step": 46190 }, { "epoch": 61.6, "grad_norm": 0.298828125, "learning_rate": 0.00029931301116736765, "loss": 0.3943, "step": 46200 }, { "epoch": 61.61333333333333, "grad_norm": 0.29296875, "learning_rate": 0.00029931271070616014, "loss": 0.3833, "step": 46210 }, { "epoch": 61.626666666666665, "grad_norm": 0.298828125, "learning_rate": 0.00029931241017941304, "loss": 0.3879, "step": 46220 }, { "epoch": 61.64, "grad_norm": 0.361328125, "learning_rate": 0.00029931210958712647, "loss": 0.4025, "step": 46230 }, { "epoch": 61.653333333333336, "grad_norm": 0.345703125, "learning_rate": 0.00029931180892930063, "loss": 0.412, "step": 46240 }, { "epoch": 61.666666666666664, "grad_norm": 0.302734375, "learning_rate": 0.00029931150820593563, "loss": 0.3981, "step": 46250 }, { "epoch": 61.68, "grad_norm": 0.337890625, "learning_rate": 0.0002993112074170316, "loss": 0.3909, "step": 46260 }, { "epoch": 61.693333333333335, "grad_norm": 0.294921875, "learning_rate": 0.00029931090656258857, "loss": 0.3983, "step": 46270 }, { "epoch": 61.70666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029931060564260687, "loss": 0.392, "step": 46280 }, { "epoch": 61.72, "grad_norm": 0.345703125, "learning_rate": 0.00029931030465708646, "loss": 0.4161, "step": 46290 }, { "epoch": 61.733333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002993100036060276, "loss": 0.4093, "step": 46300 }, { "epoch": 61.74666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002993097024894303, "loss": 0.4114, "step": 46310 }, { "epoch": 61.76, "grad_norm": 0.365234375, "learning_rate": 0.0002993094013072948, "loss": 0.4229, "step": 46320 }, { "epoch": 61.77333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002993091000596211, "loss": 0.4121, "step": 46330 }, { "epoch": 61.78666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002993087987464095, "loss": 0.4115, "step": 46340 }, { "epoch": 61.8, "grad_norm": 0.333984375, "learning_rate": 0.00029930849736766, "loss": 0.4104, "step": 46350 }, { "epoch": 61.81333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029930819592337277, "loss": 0.384, "step": 46360 }, { "epoch": 61.82666666666667, "grad_norm": 0.30078125, "learning_rate": 0.000299307894413548, "loss": 0.3954, "step": 46370 }, { "epoch": 61.84, "grad_norm": 0.380859375, "learning_rate": 0.00029930759283818573, "loss": 0.4057, "step": 46380 }, { "epoch": 61.85333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002993072911972862, "loss": 0.4017, "step": 46390 }, { "epoch": 61.86666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002993069894908494, "loss": 0.4053, "step": 46400 }, { "epoch": 61.88, "grad_norm": 0.33984375, "learning_rate": 0.0002993066877188756, "loss": 0.3851, "step": 46410 }, { "epoch": 61.89333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029930638588136484, "loss": 0.3969, "step": 46420 }, { "epoch": 61.906666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002993060839783173, "loss": 0.4051, "step": 46430 }, { "epoch": 61.92, "grad_norm": 0.353515625, "learning_rate": 0.0002993057820097331, "loss": 0.4082, "step": 46440 }, { "epoch": 61.93333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029930547997561235, "loss": 0.4006, "step": 46450 }, { "epoch": 61.946666666666665, "grad_norm": 0.32421875, "learning_rate": 0.00029930517787595527, "loss": 0.4005, "step": 46460 }, { "epoch": 61.96, "grad_norm": 0.333984375, "learning_rate": 0.00029930487571076185, "loss": 0.398, "step": 46470 }, { "epoch": 61.973333333333336, "grad_norm": 0.359375, "learning_rate": 0.00029930457348003236, "loss": 0.4249, "step": 46480 }, { "epoch": 61.986666666666665, "grad_norm": 0.296875, "learning_rate": 0.0002993042711837668, "loss": 0.3992, "step": 46490 }, { "epoch": 62.0, "grad_norm": 0.3828125, "learning_rate": 0.0002993039688219655, "loss": 0.3926, "step": 46500 }, { "epoch": 62.0, "eval_loss": 0.4326027035713196, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2687, "eval_samples_per_second": 1.558, "eval_steps_per_second": 0.097, "step": 46500 }, { "epoch": 62.013333333333335, "grad_norm": 0.376953125, "learning_rate": 0.00029930366639462834, "loss": 0.4108, "step": 46510 }, { "epoch": 62.026666666666664, "grad_norm": 0.34375, "learning_rate": 0.0002993033639017556, "loss": 0.4229, "step": 46520 }, { "epoch": 62.04, "grad_norm": 0.375, "learning_rate": 0.0002993030613433474, "loss": 0.4345, "step": 46530 }, { "epoch": 62.053333333333335, "grad_norm": 0.365234375, "learning_rate": 0.0002993027587194039, "loss": 0.4213, "step": 46540 }, { "epoch": 62.06666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002993024560299252, "loss": 0.408, "step": 46550 }, { "epoch": 62.08, "grad_norm": 0.333984375, "learning_rate": 0.0002993021532749114, "loss": 0.4117, "step": 46560 }, { "epoch": 62.093333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029930185045436267, "loss": 0.4122, "step": 46570 }, { "epoch": 62.10666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029930154756827916, "loss": 0.4006, "step": 46580 }, { "epoch": 62.12, "grad_norm": 0.33203125, "learning_rate": 0.000299301244616661, "loss": 0.406, "step": 46590 }, { "epoch": 62.13333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029930094159950823, "loss": 0.3984, "step": 46600 }, { "epoch": 62.14666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002993006385168211, "loss": 0.4174, "step": 46610 }, { "epoch": 62.16, "grad_norm": 0.375, "learning_rate": 0.0002993003353685997, "loss": 0.4094, "step": 46620 }, { "epoch": 62.17333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002993000321548442, "loss": 0.4039, "step": 46630 }, { "epoch": 62.18666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029929972887555463, "loss": 0.4038, "step": 46640 }, { "epoch": 62.2, "grad_norm": 0.404296875, "learning_rate": 0.0002992994255307312, "loss": 0.3971, "step": 46650 }, { "epoch": 62.21333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002992991221203741, "loss": 0.3968, "step": 46660 }, { "epoch": 62.22666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002992988186444833, "loss": 0.4091, "step": 46670 }, { "epoch": 62.24, "grad_norm": 0.353515625, "learning_rate": 0.00029929851510305904, "loss": 0.3939, "step": 46680 }, { "epoch": 62.25333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002992982114961015, "loss": 0.3966, "step": 46690 }, { "epoch": 62.266666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029929790782361074, "loss": 0.3987, "step": 46700 }, { "epoch": 62.28, "grad_norm": 0.330078125, "learning_rate": 0.00029929760408558685, "loss": 0.4291, "step": 46710 }, { "epoch": 62.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029929730028203005, "loss": 0.3851, "step": 46720 }, { "epoch": 62.306666666666665, "grad_norm": 0.328125, "learning_rate": 0.0002992969964129405, "loss": 0.4077, "step": 46730 }, { "epoch": 62.32, "grad_norm": 0.283203125, "learning_rate": 0.00029929669247831823, "loss": 0.4083, "step": 46740 }, { "epoch": 62.333333333333336, "grad_norm": 0.32421875, "learning_rate": 0.0002992963884781634, "loss": 0.414, "step": 46750 }, { "epoch": 62.346666666666664, "grad_norm": 0.36328125, "learning_rate": 0.0002992960844124762, "loss": 0.4034, "step": 46760 }, { "epoch": 62.36, "grad_norm": 0.384765625, "learning_rate": 0.00029929578028125675, "loss": 0.4049, "step": 46770 }, { "epoch": 62.373333333333335, "grad_norm": 0.359375, "learning_rate": 0.0002992954760845051, "loss": 0.4048, "step": 46780 }, { "epoch": 62.38666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002992951718222215, "loss": 0.3976, "step": 46790 }, { "epoch": 62.4, "grad_norm": 0.341796875, "learning_rate": 0.000299294867494406, "loss": 0.405, "step": 46800 }, { "epoch": 62.413333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029929456310105875, "loss": 0.4084, "step": 46810 }, { "epoch": 62.42666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002992942586421799, "loss": 0.4103, "step": 46820 }, { "epoch": 62.44, "grad_norm": 0.326171875, "learning_rate": 0.0002992939541177696, "loss": 0.4222, "step": 46830 }, { "epoch": 62.45333333333333, "grad_norm": 0.392578125, "learning_rate": 0.000299293649527828, "loss": 0.4109, "step": 46840 }, { "epoch": 62.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029929334487235513, "loss": 0.4202, "step": 46850 }, { "epoch": 62.48, "grad_norm": 0.3515625, "learning_rate": 0.0002992930401513512, "loss": 0.4012, "step": 46860 }, { "epoch": 62.49333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002992927353648164, "loss": 0.413, "step": 46870 }, { "epoch": 62.50666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002992924305127507, "loss": 0.41, "step": 46880 }, { "epoch": 62.52, "grad_norm": 0.30859375, "learning_rate": 0.0002992921255951544, "loss": 0.4002, "step": 46890 }, { "epoch": 62.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002992918206120275, "loss": 0.4042, "step": 46900 }, { "epoch": 62.54666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002992915155633703, "loss": 0.4056, "step": 46910 }, { "epoch": 62.56, "grad_norm": 0.31640625, "learning_rate": 0.0002992912104491828, "loss": 0.4004, "step": 46920 }, { "epoch": 62.57333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002992909052694651, "loss": 0.4045, "step": 46930 }, { "epoch": 62.586666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002992906000242175, "loss": 0.3928, "step": 46940 }, { "epoch": 62.6, "grad_norm": 0.302734375, "learning_rate": 0.00029929029471344, "loss": 0.3944, "step": 46950 }, { "epoch": 62.61333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002992899893371327, "loss": 0.3822, "step": 46960 }, { "epoch": 62.626666666666665, "grad_norm": 0.287109375, "learning_rate": 0.00029928968389529586, "loss": 0.3884, "step": 46970 }, { "epoch": 62.64, "grad_norm": 0.33984375, "learning_rate": 0.00029928937838792955, "loss": 0.4018, "step": 46980 }, { "epoch": 62.653333333333336, "grad_norm": 0.349609375, "learning_rate": 0.00029928907281503395, "loss": 0.4121, "step": 46990 }, { "epoch": 62.666666666666664, "grad_norm": 0.314453125, "learning_rate": 0.0002992887671766091, "loss": 0.3969, "step": 47000 }, { "epoch": 62.68, "grad_norm": 0.328125, "learning_rate": 0.0002992884614726552, "loss": 0.3901, "step": 47010 }, { "epoch": 62.693333333333335, "grad_norm": 0.3203125, "learning_rate": 0.00029928815570317245, "loss": 0.3988, "step": 47020 }, { "epoch": 62.70666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002992878498681608, "loss": 0.3925, "step": 47030 }, { "epoch": 62.72, "grad_norm": 0.357421875, "learning_rate": 0.0002992875439676206, "loss": 0.4145, "step": 47040 }, { "epoch": 62.733333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029928723800155176, "loss": 0.4094, "step": 47050 }, { "epoch": 62.74666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002992869319699546, "loss": 0.4102, "step": 47060 }, { "epoch": 62.76, "grad_norm": 0.353515625, "learning_rate": 0.0002992866258728292, "loss": 0.4232, "step": 47070 }, { "epoch": 62.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002992863197101756, "loss": 0.4118, "step": 47080 }, { "epoch": 62.78666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002992860134819941, "loss": 0.4123, "step": 47090 }, { "epoch": 62.8, "grad_norm": 0.322265625, "learning_rate": 0.00029928570718828476, "loss": 0.4113, "step": 47100 }, { "epoch": 62.81333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002992854008290476, "loss": 0.3842, "step": 47110 }, { "epoch": 62.82666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029928509440428294, "loss": 0.3955, "step": 47120 }, { "epoch": 62.84, "grad_norm": 0.359375, "learning_rate": 0.0002992847879139908, "loss": 0.4061, "step": 47130 }, { "epoch": 62.85333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002992844813581714, "loss": 0.4011, "step": 47140 }, { "epoch": 62.86666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029928417473682476, "loss": 0.4054, "step": 47150 }, { "epoch": 62.88, "grad_norm": 0.330078125, "learning_rate": 0.0002992838680499511, "loss": 0.3848, "step": 47160 }, { "epoch": 62.89333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029928356129755055, "loss": 0.3969, "step": 47170 }, { "epoch": 62.906666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002992832544796232, "loss": 0.4045, "step": 47180 }, { "epoch": 62.92, "grad_norm": 0.31640625, "learning_rate": 0.0002992829475961692, "loss": 0.4064, "step": 47190 }, { "epoch": 62.93333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029928264064718867, "loss": 0.3995, "step": 47200 }, { "epoch": 62.946666666666665, "grad_norm": 0.37890625, "learning_rate": 0.00029928233363268186, "loss": 0.4004, "step": 47210 }, { "epoch": 62.96, "grad_norm": 0.37109375, "learning_rate": 0.00029928202655264875, "loss": 0.3975, "step": 47220 }, { "epoch": 62.973333333333336, "grad_norm": 0.44921875, "learning_rate": 0.00029928171940708955, "loss": 0.4233, "step": 47230 }, { "epoch": 62.986666666666665, "grad_norm": 0.31640625, "learning_rate": 0.00029928141219600436, "loss": 0.3981, "step": 47240 }, { "epoch": 63.0, "grad_norm": 0.3125, "learning_rate": 0.00029928110491939336, "loss": 0.3914, "step": 47250 }, { "epoch": 63.0, "eval_loss": 0.4315524399280548, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6431, "eval_samples_per_second": 1.659, "eval_steps_per_second": 0.104, "step": 47250 }, { "epoch": 63.013333333333335, "grad_norm": 0.345703125, "learning_rate": 0.0002992807975772567, "loss": 0.4096, "step": 47260 }, { "epoch": 63.026666666666664, "grad_norm": 0.34765625, "learning_rate": 0.00029928049016959444, "loss": 0.4219, "step": 47270 }, { "epoch": 63.04, "grad_norm": 0.341796875, "learning_rate": 0.00029928018269640674, "loss": 0.4334, "step": 47280 }, { "epoch": 63.053333333333335, "grad_norm": 0.302734375, "learning_rate": 0.00029927987515769377, "loss": 0.4211, "step": 47290 }, { "epoch": 63.06666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002992795675534556, "loss": 0.4071, "step": 47300 }, { "epoch": 63.08, "grad_norm": 0.353515625, "learning_rate": 0.0002992792598836925, "loss": 0.4116, "step": 47310 }, { "epoch": 63.093333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029927895214840444, "loss": 0.4127, "step": 47320 }, { "epoch": 63.10666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029927864434759166, "loss": 0.4001, "step": 47330 }, { "epoch": 63.12, "grad_norm": 0.373046875, "learning_rate": 0.00029927833648125425, "loss": 0.4057, "step": 47340 }, { "epoch": 63.13333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029927802854939233, "loss": 0.3973, "step": 47350 }, { "epoch": 63.14666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029927772055200616, "loss": 0.4157, "step": 47360 }, { "epoch": 63.16, "grad_norm": 0.29296875, "learning_rate": 0.0002992774124890957, "loss": 0.4089, "step": 47370 }, { "epoch": 63.17333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002992771043606612, "loss": 0.404, "step": 47380 }, { "epoch": 63.18666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029927679616670273, "loss": 0.4033, "step": 47390 }, { "epoch": 63.2, "grad_norm": 0.375, "learning_rate": 0.00029927648790722044, "loss": 0.3956, "step": 47400 }, { "epoch": 63.21333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002992761795822145, "loss": 0.3965, "step": 47410 }, { "epoch": 63.22666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029927587119168503, "loss": 0.409, "step": 47420 }, { "epoch": 63.24, "grad_norm": 0.376953125, "learning_rate": 0.0002992755627356322, "loss": 0.3932, "step": 47430 }, { "epoch": 63.25333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029927525421405605, "loss": 0.3951, "step": 47440 }, { "epoch": 63.266666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029927494562695677, "loss": 0.3985, "step": 47450 }, { "epoch": 63.28, "grad_norm": 0.3515625, "learning_rate": 0.0002992746369743345, "loss": 0.4293, "step": 47460 }, { "epoch": 63.29333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029927432825618936, "loss": 0.3834, "step": 47470 }, { "epoch": 63.306666666666665, "grad_norm": 0.3125, "learning_rate": 0.00029927401947252156, "loss": 0.407, "step": 47480 }, { "epoch": 63.32, "grad_norm": 0.328125, "learning_rate": 0.00029927371062333114, "loss": 0.4086, "step": 47490 }, { "epoch": 63.333333333333336, "grad_norm": 0.419921875, "learning_rate": 0.00029927340170861827, "loss": 0.4134, "step": 47500 }, { "epoch": 63.346666666666664, "grad_norm": 0.365234375, "learning_rate": 0.0002992730927283831, "loss": 0.4035, "step": 47510 }, { "epoch": 63.36, "grad_norm": 0.3671875, "learning_rate": 0.00029927278368262574, "loss": 0.404, "step": 47520 }, { "epoch": 63.373333333333335, "grad_norm": 0.326171875, "learning_rate": 0.0002992724745713463, "loss": 0.4037, "step": 47530 }, { "epoch": 63.38666666666666, "grad_norm": 0.359375, "learning_rate": 0.000299272165394545, "loss": 0.3975, "step": 47540 }, { "epoch": 63.4, "grad_norm": 0.337890625, "learning_rate": 0.0002992718561522219, "loss": 0.4038, "step": 47550 }, { "epoch": 63.413333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029927154684437717, "loss": 0.4089, "step": 47560 }, { "epoch": 63.42666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029927123747101094, "loss": 0.4099, "step": 47570 }, { "epoch": 63.44, "grad_norm": 0.33203125, "learning_rate": 0.00029927092803212334, "loss": 0.4211, "step": 47580 }, { "epoch": 63.45333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002992706185277145, "loss": 0.412, "step": 47590 }, { "epoch": 63.46666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002992703089577846, "loss": 0.4188, "step": 47600 }, { "epoch": 63.48, "grad_norm": 0.376953125, "learning_rate": 0.0002992699993223337, "loss": 0.4009, "step": 47610 }, { "epoch": 63.49333333333333, "grad_norm": 0.359375, "learning_rate": 0.000299269689621362, "loss": 0.4122, "step": 47620 }, { "epoch": 63.50666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029926937985486963, "loss": 0.4104, "step": 47630 }, { "epoch": 63.52, "grad_norm": 0.3046875, "learning_rate": 0.0002992690700228567, "loss": 0.4, "step": 47640 }, { "epoch": 63.53333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029926876012532336, "loss": 0.4044, "step": 47650 }, { "epoch": 63.54666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002992684501622697, "loss": 0.4052, "step": 47660 }, { "epoch": 63.56, "grad_norm": 0.318359375, "learning_rate": 0.00029926814013369593, "loss": 0.3997, "step": 47670 }, { "epoch": 63.57333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002992678300396022, "loss": 0.403, "step": 47680 }, { "epoch": 63.586666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029926751987998854, "loss": 0.3914, "step": 47690 }, { "epoch": 63.6, "grad_norm": 0.31640625, "learning_rate": 0.0002992672096548552, "loss": 0.3935, "step": 47700 }, { "epoch": 63.61333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0002992668993642022, "loss": 0.3825, "step": 47710 }, { "epoch": 63.626666666666665, "grad_norm": 0.302734375, "learning_rate": 0.00029926658900802976, "loss": 0.3881, "step": 47720 }, { "epoch": 63.64, "grad_norm": 0.376953125, "learning_rate": 0.000299266278586338, "loss": 0.4014, "step": 47730 }, { "epoch": 63.653333333333336, "grad_norm": 0.359375, "learning_rate": 0.00029926596809912707, "loss": 0.4109, "step": 47740 }, { "epoch": 63.666666666666664, "grad_norm": 0.365234375, "learning_rate": 0.00029926565754639705, "loss": 0.3979, "step": 47750 }, { "epoch": 63.68, "grad_norm": 0.318359375, "learning_rate": 0.00029926534692814816, "loss": 0.3904, "step": 47760 }, { "epoch": 63.693333333333335, "grad_norm": 0.3125, "learning_rate": 0.00029926503624438044, "loss": 0.3994, "step": 47770 }, { "epoch": 63.70666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002992647254950941, "loss": 0.3924, "step": 47780 }, { "epoch": 63.72, "grad_norm": 0.392578125, "learning_rate": 0.0002992644146802893, "loss": 0.4149, "step": 47790 }, { "epoch": 63.733333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029926410379996606, "loss": 0.409, "step": 47800 }, { "epoch": 63.74666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029926379285412456, "loss": 0.4109, "step": 47810 }, { "epoch": 63.76, "grad_norm": 0.345703125, "learning_rate": 0.00029926348184276504, "loss": 0.4231, "step": 47820 }, { "epoch": 63.77333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002992631707658875, "loss": 0.4117, "step": 47830 }, { "epoch": 63.78666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002992628596234922, "loss": 0.4119, "step": 47840 }, { "epoch": 63.8, "grad_norm": 0.357421875, "learning_rate": 0.0002992625484155791, "loss": 0.4093, "step": 47850 }, { "epoch": 63.81333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002992622371421486, "loss": 0.3834, "step": 47860 }, { "epoch": 63.82666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002992619258032006, "loss": 0.3937, "step": 47870 }, { "epoch": 63.84, "grad_norm": 0.38671875, "learning_rate": 0.00029926161439873533, "loss": 0.4057, "step": 47880 }, { "epoch": 63.85333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029926130292875293, "loss": 0.401, "step": 47890 }, { "epoch": 63.86666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002992609913932535, "loss": 0.4042, "step": 47900 }, { "epoch": 63.88, "grad_norm": 0.337890625, "learning_rate": 0.00029926067979223724, "loss": 0.3848, "step": 47910 }, { "epoch": 63.89333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029926036812570427, "loss": 0.3959, "step": 47920 }, { "epoch": 63.906666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002992600563936546, "loss": 0.4036, "step": 47930 }, { "epoch": 63.92, "grad_norm": 0.353515625, "learning_rate": 0.0002992597445960886, "loss": 0.406, "step": 47940 }, { "epoch": 63.93333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002992594327330062, "loss": 0.3985, "step": 47950 }, { "epoch": 63.946666666666665, "grad_norm": 0.322265625, "learning_rate": 0.0002992591208044076, "loss": 0.4004, "step": 47960 }, { "epoch": 63.96, "grad_norm": 0.30859375, "learning_rate": 0.000299258808810293, "loss": 0.3969, "step": 47970 }, { "epoch": 63.973333333333336, "grad_norm": 0.396484375, "learning_rate": 0.00029925849675066247, "loss": 0.4235, "step": 47980 }, { "epoch": 63.986666666666665, "grad_norm": 0.373046875, "learning_rate": 0.0002992581846255162, "loss": 0.3992, "step": 47990 }, { "epoch": 64.0, "grad_norm": 0.357421875, "learning_rate": 0.00029925787243485427, "loss": 0.392, "step": 48000 }, { "epoch": 64.0, "eval_loss": 0.4317149519920349, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7894, "eval_samples_per_second": 1.634, "eval_steps_per_second": 0.102, "step": 48000 }, { "epoch": 64.01333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002992575601786768, "loss": 0.4093, "step": 48010 }, { "epoch": 64.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029925724785698405, "loss": 0.4224, "step": 48020 }, { "epoch": 64.04, "grad_norm": 0.3359375, "learning_rate": 0.000299256935469776, "loss": 0.4339, "step": 48030 }, { "epoch": 64.05333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002992566230170529, "loss": 0.421, "step": 48040 }, { "epoch": 64.06666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029925631049881483, "loss": 0.407, "step": 48050 }, { "epoch": 64.08, "grad_norm": 0.337890625, "learning_rate": 0.00029925599791506195, "loss": 0.4114, "step": 48060 }, { "epoch": 64.09333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002992556852657944, "loss": 0.4115, "step": 48070 }, { "epoch": 64.10666666666667, "grad_norm": 0.2890625, "learning_rate": 0.00029925537255101235, "loss": 0.3999, "step": 48080 }, { "epoch": 64.12, "grad_norm": 0.369140625, "learning_rate": 0.0002992550597707159, "loss": 0.4061, "step": 48090 }, { "epoch": 64.13333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002992547469249051, "loss": 0.3977, "step": 48100 }, { "epoch": 64.14666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002992544340135802, "loss": 0.4155, "step": 48110 }, { "epoch": 64.16, "grad_norm": 0.326171875, "learning_rate": 0.0002992541210367414, "loss": 0.4096, "step": 48120 }, { "epoch": 64.17333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029925380799438866, "loss": 0.4027, "step": 48130 }, { "epoch": 64.18666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029925349488652225, "loss": 0.4028, "step": 48140 }, { "epoch": 64.2, "grad_norm": 0.408203125, "learning_rate": 0.00029925318171314223, "loss": 0.3948, "step": 48150 }, { "epoch": 64.21333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002992528684742488, "loss": 0.397, "step": 48160 }, { "epoch": 64.22666666666667, "grad_norm": 0.388671875, "learning_rate": 0.000299252555169842, "loss": 0.4085, "step": 48170 }, { "epoch": 64.24, "grad_norm": 0.390625, "learning_rate": 0.0002992522417999221, "loss": 0.3926, "step": 48180 }, { "epoch": 64.25333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002992519283644891, "loss": 0.3961, "step": 48190 }, { "epoch": 64.26666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002992516148635433, "loss": 0.3971, "step": 48200 }, { "epoch": 64.28, "grad_norm": 0.33203125, "learning_rate": 0.0002992513012970847, "loss": 0.4285, "step": 48210 }, { "epoch": 64.29333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002992509876651136, "loss": 0.384, "step": 48220 }, { "epoch": 64.30666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029925067396762984, "loss": 0.4068, "step": 48230 }, { "epoch": 64.32, "grad_norm": 0.322265625, "learning_rate": 0.00029925036020463384, "loss": 0.4077, "step": 48240 }, { "epoch": 64.33333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002992500463761256, "loss": 0.413, "step": 48250 }, { "epoch": 64.34666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002992497324821054, "loss": 0.4028, "step": 48260 }, { "epoch": 64.36, "grad_norm": 0.328125, "learning_rate": 0.0002992494185225731, "loss": 0.4044, "step": 48270 }, { "epoch": 64.37333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029924910449752914, "loss": 0.4033, "step": 48280 }, { "epoch": 64.38666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002992487904069735, "loss": 0.3969, "step": 48290 }, { "epoch": 64.4, "grad_norm": 0.375, "learning_rate": 0.00029924847625090634, "loss": 0.4039, "step": 48300 }, { "epoch": 64.41333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0002992481620293278, "loss": 0.4084, "step": 48310 }, { "epoch": 64.42666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029924784774223805, "loss": 0.4091, "step": 48320 }, { "epoch": 64.44, "grad_norm": 0.34765625, "learning_rate": 0.00029924753338963714, "loss": 0.4215, "step": 48330 }, { "epoch": 64.45333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029924721897152536, "loss": 0.4109, "step": 48340 }, { "epoch": 64.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002992469044879027, "loss": 0.4199, "step": 48350 }, { "epoch": 64.48, "grad_norm": 0.341796875, "learning_rate": 0.00029924658993876936, "loss": 0.4005, "step": 48360 }, { "epoch": 64.49333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029924627532412545, "loss": 0.4116, "step": 48370 }, { "epoch": 64.50666666666666, "grad_norm": 0.328125, "learning_rate": 0.0002992459606439712, "loss": 0.4095, "step": 48380 }, { "epoch": 64.52, "grad_norm": 0.302734375, "learning_rate": 0.0002992456458983066, "loss": 0.4003, "step": 48390 }, { "epoch": 64.53333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029924533108713195, "loss": 0.4033, "step": 48400 }, { "epoch": 64.54666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002992450162104472, "loss": 0.4052, "step": 48410 }, { "epoch": 64.56, "grad_norm": 0.291015625, "learning_rate": 0.00029924470126825267, "loss": 0.3999, "step": 48420 }, { "epoch": 64.57333333333334, "grad_norm": 0.375, "learning_rate": 0.00029924438626054845, "loss": 0.4025, "step": 48430 }, { "epoch": 64.58666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002992440711873346, "loss": 0.3913, "step": 48440 }, { "epoch": 64.6, "grad_norm": 0.33203125, "learning_rate": 0.00029924375604861134, "loss": 0.3936, "step": 48450 }, { "epoch": 64.61333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002992434408443787, "loss": 0.3827, "step": 48460 }, { "epoch": 64.62666666666667, "grad_norm": 0.287109375, "learning_rate": 0.000299243125574637, "loss": 0.3875, "step": 48470 }, { "epoch": 64.64, "grad_norm": 0.328125, "learning_rate": 0.00029924281023938624, "loss": 0.4014, "step": 48480 }, { "epoch": 64.65333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029924249483862653, "loss": 0.4103, "step": 48490 }, { "epoch": 64.66666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002992421793723582, "loss": 0.3978, "step": 48500 }, { "epoch": 64.68, "grad_norm": 0.361328125, "learning_rate": 0.00029924186384058116, "loss": 0.3911, "step": 48510 }, { "epoch": 64.69333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0002992415482432956, "loss": 0.3994, "step": 48520 }, { "epoch": 64.70666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029924123258050184, "loss": 0.3925, "step": 48530 }, { "epoch": 64.72, "grad_norm": 0.376953125, "learning_rate": 0.00029924091685219984, "loss": 0.4146, "step": 48540 }, { "epoch": 64.73333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029924060105838973, "loss": 0.409, "step": 48550 }, { "epoch": 64.74666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029924028519907176, "loss": 0.4106, "step": 48560 }, { "epoch": 64.76, "grad_norm": 0.32421875, "learning_rate": 0.00029923996927424596, "loss": 0.4234, "step": 48570 }, { "epoch": 64.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029923965328391256, "loss": 0.4106, "step": 48580 }, { "epoch": 64.78666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029923933722807167, "loss": 0.4111, "step": 48590 }, { "epoch": 64.8, "grad_norm": 0.333984375, "learning_rate": 0.00029923902110672333, "loss": 0.4097, "step": 48600 }, { "epoch": 64.81333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002992387049198679, "loss": 0.3834, "step": 48610 }, { "epoch": 64.82666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002992383886675053, "loss": 0.3942, "step": 48620 }, { "epoch": 64.84, "grad_norm": 0.345703125, "learning_rate": 0.00029923807234963573, "loss": 0.4053, "step": 48630 }, { "epoch": 64.85333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002992377559662594, "loss": 0.4011, "step": 48640 }, { "epoch": 64.86666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002992374395173764, "loss": 0.4046, "step": 48650 }, { "epoch": 64.88, "grad_norm": 0.375, "learning_rate": 0.00029923712300298686, "loss": 0.3848, "step": 48660 }, { "epoch": 64.89333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029923680642309094, "loss": 0.3961, "step": 48670 }, { "epoch": 64.90666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029923648977768876, "loss": 0.4044, "step": 48680 }, { "epoch": 64.92, "grad_norm": 0.3359375, "learning_rate": 0.00029923617306678045, "loss": 0.4063, "step": 48690 }, { "epoch": 64.93333333333334, "grad_norm": 0.291015625, "learning_rate": 0.00029923585629036616, "loss": 0.3993, "step": 48700 }, { "epoch": 64.94666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029923553944844605, "loss": 0.3996, "step": 48710 }, { "epoch": 64.96, "grad_norm": 0.2890625, "learning_rate": 0.00029923522254102024, "loss": 0.3965, "step": 48720 }, { "epoch": 64.97333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029923490556808894, "loss": 0.4227, "step": 48730 }, { "epoch": 64.98666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029923458852965215, "loss": 0.3985, "step": 48740 }, { "epoch": 65.0, "grad_norm": 0.322265625, "learning_rate": 0.00029923427142571003, "loss": 0.3911, "step": 48750 }, { "epoch": 65.0, "eval_loss": 0.43181222677230835, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5167, "eval_samples_per_second": 1.681, "eval_steps_per_second": 0.105, "step": 48750 }, { "epoch": 65.01333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029923395425626286, "loss": 0.4091, "step": 48760 }, { "epoch": 65.02666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002992336370213107, "loss": 0.4219, "step": 48770 }, { "epoch": 65.04, "grad_norm": 0.32421875, "learning_rate": 0.0002992333197208536, "loss": 0.4338, "step": 48780 }, { "epoch": 65.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002992330023548919, "loss": 0.4201, "step": 48790 }, { "epoch": 65.06666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002992326849234255, "loss": 0.4076, "step": 48800 }, { "epoch": 65.08, "grad_norm": 0.341796875, "learning_rate": 0.00029923236742645474, "loss": 0.4107, "step": 48810 }, { "epoch": 65.09333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002992320498639796, "loss": 0.4117, "step": 48820 }, { "epoch": 65.10666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029923173223600036, "loss": 0.3989, "step": 48830 }, { "epoch": 65.12, "grad_norm": 0.3671875, "learning_rate": 0.000299231414542517, "loss": 0.4054, "step": 48840 }, { "epoch": 65.13333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002992310967835299, "loss": 0.3971, "step": 48850 }, { "epoch": 65.14666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002992307789590389, "loss": 0.4161, "step": 48860 }, { "epoch": 65.16, "grad_norm": 0.314453125, "learning_rate": 0.00029923046106904443, "loss": 0.4096, "step": 48870 }, { "epoch": 65.17333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002992301431135464, "loss": 0.4028, "step": 48880 }, { "epoch": 65.18666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029922982509254505, "loss": 0.4019, "step": 48890 }, { "epoch": 65.2, "grad_norm": 0.392578125, "learning_rate": 0.0002992295070060406, "loss": 0.3955, "step": 48900 }, { "epoch": 65.21333333333334, "grad_norm": 0.341796875, "learning_rate": 0.000299229188854033, "loss": 0.3961, "step": 48910 }, { "epoch": 65.22666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029922887063652253, "loss": 0.4079, "step": 48920 }, { "epoch": 65.24, "grad_norm": 0.3671875, "learning_rate": 0.0002992285523535093, "loss": 0.3934, "step": 48930 }, { "epoch": 65.25333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002992282340049934, "loss": 0.3956, "step": 48940 }, { "epoch": 65.26666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029922791559097505, "loss": 0.3974, "step": 48950 }, { "epoch": 65.28, "grad_norm": 0.365234375, "learning_rate": 0.0002992275971114544, "loss": 0.4281, "step": 48960 }, { "epoch": 65.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002992272785664315, "loss": 0.3835, "step": 48970 }, { "epoch": 65.30666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029922695995590647, "loss": 0.4058, "step": 48980 }, { "epoch": 65.32, "grad_norm": 0.314453125, "learning_rate": 0.00029922664127987955, "loss": 0.4084, "step": 48990 }, { "epoch": 65.33333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002992263225383509, "loss": 0.4138, "step": 49000 }, { "epoch": 65.34666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029922600373132047, "loss": 0.4027, "step": 49010 }, { "epoch": 65.36, "grad_norm": 0.4609375, "learning_rate": 0.0002992256848587886, "loss": 0.4035, "step": 49020 }, { "epoch": 65.37333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029922536592075536, "loss": 0.404, "step": 49030 }, { "epoch": 65.38666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029922504691722094, "loss": 0.3967, "step": 49040 }, { "epoch": 65.4, "grad_norm": 0.3203125, "learning_rate": 0.0002992247278481854, "loss": 0.4039, "step": 49050 }, { "epoch": 65.41333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029922440871364887, "loss": 0.407, "step": 49060 }, { "epoch": 65.42666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029922408951361154, "loss": 0.4096, "step": 49070 }, { "epoch": 65.44, "grad_norm": 0.31640625, "learning_rate": 0.00029922377024807354, "loss": 0.421, "step": 49080 }, { "epoch": 65.45333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029922345091703504, "loss": 0.4101, "step": 49090 }, { "epoch": 65.46666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002992231315204961, "loss": 0.4199, "step": 49100 }, { "epoch": 65.48, "grad_norm": 0.41796875, "learning_rate": 0.00029922281205845697, "loss": 0.4002, "step": 49110 }, { "epoch": 65.49333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002992224925309177, "loss": 0.412, "step": 49120 }, { "epoch": 65.50666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002992221729378785, "loss": 0.4097, "step": 49130 }, { "epoch": 65.52, "grad_norm": 0.29296875, "learning_rate": 0.0002992218532793394, "loss": 0.4006, "step": 49140 }, { "epoch": 65.53333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029922153355530065, "loss": 0.403, "step": 49150 }, { "epoch": 65.54666666666667, "grad_norm": 0.375, "learning_rate": 0.0002992212137657624, "loss": 0.4051, "step": 49160 }, { "epoch": 65.56, "grad_norm": 0.333984375, "learning_rate": 0.00029922089391072463, "loss": 0.4, "step": 49170 }, { "epoch": 65.57333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002992205739901877, "loss": 0.4024, "step": 49180 }, { "epoch": 65.58666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002992202540041516, "loss": 0.3919, "step": 49190 }, { "epoch": 65.6, "grad_norm": 0.333984375, "learning_rate": 0.0002992199339526165, "loss": 0.3935, "step": 49200 }, { "epoch": 65.61333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029921961383558255, "loss": 0.3817, "step": 49210 }, { "epoch": 65.62666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002992192936530499, "loss": 0.3869, "step": 49220 }, { "epoch": 65.64, "grad_norm": 0.3046875, "learning_rate": 0.0002992189734050187, "loss": 0.4015, "step": 49230 }, { "epoch": 65.65333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029921865309148906, "loss": 0.4113, "step": 49240 }, { "epoch": 65.66666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029921833271246117, "loss": 0.3964, "step": 49250 }, { "epoch": 65.68, "grad_norm": 0.373046875, "learning_rate": 0.0002992180122679351, "loss": 0.3899, "step": 49260 }, { "epoch": 65.69333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029921769175791105, "loss": 0.399, "step": 49270 }, { "epoch": 65.70666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029921737118238914, "loss": 0.392, "step": 49280 }, { "epoch": 65.72, "grad_norm": 0.390625, "learning_rate": 0.0002992170505413695, "loss": 0.4149, "step": 49290 }, { "epoch": 65.73333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029921672983485226, "loss": 0.4083, "step": 49300 }, { "epoch": 65.74666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002992164090628376, "loss": 0.4103, "step": 49310 }, { "epoch": 65.76, "grad_norm": 0.388671875, "learning_rate": 0.00029921608822532563, "loss": 0.4227, "step": 49320 }, { "epoch": 65.77333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002992157673223165, "loss": 0.4114, "step": 49330 }, { "epoch": 65.78666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029921544635381033, "loss": 0.4104, "step": 49340 }, { "epoch": 65.8, "grad_norm": 0.3828125, "learning_rate": 0.00029921512531980735, "loss": 0.4095, "step": 49350 }, { "epoch": 65.81333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002992148042203076, "loss": 0.3826, "step": 49360 }, { "epoch": 65.82666666666667, "grad_norm": 0.3203125, "learning_rate": 0.00029921448305531126, "loss": 0.3935, "step": 49370 }, { "epoch": 65.84, "grad_norm": 0.37109375, "learning_rate": 0.0002992141618248185, "loss": 0.405, "step": 49380 }, { "epoch": 65.85333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029921384052882937, "loss": 0.4005, "step": 49390 }, { "epoch": 65.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029921351916734404, "loss": 0.4038, "step": 49400 }, { "epoch": 65.88, "grad_norm": 0.33203125, "learning_rate": 0.00029921319774036276, "loss": 0.384, "step": 49410 }, { "epoch": 65.89333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029921287624788554, "loss": 0.3956, "step": 49420 }, { "epoch": 65.90666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029921255468991263, "loss": 0.4035, "step": 49430 }, { "epoch": 65.92, "grad_norm": 0.349609375, "learning_rate": 0.00029921223306644405, "loss": 0.4062, "step": 49440 }, { "epoch": 65.93333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029921191137748, "loss": 0.3987, "step": 49450 }, { "epoch": 65.94666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002992115896230207, "loss": 0.4003, "step": 49460 }, { "epoch": 65.96, "grad_norm": 0.306640625, "learning_rate": 0.00029921126780306615, "loss": 0.3973, "step": 49470 }, { "epoch": 65.97333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002992109459176166, "loss": 0.4221, "step": 49480 }, { "epoch": 65.98666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002992106239666721, "loss": 0.3978, "step": 49490 }, { "epoch": 66.0, "grad_norm": 0.291015625, "learning_rate": 0.0002992103019502329, "loss": 0.3908, "step": 49500 }, { "epoch": 66.0, "eval_loss": 0.4309389293193817, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7169, "eval_samples_per_second": 1.647, "eval_steps_per_second": 0.103, "step": 49500 }, { "epoch": 66.01333333333334, "grad_norm": 0.41015625, "learning_rate": 0.000299209979868299, "loss": 0.4097, "step": 49510 }, { "epoch": 66.02666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002992096577208707, "loss": 0.4215, "step": 49520 }, { "epoch": 66.04, "grad_norm": 0.376953125, "learning_rate": 0.00029920933550794807, "loss": 0.4333, "step": 49530 }, { "epoch": 66.05333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002992090132295312, "loss": 0.4198, "step": 49540 }, { "epoch": 66.06666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002992086908856203, "loss": 0.4066, "step": 49550 }, { "epoch": 66.08, "grad_norm": 0.376953125, "learning_rate": 0.00029920836847621544, "loss": 0.4105, "step": 49560 }, { "epoch": 66.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002992080460013169, "loss": 0.4121, "step": 49570 }, { "epoch": 66.10666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002992077234609247, "loss": 0.3993, "step": 49580 }, { "epoch": 66.12, "grad_norm": 0.36328125, "learning_rate": 0.00029920740085503895, "loss": 0.4057, "step": 49590 }, { "epoch": 66.13333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002992070781836599, "loss": 0.397, "step": 49600 }, { "epoch": 66.14666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029920675544678764, "loss": 0.4154, "step": 49610 }, { "epoch": 66.16, "grad_norm": 0.31640625, "learning_rate": 0.00029920643264442234, "loss": 0.4091, "step": 49620 }, { "epoch": 66.17333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029920610977656414, "loss": 0.4033, "step": 49630 }, { "epoch": 66.18666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002992057868432131, "loss": 0.4018, "step": 49640 }, { "epoch": 66.2, "grad_norm": 0.361328125, "learning_rate": 0.00029920546384436947, "loss": 0.3959, "step": 49650 }, { "epoch": 66.21333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029920514078003333, "loss": 0.3962, "step": 49660 }, { "epoch": 66.22666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029920481765020483, "loss": 0.408, "step": 49670 }, { "epoch": 66.24, "grad_norm": 0.345703125, "learning_rate": 0.0002992044944548841, "loss": 0.3931, "step": 49680 }, { "epoch": 66.25333333333333, "grad_norm": 0.375, "learning_rate": 0.00029920417119407136, "loss": 0.3958, "step": 49690 }, { "epoch": 66.26666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029920384786776667, "loss": 0.3976, "step": 49700 }, { "epoch": 66.28, "grad_norm": 0.326171875, "learning_rate": 0.00029920352447597014, "loss": 0.4272, "step": 49710 }, { "epoch": 66.29333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029920320101868206, "loss": 0.3832, "step": 49720 }, { "epoch": 66.30666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002992028774959024, "loss": 0.406, "step": 49730 }, { "epoch": 66.32, "grad_norm": 0.296875, "learning_rate": 0.00029920255390763144, "loss": 0.4081, "step": 49740 }, { "epoch": 66.33333333333333, "grad_norm": 0.375, "learning_rate": 0.00029920223025386923, "loss": 0.413, "step": 49750 }, { "epoch": 66.34666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029920190653461595, "loss": 0.4032, "step": 49760 }, { "epoch": 66.36, "grad_norm": 0.369140625, "learning_rate": 0.0002992015827498717, "loss": 0.4031, "step": 49770 }, { "epoch": 66.37333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002992012588996367, "loss": 0.4029, "step": 49780 }, { "epoch": 66.38666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002992009349839111, "loss": 0.3967, "step": 49790 }, { "epoch": 66.4, "grad_norm": 0.314453125, "learning_rate": 0.0002992006110026949, "loss": 0.4035, "step": 49800 }, { "epoch": 66.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002992002869559884, "loss": 0.4078, "step": 49810 }, { "epoch": 66.42666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002991999628437916, "loss": 0.4103, "step": 49820 }, { "epoch": 66.44, "grad_norm": 0.33984375, "learning_rate": 0.0002991996386661048, "loss": 0.4209, "step": 49830 }, { "epoch": 66.45333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029919931442292806, "loss": 0.4105, "step": 49840 }, { "epoch": 66.46666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002991989901142615, "loss": 0.4187, "step": 49850 }, { "epoch": 66.48, "grad_norm": 0.33203125, "learning_rate": 0.0002991986657401053, "loss": 0.4005, "step": 49860 }, { "epoch": 66.49333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029919834130045955, "loss": 0.4121, "step": 49870 }, { "epoch": 66.50666666666666, "grad_norm": 0.32421875, "learning_rate": 0.00029919801679532444, "loss": 0.408, "step": 49880 }, { "epoch": 66.52, "grad_norm": 0.326171875, "learning_rate": 0.00029919769222470016, "loss": 0.4, "step": 49890 }, { "epoch": 66.53333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029919736758858675, "loss": 0.4024, "step": 49900 }, { "epoch": 66.54666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002991970428869844, "loss": 0.4066, "step": 49910 }, { "epoch": 66.56, "grad_norm": 0.33203125, "learning_rate": 0.00029919671811989325, "loss": 0.3989, "step": 49920 }, { "epoch": 66.57333333333334, "grad_norm": 0.30078125, "learning_rate": 0.00029919639328731347, "loss": 0.4029, "step": 49930 }, { "epoch": 66.58666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029919606838924517, "loss": 0.3909, "step": 49940 }, { "epoch": 66.6, "grad_norm": 0.330078125, "learning_rate": 0.0002991957434256885, "loss": 0.3934, "step": 49950 }, { "epoch": 66.61333333333333, "grad_norm": 0.275390625, "learning_rate": 0.00029919541839664354, "loss": 0.3818, "step": 49960 }, { "epoch": 66.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002991950933021106, "loss": 0.3873, "step": 49970 }, { "epoch": 66.64, "grad_norm": 0.3359375, "learning_rate": 0.0002991947681420896, "loss": 0.4009, "step": 49980 }, { "epoch": 66.65333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002991944429165809, "loss": 0.4102, "step": 49990 }, { "epoch": 66.66666666666667, "grad_norm": 0.296875, "learning_rate": 0.00029919411762558453, "loss": 0.3967, "step": 50000 }, { "epoch": 66.68, "grad_norm": 0.345703125, "learning_rate": 0.0002991937922691006, "loss": 0.3886, "step": 50010 }, { "epoch": 66.69333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0002991934668471294, "loss": 0.3981, "step": 50020 }, { "epoch": 66.70666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029919314135967083, "loss": 0.3923, "step": 50030 }, { "epoch": 66.72, "grad_norm": 0.33984375, "learning_rate": 0.0002991928158067252, "loss": 0.4143, "step": 50040 }, { "epoch": 66.73333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002991924901882927, "loss": 0.4078, "step": 50050 }, { "epoch": 66.74666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002991921645043734, "loss": 0.4098, "step": 50060 }, { "epoch": 66.76, "grad_norm": 0.390625, "learning_rate": 0.0002991918387549674, "loss": 0.4231, "step": 50070 }, { "epoch": 66.77333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002991915129400749, "loss": 0.4096, "step": 50080 }, { "epoch": 66.78666666666666, "grad_norm": 0.287109375, "learning_rate": 0.000299191187059696, "loss": 0.4101, "step": 50090 }, { "epoch": 66.8, "grad_norm": 0.34375, "learning_rate": 0.0002991908611138309, "loss": 0.4099, "step": 50100 }, { "epoch": 66.81333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002991905351024797, "loss": 0.383, "step": 50110 }, { "epoch": 66.82666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029919020902564257, "loss": 0.3936, "step": 50120 }, { "epoch": 66.84, "grad_norm": 0.390625, "learning_rate": 0.0002991898828833197, "loss": 0.4047, "step": 50130 }, { "epoch": 66.85333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002991895566755111, "loss": 0.4003, "step": 50140 }, { "epoch": 66.86666666666666, "grad_norm": 0.37890625, "learning_rate": 0.000299189230402217, "loss": 0.4039, "step": 50150 }, { "epoch": 66.88, "grad_norm": 0.373046875, "learning_rate": 0.00029918890406343754, "loss": 0.3847, "step": 50160 }, { "epoch": 66.89333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029918857765917286, "loss": 0.3951, "step": 50170 }, { "epoch": 66.90666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002991882511894231, "loss": 0.4026, "step": 50180 }, { "epoch": 66.92, "grad_norm": 0.34765625, "learning_rate": 0.00029918792465418836, "loss": 0.4054, "step": 50190 }, { "epoch": 66.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029918759805346886, "loss": 0.3977, "step": 50200 }, { "epoch": 66.94666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002991872713872647, "loss": 0.3994, "step": 50210 }, { "epoch": 66.96, "grad_norm": 0.328125, "learning_rate": 0.00029918694465557604, "loss": 0.3963, "step": 50220 }, { "epoch": 66.97333333333333, "grad_norm": 0.416015625, "learning_rate": 0.000299186617858403, "loss": 0.4232, "step": 50230 }, { "epoch": 66.98666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029918629099574573, "loss": 0.3969, "step": 50240 }, { "epoch": 67.0, "grad_norm": 0.328125, "learning_rate": 0.00029918596406760444, "loss": 0.391, "step": 50250 }, { "epoch": 67.0, "eval_loss": 0.43170082569122314, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0939, "eval_samples_per_second": 1.585, "eval_steps_per_second": 0.099, "step": 50250 }, { "epoch": 67.01333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002991856370739791, "loss": 0.4089, "step": 50260 }, { "epoch": 67.02666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029918531001487005, "loss": 0.4212, "step": 50270 }, { "epoch": 67.04, "grad_norm": 0.30859375, "learning_rate": 0.00029918498289027733, "loss": 0.4333, "step": 50280 }, { "epoch": 67.05333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029918465570020114, "loss": 0.4198, "step": 50290 }, { "epoch": 67.06666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002991843284446416, "loss": 0.4061, "step": 50300 }, { "epoch": 67.08, "grad_norm": 0.3359375, "learning_rate": 0.00029918400112359875, "loss": 0.4102, "step": 50310 }, { "epoch": 67.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002991836737370729, "loss": 0.4112, "step": 50320 }, { "epoch": 67.10666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0002991833462850641, "loss": 0.3994, "step": 50330 }, { "epoch": 67.12, "grad_norm": 0.37890625, "learning_rate": 0.0002991830187675725, "loss": 0.4049, "step": 50340 }, { "epoch": 67.13333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002991826911845983, "loss": 0.396, "step": 50350 }, { "epoch": 67.14666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002991823635361416, "loss": 0.4142, "step": 50360 }, { "epoch": 67.16, "grad_norm": 0.31640625, "learning_rate": 0.0002991820358222025, "loss": 0.4084, "step": 50370 }, { "epoch": 67.17333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029918170804278123, "loss": 0.4029, "step": 50380 }, { "epoch": 67.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002991813801978778, "loss": 0.4007, "step": 50390 }, { "epoch": 67.2, "grad_norm": 0.322265625, "learning_rate": 0.0002991810522874926, "loss": 0.3946, "step": 50400 }, { "epoch": 67.21333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029918072431162556, "loss": 0.3957, "step": 50410 }, { "epoch": 67.22666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029918039627027687, "loss": 0.4078, "step": 50420 }, { "epoch": 67.24, "grad_norm": 0.365234375, "learning_rate": 0.00029918006816344664, "loss": 0.3923, "step": 50430 }, { "epoch": 67.25333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002991797399911351, "loss": 0.3951, "step": 50440 }, { "epoch": 67.26666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029917941175334236, "loss": 0.3966, "step": 50450 }, { "epoch": 67.28, "grad_norm": 0.328125, "learning_rate": 0.0002991790834500686, "loss": 0.4267, "step": 50460 }, { "epoch": 67.29333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029917875508131387, "loss": 0.3833, "step": 50470 }, { "epoch": 67.30666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002991784266470784, "loss": 0.4068, "step": 50480 }, { "epoch": 67.32, "grad_norm": 0.37890625, "learning_rate": 0.0002991780981473623, "loss": 0.4072, "step": 50490 }, { "epoch": 67.33333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002991777695821657, "loss": 0.4125, "step": 50500 }, { "epoch": 67.34666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002991774409514888, "loss": 0.4033, "step": 50510 }, { "epoch": 67.36, "grad_norm": 0.3515625, "learning_rate": 0.00029917711225533163, "loss": 0.4039, "step": 50520 }, { "epoch": 67.37333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002991767834936945, "loss": 0.4032, "step": 50530 }, { "epoch": 67.38666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002991764546665774, "loss": 0.396, "step": 50540 }, { "epoch": 67.4, "grad_norm": 0.3203125, "learning_rate": 0.00029917612577398054, "loss": 0.4035, "step": 50550 }, { "epoch": 67.41333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002991757968159041, "loss": 0.4086, "step": 50560 }, { "epoch": 67.42666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029917546779234815, "loss": 0.4094, "step": 50570 }, { "epoch": 67.44, "grad_norm": 0.3046875, "learning_rate": 0.00029917513870331294, "loss": 0.42, "step": 50580 }, { "epoch": 67.45333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029917480954879847, "loss": 0.4091, "step": 50590 }, { "epoch": 67.46666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029917448032880503, "loss": 0.4182, "step": 50600 }, { "epoch": 67.48, "grad_norm": 0.337890625, "learning_rate": 0.00029917415104333266, "loss": 0.4005, "step": 50610 }, { "epoch": 67.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029917382169238147, "loss": 0.4115, "step": 50620 }, { "epoch": 67.50666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029917349227595174, "loss": 0.4092, "step": 50630 }, { "epoch": 67.52, "grad_norm": 0.318359375, "learning_rate": 0.0002991731627940436, "loss": 0.3999, "step": 50640 }, { "epoch": 67.53333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029917283324665706, "loss": 0.4034, "step": 50650 }, { "epoch": 67.54666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029917250363379244, "loss": 0.4051, "step": 50660 }, { "epoch": 67.56, "grad_norm": 0.29296875, "learning_rate": 0.0002991721739554497, "loss": 0.3985, "step": 50670 }, { "epoch": 67.57333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002991718442116291, "loss": 0.4021, "step": 50680 }, { "epoch": 67.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029917151440233083, "loss": 0.3905, "step": 50690 }, { "epoch": 67.6, "grad_norm": 0.357421875, "learning_rate": 0.0002991711845275549, "loss": 0.3927, "step": 50700 }, { "epoch": 67.61333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002991708545873015, "loss": 0.3819, "step": 50710 }, { "epoch": 67.62666666666667, "grad_norm": 0.2734375, "learning_rate": 0.00029917052458157086, "loss": 0.3883, "step": 50720 }, { "epoch": 67.64, "grad_norm": 0.34765625, "learning_rate": 0.000299170194510363, "loss": 0.4008, "step": 50730 }, { "epoch": 67.65333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029916986437367816, "loss": 0.4104, "step": 50740 }, { "epoch": 67.66666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002991695341715165, "loss": 0.397, "step": 50750 }, { "epoch": 67.68, "grad_norm": 0.35546875, "learning_rate": 0.00029916920390387806, "loss": 0.3892, "step": 50760 }, { "epoch": 67.69333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029916887357076303, "loss": 0.3976, "step": 50770 }, { "epoch": 67.70666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029916854317217157, "loss": 0.3918, "step": 50780 }, { "epoch": 67.72, "grad_norm": 0.337890625, "learning_rate": 0.00029916821270810384, "loss": 0.4136, "step": 50790 }, { "epoch": 67.73333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029916788217856, "loss": 0.4071, "step": 50800 }, { "epoch": 67.74666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002991675515835401, "loss": 0.4102, "step": 50810 }, { "epoch": 67.76, "grad_norm": 0.357421875, "learning_rate": 0.0002991672209230444, "loss": 0.4223, "step": 50820 }, { "epoch": 67.77333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029916689019707297, "loss": 0.4095, "step": 50830 }, { "epoch": 67.78666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029916655940562595, "loss": 0.4103, "step": 50840 }, { "epoch": 67.8, "grad_norm": 0.353515625, "learning_rate": 0.0002991662285487035, "loss": 0.4096, "step": 50850 }, { "epoch": 67.81333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029916589762630586, "loss": 0.3822, "step": 50860 }, { "epoch": 67.82666666666667, "grad_norm": 0.345703125, "learning_rate": 0.000299165566638433, "loss": 0.3926, "step": 50870 }, { "epoch": 67.84, "grad_norm": 0.35546875, "learning_rate": 0.00029916523558508524, "loss": 0.4037, "step": 50880 }, { "epoch": 67.85333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029916490446626256, "loss": 0.3991, "step": 50890 }, { "epoch": 67.86666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029916457328196523, "loss": 0.4042, "step": 50900 }, { "epoch": 67.88, "grad_norm": 0.31640625, "learning_rate": 0.00029916424203219337, "loss": 0.3841, "step": 50910 }, { "epoch": 67.89333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029916391071694714, "loss": 0.395, "step": 50920 }, { "epoch": 67.90666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029916357933622664, "loss": 0.4022, "step": 50930 }, { "epoch": 67.92, "grad_norm": 0.341796875, "learning_rate": 0.000299163247890032, "loss": 0.4044, "step": 50940 }, { "epoch": 67.93333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002991629163783634, "loss": 0.3972, "step": 50950 }, { "epoch": 67.94666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002991625848012209, "loss": 0.3993, "step": 50960 }, { "epoch": 67.96, "grad_norm": 0.345703125, "learning_rate": 0.00029916225315860487, "loss": 0.3978, "step": 50970 }, { "epoch": 67.97333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002991619214505152, "loss": 0.4215, "step": 50980 }, { "epoch": 67.98666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002991615896769522, "loss": 0.3977, "step": 50990 }, { "epoch": 68.0, "grad_norm": 0.365234375, "learning_rate": 0.000299161257837916, "loss": 0.3906, "step": 51000 }, { "epoch": 68.0, "eval_loss": 0.4319671094417572, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8906, "eval_samples_per_second": 1.618, "eval_steps_per_second": 0.101, "step": 51000 }, { "epoch": 68.01333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002991609259334067, "loss": 0.4081, "step": 51010 }, { "epoch": 68.02666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029916059396342437, "loss": 0.4215, "step": 51020 }, { "epoch": 68.04, "grad_norm": 0.33203125, "learning_rate": 0.0002991602619279693, "loss": 0.4312, "step": 51030 }, { "epoch": 68.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002991599298270416, "loss": 0.419, "step": 51040 }, { "epoch": 68.06666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029915959766064137, "loss": 0.4067, "step": 51050 }, { "epoch": 68.08, "grad_norm": 0.3125, "learning_rate": 0.00029915926542876877, "loss": 0.4102, "step": 51060 }, { "epoch": 68.09333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029915893313142396, "loss": 0.4108, "step": 51070 }, { "epoch": 68.10666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029915860076860706, "loss": 0.399, "step": 51080 }, { "epoch": 68.12, "grad_norm": 0.3515625, "learning_rate": 0.0002991582683403183, "loss": 0.4039, "step": 51090 }, { "epoch": 68.13333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002991579358465577, "loss": 0.3958, "step": 51100 }, { "epoch": 68.14666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029915760328732546, "loss": 0.4146, "step": 51110 }, { "epoch": 68.16, "grad_norm": 0.376953125, "learning_rate": 0.00029915727066262175, "loss": 0.4076, "step": 51120 }, { "epoch": 68.17333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002991569379724467, "loss": 0.4017, "step": 51130 }, { "epoch": 68.18666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029915660521680047, "loss": 0.4017, "step": 51140 }, { "epoch": 68.2, "grad_norm": 0.36328125, "learning_rate": 0.0002991562723956832, "loss": 0.3949, "step": 51150 }, { "epoch": 68.21333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029915593950909504, "loss": 0.395, "step": 51160 }, { "epoch": 68.22666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029915560655703605, "loss": 0.4071, "step": 51170 }, { "epoch": 68.24, "grad_norm": 0.421875, "learning_rate": 0.0002991552735395065, "loss": 0.391, "step": 51180 }, { "epoch": 68.25333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002991549404565065, "loss": 0.3948, "step": 51190 }, { "epoch": 68.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029915460730803615, "loss": 0.3969, "step": 51200 }, { "epoch": 68.28, "grad_norm": 0.4140625, "learning_rate": 0.00029915427409409566, "loss": 0.4266, "step": 51210 }, { "epoch": 68.29333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029915394081468514, "loss": 0.3816, "step": 51220 }, { "epoch": 68.30666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002991536074698047, "loss": 0.4056, "step": 51230 }, { "epoch": 68.32, "grad_norm": 0.30859375, "learning_rate": 0.0002991532740594546, "loss": 0.4073, "step": 51240 }, { "epoch": 68.33333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002991529405836348, "loss": 0.4113, "step": 51250 }, { "epoch": 68.34666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029915260704234566, "loss": 0.4015, "step": 51260 }, { "epoch": 68.36, "grad_norm": 0.44921875, "learning_rate": 0.00029915227343558717, "loss": 0.4021, "step": 51270 }, { "epoch": 68.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002991519397633596, "loss": 0.4031, "step": 51280 }, { "epoch": 68.38666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029915160602566297, "loss": 0.3962, "step": 51290 }, { "epoch": 68.4, "grad_norm": 0.333984375, "learning_rate": 0.00029915127222249747, "loss": 0.4032, "step": 51300 }, { "epoch": 68.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002991509383538633, "loss": 0.4069, "step": 51310 }, { "epoch": 68.42666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002991506044197606, "loss": 0.4103, "step": 51320 }, { "epoch": 68.44, "grad_norm": 0.36328125, "learning_rate": 0.0002991502704201894, "loss": 0.4203, "step": 51330 }, { "epoch": 68.45333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029914993635515, "loss": 0.4091, "step": 51340 }, { "epoch": 68.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029914960222464246, "loss": 0.4187, "step": 51350 }, { "epoch": 68.48, "grad_norm": 0.3515625, "learning_rate": 0.00029914926802866693, "loss": 0.3997, "step": 51360 }, { "epoch": 68.49333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002991489337672236, "loss": 0.4109, "step": 51370 }, { "epoch": 68.50666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029914859944031255, "loss": 0.4082, "step": 51380 }, { "epoch": 68.52, "grad_norm": 0.30078125, "learning_rate": 0.00029914826504793407, "loss": 0.4, "step": 51390 }, { "epoch": 68.53333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002991479305900881, "loss": 0.4022, "step": 51400 }, { "epoch": 68.54666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002991475960667749, "loss": 0.4048, "step": 51410 }, { "epoch": 68.56, "grad_norm": 0.306640625, "learning_rate": 0.0002991472614779946, "loss": 0.399, "step": 51420 }, { "epoch": 68.57333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002991469268237474, "loss": 0.4019, "step": 51430 }, { "epoch": 68.58666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029914659210403336, "loss": 0.3903, "step": 51440 }, { "epoch": 68.6, "grad_norm": 0.32421875, "learning_rate": 0.0002991462573188527, "loss": 0.3931, "step": 51450 }, { "epoch": 68.61333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0002991459224682055, "loss": 0.3816, "step": 51460 }, { "epoch": 68.62666666666667, "grad_norm": 0.32421875, "learning_rate": 0.000299145587552092, "loss": 0.3866, "step": 51470 }, { "epoch": 68.64, "grad_norm": 0.3046875, "learning_rate": 0.0002991452525705122, "loss": 0.3996, "step": 51480 }, { "epoch": 68.65333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002991449175234664, "loss": 0.4103, "step": 51490 }, { "epoch": 68.66666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029914458241095464, "loss": 0.395, "step": 51500 }, { "epoch": 68.68, "grad_norm": 0.35546875, "learning_rate": 0.00029914424723297714, "loss": 0.3896, "step": 51510 }, { "epoch": 68.69333333333333, "grad_norm": 0.3203125, "learning_rate": 0.000299143911989534, "loss": 0.3972, "step": 51520 }, { "epoch": 68.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029914357668062543, "loss": 0.3904, "step": 51530 }, { "epoch": 68.72, "grad_norm": 0.37109375, "learning_rate": 0.0002991432413062515, "loss": 0.4132, "step": 51540 }, { "epoch": 68.73333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029914290586641233, "loss": 0.4078, "step": 51550 }, { "epoch": 68.74666666666667, "grad_norm": 0.375, "learning_rate": 0.00029914257036110813, "loss": 0.4097, "step": 51560 }, { "epoch": 68.76, "grad_norm": 0.380859375, "learning_rate": 0.0002991422347903391, "loss": 0.4229, "step": 51570 }, { "epoch": 68.77333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029914189915410534, "loss": 0.4108, "step": 51580 }, { "epoch": 68.78666666666666, "grad_norm": 0.2890625, "learning_rate": 0.00029914156345240697, "loss": 0.4093, "step": 51590 }, { "epoch": 68.8, "grad_norm": 0.328125, "learning_rate": 0.00029914122768524414, "loss": 0.4083, "step": 51600 }, { "epoch": 68.81333333333333, "grad_norm": 0.375, "learning_rate": 0.00029914089185261697, "loss": 0.382, "step": 51610 }, { "epoch": 68.82666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029914055595452573, "loss": 0.3926, "step": 51620 }, { "epoch": 68.84, "grad_norm": 0.35546875, "learning_rate": 0.00029914021999097047, "loss": 0.4044, "step": 51630 }, { "epoch": 68.85333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002991398839619513, "loss": 0.4, "step": 51640 }, { "epoch": 68.86666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029913954786746843, "loss": 0.4033, "step": 51650 }, { "epoch": 68.88, "grad_norm": 0.33203125, "learning_rate": 0.00029913921170752203, "loss": 0.3834, "step": 51660 }, { "epoch": 68.89333333333333, "grad_norm": 0.375, "learning_rate": 0.0002991388754821122, "loss": 0.3943, "step": 51670 }, { "epoch": 68.90666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029913853919123914, "loss": 0.4019, "step": 51680 }, { "epoch": 68.92, "grad_norm": 0.3046875, "learning_rate": 0.0002991382028349029, "loss": 0.4043, "step": 51690 }, { "epoch": 68.93333333333334, "grad_norm": 0.296875, "learning_rate": 0.0002991378664131038, "loss": 0.3972, "step": 51700 }, { "epoch": 68.94666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029913752992584175, "loss": 0.3991, "step": 51710 }, { "epoch": 68.96, "grad_norm": 0.357421875, "learning_rate": 0.0002991371933731171, "loss": 0.3968, "step": 51720 }, { "epoch": 68.97333333333333, "grad_norm": 0.44140625, "learning_rate": 0.0002991368567549299, "loss": 0.4219, "step": 51730 }, { "epoch": 68.98666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002991365200712803, "loss": 0.3973, "step": 51740 }, { "epoch": 69.0, "grad_norm": 0.326171875, "learning_rate": 0.0002991361833221685, "loss": 0.3893, "step": 51750 }, { "epoch": 69.0, "eval_loss": 0.4300023913383484, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1154, "eval_samples_per_second": 1.582, "eval_steps_per_second": 0.099, "step": 51750 }, { "epoch": 69.01333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002991358465075946, "loss": 0.4085, "step": 51760 }, { "epoch": 69.02666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029913550962755876, "loss": 0.4208, "step": 51770 }, { "epoch": 69.04, "grad_norm": 0.33984375, "learning_rate": 0.00029913517268206116, "loss": 0.4326, "step": 51780 }, { "epoch": 69.05333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029913483567110187, "loss": 0.4182, "step": 51790 }, { "epoch": 69.06666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002991344985946811, "loss": 0.4067, "step": 51800 }, { "epoch": 69.08, "grad_norm": 0.37890625, "learning_rate": 0.00029913416145279905, "loss": 0.4108, "step": 51810 }, { "epoch": 69.09333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002991338242454557, "loss": 0.4114, "step": 51820 }, { "epoch": 69.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029913348697265137, "loss": 0.3988, "step": 51830 }, { "epoch": 69.12, "grad_norm": 0.34765625, "learning_rate": 0.0002991331496343861, "loss": 0.4049, "step": 51840 }, { "epoch": 69.13333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029913281223066014, "loss": 0.3954, "step": 51850 }, { "epoch": 69.14666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002991324747614735, "loss": 0.4144, "step": 51860 }, { "epoch": 69.16, "grad_norm": 0.328125, "learning_rate": 0.00029913213722682644, "loss": 0.4078, "step": 51870 }, { "epoch": 69.17333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029913179962671907, "loss": 0.4017, "step": 51880 }, { "epoch": 69.18666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002991314619611515, "loss": 0.401, "step": 51890 }, { "epoch": 69.2, "grad_norm": 0.384765625, "learning_rate": 0.000299131124230124, "loss": 0.3951, "step": 51900 }, { "epoch": 69.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002991307864336366, "loss": 0.3953, "step": 51910 }, { "epoch": 69.22666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029913044857168944, "loss": 0.4059, "step": 51920 }, { "epoch": 69.24, "grad_norm": 0.376953125, "learning_rate": 0.0002991301106442828, "loss": 0.392, "step": 51930 }, { "epoch": 69.25333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002991297726514166, "loss": 0.3943, "step": 51940 }, { "epoch": 69.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029912943459309125, "loss": 0.3961, "step": 51950 }, { "epoch": 69.28, "grad_norm": 0.361328125, "learning_rate": 0.00029912909646930675, "loss": 0.4264, "step": 51960 }, { "epoch": 69.29333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002991287582800633, "loss": 0.3827, "step": 51970 }, { "epoch": 69.30666666666667, "grad_norm": 0.310546875, "learning_rate": 0.000299128420025361, "loss": 0.4048, "step": 51980 }, { "epoch": 69.32, "grad_norm": 0.357421875, "learning_rate": 0.0002991280817052, "loss": 0.4076, "step": 51990 }, { "epoch": 69.33333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002991277433195805, "loss": 0.4129, "step": 52000 }, { "epoch": 69.34666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029912740486850265, "loss": 0.4022, "step": 52010 }, { "epoch": 69.36, "grad_norm": 0.390625, "learning_rate": 0.0002991270663519665, "loss": 0.4024, "step": 52020 }, { "epoch": 69.37333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002991267277699723, "loss": 0.4034, "step": 52030 }, { "epoch": 69.38666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029912638912252016, "loss": 0.3955, "step": 52040 }, { "epoch": 69.4, "grad_norm": 0.31640625, "learning_rate": 0.0002991260504096103, "loss": 0.4026, "step": 52050 }, { "epoch": 69.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002991257116312427, "loss": 0.4073, "step": 52060 }, { "epoch": 69.42666666666666, "grad_norm": 0.3203125, "learning_rate": 0.00029912537278741765, "loss": 0.4095, "step": 52070 }, { "epoch": 69.44, "grad_norm": 0.341796875, "learning_rate": 0.0002991250338781353, "loss": 0.4198, "step": 52080 }, { "epoch": 69.45333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029912469490339574, "loss": 0.4091, "step": 52090 }, { "epoch": 69.46666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029912435586319905, "loss": 0.418, "step": 52100 }, { "epoch": 69.48, "grad_norm": 0.35546875, "learning_rate": 0.0002991240167575456, "loss": 0.3986, "step": 52110 }, { "epoch": 69.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002991236775864353, "loss": 0.4113, "step": 52120 }, { "epoch": 69.50666666666666, "grad_norm": 0.32421875, "learning_rate": 0.00029912333834986846, "loss": 0.4083, "step": 52130 }, { "epoch": 69.52, "grad_norm": 0.29296875, "learning_rate": 0.0002991229990478452, "loss": 0.3989, "step": 52140 }, { "epoch": 69.53333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002991226596803656, "loss": 0.4024, "step": 52150 }, { "epoch": 69.54666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029912232024742984, "loss": 0.4045, "step": 52160 }, { "epoch": 69.56, "grad_norm": 0.30078125, "learning_rate": 0.00029912198074903815, "loss": 0.3985, "step": 52170 }, { "epoch": 69.57333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029912164118519057, "loss": 0.4024, "step": 52180 }, { "epoch": 69.58666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029912130155588726, "loss": 0.3907, "step": 52190 }, { "epoch": 69.6, "grad_norm": 0.318359375, "learning_rate": 0.0002991209618611284, "loss": 0.3926, "step": 52200 }, { "epoch": 69.61333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0002991206221009142, "loss": 0.3814, "step": 52210 }, { "epoch": 69.62666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0002991202822752446, "loss": 0.3873, "step": 52220 }, { "epoch": 69.64, "grad_norm": 0.369140625, "learning_rate": 0.00029911994238412005, "loss": 0.3993, "step": 52230 }, { "epoch": 69.65333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002991196024275405, "loss": 0.4097, "step": 52240 }, { "epoch": 69.66666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002991192624055061, "loss": 0.3958, "step": 52250 }, { "epoch": 69.68, "grad_norm": 0.35546875, "learning_rate": 0.0002991189223180171, "loss": 0.3878, "step": 52260 }, { "epoch": 69.69333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002991185821650736, "loss": 0.3976, "step": 52270 }, { "epoch": 69.70666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002991182419466757, "loss": 0.3908, "step": 52280 }, { "epoch": 69.72, "grad_norm": 0.345703125, "learning_rate": 0.00029911790166282356, "loss": 0.4133, "step": 52290 }, { "epoch": 69.73333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002991175613135174, "loss": 0.4077, "step": 52300 }, { "epoch": 69.74666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002991172208987574, "loss": 0.4094, "step": 52310 }, { "epoch": 69.76, "grad_norm": 0.3828125, "learning_rate": 0.00029911688041854356, "loss": 0.4228, "step": 52320 }, { "epoch": 69.77333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002991165398728761, "loss": 0.4093, "step": 52330 }, { "epoch": 69.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002991161992617552, "loss": 0.4092, "step": 52340 }, { "epoch": 69.8, "grad_norm": 0.33984375, "learning_rate": 0.000299115858585181, "loss": 0.4085, "step": 52350 }, { "epoch": 69.81333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002991155178431536, "loss": 0.3822, "step": 52360 }, { "epoch": 69.82666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002991151770356732, "loss": 0.3919, "step": 52370 }, { "epoch": 69.84, "grad_norm": 0.42578125, "learning_rate": 0.00029911483616273997, "loss": 0.4043, "step": 52380 }, { "epoch": 69.85333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029911449522435405, "loss": 0.3993, "step": 52390 }, { "epoch": 69.86666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029911415422051544, "loss": 0.403, "step": 52400 }, { "epoch": 69.88, "grad_norm": 0.33984375, "learning_rate": 0.0002991138131512245, "loss": 0.3838, "step": 52410 }, { "epoch": 69.89333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029911347201648134, "loss": 0.3948, "step": 52420 }, { "epoch": 69.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029911313081628597, "loss": 0.4015, "step": 52430 }, { "epoch": 69.92, "grad_norm": 0.375, "learning_rate": 0.0002991127895506387, "loss": 0.4045, "step": 52440 }, { "epoch": 69.93333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002991124482195396, "loss": 0.3978, "step": 52450 }, { "epoch": 69.94666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002991121068229888, "loss": 0.399, "step": 52460 }, { "epoch": 69.96, "grad_norm": 0.35546875, "learning_rate": 0.0002991117653609865, "loss": 0.3963, "step": 52470 }, { "epoch": 69.97333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029911142383353285, "loss": 0.4217, "step": 52480 }, { "epoch": 69.98666666666666, "grad_norm": 0.357421875, "learning_rate": 0.000299111082240628, "loss": 0.3965, "step": 52490 }, { "epoch": 70.0, "grad_norm": 0.36328125, "learning_rate": 0.00029911074058227205, "loss": 0.3895, "step": 52500 }, { "epoch": 70.0, "eval_loss": 0.4303988814353943, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6292, "eval_samples_per_second": 1.662, "eval_steps_per_second": 0.104, "step": 52500 }, { "epoch": 70.01333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029911039885846514, "loss": 0.4083, "step": 52510 }, { "epoch": 70.02666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029911005706920754, "loss": 0.4206, "step": 52520 }, { "epoch": 70.04, "grad_norm": 0.328125, "learning_rate": 0.00029910971521449926, "loss": 0.4329, "step": 52530 }, { "epoch": 70.05333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002991093732943406, "loss": 0.4193, "step": 52540 }, { "epoch": 70.06666666666666, "grad_norm": 0.375, "learning_rate": 0.0002991090313087315, "loss": 0.4066, "step": 52550 }, { "epoch": 70.08, "grad_norm": 0.3359375, "learning_rate": 0.0002991086892576724, "loss": 0.4103, "step": 52560 }, { "epoch": 70.09333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002991083471411631, "loss": 0.4108, "step": 52570 }, { "epoch": 70.10666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029910800495920413, "loss": 0.3987, "step": 52580 }, { "epoch": 70.12, "grad_norm": 0.359375, "learning_rate": 0.0002991076627117953, "loss": 0.4047, "step": 52590 }, { "epoch": 70.13333333333334, "grad_norm": 0.34765625, "learning_rate": 0.000299107320398937, "loss": 0.3949, "step": 52600 }, { "epoch": 70.14666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002991069780206292, "loss": 0.4137, "step": 52610 }, { "epoch": 70.16, "grad_norm": 0.330078125, "learning_rate": 0.00029910663557687216, "loss": 0.4073, "step": 52620 }, { "epoch": 70.17333333333333, "grad_norm": 0.34375, "learning_rate": 0.000299106293067666, "loss": 0.4011, "step": 52630 }, { "epoch": 70.18666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002991059504930109, "loss": 0.4013, "step": 52640 }, { "epoch": 70.2, "grad_norm": 0.38671875, "learning_rate": 0.00029910560785290693, "loss": 0.3937, "step": 52650 }, { "epoch": 70.21333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029910526514735435, "loss": 0.3955, "step": 52660 }, { "epoch": 70.22666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029910492237635326, "loss": 0.407, "step": 52670 }, { "epoch": 70.24, "grad_norm": 0.353515625, "learning_rate": 0.0002991045795399038, "loss": 0.3913, "step": 52680 }, { "epoch": 70.25333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002991042366380061, "loss": 0.3937, "step": 52690 }, { "epoch": 70.26666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029910389367066037, "loss": 0.3959, "step": 52700 }, { "epoch": 70.28, "grad_norm": 0.345703125, "learning_rate": 0.00029910355063786674, "loss": 0.4267, "step": 52710 }, { "epoch": 70.29333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002991032075396253, "loss": 0.3819, "step": 52720 }, { "epoch": 70.30666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029910286437593626, "loss": 0.4056, "step": 52730 }, { "epoch": 70.32, "grad_norm": 0.349609375, "learning_rate": 0.0002991025211467998, "loss": 0.4071, "step": 52740 }, { "epoch": 70.33333333333333, "grad_norm": 0.337890625, "learning_rate": 0.000299102177852216, "loss": 0.4112, "step": 52750 }, { "epoch": 70.34666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029910183449218506, "loss": 0.4018, "step": 52760 }, { "epoch": 70.36, "grad_norm": 0.3828125, "learning_rate": 0.0002991014910667071, "loss": 0.4033, "step": 52770 }, { "epoch": 70.37333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002991011475757823, "loss": 0.4031, "step": 52780 }, { "epoch": 70.38666666666667, "grad_norm": 0.4296875, "learning_rate": 0.0002991008040194108, "loss": 0.3957, "step": 52790 }, { "epoch": 70.4, "grad_norm": 0.384765625, "learning_rate": 0.0002991004603975927, "loss": 0.4024, "step": 52800 }, { "epoch": 70.41333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002991001167103282, "loss": 0.4062, "step": 52810 }, { "epoch": 70.42666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002990997729576175, "loss": 0.4081, "step": 52820 }, { "epoch": 70.44, "grad_norm": 0.328125, "learning_rate": 0.00029909942913946067, "loss": 0.4195, "step": 52830 }, { "epoch": 70.45333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002990990852558579, "loss": 0.4097, "step": 52840 }, { "epoch": 70.46666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002990987413068093, "loss": 0.4182, "step": 52850 }, { "epoch": 70.48, "grad_norm": 0.322265625, "learning_rate": 0.00029909839729231507, "loss": 0.3992, "step": 52860 }, { "epoch": 70.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029909805321237534, "loss": 0.411, "step": 52870 }, { "epoch": 70.50666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029909770906699025, "loss": 0.4083, "step": 52880 }, { "epoch": 70.52, "grad_norm": 0.3125, "learning_rate": 0.00029909736485615995, "loss": 0.3987, "step": 52890 }, { "epoch": 70.53333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029909702057988465, "loss": 0.4027, "step": 52900 }, { "epoch": 70.54666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002990966762381644, "loss": 0.4048, "step": 52910 }, { "epoch": 70.56, "grad_norm": 0.33984375, "learning_rate": 0.00029909633183099947, "loss": 0.3983, "step": 52920 }, { "epoch": 70.57333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029909598735838996, "loss": 0.4021, "step": 52930 }, { "epoch": 70.58666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029909564282033595, "loss": 0.3892, "step": 52940 }, { "epoch": 70.6, "grad_norm": 0.341796875, "learning_rate": 0.00029909529821683765, "loss": 0.3922, "step": 52950 }, { "epoch": 70.61333333333333, "grad_norm": 0.306640625, "learning_rate": 0.00029909495354789523, "loss": 0.3809, "step": 52960 }, { "epoch": 70.62666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029909460881350885, "loss": 0.3852, "step": 52970 }, { "epoch": 70.64, "grad_norm": 0.341796875, "learning_rate": 0.00029909426401367856, "loss": 0.4006, "step": 52980 }, { "epoch": 70.65333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0002990939191484047, "loss": 0.4087, "step": 52990 }, { "epoch": 70.66666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029909357421768724, "loss": 0.3956, "step": 53000 }, { "epoch": 70.68, "grad_norm": 0.337890625, "learning_rate": 0.00029909322922152637, "loss": 0.3884, "step": 53010 }, { "epoch": 70.69333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002990928841599223, "loss": 0.3981, "step": 53020 }, { "epoch": 70.70666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002990925390328752, "loss": 0.3911, "step": 53030 }, { "epoch": 70.72, "grad_norm": 0.359375, "learning_rate": 0.0002990921938403851, "loss": 0.4142, "step": 53040 }, { "epoch": 70.73333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002990918485824522, "loss": 0.4069, "step": 53050 }, { "epoch": 70.74666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029909150325907675, "loss": 0.4079, "step": 53060 }, { "epoch": 70.76, "grad_norm": 0.404296875, "learning_rate": 0.00029909115787025883, "loss": 0.4212, "step": 53070 }, { "epoch": 70.77333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002990908124159985, "loss": 0.409, "step": 53080 }, { "epoch": 70.78666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002990904668962961, "loss": 0.409, "step": 53090 }, { "epoch": 70.8, "grad_norm": 0.365234375, "learning_rate": 0.0002990901213111516, "loss": 0.4082, "step": 53100 }, { "epoch": 70.81333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002990897756605653, "loss": 0.3819, "step": 53110 }, { "epoch": 70.82666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029908942994453727, "loss": 0.3922, "step": 53120 }, { "epoch": 70.84, "grad_norm": 0.4140625, "learning_rate": 0.0002990890841630676, "loss": 0.404, "step": 53130 }, { "epoch": 70.85333333333334, "grad_norm": 0.375, "learning_rate": 0.00029908873831615667, "loss": 0.3991, "step": 53140 }, { "epoch": 70.86666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029908839240380436, "loss": 0.403, "step": 53150 }, { "epoch": 70.88, "grad_norm": 0.380859375, "learning_rate": 0.000299088046426011, "loss": 0.3827, "step": 53160 }, { "epoch": 70.89333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002990877003827767, "loss": 0.3945, "step": 53170 }, { "epoch": 70.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029908735427410156, "loss": 0.4017, "step": 53180 }, { "epoch": 70.92, "grad_norm": 0.35546875, "learning_rate": 0.00029908700809998576, "loss": 0.4046, "step": 53190 }, { "epoch": 70.93333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029908666186042953, "loss": 0.3973, "step": 53200 }, { "epoch": 70.94666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029908631555543286, "loss": 0.3983, "step": 53210 }, { "epoch": 70.96, "grad_norm": 0.318359375, "learning_rate": 0.000299085969184996, "loss": 0.3958, "step": 53220 }, { "epoch": 70.97333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002990856227491192, "loss": 0.4213, "step": 53230 }, { "epoch": 70.98666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002990852762478024, "loss": 0.3964, "step": 53240 }, { "epoch": 71.0, "grad_norm": 0.34765625, "learning_rate": 0.00029908492968104593, "loss": 0.3895, "step": 53250 }, { "epoch": 71.0, "eval_loss": 0.43028220534324646, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.89, "eval_samples_per_second": 1.618, "eval_steps_per_second": 0.101, "step": 53250 }, { "epoch": 71.01333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029908458304884984, "loss": 0.4078, "step": 53260 }, { "epoch": 71.02666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002990842363512143, "loss": 0.4196, "step": 53270 }, { "epoch": 71.04, "grad_norm": 0.376953125, "learning_rate": 0.0002990838895881395, "loss": 0.432, "step": 53280 }, { "epoch": 71.05333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029908354275962556, "loss": 0.4182, "step": 53290 }, { "epoch": 71.06666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029908319586567265, "loss": 0.4058, "step": 53300 }, { "epoch": 71.08, "grad_norm": 0.31640625, "learning_rate": 0.0002990828489062809, "loss": 0.4096, "step": 53310 }, { "epoch": 71.09333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002990825018814505, "loss": 0.4102, "step": 53320 }, { "epoch": 71.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029908215479118155, "loss": 0.398, "step": 53330 }, { "epoch": 71.12, "grad_norm": 0.37890625, "learning_rate": 0.00029908180763547426, "loss": 0.4039, "step": 53340 }, { "epoch": 71.13333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029908146041432876, "loss": 0.3946, "step": 53350 }, { "epoch": 71.14666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002990811131277451, "loss": 0.4141, "step": 53360 }, { "epoch": 71.16, "grad_norm": 0.30859375, "learning_rate": 0.00029908076577572366, "loss": 0.4067, "step": 53370 }, { "epoch": 71.17333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002990804183582644, "loss": 0.4019, "step": 53380 }, { "epoch": 71.18666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002990800708753675, "loss": 0.4013, "step": 53390 }, { "epoch": 71.2, "grad_norm": 0.37109375, "learning_rate": 0.0002990797233270332, "loss": 0.3933, "step": 53400 }, { "epoch": 71.21333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029907937571326156, "loss": 0.3945, "step": 53410 }, { "epoch": 71.22666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029907902803405284, "loss": 0.4067, "step": 53420 }, { "epoch": 71.24, "grad_norm": 0.341796875, "learning_rate": 0.0002990786802894071, "loss": 0.391, "step": 53430 }, { "epoch": 71.25333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002990783324793245, "loss": 0.3939, "step": 53440 }, { "epoch": 71.26666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029907798460380514, "loss": 0.3955, "step": 53450 }, { "epoch": 71.28, "grad_norm": 0.341796875, "learning_rate": 0.0002990776366628493, "loss": 0.4254, "step": 53460 }, { "epoch": 71.29333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002990772886564571, "loss": 0.3818, "step": 53470 }, { "epoch": 71.30666666666667, "grad_norm": 0.28515625, "learning_rate": 0.00029907694058462864, "loss": 0.4052, "step": 53480 }, { "epoch": 71.32, "grad_norm": 0.341796875, "learning_rate": 0.00029907659244736407, "loss": 0.4063, "step": 53490 }, { "epoch": 71.33333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002990762442446636, "loss": 0.4118, "step": 53500 }, { "epoch": 71.34666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002990758959765274, "loss": 0.402, "step": 53510 }, { "epoch": 71.36, "grad_norm": 0.3671875, "learning_rate": 0.00029907554764295555, "loss": 0.4018, "step": 53520 }, { "epoch": 71.37333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002990751992439482, "loss": 0.402, "step": 53530 }, { "epoch": 71.38666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002990748507795055, "loss": 0.3962, "step": 53540 }, { "epoch": 71.4, "grad_norm": 0.33203125, "learning_rate": 0.00029907450224962777, "loss": 0.402, "step": 53550 }, { "epoch": 71.41333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029907415365431494, "loss": 0.4065, "step": 53560 }, { "epoch": 71.42666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002990738049935672, "loss": 0.4085, "step": 53570 }, { "epoch": 71.44, "grad_norm": 0.34765625, "learning_rate": 0.0002990734562673849, "loss": 0.4199, "step": 53580 }, { "epoch": 71.45333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029907310747576794, "loss": 0.4087, "step": 53590 }, { "epoch": 71.46666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002990727586187166, "loss": 0.4174, "step": 53600 }, { "epoch": 71.48, "grad_norm": 0.322265625, "learning_rate": 0.00029907240969623104, "loss": 0.3986, "step": 53610 }, { "epoch": 71.49333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002990720607083114, "loss": 0.41, "step": 53620 }, { "epoch": 71.50666666666666, "grad_norm": 0.291015625, "learning_rate": 0.00029907171165495777, "loss": 0.4079, "step": 53630 }, { "epoch": 71.52, "grad_norm": 0.318359375, "learning_rate": 0.0002990713625361704, "loss": 0.3982, "step": 53640 }, { "epoch": 71.53333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029907101335194936, "loss": 0.4013, "step": 53650 }, { "epoch": 71.54666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002990706641022949, "loss": 0.4038, "step": 53660 }, { "epoch": 71.56, "grad_norm": 0.30859375, "learning_rate": 0.00029907031478720706, "loss": 0.3975, "step": 53670 }, { "epoch": 71.57333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002990699654066861, "loss": 0.4015, "step": 53680 }, { "epoch": 71.58666666666667, "grad_norm": 0.359375, "learning_rate": 0.000299069615960732, "loss": 0.3902, "step": 53690 }, { "epoch": 71.6, "grad_norm": 0.310546875, "learning_rate": 0.0002990692664493452, "loss": 0.3926, "step": 53700 }, { "epoch": 71.61333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002990689168725256, "loss": 0.3809, "step": 53710 }, { "epoch": 71.62666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029906856723027343, "loss": 0.3859, "step": 53720 }, { "epoch": 71.64, "grad_norm": 0.3359375, "learning_rate": 0.00029906821752258885, "loss": 0.4, "step": 53730 }, { "epoch": 71.65333333333334, "grad_norm": 0.310546875, "learning_rate": 0.0002990678677494721, "loss": 0.4093, "step": 53740 }, { "epoch": 71.66666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029906751791092316, "loss": 0.3958, "step": 53750 }, { "epoch": 71.68, "grad_norm": 0.328125, "learning_rate": 0.0002990671680069423, "loss": 0.3882, "step": 53760 }, { "epoch": 71.69333333333333, "grad_norm": 0.32421875, "learning_rate": 0.00029906681803752966, "loss": 0.397, "step": 53770 }, { "epoch": 71.70666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002990664680026854, "loss": 0.3905, "step": 53780 }, { "epoch": 71.72, "grad_norm": 0.3828125, "learning_rate": 0.00029906611790240964, "loss": 0.4134, "step": 53790 }, { "epoch": 71.73333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029906576773670255, "loss": 0.4077, "step": 53800 }, { "epoch": 71.74666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002990654175055643, "loss": 0.4088, "step": 53810 }, { "epoch": 71.76, "grad_norm": 0.380859375, "learning_rate": 0.00029906506720899504, "loss": 0.4219, "step": 53820 }, { "epoch": 71.77333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029906471684699483, "loss": 0.4107, "step": 53830 }, { "epoch": 71.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.000299064366419564, "loss": 0.4092, "step": 53840 }, { "epoch": 71.8, "grad_norm": 0.373046875, "learning_rate": 0.00029906401592670254, "loss": 0.4073, "step": 53850 }, { "epoch": 71.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002990636653684107, "loss": 0.3816, "step": 53860 }, { "epoch": 71.82666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002990633147446886, "loss": 0.3917, "step": 53870 }, { "epoch": 71.84, "grad_norm": 0.3515625, "learning_rate": 0.0002990629640555364, "loss": 0.4027, "step": 53880 }, { "epoch": 71.85333333333334, "grad_norm": 0.375, "learning_rate": 0.0002990626133009543, "loss": 0.3987, "step": 53890 }, { "epoch": 71.86666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002990622624809423, "loss": 0.4025, "step": 53900 }, { "epoch": 71.88, "grad_norm": 0.33984375, "learning_rate": 0.0002990619115955008, "loss": 0.3831, "step": 53910 }, { "epoch": 71.89333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002990615606446297, "loss": 0.3935, "step": 53920 }, { "epoch": 71.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002990612096283294, "loss": 0.402, "step": 53930 }, { "epoch": 71.92, "grad_norm": 0.37109375, "learning_rate": 0.00029906085854659983, "loss": 0.4047, "step": 53940 }, { "epoch": 71.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.00029906050739944123, "loss": 0.396, "step": 53950 }, { "epoch": 71.94666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002990601561868538, "loss": 0.3974, "step": 53960 }, { "epoch": 71.96, "grad_norm": 0.3125, "learning_rate": 0.00029905980490883767, "loss": 0.395, "step": 53970 }, { "epoch": 71.97333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029905945356539294, "loss": 0.4214, "step": 53980 }, { "epoch": 71.98666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002990591021565198, "loss": 0.3955, "step": 53990 }, { "epoch": 72.0, "grad_norm": 0.34375, "learning_rate": 0.0002990587506822185, "loss": 0.3899, "step": 54000 }, { "epoch": 72.0, "eval_loss": 0.43145257234573364, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.3991, "eval_samples_per_second": 1.539, "eval_steps_per_second": 0.096, "step": 54000 }, { "epoch": 72.01333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029905839914248897, "loss": 0.4074, "step": 54010 }, { "epoch": 72.02666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029905804753733154, "loss": 0.4204, "step": 54020 }, { "epoch": 72.04, "grad_norm": 0.32421875, "learning_rate": 0.00029905769586674637, "loss": 0.4321, "step": 54030 }, { "epoch": 72.05333333333333, "grad_norm": 0.375, "learning_rate": 0.00029905734413073355, "loss": 0.4192, "step": 54040 }, { "epoch": 72.06666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029905699232929324, "loss": 0.4056, "step": 54050 }, { "epoch": 72.08, "grad_norm": 0.38671875, "learning_rate": 0.0002990566404624256, "loss": 0.4101, "step": 54060 }, { "epoch": 72.09333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029905628853013085, "loss": 0.41, "step": 54070 }, { "epoch": 72.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.000299055936532409, "loss": 0.3975, "step": 54080 }, { "epoch": 72.12, "grad_norm": 0.34765625, "learning_rate": 0.0002990555844692603, "loss": 0.4034, "step": 54090 }, { "epoch": 72.13333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029905523234068494, "loss": 0.3947, "step": 54100 }, { "epoch": 72.14666666666666, "grad_norm": 0.33984375, "learning_rate": 0.000299054880146683, "loss": 0.4142, "step": 54110 }, { "epoch": 72.16, "grad_norm": 0.30859375, "learning_rate": 0.0002990545278872547, "loss": 0.4067, "step": 54120 }, { "epoch": 72.17333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002990541755624001, "loss": 0.4018, "step": 54130 }, { "epoch": 72.18666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0002990538231721194, "loss": 0.4, "step": 54140 }, { "epoch": 72.2, "grad_norm": 0.341796875, "learning_rate": 0.00029905347071641287, "loss": 0.3932, "step": 54150 }, { "epoch": 72.21333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002990531181952805, "loss": 0.3949, "step": 54160 }, { "epoch": 72.22666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029905276560872253, "loss": 0.4066, "step": 54170 }, { "epoch": 72.24, "grad_norm": 0.365234375, "learning_rate": 0.000299052412956739, "loss": 0.3913, "step": 54180 }, { "epoch": 72.25333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029905206023933024, "loss": 0.3933, "step": 54190 }, { "epoch": 72.26666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002990517074564963, "loss": 0.3951, "step": 54200 }, { "epoch": 72.28, "grad_norm": 0.392578125, "learning_rate": 0.0002990513546082374, "loss": 0.4255, "step": 54210 }, { "epoch": 72.29333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029905100169455356, "loss": 0.3816, "step": 54220 }, { "epoch": 72.30666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002990506487154451, "loss": 0.405, "step": 54230 }, { "epoch": 72.32, "grad_norm": 0.302734375, "learning_rate": 0.00029905029567091205, "loss": 0.4067, "step": 54240 }, { "epoch": 72.33333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029904994256095465, "loss": 0.4114, "step": 54250 }, { "epoch": 72.34666666666666, "grad_norm": 0.466796875, "learning_rate": 0.000299049589385573, "loss": 0.4008, "step": 54260 }, { "epoch": 72.36, "grad_norm": 0.4296875, "learning_rate": 0.00029904923614476733, "loss": 0.4015, "step": 54270 }, { "epoch": 72.37333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002990488828385377, "loss": 0.4025, "step": 54280 }, { "epoch": 72.38666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0002990485294668843, "loss": 0.3956, "step": 54290 }, { "epoch": 72.4, "grad_norm": 0.337890625, "learning_rate": 0.00029904817602980727, "loss": 0.4017, "step": 54300 }, { "epoch": 72.41333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002990478225273068, "loss": 0.4063, "step": 54310 }, { "epoch": 72.42666666666666, "grad_norm": 0.375, "learning_rate": 0.00029904746895938303, "loss": 0.4073, "step": 54320 }, { "epoch": 72.44, "grad_norm": 0.33203125, "learning_rate": 0.0002990471153260361, "loss": 0.4194, "step": 54330 }, { "epoch": 72.45333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002990467616272662, "loss": 0.4081, "step": 54340 }, { "epoch": 72.46666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002990464078630735, "loss": 0.4171, "step": 54350 }, { "epoch": 72.48, "grad_norm": 0.3828125, "learning_rate": 0.00029904605403345807, "loss": 0.3981, "step": 54360 }, { "epoch": 72.49333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002990457001384202, "loss": 0.4107, "step": 54370 }, { "epoch": 72.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002990453461779599, "loss": 0.4081, "step": 54380 }, { "epoch": 72.52, "grad_norm": 0.328125, "learning_rate": 0.0002990449921520774, "loss": 0.3983, "step": 54390 }, { "epoch": 72.53333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002990446380607728, "loss": 0.4012, "step": 54400 }, { "epoch": 72.54666666666667, "grad_norm": 0.375, "learning_rate": 0.00029904428390404637, "loss": 0.4037, "step": 54410 }, { "epoch": 72.56, "grad_norm": 0.30078125, "learning_rate": 0.0002990439296818981, "loss": 0.3986, "step": 54420 }, { "epoch": 72.57333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029904357539432835, "loss": 0.402, "step": 54430 }, { "epoch": 72.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029904322104133707, "loss": 0.3902, "step": 54440 }, { "epoch": 72.6, "grad_norm": 0.34765625, "learning_rate": 0.0002990428666229246, "loss": 0.3918, "step": 54450 }, { "epoch": 72.61333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0002990425121390909, "loss": 0.381, "step": 54460 }, { "epoch": 72.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002990421575898363, "loss": 0.3855, "step": 54470 }, { "epoch": 72.64, "grad_norm": 0.37109375, "learning_rate": 0.0002990418029751609, "loss": 0.3988, "step": 54480 }, { "epoch": 72.65333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002990414482950648, "loss": 0.4097, "step": 54490 }, { "epoch": 72.66666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029904109354954826, "loss": 0.3949, "step": 54500 }, { "epoch": 72.68, "grad_norm": 0.31640625, "learning_rate": 0.0002990407387386113, "loss": 0.3886, "step": 54510 }, { "epoch": 72.69333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002990403838622542, "loss": 0.3973, "step": 54520 }, { "epoch": 72.70666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029904002892047705, "loss": 0.3902, "step": 54530 }, { "epoch": 72.72, "grad_norm": 0.375, "learning_rate": 0.00029903967391328, "loss": 0.4127, "step": 54540 }, { "epoch": 72.73333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029903931884066326, "loss": 0.4057, "step": 54550 }, { "epoch": 72.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.000299038963702627, "loss": 0.4084, "step": 54560 }, { "epoch": 72.76, "grad_norm": 0.361328125, "learning_rate": 0.0002990386084991712, "loss": 0.4209, "step": 54570 }, { "epoch": 72.77333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002990382532302963, "loss": 0.409, "step": 54580 }, { "epoch": 72.78666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029903789789600217, "loss": 0.409, "step": 54590 }, { "epoch": 72.8, "grad_norm": 0.3203125, "learning_rate": 0.00029903754249628915, "loss": 0.4081, "step": 54600 }, { "epoch": 72.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002990371870311573, "loss": 0.3815, "step": 54610 }, { "epoch": 72.82666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002990368315006069, "loss": 0.3914, "step": 54620 }, { "epoch": 72.84, "grad_norm": 0.369140625, "learning_rate": 0.00029903647590463794, "loss": 0.4027, "step": 54630 }, { "epoch": 72.85333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029903612024325077, "loss": 0.3984, "step": 54640 }, { "epoch": 72.86666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029903576451644533, "loss": 0.4029, "step": 54650 }, { "epoch": 72.88, "grad_norm": 0.353515625, "learning_rate": 0.0002990354087242219, "loss": 0.3823, "step": 54660 }, { "epoch": 72.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002990350528665807, "loss": 0.3943, "step": 54670 }, { "epoch": 72.90666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002990346969435217, "loss": 0.4012, "step": 54680 }, { "epoch": 72.92, "grad_norm": 0.349609375, "learning_rate": 0.0002990343409550452, "loss": 0.4041, "step": 54690 }, { "epoch": 72.93333333333334, "grad_norm": 0.306640625, "learning_rate": 0.0002990339849011514, "loss": 0.3968, "step": 54700 }, { "epoch": 72.94666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029903362878184027, "loss": 0.3982, "step": 54710 }, { "epoch": 72.96, "grad_norm": 0.369140625, "learning_rate": 0.00029903327259711213, "loss": 0.3958, "step": 54720 }, { "epoch": 72.97333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002990329163469671, "loss": 0.4211, "step": 54730 }, { "epoch": 72.98666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002990325600314052, "loss": 0.3954, "step": 54740 }, { "epoch": 73.0, "grad_norm": 0.306640625, "learning_rate": 0.00029903220365042684, "loss": 0.389, "step": 54750 }, { "epoch": 73.0, "eval_loss": 0.43216657638549805, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5043, "eval_samples_per_second": 1.683, "eval_steps_per_second": 0.105, "step": 54750 }, { "epoch": 73.01333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002990318472040319, "loss": 0.4076, "step": 54760 }, { "epoch": 73.02666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029903149069222075, "loss": 0.4196, "step": 54770 }, { "epoch": 73.04, "grad_norm": 0.328125, "learning_rate": 0.0002990311341149935, "loss": 0.4324, "step": 54780 }, { "epoch": 73.05333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029903077747235016, "loss": 0.4176, "step": 54790 }, { "epoch": 73.06666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029903042076429113, "loss": 0.4052, "step": 54800 }, { "epoch": 73.08, "grad_norm": 0.375, "learning_rate": 0.0002990300639908164, "loss": 0.4094, "step": 54810 }, { "epoch": 73.09333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002990297071519261, "loss": 0.4114, "step": 54820 }, { "epoch": 73.10666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029902935024762054, "loss": 0.3981, "step": 54830 }, { "epoch": 73.12, "grad_norm": 0.34375, "learning_rate": 0.0002990289932778997, "loss": 0.4023, "step": 54840 }, { "epoch": 73.13333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029902863624276394, "loss": 0.3947, "step": 54850 }, { "epoch": 73.14666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002990282791422132, "loss": 0.4139, "step": 54860 }, { "epoch": 73.16, "grad_norm": 0.34375, "learning_rate": 0.0002990279219762478, "loss": 0.407, "step": 54870 }, { "epoch": 73.17333333333333, "grad_norm": 0.48046875, "learning_rate": 0.00029902756474486784, "loss": 0.4017, "step": 54880 }, { "epoch": 73.18666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029902720744807347, "loss": 0.4005, "step": 54890 }, { "epoch": 73.2, "grad_norm": 0.375, "learning_rate": 0.0002990268500858648, "loss": 0.3944, "step": 54900 }, { "epoch": 73.21333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029902649265824203, "loss": 0.3938, "step": 54910 }, { "epoch": 73.22666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002990261351652054, "loss": 0.406, "step": 54920 }, { "epoch": 73.24, "grad_norm": 0.419921875, "learning_rate": 0.000299025777606755, "loss": 0.3914, "step": 54930 }, { "epoch": 73.25333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002990254199828909, "loss": 0.3926, "step": 54940 }, { "epoch": 73.26666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002990250622936134, "loss": 0.395, "step": 54950 }, { "epoch": 73.28, "grad_norm": 0.35546875, "learning_rate": 0.0002990247045389225, "loss": 0.4246, "step": 54960 }, { "epoch": 73.29333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002990243467188185, "loss": 0.3815, "step": 54970 }, { "epoch": 73.30666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002990239888333015, "loss": 0.4045, "step": 54980 }, { "epoch": 73.32, "grad_norm": 0.30859375, "learning_rate": 0.00029902363088237167, "loss": 0.4065, "step": 54990 }, { "epoch": 73.33333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029902327286602913, "loss": 0.4115, "step": 55000 }, { "epoch": 73.34666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002990229147842741, "loss": 0.4015, "step": 55010 }, { "epoch": 73.36, "grad_norm": 0.419921875, "learning_rate": 0.0002990225566371067, "loss": 0.4016, "step": 55020 }, { "epoch": 73.37333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002990221984245271, "loss": 0.4013, "step": 55030 }, { "epoch": 73.38666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029902184014653547, "loss": 0.395, "step": 55040 }, { "epoch": 73.4, "grad_norm": 0.3671875, "learning_rate": 0.0002990214818031319, "loss": 0.4011, "step": 55050 }, { "epoch": 73.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029902112339431664, "loss": 0.4066, "step": 55060 }, { "epoch": 73.42666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029902076492008977, "loss": 0.4087, "step": 55070 }, { "epoch": 73.44, "grad_norm": 0.35546875, "learning_rate": 0.0002990204063804514, "loss": 0.4189, "step": 55080 }, { "epoch": 73.45333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002990200477754019, "loss": 0.4079, "step": 55090 }, { "epoch": 73.46666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002990196891049412, "loss": 0.4175, "step": 55100 }, { "epoch": 73.48, "grad_norm": 0.30859375, "learning_rate": 0.0002990193303690696, "loss": 0.3989, "step": 55110 }, { "epoch": 73.49333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002990189715677872, "loss": 0.4105, "step": 55120 }, { "epoch": 73.50666666666666, "grad_norm": 0.328125, "learning_rate": 0.00029901861270109414, "loss": 0.4079, "step": 55130 }, { "epoch": 73.52, "grad_norm": 0.29296875, "learning_rate": 0.00029901825376899065, "loss": 0.3985, "step": 55140 }, { "epoch": 73.53333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029901789477147675, "loss": 0.4015, "step": 55150 }, { "epoch": 73.54666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029901753570855277, "loss": 0.4036, "step": 55160 }, { "epoch": 73.56, "grad_norm": 0.3203125, "learning_rate": 0.00029901717658021876, "loss": 0.3975, "step": 55170 }, { "epoch": 73.57333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002990168173864749, "loss": 0.401, "step": 55180 }, { "epoch": 73.58666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029901645812732133, "loss": 0.3894, "step": 55190 }, { "epoch": 73.6, "grad_norm": 0.318359375, "learning_rate": 0.0002990160988027583, "loss": 0.3915, "step": 55200 }, { "epoch": 73.61333333333333, "grad_norm": 0.296875, "learning_rate": 0.0002990157394127858, "loss": 0.3802, "step": 55210 }, { "epoch": 73.62666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029901537995740416, "loss": 0.3857, "step": 55220 }, { "epoch": 73.64, "grad_norm": 0.337890625, "learning_rate": 0.0002990150204366134, "loss": 0.3978, "step": 55230 }, { "epoch": 73.65333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002990146608504138, "loss": 0.4088, "step": 55240 }, { "epoch": 73.66666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002990143011988054, "loss": 0.3946, "step": 55250 }, { "epoch": 73.68, "grad_norm": 0.3359375, "learning_rate": 0.0002990139414817884, "loss": 0.3888, "step": 55260 }, { "epoch": 73.69333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029901358169936304, "loss": 0.396, "step": 55270 }, { "epoch": 73.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029901322185152943, "loss": 0.3894, "step": 55280 }, { "epoch": 73.72, "grad_norm": 0.35546875, "learning_rate": 0.00029901286193828765, "loss": 0.4126, "step": 55290 }, { "epoch": 73.73333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002990125019596379, "loss": 0.4059, "step": 55300 }, { "epoch": 73.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002990121419155804, "loss": 0.4075, "step": 55310 }, { "epoch": 73.76, "grad_norm": 0.3359375, "learning_rate": 0.00029901178180611525, "loss": 0.4211, "step": 55320 }, { "epoch": 73.77333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029901142163124263, "loss": 0.4089, "step": 55330 }, { "epoch": 73.78666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002990110613909627, "loss": 0.4077, "step": 55340 }, { "epoch": 73.8, "grad_norm": 0.3828125, "learning_rate": 0.00029901070108527555, "loss": 0.4073, "step": 55350 }, { "epoch": 73.81333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002990103407141814, "loss": 0.3812, "step": 55360 }, { "epoch": 73.82666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029900998027768046, "loss": 0.392, "step": 55370 }, { "epoch": 73.84, "grad_norm": 0.40234375, "learning_rate": 0.0002990096197757728, "loss": 0.4037, "step": 55380 }, { "epoch": 73.85333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002990092592084586, "loss": 0.3984, "step": 55390 }, { "epoch": 73.86666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029900889857573804, "loss": 0.4014, "step": 55400 }, { "epoch": 73.88, "grad_norm": 0.3203125, "learning_rate": 0.00029900853787761123, "loss": 0.3828, "step": 55410 }, { "epoch": 73.89333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002990081771140784, "loss": 0.3936, "step": 55420 }, { "epoch": 73.90666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002990078162851397, "loss": 0.4013, "step": 55430 }, { "epoch": 73.92, "grad_norm": 0.34375, "learning_rate": 0.0002990074553907953, "loss": 0.4034, "step": 55440 }, { "epoch": 73.93333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029900709443104524, "loss": 0.3969, "step": 55450 }, { "epoch": 73.94666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002990067334058897, "loss": 0.3986, "step": 55460 }, { "epoch": 73.96, "grad_norm": 0.32421875, "learning_rate": 0.000299006372315329, "loss": 0.3958, "step": 55470 }, { "epoch": 73.97333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029900601115936314, "loss": 0.4203, "step": 55480 }, { "epoch": 73.98666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002990056499379924, "loss": 0.3951, "step": 55490 }, { "epoch": 74.0, "grad_norm": 0.3203125, "learning_rate": 0.00029900528865121683, "loss": 0.3897, "step": 55500 }, { "epoch": 74.0, "eval_loss": 0.43118083477020264, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1587, "eval_samples_per_second": 1.575, "eval_steps_per_second": 0.098, "step": 55500 }, { "epoch": 74.01333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002990049272990366, "loss": 0.4071, "step": 55510 }, { "epoch": 74.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029900456588145195, "loss": 0.4197, "step": 55520 }, { "epoch": 74.04, "grad_norm": 0.36328125, "learning_rate": 0.00029900420439846296, "loss": 0.4314, "step": 55530 }, { "epoch": 74.05333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029900384285006984, "loss": 0.4178, "step": 55540 }, { "epoch": 74.06666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002990034812362727, "loss": 0.4057, "step": 55550 }, { "epoch": 74.08, "grad_norm": 0.400390625, "learning_rate": 0.00029900311955707176, "loss": 0.4094, "step": 55560 }, { "epoch": 74.09333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029900275781246706, "loss": 0.4099, "step": 55570 }, { "epoch": 74.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029900239600245894, "loss": 0.3983, "step": 55580 }, { "epoch": 74.12, "grad_norm": 0.353515625, "learning_rate": 0.0002990020341270474, "loss": 0.4035, "step": 55590 }, { "epoch": 74.13333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002990016721862327, "loss": 0.3945, "step": 55600 }, { "epoch": 74.14666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002990013101800149, "loss": 0.4141, "step": 55610 }, { "epoch": 74.16, "grad_norm": 0.330078125, "learning_rate": 0.00029900094810839426, "loss": 0.4066, "step": 55620 }, { "epoch": 74.17333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029900058597137093, "loss": 0.4017, "step": 55630 }, { "epoch": 74.18666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029900022376894495, "loss": 0.3997, "step": 55640 }, { "epoch": 74.2, "grad_norm": 0.34765625, "learning_rate": 0.00029899986150111663, "loss": 0.393, "step": 55650 }, { "epoch": 74.21333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029899949916788605, "loss": 0.3941, "step": 55660 }, { "epoch": 74.22666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029899913676925335, "loss": 0.4056, "step": 55670 }, { "epoch": 74.24, "grad_norm": 0.345703125, "learning_rate": 0.00029899877430521876, "loss": 0.3909, "step": 55680 }, { "epoch": 74.25333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002989984117757824, "loss": 0.3928, "step": 55690 }, { "epoch": 74.26666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002989980491809444, "loss": 0.3952, "step": 55700 }, { "epoch": 74.28, "grad_norm": 0.345703125, "learning_rate": 0.00029899768652070493, "loss": 0.4251, "step": 55710 }, { "epoch": 74.29333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029899732379506423, "loss": 0.381, "step": 55720 }, { "epoch": 74.30666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029899696100402234, "loss": 0.4042, "step": 55730 }, { "epoch": 74.32, "grad_norm": 0.3359375, "learning_rate": 0.00029899659814757953, "loss": 0.4061, "step": 55740 }, { "epoch": 74.33333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029899623522573586, "loss": 0.4105, "step": 55750 }, { "epoch": 74.34666666666666, "grad_norm": 0.337890625, "learning_rate": 0.00029899587223849154, "loss": 0.4008, "step": 55760 }, { "epoch": 74.36, "grad_norm": 0.41015625, "learning_rate": 0.00029899550918584673, "loss": 0.401, "step": 55770 }, { "epoch": 74.37333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002989951460678016, "loss": 0.4019, "step": 55780 }, { "epoch": 74.38666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029899478288435626, "loss": 0.3951, "step": 55790 }, { "epoch": 74.4, "grad_norm": 0.33984375, "learning_rate": 0.00029899441963551093, "loss": 0.4024, "step": 55800 }, { "epoch": 74.41333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029899405632126576, "loss": 0.4061, "step": 55810 }, { "epoch": 74.42666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029899369294162086, "loss": 0.4065, "step": 55820 }, { "epoch": 74.44, "grad_norm": 0.337890625, "learning_rate": 0.0002989933294965764, "loss": 0.419, "step": 55830 }, { "epoch": 74.45333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002989929659861326, "loss": 0.4072, "step": 55840 }, { "epoch": 74.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002989926024102896, "loss": 0.4171, "step": 55850 }, { "epoch": 74.48, "grad_norm": 0.333984375, "learning_rate": 0.0002989922387690475, "loss": 0.3984, "step": 55860 }, { "epoch": 74.49333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002989918750624065, "loss": 0.4096, "step": 55870 }, { "epoch": 74.50666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002989915112903668, "loss": 0.4075, "step": 55880 }, { "epoch": 74.52, "grad_norm": 0.3515625, "learning_rate": 0.0002989911474529284, "loss": 0.3988, "step": 55890 }, { "epoch": 74.53333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002989907835500917, "loss": 0.4014, "step": 55900 }, { "epoch": 74.54666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002989904195818567, "loss": 0.4032, "step": 55910 }, { "epoch": 74.56, "grad_norm": 0.296875, "learning_rate": 0.0002989900555482236, "loss": 0.3974, "step": 55920 }, { "epoch": 74.57333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029898969144919255, "loss": 0.4015, "step": 55930 }, { "epoch": 74.58666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002989893272847637, "loss": 0.3895, "step": 55940 }, { "epoch": 74.6, "grad_norm": 0.29296875, "learning_rate": 0.00029898896305493726, "loss": 0.3918, "step": 55950 }, { "epoch": 74.61333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029898859875971334, "loss": 0.3798, "step": 55960 }, { "epoch": 74.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029898823439909213, "loss": 0.3854, "step": 55970 }, { "epoch": 74.64, "grad_norm": 0.3515625, "learning_rate": 0.0002989878699730738, "loss": 0.399, "step": 55980 }, { "epoch": 74.65333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002989875054816584, "loss": 0.408, "step": 55990 }, { "epoch": 74.66666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029898714092484624, "loss": 0.3948, "step": 56000 }, { "epoch": 74.68, "grad_norm": 0.33203125, "learning_rate": 0.0002989867763026374, "loss": 0.387, "step": 56010 }, { "epoch": 74.69333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029898641161503204, "loss": 0.3962, "step": 56020 }, { "epoch": 74.70666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029898604686203037, "loss": 0.3901, "step": 56030 }, { "epoch": 74.72, "grad_norm": 0.34765625, "learning_rate": 0.00029898568204363255, "loss": 0.4135, "step": 56040 }, { "epoch": 74.73333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029898531715983863, "loss": 0.4058, "step": 56050 }, { "epoch": 74.74666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002989849522106489, "loss": 0.4071, "step": 56060 }, { "epoch": 74.76, "grad_norm": 0.349609375, "learning_rate": 0.00029898458719606344, "loss": 0.4211, "step": 56070 }, { "epoch": 74.77333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029898422211608244, "loss": 0.4082, "step": 56080 }, { "epoch": 74.78666666666666, "grad_norm": 0.330078125, "learning_rate": 0.00029898385697070605, "loss": 0.4088, "step": 56090 }, { "epoch": 74.8, "grad_norm": 0.3671875, "learning_rate": 0.0002989834917599345, "loss": 0.4079, "step": 56100 }, { "epoch": 74.81333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002989831264837678, "loss": 0.3806, "step": 56110 }, { "epoch": 74.82666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002989827611422062, "loss": 0.3915, "step": 56120 }, { "epoch": 74.84, "grad_norm": 0.37109375, "learning_rate": 0.00029898239573524995, "loss": 0.4031, "step": 56130 }, { "epoch": 74.85333333333334, "grad_norm": 0.3828125, "learning_rate": 0.000298982030262899, "loss": 0.398, "step": 56140 }, { "epoch": 74.86666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029898166472515375, "loss": 0.4019, "step": 56150 }, { "epoch": 74.88, "grad_norm": 0.345703125, "learning_rate": 0.0002989812991220142, "loss": 0.3829, "step": 56160 }, { "epoch": 74.89333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029898093345348054, "loss": 0.3937, "step": 56170 }, { "epoch": 74.90666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002989805677195529, "loss": 0.4011, "step": 56180 }, { "epoch": 74.92, "grad_norm": 0.353515625, "learning_rate": 0.0002989802019202315, "loss": 0.4042, "step": 56190 }, { "epoch": 74.93333333333334, "grad_norm": 0.30859375, "learning_rate": 0.00029897983605551654, "loss": 0.3956, "step": 56200 }, { "epoch": 74.94666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029897947012540806, "loss": 0.3964, "step": 56210 }, { "epoch": 74.96, "grad_norm": 0.322265625, "learning_rate": 0.0002989791041299063, "loss": 0.3936, "step": 56220 }, { "epoch": 74.97333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029897873806901143, "loss": 0.4201, "step": 56230 }, { "epoch": 74.98666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029897837194272356, "loss": 0.3952, "step": 56240 }, { "epoch": 75.0, "grad_norm": 0.3828125, "learning_rate": 0.0002989780057510429, "loss": 0.3884, "step": 56250 }, { "epoch": 75.0, "eval_loss": 0.43030357360839844, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0148, "eval_samples_per_second": 1.598, "eval_steps_per_second": 0.1, "step": 56250 }, { "epoch": 75.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029897763949396957, "loss": 0.4076, "step": 56260 }, { "epoch": 75.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002989772731715038, "loss": 0.419, "step": 56270 }, { "epoch": 75.04, "grad_norm": 0.3359375, "learning_rate": 0.00029897690678364557, "loss": 0.4311, "step": 56280 }, { "epoch": 75.05333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029897654033039523, "loss": 0.4175, "step": 56290 }, { "epoch": 75.06666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002989761738117529, "loss": 0.4053, "step": 56300 }, { "epoch": 75.08, "grad_norm": 0.39453125, "learning_rate": 0.00029897580722771874, "loss": 0.4085, "step": 56310 }, { "epoch": 75.09333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029897544057829286, "loss": 0.4092, "step": 56320 }, { "epoch": 75.10666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029897507386347544, "loss": 0.398, "step": 56330 }, { "epoch": 75.12, "grad_norm": 0.357421875, "learning_rate": 0.00029897470708326664, "loss": 0.4024, "step": 56340 }, { "epoch": 75.13333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002989743402376667, "loss": 0.395, "step": 56350 }, { "epoch": 75.14666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029897397332667567, "loss": 0.4142, "step": 56360 }, { "epoch": 75.16, "grad_norm": 0.337890625, "learning_rate": 0.00029897360635029377, "loss": 0.4056, "step": 56370 }, { "epoch": 75.17333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029897323930852115, "loss": 0.4018, "step": 56380 }, { "epoch": 75.18666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029897287220135795, "loss": 0.4002, "step": 56390 }, { "epoch": 75.2, "grad_norm": 0.345703125, "learning_rate": 0.00029897250502880436, "loss": 0.3934, "step": 56400 }, { "epoch": 75.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029897213779086053, "loss": 0.3932, "step": 56410 }, { "epoch": 75.22666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002989717704875266, "loss": 0.4058, "step": 56420 }, { "epoch": 75.24, "grad_norm": 0.4296875, "learning_rate": 0.00029897140311880286, "loss": 0.39, "step": 56430 }, { "epoch": 75.25333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029897103568468923, "loss": 0.3934, "step": 56440 }, { "epoch": 75.26666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002989706681851861, "loss": 0.3953, "step": 56450 }, { "epoch": 75.28, "grad_norm": 0.34765625, "learning_rate": 0.00029897030062029343, "loss": 0.4253, "step": 56460 }, { "epoch": 75.29333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002989699329900116, "loss": 0.3817, "step": 56470 }, { "epoch": 75.30666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002989695652943406, "loss": 0.4039, "step": 56480 }, { "epoch": 75.32, "grad_norm": 0.345703125, "learning_rate": 0.00029896919753328064, "loss": 0.4048, "step": 56490 }, { "epoch": 75.33333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029896882970683193, "loss": 0.411, "step": 56500 }, { "epoch": 75.34666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002989684618149946, "loss": 0.4009, "step": 56510 }, { "epoch": 75.36, "grad_norm": 0.390625, "learning_rate": 0.00029896809385776877, "loss": 0.4009, "step": 56520 }, { "epoch": 75.37333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029896772583515465, "loss": 0.401, "step": 56530 }, { "epoch": 75.38666666666667, "grad_norm": 0.44140625, "learning_rate": 0.00029896735774715235, "loss": 0.3946, "step": 56540 }, { "epoch": 75.4, "grad_norm": 0.359375, "learning_rate": 0.00029896698959376214, "loss": 0.4015, "step": 56550 }, { "epoch": 75.41333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002989666213749841, "loss": 0.406, "step": 56560 }, { "epoch": 75.42666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002989662530908184, "loss": 0.4076, "step": 56570 }, { "epoch": 75.44, "grad_norm": 0.361328125, "learning_rate": 0.00029896588474126516, "loss": 0.4175, "step": 56580 }, { "epoch": 75.45333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002989655163263246, "loss": 0.4087, "step": 56590 }, { "epoch": 75.46666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002989651478459969, "loss": 0.4167, "step": 56600 }, { "epoch": 75.48, "grad_norm": 0.345703125, "learning_rate": 0.0002989647793002822, "loss": 0.3974, "step": 56610 }, { "epoch": 75.49333333333334, "grad_norm": 0.375, "learning_rate": 0.00029896441068918067, "loss": 0.4098, "step": 56620 }, { "epoch": 75.50666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029896404201269235, "loss": 0.4066, "step": 56630 }, { "epoch": 75.52, "grad_norm": 0.337890625, "learning_rate": 0.0002989636732708176, "loss": 0.3974, "step": 56640 }, { "epoch": 75.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029896330446355643, "loss": 0.4012, "step": 56650 }, { "epoch": 75.54666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002989629355909091, "loss": 0.4034, "step": 56660 }, { "epoch": 75.56, "grad_norm": 0.30078125, "learning_rate": 0.0002989625666528757, "loss": 0.3969, "step": 56670 }, { "epoch": 75.57333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029896219764945643, "loss": 0.4009, "step": 56680 }, { "epoch": 75.58666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002989618285806515, "loss": 0.3893, "step": 56690 }, { "epoch": 75.6, "grad_norm": 0.345703125, "learning_rate": 0.00029896145944646095, "loss": 0.3909, "step": 56700 }, { "epoch": 75.61333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029896109024688504, "loss": 0.38, "step": 56710 }, { "epoch": 75.62666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0002989607209819239, "loss": 0.3846, "step": 56720 }, { "epoch": 75.64, "grad_norm": 0.373046875, "learning_rate": 0.0002989603516515777, "loss": 0.3984, "step": 56730 }, { "epoch": 75.65333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029895998225584655, "loss": 0.408, "step": 56740 }, { "epoch": 75.66666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002989596127947307, "loss": 0.3955, "step": 56750 }, { "epoch": 75.68, "grad_norm": 0.384765625, "learning_rate": 0.0002989592432682302, "loss": 0.387, "step": 56760 }, { "epoch": 75.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002989588736763454, "loss": 0.3956, "step": 56770 }, { "epoch": 75.70666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002989585040190763, "loss": 0.3903, "step": 56780 }, { "epoch": 75.72, "grad_norm": 0.365234375, "learning_rate": 0.00029895813429642304, "loss": 0.4117, "step": 56790 }, { "epoch": 75.73333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029895776450838594, "loss": 0.4049, "step": 56800 }, { "epoch": 75.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029895739465496504, "loss": 0.4082, "step": 56810 }, { "epoch": 75.76, "grad_norm": 0.369140625, "learning_rate": 0.0002989570247361605, "loss": 0.4211, "step": 56820 }, { "epoch": 75.77333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029895665475197254, "loss": 0.4074, "step": 56830 }, { "epoch": 75.78666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002989562847024013, "loss": 0.4081, "step": 56840 }, { "epoch": 75.8, "grad_norm": 0.40234375, "learning_rate": 0.00029895591458744695, "loss": 0.4073, "step": 56850 }, { "epoch": 75.81333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029895554440710967, "loss": 0.3811, "step": 56860 }, { "epoch": 75.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002989551741613895, "loss": 0.3915, "step": 56870 }, { "epoch": 75.84, "grad_norm": 0.37890625, "learning_rate": 0.0002989548038502868, "loss": 0.4019, "step": 56880 }, { "epoch": 75.85333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029895443347380154, "loss": 0.3971, "step": 56890 }, { "epoch": 75.86666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029895406303193404, "loss": 0.4027, "step": 56900 }, { "epoch": 75.88, "grad_norm": 0.330078125, "learning_rate": 0.0002989536925246844, "loss": 0.3814, "step": 56910 }, { "epoch": 75.89333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002989533219520527, "loss": 0.3946, "step": 56920 }, { "epoch": 75.90666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029895295131403927, "loss": 0.3999, "step": 56930 }, { "epoch": 75.92, "grad_norm": 0.349609375, "learning_rate": 0.00029895258061064415, "loss": 0.4022, "step": 56940 }, { "epoch": 75.93333333333334, "grad_norm": 0.30859375, "learning_rate": 0.0002989522098418675, "loss": 0.3966, "step": 56950 }, { "epoch": 75.94666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002989518390077096, "loss": 0.3969, "step": 56960 }, { "epoch": 75.96, "grad_norm": 0.30859375, "learning_rate": 0.00029895146810817044, "loss": 0.3947, "step": 56970 }, { "epoch": 75.97333333333333, "grad_norm": 0.458984375, "learning_rate": 0.00029895109714325036, "loss": 0.4216, "step": 56980 }, { "epoch": 75.98666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029895072611294937, "loss": 0.3958, "step": 56990 }, { "epoch": 76.0, "grad_norm": 0.337890625, "learning_rate": 0.00029895035501726773, "loss": 0.3887, "step": 57000 }, { "epoch": 76.0, "eval_loss": 0.430258184671402, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7475, "eval_samples_per_second": 1.641, "eval_steps_per_second": 0.103, "step": 57000 }, { "epoch": 76.01333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002989499838562056, "loss": 0.4068, "step": 57010 }, { "epoch": 76.02666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029894961262976307, "loss": 0.419, "step": 57020 }, { "epoch": 76.04, "grad_norm": 0.326171875, "learning_rate": 0.00029894924133794037, "loss": 0.4319, "step": 57030 }, { "epoch": 76.05333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0002989488699807377, "loss": 0.4174, "step": 57040 }, { "epoch": 76.06666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029894849855815504, "loss": 0.4052, "step": 57050 }, { "epoch": 76.08, "grad_norm": 0.37109375, "learning_rate": 0.0002989481270701928, "loss": 0.4088, "step": 57060 }, { "epoch": 76.09333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029894775551685094, "loss": 0.4096, "step": 57070 }, { "epoch": 76.10666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029894738389812974, "loss": 0.3965, "step": 57080 }, { "epoch": 76.12, "grad_norm": 0.3515625, "learning_rate": 0.0002989470122140293, "loss": 0.4033, "step": 57090 }, { "epoch": 76.13333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029894664046454985, "loss": 0.3941, "step": 57100 }, { "epoch": 76.14666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002989462686496915, "loss": 0.4124, "step": 57110 }, { "epoch": 76.16, "grad_norm": 0.3359375, "learning_rate": 0.00029894589676945444, "loss": 0.4066, "step": 57120 }, { "epoch": 76.17333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002989455248238388, "loss": 0.4012, "step": 57130 }, { "epoch": 76.18666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002989451528128447, "loss": 0.4005, "step": 57140 }, { "epoch": 76.2, "grad_norm": 0.37109375, "learning_rate": 0.0002989447807364725, "loss": 0.3926, "step": 57150 }, { "epoch": 76.21333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002989444085947221, "loss": 0.3938, "step": 57160 }, { "epoch": 76.22666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029894403638759383, "loss": 0.4054, "step": 57170 }, { "epoch": 76.24, "grad_norm": 0.333984375, "learning_rate": 0.0002989436641150879, "loss": 0.3896, "step": 57180 }, { "epoch": 76.25333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002989432917772043, "loss": 0.3919, "step": 57190 }, { "epoch": 76.26666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029894291937394336, "loss": 0.3943, "step": 57200 }, { "epoch": 76.28, "grad_norm": 0.37109375, "learning_rate": 0.00029894254690530507, "loss": 0.4251, "step": 57210 }, { "epoch": 76.29333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029894217437128977, "loss": 0.3811, "step": 57220 }, { "epoch": 76.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002989418017718975, "loss": 0.4041, "step": 57230 }, { "epoch": 76.32, "grad_norm": 0.302734375, "learning_rate": 0.0002989414291071285, "loss": 0.4058, "step": 57240 }, { "epoch": 76.33333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002989410563769829, "loss": 0.4102, "step": 57250 }, { "epoch": 76.34666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029894068358146084, "loss": 0.4, "step": 57260 }, { "epoch": 76.36, "grad_norm": 0.365234375, "learning_rate": 0.0002989403107205625, "loss": 0.4003, "step": 57270 }, { "epoch": 76.37333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002989399377942881, "loss": 0.4015, "step": 57280 }, { "epoch": 76.38666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029893956480263773, "loss": 0.3945, "step": 57290 }, { "epoch": 76.4, "grad_norm": 0.34375, "learning_rate": 0.00029893919174561154, "loss": 0.4014, "step": 57300 }, { "epoch": 76.41333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029893881862320975, "loss": 0.4056, "step": 57310 }, { "epoch": 76.42666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002989384454354326, "loss": 0.4076, "step": 57320 }, { "epoch": 76.44, "grad_norm": 0.359375, "learning_rate": 0.00029893807218228, "loss": 0.4182, "step": 57330 }, { "epoch": 76.45333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002989376988637524, "loss": 0.4076, "step": 57340 }, { "epoch": 76.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002989373254798498, "loss": 0.4161, "step": 57350 }, { "epoch": 76.48, "grad_norm": 0.337890625, "learning_rate": 0.00029893695203057246, "loss": 0.3978, "step": 57360 }, { "epoch": 76.49333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002989365785159204, "loss": 0.4091, "step": 57370 }, { "epoch": 76.50666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002989362049358939, "loss": 0.4081, "step": 57380 }, { "epoch": 76.52, "grad_norm": 0.32421875, "learning_rate": 0.0002989358312904931, "loss": 0.3977, "step": 57390 }, { "epoch": 76.53333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029893545757971816, "loss": 0.4016, "step": 57400 }, { "epoch": 76.54666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002989350838035692, "loss": 0.4029, "step": 57410 }, { "epoch": 76.56, "grad_norm": 0.28515625, "learning_rate": 0.00029893470996204645, "loss": 0.3964, "step": 57420 }, { "epoch": 76.57333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002989343360551501, "loss": 0.3996, "step": 57430 }, { "epoch": 76.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029893396208288025, "loss": 0.3895, "step": 57440 }, { "epoch": 76.6, "grad_norm": 0.322265625, "learning_rate": 0.00029893358804523705, "loss": 0.3914, "step": 57450 }, { "epoch": 76.61333333333333, "grad_norm": 0.310546875, "learning_rate": 0.00029893321394222074, "loss": 0.3803, "step": 57460 }, { "epoch": 76.62666666666667, "grad_norm": 0.283203125, "learning_rate": 0.00029893283977383133, "loss": 0.3853, "step": 57470 }, { "epoch": 76.64, "grad_norm": 0.333984375, "learning_rate": 0.0002989324655400692, "loss": 0.3978, "step": 57480 }, { "epoch": 76.65333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029893209124093437, "loss": 0.4084, "step": 57490 }, { "epoch": 76.66666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029893171687642704, "loss": 0.3947, "step": 57500 }, { "epoch": 76.68, "grad_norm": 0.33203125, "learning_rate": 0.00029893134244654736, "loss": 0.3873, "step": 57510 }, { "epoch": 76.69333333333333, "grad_norm": 0.3125, "learning_rate": 0.0002989309679512955, "loss": 0.3963, "step": 57520 }, { "epoch": 76.70666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029893059339067165, "loss": 0.3894, "step": 57530 }, { "epoch": 76.72, "grad_norm": 0.33203125, "learning_rate": 0.00029893021876467596, "loss": 0.4117, "step": 57540 }, { "epoch": 76.73333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002989298440733086, "loss": 0.4056, "step": 57550 }, { "epoch": 76.74666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029892946931656973, "loss": 0.4075, "step": 57560 }, { "epoch": 76.76, "grad_norm": 0.365234375, "learning_rate": 0.0002989290944944595, "loss": 0.4202, "step": 57570 }, { "epoch": 76.77333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029892871960697807, "loss": 0.4091, "step": 57580 }, { "epoch": 76.78666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029892834465412567, "loss": 0.4081, "step": 57590 }, { "epoch": 76.8, "grad_norm": 0.40234375, "learning_rate": 0.0002989279696359024, "loss": 0.4068, "step": 57600 }, { "epoch": 76.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029892759455230837, "loss": 0.38, "step": 57610 }, { "epoch": 76.82666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029892721940334385, "loss": 0.3912, "step": 57620 }, { "epoch": 76.84, "grad_norm": 0.349609375, "learning_rate": 0.000298926844189009, "loss": 0.4019, "step": 57630 }, { "epoch": 76.85333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029892646890930394, "loss": 0.3977, "step": 57640 }, { "epoch": 76.86666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002989260935642288, "loss": 0.401, "step": 57650 }, { "epoch": 76.88, "grad_norm": 0.322265625, "learning_rate": 0.00029892571815378385, "loss": 0.3814, "step": 57660 }, { "epoch": 76.89333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002989253426779692, "loss": 0.3928, "step": 57670 }, { "epoch": 76.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.000298924967136785, "loss": 0.4007, "step": 57680 }, { "epoch": 76.92, "grad_norm": 0.35546875, "learning_rate": 0.0002989245915302314, "loss": 0.403, "step": 57690 }, { "epoch": 76.93333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029892421585830866, "loss": 0.3964, "step": 57700 }, { "epoch": 76.94666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002989238401210168, "loss": 0.3961, "step": 57710 }, { "epoch": 76.96, "grad_norm": 0.349609375, "learning_rate": 0.0002989234643183561, "loss": 0.3945, "step": 57720 }, { "epoch": 76.97333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002989230884503267, "loss": 0.4207, "step": 57730 }, { "epoch": 76.98666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029892271251692867, "loss": 0.3957, "step": 57740 }, { "epoch": 77.0, "grad_norm": 0.416015625, "learning_rate": 0.00029892233651816237, "loss": 0.3895, "step": 57750 }, { "epoch": 77.0, "eval_loss": 0.43025487661361694, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6172, "eval_samples_per_second": 1.664, "eval_steps_per_second": 0.104, "step": 57750 }, { "epoch": 77.01333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002989219604540278, "loss": 0.4065, "step": 57760 }, { "epoch": 77.02666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002989215843245252, "loss": 0.419, "step": 57770 }, { "epoch": 77.04, "grad_norm": 0.3515625, "learning_rate": 0.0002989212081296547, "loss": 0.4316, "step": 57780 }, { "epoch": 77.05333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029892083186941644, "loss": 0.4177, "step": 57790 }, { "epoch": 77.06666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002989204555438106, "loss": 0.404, "step": 57800 }, { "epoch": 77.08, "grad_norm": 0.369140625, "learning_rate": 0.00029892007915283743, "loss": 0.4079, "step": 57810 }, { "epoch": 77.09333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002989197026964971, "loss": 0.4097, "step": 57820 }, { "epoch": 77.10666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029891932617478957, "loss": 0.3975, "step": 57830 }, { "epoch": 77.12, "grad_norm": 0.357421875, "learning_rate": 0.0002989189495877152, "loss": 0.4021, "step": 57840 }, { "epoch": 77.13333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002989185729352741, "loss": 0.3942, "step": 57850 }, { "epoch": 77.14666666666666, "grad_norm": 0.328125, "learning_rate": 0.00029891819621746644, "loss": 0.4129, "step": 57860 }, { "epoch": 77.16, "grad_norm": 0.337890625, "learning_rate": 0.00029891781943429234, "loss": 0.4064, "step": 57870 }, { "epoch": 77.17333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029891744258575206, "loss": 0.3995, "step": 57880 }, { "epoch": 77.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002989170656718457, "loss": 0.4, "step": 57890 }, { "epoch": 77.2, "grad_norm": 0.337890625, "learning_rate": 0.00029891668869257344, "loss": 0.3927, "step": 57900 }, { "epoch": 77.21333333333334, "grad_norm": 0.375, "learning_rate": 0.0002989163116479354, "loss": 0.3936, "step": 57910 }, { "epoch": 77.22666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002989159345379318, "loss": 0.4041, "step": 57920 }, { "epoch": 77.24, "grad_norm": 0.3984375, "learning_rate": 0.0002989155573625628, "loss": 0.3897, "step": 57930 }, { "epoch": 77.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002989151801218286, "loss": 0.3923, "step": 57940 }, { "epoch": 77.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029891480281572926, "loss": 0.3952, "step": 57950 }, { "epoch": 77.28, "grad_norm": 0.42578125, "learning_rate": 0.00029891442544426505, "loss": 0.425, "step": 57960 }, { "epoch": 77.29333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002989140480074361, "loss": 0.3807, "step": 57970 }, { "epoch": 77.30666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002989136705052425, "loss": 0.4035, "step": 57980 }, { "epoch": 77.32, "grad_norm": 0.3046875, "learning_rate": 0.00029891329293768457, "loss": 0.4051, "step": 57990 }, { "epoch": 77.33333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029891291530476235, "loss": 0.41, "step": 58000 }, { "epoch": 77.34666666666666, "grad_norm": 0.3828125, "learning_rate": 0.000298912537606476, "loss": 0.3996, "step": 58010 }, { "epoch": 77.36, "grad_norm": 0.369140625, "learning_rate": 0.0002989121598428258, "loss": 0.401, "step": 58020 }, { "epoch": 77.37333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002989117820138119, "loss": 0.402, "step": 58030 }, { "epoch": 77.38666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029891140411943427, "loss": 0.394, "step": 58040 }, { "epoch": 77.4, "grad_norm": 0.353515625, "learning_rate": 0.0002989110261596933, "loss": 0.4009, "step": 58050 }, { "epoch": 77.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029891064813458907, "loss": 0.4061, "step": 58060 }, { "epoch": 77.42666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029891027004412177, "loss": 0.4073, "step": 58070 }, { "epoch": 77.44, "grad_norm": 0.337890625, "learning_rate": 0.00029890989188829155, "loss": 0.4179, "step": 58080 }, { "epoch": 77.45333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029890951366709853, "loss": 0.407, "step": 58090 }, { "epoch": 77.46666666666667, "grad_norm": 0.32421875, "learning_rate": 0.000298909135380543, "loss": 0.4168, "step": 58100 }, { "epoch": 77.48, "grad_norm": 0.375, "learning_rate": 0.000298908757028625, "loss": 0.3984, "step": 58110 }, { "epoch": 77.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002989083786113447, "loss": 0.4088, "step": 58120 }, { "epoch": 77.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029890800012870235, "loss": 0.4061, "step": 58130 }, { "epoch": 77.52, "grad_norm": 0.294921875, "learning_rate": 0.0002989076215806981, "loss": 0.3973, "step": 58140 }, { "epoch": 77.53333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002989072429673321, "loss": 0.4002, "step": 58150 }, { "epoch": 77.54666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029890686428860443, "loss": 0.4023, "step": 58160 }, { "epoch": 77.56, "grad_norm": 0.322265625, "learning_rate": 0.0002989064855445154, "loss": 0.3973, "step": 58170 }, { "epoch": 77.57333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029890610673506506, "loss": 0.4003, "step": 58180 }, { "epoch": 77.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029890572786025365, "loss": 0.3887, "step": 58190 }, { "epoch": 77.6, "grad_norm": 0.31640625, "learning_rate": 0.0002989053489200813, "loss": 0.3902, "step": 58200 }, { "epoch": 77.61333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002989049699145482, "loss": 0.379, "step": 58210 }, { "epoch": 77.62666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0002989045908436545, "loss": 0.3838, "step": 58220 }, { "epoch": 77.64, "grad_norm": 0.345703125, "learning_rate": 0.00029890421170740037, "loss": 0.3984, "step": 58230 }, { "epoch": 77.65333333333334, "grad_norm": 0.423828125, "learning_rate": 0.000298903832505786, "loss": 0.4081, "step": 58240 }, { "epoch": 77.66666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002989034532388115, "loss": 0.3938, "step": 58250 }, { "epoch": 77.68, "grad_norm": 0.35546875, "learning_rate": 0.00029890307390647707, "loss": 0.3864, "step": 58260 }, { "epoch": 77.69333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029890269450878293, "loss": 0.3955, "step": 58270 }, { "epoch": 77.70666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002989023150457291, "loss": 0.3889, "step": 58280 }, { "epoch": 77.72, "grad_norm": 0.3125, "learning_rate": 0.000298901935517316, "loss": 0.4108, "step": 58290 }, { "epoch": 77.73333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002989015559235435, "loss": 0.4056, "step": 58300 }, { "epoch": 77.74666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002989011762644119, "loss": 0.4077, "step": 58310 }, { "epoch": 77.76, "grad_norm": 0.396484375, "learning_rate": 0.0002989007965399214, "loss": 0.4201, "step": 58320 }, { "epoch": 77.77333333333333, "grad_norm": 0.44140625, "learning_rate": 0.00029890041675007217, "loss": 0.4083, "step": 58330 }, { "epoch": 77.78666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029890003689486433, "loss": 0.4085, "step": 58340 }, { "epoch": 77.8, "grad_norm": 0.45703125, "learning_rate": 0.00029889965697429803, "loss": 0.4074, "step": 58350 }, { "epoch": 77.81333333333333, "grad_norm": 0.435546875, "learning_rate": 0.00029889927698837347, "loss": 0.3801, "step": 58360 }, { "epoch": 77.82666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029889889693709087, "loss": 0.3907, "step": 58370 }, { "epoch": 77.84, "grad_norm": 0.43359375, "learning_rate": 0.0002988985168204503, "loss": 0.4023, "step": 58380 }, { "epoch": 77.85333333333334, "grad_norm": 0.36328125, "learning_rate": 0.000298898136638452, "loss": 0.3979, "step": 58390 }, { "epoch": 77.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029889775639109603, "loss": 0.4014, "step": 58400 }, { "epoch": 77.88, "grad_norm": 0.34375, "learning_rate": 0.00029889737607838264, "loss": 0.3818, "step": 58410 }, { "epoch": 77.89333333333333, "grad_norm": 0.376953125, "learning_rate": 0.000298896995700312, "loss": 0.3929, "step": 58420 }, { "epoch": 77.90666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029889661525688433, "loss": 0.4003, "step": 58430 }, { "epoch": 77.92, "grad_norm": 0.3828125, "learning_rate": 0.0002988962347480997, "loss": 0.4033, "step": 58440 }, { "epoch": 77.93333333333334, "grad_norm": 0.296875, "learning_rate": 0.00029889585417395827, "loss": 0.3959, "step": 58450 }, { "epoch": 77.94666666666667, "grad_norm": 0.375, "learning_rate": 0.00029889547353446026, "loss": 0.3967, "step": 58460 }, { "epoch": 77.96, "grad_norm": 0.375, "learning_rate": 0.00029889509282960585, "loss": 0.3944, "step": 58470 }, { "epoch": 77.97333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002988947120593952, "loss": 0.4203, "step": 58480 }, { "epoch": 77.98666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002988943312238284, "loss": 0.3942, "step": 58490 }, { "epoch": 78.0, "grad_norm": 0.330078125, "learning_rate": 0.0002988939503229057, "loss": 0.3875, "step": 58500 }, { "epoch": 78.0, "eval_loss": 0.42954668402671814, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7424, "eval_samples_per_second": 1.642, "eval_steps_per_second": 0.103, "step": 58500 }, { "epoch": 78.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002988935693566272, "loss": 0.407, "step": 58510 }, { "epoch": 78.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002988931883249932, "loss": 0.4184, "step": 58520 }, { "epoch": 78.04, "grad_norm": 0.328125, "learning_rate": 0.00029889280722800366, "loss": 0.431, "step": 58530 }, { "epoch": 78.05333333333333, "grad_norm": 0.337890625, "learning_rate": 0.000298892426065659, "loss": 0.4179, "step": 58540 }, { "epoch": 78.06666666666666, "grad_norm": 0.375, "learning_rate": 0.0002988920448379592, "loss": 0.4049, "step": 58550 }, { "epoch": 78.08, "grad_norm": 0.451171875, "learning_rate": 0.0002988916635449044, "loss": 0.4083, "step": 58560 }, { "epoch": 78.09333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002988912821864949, "loss": 0.4099, "step": 58570 }, { "epoch": 78.10666666666667, "grad_norm": 0.375, "learning_rate": 0.00029889090076273085, "loss": 0.3968, "step": 58580 }, { "epoch": 78.12, "grad_norm": 0.376953125, "learning_rate": 0.00029889051927361234, "loss": 0.4032, "step": 58590 }, { "epoch": 78.13333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002988901377191396, "loss": 0.3943, "step": 58600 }, { "epoch": 78.14666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002988897560993127, "loss": 0.4125, "step": 58610 }, { "epoch": 78.16, "grad_norm": 0.3359375, "learning_rate": 0.000298889374414132, "loss": 0.4061, "step": 58620 }, { "epoch": 78.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029888899266359745, "loss": 0.4001, "step": 58630 }, { "epoch": 78.18666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029888861084770936, "loss": 0.3993, "step": 58640 }, { "epoch": 78.2, "grad_norm": 0.353515625, "learning_rate": 0.0002988882289664679, "loss": 0.3925, "step": 58650 }, { "epoch": 78.21333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002988878470198731, "loss": 0.3937, "step": 58660 }, { "epoch": 78.22666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002988874650079253, "loss": 0.405, "step": 58670 }, { "epoch": 78.24, "grad_norm": 0.40625, "learning_rate": 0.00029888708293062457, "loss": 0.3906, "step": 58680 }, { "epoch": 78.25333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029888670078797105, "loss": 0.3935, "step": 58690 }, { "epoch": 78.26666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029888631857996503, "loss": 0.3941, "step": 58700 }, { "epoch": 78.28, "grad_norm": 0.376953125, "learning_rate": 0.0002988859363066065, "loss": 0.4243, "step": 58710 }, { "epoch": 78.29333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029888555396789584, "loss": 0.3797, "step": 58720 }, { "epoch": 78.30666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029888517156383305, "loss": 0.4036, "step": 58730 }, { "epoch": 78.32, "grad_norm": 0.3046875, "learning_rate": 0.00029888478909441835, "loss": 0.4058, "step": 58740 }, { "epoch": 78.33333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029888440655965196, "loss": 0.41, "step": 58750 }, { "epoch": 78.34666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002988840239595339, "loss": 0.401, "step": 58760 }, { "epoch": 78.36, "grad_norm": 0.42578125, "learning_rate": 0.0002988836412940645, "loss": 0.4003, "step": 58770 }, { "epoch": 78.37333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002988832585632439, "loss": 0.4004, "step": 58780 }, { "epoch": 78.38666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002988828757670722, "loss": 0.3943, "step": 58790 }, { "epoch": 78.4, "grad_norm": 0.365234375, "learning_rate": 0.00029888249290554964, "loss": 0.4008, "step": 58800 }, { "epoch": 78.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002988821099786763, "loss": 0.4057, "step": 58810 }, { "epoch": 78.42666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002988817269864524, "loss": 0.4068, "step": 58820 }, { "epoch": 78.44, "grad_norm": 0.359375, "learning_rate": 0.00029888134392887813, "loss": 0.4179, "step": 58830 }, { "epoch": 78.45333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029888096080595364, "loss": 0.4073, "step": 58840 }, { "epoch": 78.46666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029888057761767907, "loss": 0.4169, "step": 58850 }, { "epoch": 78.48, "grad_norm": 0.365234375, "learning_rate": 0.0002988801943640546, "loss": 0.3975, "step": 58860 }, { "epoch": 78.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029887981104508043, "loss": 0.4091, "step": 58870 }, { "epoch": 78.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029887942766075674, "loss": 0.4068, "step": 58880 }, { "epoch": 78.52, "grad_norm": 0.3203125, "learning_rate": 0.00029887904421108363, "loss": 0.3975, "step": 58890 }, { "epoch": 78.53333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029887866069606137, "loss": 0.4004, "step": 58900 }, { "epoch": 78.54666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029887827711568997, "loss": 0.4028, "step": 58910 }, { "epoch": 78.56, "grad_norm": 0.314453125, "learning_rate": 0.00029887789346996974, "loss": 0.3967, "step": 58920 }, { "epoch": 78.57333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029887750975890075, "loss": 0.4007, "step": 58930 }, { "epoch": 78.58666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002988771259824833, "loss": 0.3889, "step": 58940 }, { "epoch": 78.6, "grad_norm": 0.333984375, "learning_rate": 0.0002988767421407174, "loss": 0.39, "step": 58950 }, { "epoch": 78.61333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002988763582336034, "loss": 0.3802, "step": 58960 }, { "epoch": 78.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002988759742611412, "loss": 0.3847, "step": 58970 }, { "epoch": 78.64, "grad_norm": 0.345703125, "learning_rate": 0.0002988755902233313, "loss": 0.3983, "step": 58980 }, { "epoch": 78.65333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002988752061201736, "loss": 0.4079, "step": 58990 }, { "epoch": 78.66666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002988748219516684, "loss": 0.3946, "step": 59000 }, { "epoch": 78.68, "grad_norm": 0.37890625, "learning_rate": 0.00029887443771781585, "loss": 0.3875, "step": 59010 }, { "epoch": 78.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002988740534186161, "loss": 0.3953, "step": 59020 }, { "epoch": 78.70666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029887366905406926, "loss": 0.3881, "step": 59030 }, { "epoch": 78.72, "grad_norm": 0.306640625, "learning_rate": 0.00029887328462417564, "loss": 0.4109, "step": 59040 }, { "epoch": 78.73333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002988729001289353, "loss": 0.4054, "step": 59050 }, { "epoch": 78.74666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002988725155683485, "loss": 0.4074, "step": 59060 }, { "epoch": 78.76, "grad_norm": 0.349609375, "learning_rate": 0.00029887213094241527, "loss": 0.4201, "step": 59070 }, { "epoch": 78.77333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002988717462511359, "loss": 0.4078, "step": 59080 }, { "epoch": 78.78666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002988713614945105, "loss": 0.4081, "step": 59090 }, { "epoch": 78.8, "grad_norm": 0.345703125, "learning_rate": 0.0002988709766725393, "loss": 0.4066, "step": 59100 }, { "epoch": 78.81333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002988705917852224, "loss": 0.3798, "step": 59110 }, { "epoch": 78.82666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029887020683256, "loss": 0.3905, "step": 59120 }, { "epoch": 78.84, "grad_norm": 0.416015625, "learning_rate": 0.0002988698218145522, "loss": 0.4017, "step": 59130 }, { "epoch": 78.85333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002988694367311993, "loss": 0.397, "step": 59140 }, { "epoch": 78.86666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029886905158250135, "loss": 0.4015, "step": 59150 }, { "epoch": 78.88, "grad_norm": 0.37890625, "learning_rate": 0.0002988686663684586, "loss": 0.3814, "step": 59160 }, { "epoch": 78.89333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002988682810890712, "loss": 0.3925, "step": 59170 }, { "epoch": 78.90666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029886789574433935, "loss": 0.4008, "step": 59180 }, { "epoch": 78.92, "grad_norm": 0.349609375, "learning_rate": 0.00029886751033426315, "loss": 0.4035, "step": 59190 }, { "epoch": 78.93333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029886712485884274, "loss": 0.3958, "step": 59200 }, { "epoch": 78.94666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029886673931807845, "loss": 0.3963, "step": 59210 }, { "epoch": 78.96, "grad_norm": 0.328125, "learning_rate": 0.00029886635371197026, "loss": 0.3948, "step": 59220 }, { "epoch": 78.97333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002988659680405184, "loss": 0.4202, "step": 59230 }, { "epoch": 78.98666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002988655823037232, "loss": 0.3939, "step": 59240 }, { "epoch": 79.0, "grad_norm": 0.34765625, "learning_rate": 0.00029886519650158453, "loss": 0.3886, "step": 59250 }, { "epoch": 79.0, "eval_loss": 0.43000805377960205, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7982, "eval_samples_per_second": 1.633, "eval_steps_per_second": 0.102, "step": 59250 }, { "epoch": 79.01333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029886481063410284, "loss": 0.4056, "step": 59260 }, { "epoch": 79.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029886442470127814, "loss": 0.4188, "step": 59270 }, { "epoch": 79.04, "grad_norm": 0.37109375, "learning_rate": 0.0002988640387031106, "loss": 0.4306, "step": 59280 }, { "epoch": 79.05333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002988636526396005, "loss": 0.4167, "step": 59290 }, { "epoch": 79.06666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029886326651074795, "loss": 0.4041, "step": 59300 }, { "epoch": 79.08, "grad_norm": 0.369140625, "learning_rate": 0.00029886288031655305, "loss": 0.4077, "step": 59310 }, { "epoch": 79.09333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029886249405701605, "loss": 0.4096, "step": 59320 }, { "epoch": 79.10666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002988621077321371, "loss": 0.3957, "step": 59330 }, { "epoch": 79.12, "grad_norm": 0.384765625, "learning_rate": 0.00029886172134191636, "loss": 0.4024, "step": 59340 }, { "epoch": 79.13333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029886133488635404, "loss": 0.3937, "step": 59350 }, { "epoch": 79.14666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029886094836545027, "loss": 0.4119, "step": 59360 }, { "epoch": 79.16, "grad_norm": 0.3359375, "learning_rate": 0.00029886056177920526, "loss": 0.4053, "step": 59370 }, { "epoch": 79.17333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002988601751276191, "loss": 0.3999, "step": 59380 }, { "epoch": 79.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.000298859788410692, "loss": 0.3993, "step": 59390 }, { "epoch": 79.2, "grad_norm": 0.369140625, "learning_rate": 0.00029885940162842415, "loss": 0.3917, "step": 59400 }, { "epoch": 79.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002988590147808157, "loss": 0.3932, "step": 59410 }, { "epoch": 79.22666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029885862786786685, "loss": 0.4046, "step": 59420 }, { "epoch": 79.24, "grad_norm": 0.365234375, "learning_rate": 0.0002988582408895777, "loss": 0.3888, "step": 59430 }, { "epoch": 79.25333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002988578538459485, "loss": 0.3917, "step": 59440 }, { "epoch": 79.26666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0002988574667369794, "loss": 0.3943, "step": 59450 }, { "epoch": 79.28, "grad_norm": 0.369140625, "learning_rate": 0.00029885707956267055, "loss": 0.4241, "step": 59460 }, { "epoch": 79.29333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029885669232302206, "loss": 0.3804, "step": 59470 }, { "epoch": 79.30666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002988563050180342, "loss": 0.4032, "step": 59480 }, { "epoch": 79.32, "grad_norm": 0.322265625, "learning_rate": 0.00029885591764770717, "loss": 0.405, "step": 59490 }, { "epoch": 79.33333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029885553021204104, "loss": 0.4089, "step": 59500 }, { "epoch": 79.34666666666666, "grad_norm": 0.375, "learning_rate": 0.00029885514271103597, "loss": 0.401, "step": 59510 }, { "epoch": 79.36, "grad_norm": 0.4296875, "learning_rate": 0.00029885475514469226, "loss": 0.4002, "step": 59520 }, { "epoch": 79.37333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029885436751300997, "loss": 0.4, "step": 59530 }, { "epoch": 79.38666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029885397981598927, "loss": 0.3937, "step": 59540 }, { "epoch": 79.4, "grad_norm": 0.3515625, "learning_rate": 0.0002988535920536303, "loss": 0.4002, "step": 59550 }, { "epoch": 79.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002988532042259334, "loss": 0.4051, "step": 59560 }, { "epoch": 79.42666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002988528163328986, "loss": 0.4066, "step": 59570 }, { "epoch": 79.44, "grad_norm": 0.361328125, "learning_rate": 0.000298852428374526, "loss": 0.4175, "step": 59580 }, { "epoch": 79.45333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029885204035081595, "loss": 0.4069, "step": 59590 }, { "epoch": 79.46666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029885165226176857, "loss": 0.4166, "step": 59600 }, { "epoch": 79.48, "grad_norm": 0.3828125, "learning_rate": 0.00029885126410738395, "loss": 0.3965, "step": 59610 }, { "epoch": 79.49333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002988508758876623, "loss": 0.4089, "step": 59620 }, { "epoch": 79.50666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002988504876026038, "loss": 0.4068, "step": 59630 }, { "epoch": 79.52, "grad_norm": 0.314453125, "learning_rate": 0.00029885009925220864, "loss": 0.3964, "step": 59640 }, { "epoch": 79.53333333333333, "grad_norm": 0.375, "learning_rate": 0.000298849710836477, "loss": 0.4017, "step": 59650 }, { "epoch": 79.54666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000298849322355409, "loss": 0.4014, "step": 59660 }, { "epoch": 79.56, "grad_norm": 0.28125, "learning_rate": 0.0002988489338090048, "loss": 0.3956, "step": 59670 }, { "epoch": 79.57333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002988485451972646, "loss": 0.3997, "step": 59680 }, { "epoch": 79.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029884815652018857, "loss": 0.3883, "step": 59690 }, { "epoch": 79.6, "grad_norm": 0.330078125, "learning_rate": 0.0002988477677777769, "loss": 0.3898, "step": 59700 }, { "epoch": 79.61333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029884737897002976, "loss": 0.3795, "step": 59710 }, { "epoch": 79.62666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029884699009694726, "loss": 0.3849, "step": 59720 }, { "epoch": 79.64, "grad_norm": 0.357421875, "learning_rate": 0.0002988466011585296, "loss": 0.3975, "step": 59730 }, { "epoch": 79.65333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002988462121547771, "loss": 0.4069, "step": 59740 }, { "epoch": 79.66666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029884582308568967, "loss": 0.3944, "step": 59750 }, { "epoch": 79.68, "grad_norm": 0.3515625, "learning_rate": 0.00029884543395126766, "loss": 0.3857, "step": 59760 }, { "epoch": 79.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029884504475151115, "loss": 0.3955, "step": 59770 }, { "epoch": 79.70666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029884465548642034, "loss": 0.3886, "step": 59780 }, { "epoch": 79.72, "grad_norm": 0.349609375, "learning_rate": 0.00029884426615599545, "loss": 0.4111, "step": 59790 }, { "epoch": 79.73333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002988438767602366, "loss": 0.4045, "step": 59800 }, { "epoch": 79.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029884348729914393, "loss": 0.4067, "step": 59810 }, { "epoch": 79.76, "grad_norm": 0.392578125, "learning_rate": 0.00029884309777271774, "loss": 0.4192, "step": 59820 }, { "epoch": 79.77333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029884270818095806, "loss": 0.4076, "step": 59830 }, { "epoch": 79.78666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002988423185238651, "loss": 0.4082, "step": 59840 }, { "epoch": 79.8, "grad_norm": 0.357421875, "learning_rate": 0.0002988419288014391, "loss": 0.4074, "step": 59850 }, { "epoch": 79.81333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002988415390136801, "loss": 0.3801, "step": 59860 }, { "epoch": 79.82666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002988411491605884, "loss": 0.3903, "step": 59870 }, { "epoch": 79.84, "grad_norm": 0.40234375, "learning_rate": 0.0002988407592421641, "loss": 0.4019, "step": 59880 }, { "epoch": 79.85333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002988403692584074, "loss": 0.3971, "step": 59890 }, { "epoch": 79.86666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029883997920931846, "loss": 0.4003, "step": 59900 }, { "epoch": 79.88, "grad_norm": 0.361328125, "learning_rate": 0.00029883958909489745, "loss": 0.3817, "step": 59910 }, { "epoch": 79.89333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0002988391989151445, "loss": 0.393, "step": 59920 }, { "epoch": 79.90666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029883880867005984, "loss": 0.4002, "step": 59930 }, { "epoch": 79.92, "grad_norm": 0.32421875, "learning_rate": 0.0002988384183596437, "loss": 0.4025, "step": 59940 }, { "epoch": 79.93333333333334, "grad_norm": 0.302734375, "learning_rate": 0.00029883802798389607, "loss": 0.3958, "step": 59950 }, { "epoch": 79.94666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002988376375428173, "loss": 0.3966, "step": 59960 }, { "epoch": 79.96, "grad_norm": 0.328125, "learning_rate": 0.0002988372470364075, "loss": 0.3934, "step": 59970 }, { "epoch": 79.97333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002988368564646668, "loss": 0.4191, "step": 59980 }, { "epoch": 79.98666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002988364658275954, "loss": 0.3943, "step": 59990 }, { "epoch": 80.0, "grad_norm": 0.333984375, "learning_rate": 0.00029883607512519347, "loss": 0.3875, "step": 60000 }, { "epoch": 80.0, "eval_loss": 0.4296361804008484, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5353, "eval_samples_per_second": 1.678, "eval_steps_per_second": 0.105, "step": 60000 }, { "epoch": 80.01333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002988356843574612, "loss": 0.4054, "step": 60010 }, { "epoch": 80.02666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029883529352439875, "loss": 0.418, "step": 60020 }, { "epoch": 80.04, "grad_norm": 0.3671875, "learning_rate": 0.00029883490262600627, "loss": 0.4307, "step": 60030 }, { "epoch": 80.05333333333333, "grad_norm": 0.357421875, "learning_rate": 0.000298834511662284, "loss": 0.4172, "step": 60040 }, { "epoch": 80.06666666666666, "grad_norm": 0.392578125, "learning_rate": 0.000298834120633232, "loss": 0.404, "step": 60050 }, { "epoch": 80.08, "grad_norm": 0.3515625, "learning_rate": 0.00029883372953885053, "loss": 0.4071, "step": 60060 }, { "epoch": 80.09333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002988333383791398, "loss": 0.4091, "step": 60070 }, { "epoch": 80.10666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002988329471540998, "loss": 0.3956, "step": 60080 }, { "epoch": 80.12, "grad_norm": 0.3671875, "learning_rate": 0.0002988325558637309, "loss": 0.4019, "step": 60090 }, { "epoch": 80.13333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029883216450803313, "loss": 0.3929, "step": 60100 }, { "epoch": 80.14666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029883177308700674, "loss": 0.4126, "step": 60110 }, { "epoch": 80.16, "grad_norm": 0.3359375, "learning_rate": 0.0002988313816006519, "loss": 0.4057, "step": 60120 }, { "epoch": 80.17333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002988309900489688, "loss": 0.3999, "step": 60130 }, { "epoch": 80.18666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002988305984319575, "loss": 0.3992, "step": 60140 }, { "epoch": 80.2, "grad_norm": 0.39453125, "learning_rate": 0.0002988302067496183, "loss": 0.3925, "step": 60150 }, { "epoch": 80.21333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002988298150019513, "loss": 0.3931, "step": 60160 }, { "epoch": 80.22666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002988294231889567, "loss": 0.4054, "step": 60170 }, { "epoch": 80.24, "grad_norm": 0.353515625, "learning_rate": 0.00029882903131063466, "loss": 0.39, "step": 60180 }, { "epoch": 80.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029882863936698536, "loss": 0.3917, "step": 60190 }, { "epoch": 80.26666666666667, "grad_norm": 0.34765625, "learning_rate": 0.000298828247358009, "loss": 0.3947, "step": 60200 }, { "epoch": 80.28, "grad_norm": 0.330078125, "learning_rate": 0.00029882785528370567, "loss": 0.4246, "step": 60210 }, { "epoch": 80.29333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029882746314407565, "loss": 0.3796, "step": 60220 }, { "epoch": 80.30666666666667, "grad_norm": 0.30859375, "learning_rate": 0.000298827070939119, "loss": 0.4032, "step": 60230 }, { "epoch": 80.32, "grad_norm": 0.32421875, "learning_rate": 0.000298826678668836, "loss": 0.4054, "step": 60240 }, { "epoch": 80.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029882628633322674, "loss": 0.4096, "step": 60250 }, { "epoch": 80.34666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029882589393229143, "loss": 0.3991, "step": 60260 }, { "epoch": 80.36, "grad_norm": 0.427734375, "learning_rate": 0.0002988255014660302, "loss": 0.3992, "step": 60270 }, { "epoch": 80.37333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029882510893444335, "loss": 0.4007, "step": 60280 }, { "epoch": 80.38666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029882471633753085, "loss": 0.3936, "step": 60290 }, { "epoch": 80.4, "grad_norm": 0.330078125, "learning_rate": 0.00029882432367529305, "loss": 0.3996, "step": 60300 }, { "epoch": 80.41333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029882393094773, "loss": 0.4051, "step": 60310 }, { "epoch": 80.42666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029882353815484196, "loss": 0.4063, "step": 60320 }, { "epoch": 80.44, "grad_norm": 0.349609375, "learning_rate": 0.0002988231452966291, "loss": 0.4178, "step": 60330 }, { "epoch": 80.45333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029882275237309153, "loss": 0.4066, "step": 60340 }, { "epoch": 80.46666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002988223593842294, "loss": 0.4166, "step": 60350 }, { "epoch": 80.48, "grad_norm": 0.36328125, "learning_rate": 0.000298821966330043, "loss": 0.3977, "step": 60360 }, { "epoch": 80.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.00029882157321053243, "loss": 0.4084, "step": 60370 }, { "epoch": 80.50666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002988211800256979, "loss": 0.4063, "step": 60380 }, { "epoch": 80.52, "grad_norm": 0.330078125, "learning_rate": 0.0002988207867755395, "loss": 0.3961, "step": 60390 }, { "epoch": 80.53333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002988203934600575, "loss": 0.3999, "step": 60400 }, { "epoch": 80.54666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029882000007925197, "loss": 0.4024, "step": 60410 }, { "epoch": 80.56, "grad_norm": 0.33203125, "learning_rate": 0.0002988196066331232, "loss": 0.3951, "step": 60420 }, { "epoch": 80.57333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029881921312167127, "loss": 0.4001, "step": 60430 }, { "epoch": 80.58666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002988188195448964, "loss": 0.3888, "step": 60440 }, { "epoch": 80.6, "grad_norm": 0.310546875, "learning_rate": 0.00029881842590279877, "loss": 0.39, "step": 60450 }, { "epoch": 80.61333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029881803219537854, "loss": 0.3793, "step": 60460 }, { "epoch": 80.62666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002988176384226358, "loss": 0.3841, "step": 60470 }, { "epoch": 80.64, "grad_norm": 0.365234375, "learning_rate": 0.00029881724458457085, "loss": 0.3974, "step": 60480 }, { "epoch": 80.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029881685068118384, "loss": 0.4069, "step": 60490 }, { "epoch": 80.66666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029881645671247484, "loss": 0.3936, "step": 60500 }, { "epoch": 80.68, "grad_norm": 0.3359375, "learning_rate": 0.0002988160626784442, "loss": 0.3862, "step": 60510 }, { "epoch": 80.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002988156685790919, "loss": 0.3952, "step": 60520 }, { "epoch": 80.70666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002988152744144182, "loss": 0.3881, "step": 60530 }, { "epoch": 80.72, "grad_norm": 0.40625, "learning_rate": 0.00029881488018442334, "loss": 0.4114, "step": 60540 }, { "epoch": 80.73333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002988144858891074, "loss": 0.4044, "step": 60550 }, { "epoch": 80.74666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002988140915284705, "loss": 0.4066, "step": 60560 }, { "epoch": 80.76, "grad_norm": 0.349609375, "learning_rate": 0.000298813697102513, "loss": 0.4197, "step": 60570 }, { "epoch": 80.77333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029881330261123494, "loss": 0.4069, "step": 60580 }, { "epoch": 80.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029881290805463655, "loss": 0.4077, "step": 60590 }, { "epoch": 80.8, "grad_norm": 0.34765625, "learning_rate": 0.0002988125134327179, "loss": 0.4057, "step": 60600 }, { "epoch": 80.81333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029881211874547935, "loss": 0.3798, "step": 60610 }, { "epoch": 80.82666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029881172399292085, "loss": 0.3904, "step": 60620 }, { "epoch": 80.84, "grad_norm": 0.357421875, "learning_rate": 0.00029881132917504276, "loss": 0.4017, "step": 60630 }, { "epoch": 80.85333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002988109342918451, "loss": 0.3969, "step": 60640 }, { "epoch": 80.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002988105393433282, "loss": 0.4007, "step": 60650 }, { "epoch": 80.88, "grad_norm": 0.310546875, "learning_rate": 0.00029881014432949214, "loss": 0.3824, "step": 60660 }, { "epoch": 80.89333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002988097492503371, "loss": 0.3926, "step": 60670 }, { "epoch": 80.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002988093541058632, "loss": 0.4003, "step": 60680 }, { "epoch": 80.92, "grad_norm": 0.33203125, "learning_rate": 0.0002988089588960708, "loss": 0.4023, "step": 60690 }, { "epoch": 80.93333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002988085636209598, "loss": 0.3949, "step": 60700 }, { "epoch": 80.94666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029880816828053064, "loss": 0.3959, "step": 60710 }, { "epoch": 80.96, "grad_norm": 0.349609375, "learning_rate": 0.0002988077728747833, "loss": 0.3935, "step": 60720 }, { "epoch": 80.97333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002988073774037181, "loss": 0.4188, "step": 60730 }, { "epoch": 80.98666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002988069818673351, "loss": 0.3933, "step": 60740 }, { "epoch": 81.0, "grad_norm": 0.333984375, "learning_rate": 0.0002988065862656345, "loss": 0.3886, "step": 60750 }, { "epoch": 81.0, "eval_loss": 0.42978671193122864, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.615, "eval_samples_per_second": 1.664, "eval_steps_per_second": 0.104, "step": 60750 }, { "epoch": 81.01333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002988061905986165, "loss": 0.407, "step": 60760 }, { "epoch": 81.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029880579486628127, "loss": 0.4176, "step": 60770 }, { "epoch": 81.04, "grad_norm": 0.341796875, "learning_rate": 0.00029880539906862897, "loss": 0.4306, "step": 60780 }, { "epoch": 81.05333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029880500320565983, "loss": 0.4163, "step": 60790 }, { "epoch": 81.06666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002988046072773739, "loss": 0.4042, "step": 60800 }, { "epoch": 81.08, "grad_norm": 0.369140625, "learning_rate": 0.00029880421128377146, "loss": 0.4081, "step": 60810 }, { "epoch": 81.09333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002988038152248527, "loss": 0.4078, "step": 60820 }, { "epoch": 81.10666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029880341910061765, "loss": 0.397, "step": 60830 }, { "epoch": 81.12, "grad_norm": 0.3671875, "learning_rate": 0.00029880302291106664, "loss": 0.4015, "step": 60840 }, { "epoch": 81.13333333333334, "grad_norm": 0.31640625, "learning_rate": 0.0002988026266561998, "loss": 0.3942, "step": 60850 }, { "epoch": 81.14666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029880223033601727, "loss": 0.4113, "step": 60860 }, { "epoch": 81.16, "grad_norm": 0.341796875, "learning_rate": 0.00029880183395051917, "loss": 0.4052, "step": 60870 }, { "epoch": 81.17333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029880143749970586, "loss": 0.3989, "step": 60880 }, { "epoch": 81.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029880104098357733, "loss": 0.3977, "step": 60890 }, { "epoch": 81.2, "grad_norm": 0.609375, "learning_rate": 0.0002988006444021338, "loss": 0.392, "step": 60900 }, { "epoch": 81.21333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002988002477553755, "loss": 0.3929, "step": 60910 }, { "epoch": 81.22666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002987998510433026, "loss": 0.4044, "step": 60920 }, { "epoch": 81.24, "grad_norm": 0.419921875, "learning_rate": 0.00029879945426591523, "loss": 0.3892, "step": 60930 }, { "epoch": 81.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002987990574232136, "loss": 0.3917, "step": 60940 }, { "epoch": 81.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002987986605151978, "loss": 0.3935, "step": 60950 }, { "epoch": 81.28, "grad_norm": 0.34765625, "learning_rate": 0.0002987982635418681, "loss": 0.4242, "step": 60960 }, { "epoch": 81.29333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029879786650322465, "loss": 0.38, "step": 60970 }, { "epoch": 81.30666666666667, "grad_norm": 0.296875, "learning_rate": 0.0002987974693992676, "loss": 0.4031, "step": 60980 }, { "epoch": 81.32, "grad_norm": 0.298828125, "learning_rate": 0.0002987970722299972, "loss": 0.4045, "step": 60990 }, { "epoch": 81.33333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002987966749954135, "loss": 0.4084, "step": 61000 }, { "epoch": 81.34666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029879627769551675, "loss": 0.3989, "step": 61010 }, { "epoch": 81.36, "grad_norm": 0.40625, "learning_rate": 0.0002987958803303071, "loss": 0.3995, "step": 61020 }, { "epoch": 81.37333333333333, "grad_norm": 0.3046875, "learning_rate": 0.00029879548289978486, "loss": 0.4009, "step": 61030 }, { "epoch": 81.38666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029879508540394995, "loss": 0.3928, "step": 61040 }, { "epoch": 81.4, "grad_norm": 0.3359375, "learning_rate": 0.0002987946878428027, "loss": 0.4005, "step": 61050 }, { "epoch": 81.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029879429021634327, "loss": 0.4051, "step": 61060 }, { "epoch": 81.42666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002987938925245718, "loss": 0.4067, "step": 61070 }, { "epoch": 81.44, "grad_norm": 0.357421875, "learning_rate": 0.0002987934947674886, "loss": 0.417, "step": 61080 }, { "epoch": 81.45333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029879309694509366, "loss": 0.4076, "step": 61090 }, { "epoch": 81.46666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002987926990573872, "loss": 0.4151, "step": 61100 }, { "epoch": 81.48, "grad_norm": 0.37890625, "learning_rate": 0.0002987923011043695, "loss": 0.3968, "step": 61110 }, { "epoch": 81.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002987919030860406, "loss": 0.4081, "step": 61120 }, { "epoch": 81.50666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029879150500240076, "loss": 0.406, "step": 61130 }, { "epoch": 81.52, "grad_norm": 0.296875, "learning_rate": 0.0002987911068534501, "loss": 0.397, "step": 61140 }, { "epoch": 81.53333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029879070863918884, "loss": 0.4001, "step": 61150 }, { "epoch": 81.54666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002987903103596172, "loss": 0.4022, "step": 61160 }, { "epoch": 81.56, "grad_norm": 0.330078125, "learning_rate": 0.0002987899120147352, "loss": 0.3966, "step": 61170 }, { "epoch": 81.57333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002987895136045431, "loss": 0.3999, "step": 61180 }, { "epoch": 81.58666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002987891151290412, "loss": 0.3876, "step": 61190 }, { "epoch": 81.6, "grad_norm": 0.318359375, "learning_rate": 0.00029878871658822943, "loss": 0.3905, "step": 61200 }, { "epoch": 81.61333333333333, "grad_norm": 0.31640625, "learning_rate": 0.00029878831798210823, "loss": 0.3798, "step": 61210 }, { "epoch": 81.62666666666667, "grad_norm": 0.29296875, "learning_rate": 0.00029878791931067756, "loss": 0.3851, "step": 61220 }, { "epoch": 81.64, "grad_norm": 0.380859375, "learning_rate": 0.00029878752057393765, "loss": 0.3974, "step": 61230 }, { "epoch": 81.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029878712177188875, "loss": 0.4078, "step": 61240 }, { "epoch": 81.66666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029878672290453094, "loss": 0.3952, "step": 61250 }, { "epoch": 81.68, "grad_norm": 0.37109375, "learning_rate": 0.0002987863239718644, "loss": 0.3861, "step": 61260 }, { "epoch": 81.69333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002987859249738894, "loss": 0.3945, "step": 61270 }, { "epoch": 81.70666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029878552591060606, "loss": 0.3883, "step": 61280 }, { "epoch": 81.72, "grad_norm": 0.3671875, "learning_rate": 0.00029878512678201455, "loss": 0.4111, "step": 61290 }, { "epoch": 81.73333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002987847275881151, "loss": 0.4042, "step": 61300 }, { "epoch": 81.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029878432832890775, "loss": 0.4062, "step": 61310 }, { "epoch": 81.76, "grad_norm": 0.392578125, "learning_rate": 0.0002987839290043928, "loss": 0.4194, "step": 61320 }, { "epoch": 81.77333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029878352961457035, "loss": 0.4066, "step": 61330 }, { "epoch": 81.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029878313015944063, "loss": 0.4075, "step": 61340 }, { "epoch": 81.8, "grad_norm": 0.345703125, "learning_rate": 0.0002987827306390038, "loss": 0.4062, "step": 61350 }, { "epoch": 81.81333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029878233105326004, "loss": 0.3792, "step": 61360 }, { "epoch": 81.82666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029878193140220956, "loss": 0.3883, "step": 61370 }, { "epoch": 81.84, "grad_norm": 0.375, "learning_rate": 0.0002987815316858524, "loss": 0.4011, "step": 61380 }, { "epoch": 81.85333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002987811319041889, "loss": 0.3971, "step": 61390 }, { "epoch": 81.86666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002987807320572191, "loss": 0.4009, "step": 61400 }, { "epoch": 81.88, "grad_norm": 0.328125, "learning_rate": 0.00029878033214494323, "loss": 0.3811, "step": 61410 }, { "epoch": 81.89333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002987799321673615, "loss": 0.3916, "step": 61420 }, { "epoch": 81.90666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029877953212447414, "loss": 0.3992, "step": 61430 }, { "epoch": 81.92, "grad_norm": 0.341796875, "learning_rate": 0.00029877913201628115, "loss": 0.4022, "step": 61440 }, { "epoch": 81.93333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029877873184278286, "loss": 0.3947, "step": 61450 }, { "epoch": 81.94666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002987783316039793, "loss": 0.3963, "step": 61460 }, { "epoch": 81.96, "grad_norm": 0.3515625, "learning_rate": 0.0002987779312998708, "loss": 0.3939, "step": 61470 }, { "epoch": 81.97333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029877753093045744, "loss": 0.4201, "step": 61480 }, { "epoch": 81.98666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029877713049573945, "loss": 0.3937, "step": 61490 }, { "epoch": 82.0, "grad_norm": 0.35546875, "learning_rate": 0.000298776729995717, "loss": 0.3886, "step": 61500 }, { "epoch": 82.0, "eval_loss": 0.42987674474716187, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1408, "eval_samples_per_second": 1.578, "eval_steps_per_second": 0.099, "step": 61500 }, { "epoch": 82.01333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002987763294303902, "loss": 0.4052, "step": 61510 }, { "epoch": 82.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029877592879975926, "loss": 0.4171, "step": 61520 }, { "epoch": 82.04, "grad_norm": 0.330078125, "learning_rate": 0.0002987755281038244, "loss": 0.431, "step": 61530 }, { "epoch": 82.05333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029877512734258573, "loss": 0.4165, "step": 61540 }, { "epoch": 82.06666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002987747265160435, "loss": 0.4042, "step": 61550 }, { "epoch": 82.08, "grad_norm": 0.4140625, "learning_rate": 0.0002987743256241978, "loss": 0.408, "step": 61560 }, { "epoch": 82.09333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002987739246670489, "loss": 0.4093, "step": 61570 }, { "epoch": 82.10666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002987735236445968, "loss": 0.3958, "step": 61580 }, { "epoch": 82.12, "grad_norm": 0.359375, "learning_rate": 0.00029877312255684196, "loss": 0.4009, "step": 61590 }, { "epoch": 82.13333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002987727214037843, "loss": 0.3922, "step": 61600 }, { "epoch": 82.14666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029877232018542417, "loss": 0.4107, "step": 61610 }, { "epoch": 82.16, "grad_norm": 0.3359375, "learning_rate": 0.0002987719189017616, "loss": 0.4051, "step": 61620 }, { "epoch": 82.17333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002987715175527969, "loss": 0.3999, "step": 61630 }, { "epoch": 82.18666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002987711161385301, "loss": 0.3989, "step": 61640 }, { "epoch": 82.2, "grad_norm": 0.3515625, "learning_rate": 0.0002987707146589615, "loss": 0.39, "step": 61650 }, { "epoch": 82.21333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029877031311409126, "loss": 0.3933, "step": 61660 }, { "epoch": 82.22666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002987699115039195, "loss": 0.4047, "step": 61670 }, { "epoch": 82.24, "grad_norm": 0.330078125, "learning_rate": 0.00029876950982844644, "loss": 0.3898, "step": 61680 }, { "epoch": 82.25333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002987691080876723, "loss": 0.3918, "step": 61690 }, { "epoch": 82.26666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002987687062815971, "loss": 0.394, "step": 61700 }, { "epoch": 82.28, "grad_norm": 0.408203125, "learning_rate": 0.0002987683044102212, "loss": 0.424, "step": 61710 }, { "epoch": 82.29333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002987679024735446, "loss": 0.3794, "step": 61720 }, { "epoch": 82.30666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029876750047156764, "loss": 0.4026, "step": 61730 }, { "epoch": 82.32, "grad_norm": 0.341796875, "learning_rate": 0.0002987670984042904, "loss": 0.4049, "step": 61740 }, { "epoch": 82.33333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002987666962717131, "loss": 0.4092, "step": 61750 }, { "epoch": 82.34666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002987662940738359, "loss": 0.3989, "step": 61760 }, { "epoch": 82.36, "grad_norm": 0.453125, "learning_rate": 0.00029876589181065895, "loss": 0.3991, "step": 61770 }, { "epoch": 82.37333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002987654894821825, "loss": 0.3998, "step": 61780 }, { "epoch": 82.38666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002987650870884066, "loss": 0.3937, "step": 61790 }, { "epoch": 82.4, "grad_norm": 0.337890625, "learning_rate": 0.00029876468462933155, "loss": 0.4007, "step": 61800 }, { "epoch": 82.41333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029876428210495753, "loss": 0.4045, "step": 61810 }, { "epoch": 82.42666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002987638795152846, "loss": 0.4062, "step": 61820 }, { "epoch": 82.44, "grad_norm": 0.38671875, "learning_rate": 0.000298763476860313, "loss": 0.4168, "step": 61830 }, { "epoch": 82.45333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029876307414004297, "loss": 0.4062, "step": 61840 }, { "epoch": 82.46666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002987626713544746, "loss": 0.4163, "step": 61850 }, { "epoch": 82.48, "grad_norm": 0.3515625, "learning_rate": 0.0002987622685036081, "loss": 0.3959, "step": 61860 }, { "epoch": 82.49333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029876186558744366, "loss": 0.4083, "step": 61870 }, { "epoch": 82.50666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002987614626059814, "loss": 0.406, "step": 61880 }, { "epoch": 82.52, "grad_norm": 0.328125, "learning_rate": 0.0002987610595592215, "loss": 0.3964, "step": 61890 }, { "epoch": 82.53333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002987606564471643, "loss": 0.4001, "step": 61900 }, { "epoch": 82.54666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002987602532698097, "loss": 0.4014, "step": 61910 }, { "epoch": 82.56, "grad_norm": 0.29296875, "learning_rate": 0.00029875985002715815, "loss": 0.3967, "step": 61920 }, { "epoch": 82.57333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029875944671920964, "loss": 0.3991, "step": 61930 }, { "epoch": 82.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029875904334596446, "loss": 0.3875, "step": 61940 }, { "epoch": 82.6, "grad_norm": 0.322265625, "learning_rate": 0.00029875863990742267, "loss": 0.3896, "step": 61950 }, { "epoch": 82.61333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002987582364035845, "loss": 0.3795, "step": 61960 }, { "epoch": 82.62666666666667, "grad_norm": 0.291015625, "learning_rate": 0.00029875783283445025, "loss": 0.3843, "step": 61970 }, { "epoch": 82.64, "grad_norm": 0.34765625, "learning_rate": 0.00029875742920001995, "loss": 0.3973, "step": 61980 }, { "epoch": 82.65333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029875702550029374, "loss": 0.4069, "step": 61990 }, { "epoch": 82.66666666666667, "grad_norm": 0.330078125, "learning_rate": 0.000298756621735272, "loss": 0.3934, "step": 62000 }, { "epoch": 82.68, "grad_norm": 0.361328125, "learning_rate": 0.0002987562179049547, "loss": 0.3862, "step": 62010 }, { "epoch": 82.69333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002987558140093421, "loss": 0.3952, "step": 62020 }, { "epoch": 82.70666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002987554100484344, "loss": 0.3891, "step": 62030 }, { "epoch": 82.72, "grad_norm": 0.380859375, "learning_rate": 0.0002987550060222317, "loss": 0.4113, "step": 62040 }, { "epoch": 82.73333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002987546019307343, "loss": 0.4039, "step": 62050 }, { "epoch": 82.74666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0002987541977739423, "loss": 0.4066, "step": 62060 }, { "epoch": 82.76, "grad_norm": 0.34765625, "learning_rate": 0.0002987537935518558, "loss": 0.4202, "step": 62070 }, { "epoch": 82.77333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029875338926447516, "loss": 0.4066, "step": 62080 }, { "epoch": 82.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.00029875298491180045, "loss": 0.4075, "step": 62090 }, { "epoch": 82.8, "grad_norm": 0.33203125, "learning_rate": 0.00029875258049383177, "loss": 0.4056, "step": 62100 }, { "epoch": 82.81333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029875217601056946, "loss": 0.3797, "step": 62110 }, { "epoch": 82.82666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029875177146201367, "loss": 0.3903, "step": 62120 }, { "epoch": 82.84, "grad_norm": 0.439453125, "learning_rate": 0.0002987513668481644, "loss": 0.4008, "step": 62130 }, { "epoch": 82.85333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029875096216902205, "loss": 0.3959, "step": 62140 }, { "epoch": 82.86666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029875055742458666, "loss": 0.4004, "step": 62150 }, { "epoch": 82.88, "grad_norm": 0.3671875, "learning_rate": 0.00029875015261485855, "loss": 0.381, "step": 62160 }, { "epoch": 82.89333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029874974773983767, "loss": 0.3919, "step": 62170 }, { "epoch": 82.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002987493427995244, "loss": 0.4003, "step": 62180 }, { "epoch": 82.92, "grad_norm": 0.373046875, "learning_rate": 0.0002987489377939188, "loss": 0.4015, "step": 62190 }, { "epoch": 82.93333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002987485327230211, "loss": 0.3952, "step": 62200 }, { "epoch": 82.94666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029874812758683156, "loss": 0.3957, "step": 62210 }, { "epoch": 82.96, "grad_norm": 0.328125, "learning_rate": 0.0002987477223853502, "loss": 0.3938, "step": 62220 }, { "epoch": 82.97333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029874731711857725, "loss": 0.4194, "step": 62230 }, { "epoch": 82.98666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029874691178651295, "loss": 0.393, "step": 62240 }, { "epoch": 83.0, "grad_norm": 0.34765625, "learning_rate": 0.0002987465063891574, "loss": 0.3881, "step": 62250 }, { "epoch": 83.0, "eval_loss": 0.42971071600914, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9949, "eval_samples_per_second": 1.601, "eval_steps_per_second": 0.1, "step": 62250 }, { "epoch": 83.01333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002987461009265108, "loss": 0.4051, "step": 62260 }, { "epoch": 83.02666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002987456953985734, "loss": 0.4174, "step": 62270 }, { "epoch": 83.04, "grad_norm": 0.359375, "learning_rate": 0.00029874528980534525, "loss": 0.4303, "step": 62280 }, { "epoch": 83.05333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029874488414682665, "loss": 0.4169, "step": 62290 }, { "epoch": 83.06666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029874447842301766, "loss": 0.4037, "step": 62300 }, { "epoch": 83.08, "grad_norm": 0.408203125, "learning_rate": 0.00029874407263391856, "loss": 0.4069, "step": 62310 }, { "epoch": 83.09333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002987436667795295, "loss": 0.4086, "step": 62320 }, { "epoch": 83.10666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029874326085985067, "loss": 0.3963, "step": 62330 }, { "epoch": 83.12, "grad_norm": 0.35546875, "learning_rate": 0.00029874285487488215, "loss": 0.402, "step": 62340 }, { "epoch": 83.13333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002987424488246243, "loss": 0.3929, "step": 62350 }, { "epoch": 83.14666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029874204270907706, "loss": 0.4118, "step": 62360 }, { "epoch": 83.16, "grad_norm": 0.3515625, "learning_rate": 0.0002987416365282408, "loss": 0.4054, "step": 62370 }, { "epoch": 83.17333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029874123028211563, "loss": 0.3989, "step": 62380 }, { "epoch": 83.18666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029874082397070176, "loss": 0.3974, "step": 62390 }, { "epoch": 83.2, "grad_norm": 0.412109375, "learning_rate": 0.00029874041759399934, "loss": 0.392, "step": 62400 }, { "epoch": 83.21333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029874001115200855, "loss": 0.3925, "step": 62410 }, { "epoch": 83.22666666666667, "grad_norm": 0.4609375, "learning_rate": 0.0002987396046447296, "loss": 0.4046, "step": 62420 }, { "epoch": 83.24, "grad_norm": 0.3984375, "learning_rate": 0.0002987391980721626, "loss": 0.3893, "step": 62430 }, { "epoch": 83.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002987387914343078, "loss": 0.3923, "step": 62440 }, { "epoch": 83.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002987383847311653, "loss": 0.3937, "step": 62450 }, { "epoch": 83.28, "grad_norm": 0.3515625, "learning_rate": 0.00029873797796273535, "loss": 0.4231, "step": 62460 }, { "epoch": 83.29333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002987375711290181, "loss": 0.3787, "step": 62470 }, { "epoch": 83.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029873716423001374, "loss": 0.4028, "step": 62480 }, { "epoch": 83.32, "grad_norm": 0.322265625, "learning_rate": 0.0002987367572657225, "loss": 0.4041, "step": 62490 }, { "epoch": 83.33333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002987363502361444, "loss": 0.4088, "step": 62500 }, { "epoch": 83.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029873594314127976, "loss": 0.399, "step": 62510 }, { "epoch": 83.36, "grad_norm": 0.396484375, "learning_rate": 0.00029873553598112873, "loss": 0.3986, "step": 62520 }, { "epoch": 83.37333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029873512875569144, "loss": 0.4007, "step": 62530 }, { "epoch": 83.38666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029873472146496816, "loss": 0.3921, "step": 62540 }, { "epoch": 83.4, "grad_norm": 0.33984375, "learning_rate": 0.000298734314108959, "loss": 0.4001, "step": 62550 }, { "epoch": 83.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029873390668766416, "loss": 0.4026, "step": 62560 }, { "epoch": 83.42666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029873349920108376, "loss": 0.4059, "step": 62570 }, { "epoch": 83.44, "grad_norm": 0.34765625, "learning_rate": 0.0002987330916492181, "loss": 0.4165, "step": 62580 }, { "epoch": 83.45333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002987326840320672, "loss": 0.406, "step": 62590 }, { "epoch": 83.46666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002987322763496314, "loss": 0.4154, "step": 62600 }, { "epoch": 83.48, "grad_norm": 0.357421875, "learning_rate": 0.00029873186860191077, "loss": 0.3964, "step": 62610 }, { "epoch": 83.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029873146078890556, "loss": 0.4078, "step": 62620 }, { "epoch": 83.50666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002987310529106159, "loss": 0.406, "step": 62630 }, { "epoch": 83.52, "grad_norm": 0.328125, "learning_rate": 0.00029873064496704194, "loss": 0.3962, "step": 62640 }, { "epoch": 83.53333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000298730236958184, "loss": 0.3994, "step": 62650 }, { "epoch": 83.54666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002987298288840421, "loss": 0.4012, "step": 62660 }, { "epoch": 83.56, "grad_norm": 0.314453125, "learning_rate": 0.00029872942074461647, "loss": 0.3957, "step": 62670 }, { "epoch": 83.57333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029872901253990734, "loss": 0.3995, "step": 62680 }, { "epoch": 83.58666666666667, "grad_norm": 0.375, "learning_rate": 0.0002987286042699148, "loss": 0.3884, "step": 62690 }, { "epoch": 83.6, "grad_norm": 0.3515625, "learning_rate": 0.0002987281959346391, "loss": 0.39, "step": 62700 }, { "epoch": 83.61333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002987277875340804, "loss": 0.3794, "step": 62710 }, { "epoch": 83.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002987273790682389, "loss": 0.3836, "step": 62720 }, { "epoch": 83.64, "grad_norm": 0.380859375, "learning_rate": 0.0002987269705371148, "loss": 0.3978, "step": 62730 }, { "epoch": 83.65333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029872656194070813, "loss": 0.4067, "step": 62740 }, { "epoch": 83.66666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002987261532790192, "loss": 0.3936, "step": 62750 }, { "epoch": 83.68, "grad_norm": 0.357421875, "learning_rate": 0.0002987257445520482, "loss": 0.3854, "step": 62760 }, { "epoch": 83.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002987253357597953, "loss": 0.3951, "step": 62770 }, { "epoch": 83.70666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002987249269022606, "loss": 0.3889, "step": 62780 }, { "epoch": 83.72, "grad_norm": 0.380859375, "learning_rate": 0.0002987245179794443, "loss": 0.4107, "step": 62790 }, { "epoch": 83.73333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002987241089913467, "loss": 0.4043, "step": 62800 }, { "epoch": 83.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029872369993796786, "loss": 0.4069, "step": 62810 }, { "epoch": 83.76, "grad_norm": 0.361328125, "learning_rate": 0.00029872329081930796, "loss": 0.4201, "step": 62820 }, { "epoch": 83.77333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029872288163536727, "loss": 0.4069, "step": 62830 }, { "epoch": 83.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029872247238614584, "loss": 0.4071, "step": 62840 }, { "epoch": 83.8, "grad_norm": 0.34765625, "learning_rate": 0.00029872206307164395, "loss": 0.406, "step": 62850 }, { "epoch": 83.81333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002987216536918618, "loss": 0.3789, "step": 62860 }, { "epoch": 83.82666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002987212442467995, "loss": 0.3891, "step": 62870 }, { "epoch": 83.84, "grad_norm": 0.361328125, "learning_rate": 0.0002987208347364572, "loss": 0.4003, "step": 62880 }, { "epoch": 83.85333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002987204251608352, "loss": 0.3953, "step": 62890 }, { "epoch": 83.86666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002987200155199335, "loss": 0.4002, "step": 62900 }, { "epoch": 83.88, "grad_norm": 0.333984375, "learning_rate": 0.0002987196058137525, "loss": 0.3805, "step": 62910 }, { "epoch": 83.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029871919604229223, "loss": 0.3926, "step": 62920 }, { "epoch": 83.90666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029871878620555287, "loss": 0.3992, "step": 62930 }, { "epoch": 83.92, "grad_norm": 0.365234375, "learning_rate": 0.00029871837630353473, "loss": 0.4014, "step": 62940 }, { "epoch": 83.93333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002987179663362378, "loss": 0.3946, "step": 62950 }, { "epoch": 83.94666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002987175563036624, "loss": 0.3965, "step": 62960 }, { "epoch": 83.96, "grad_norm": 0.337890625, "learning_rate": 0.0002987171462058087, "loss": 0.3944, "step": 62970 }, { "epoch": 83.97333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029871673604267676, "loss": 0.4201, "step": 62980 }, { "epoch": 83.98666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029871632581426693, "loss": 0.394, "step": 62990 }, { "epoch": 84.0, "grad_norm": 0.33203125, "learning_rate": 0.0002987159155205793, "loss": 0.3874, "step": 63000 }, { "epoch": 84.0, "eval_loss": 0.4306502640247345, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1325, "eval_samples_per_second": 1.579, "eval_steps_per_second": 0.099, "step": 63000 }, { "epoch": 84.01333333333334, "grad_norm": 0.353515625, "learning_rate": 0.000298715505161614, "loss": 0.4057, "step": 63010 }, { "epoch": 84.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029871509473737134, "loss": 0.4178, "step": 63020 }, { "epoch": 84.04, "grad_norm": 0.341796875, "learning_rate": 0.0002987146842478514, "loss": 0.4298, "step": 63030 }, { "epoch": 84.05333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002987142736930544, "loss": 0.4165, "step": 63040 }, { "epoch": 84.06666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029871386307298047, "loss": 0.4032, "step": 63050 }, { "epoch": 84.08, "grad_norm": 0.34765625, "learning_rate": 0.00029871345238762984, "loss": 0.4072, "step": 63060 }, { "epoch": 84.09333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002987130416370027, "loss": 0.4077, "step": 63070 }, { "epoch": 84.10666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002987126308210992, "loss": 0.3953, "step": 63080 }, { "epoch": 84.12, "grad_norm": 0.396484375, "learning_rate": 0.0002987122199399196, "loss": 0.4016, "step": 63090 }, { "epoch": 84.13333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029871180899346397, "loss": 0.3931, "step": 63100 }, { "epoch": 84.14666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002987113979817325, "loss": 0.4106, "step": 63110 }, { "epoch": 84.16, "grad_norm": 0.353515625, "learning_rate": 0.0002987109869047254, "loss": 0.4043, "step": 63120 }, { "epoch": 84.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002987105757624428, "loss": 0.3994, "step": 63130 }, { "epoch": 84.18666666666667, "grad_norm": 0.337890625, "learning_rate": 0.000298710164554885, "loss": 0.3982, "step": 63140 }, { "epoch": 84.2, "grad_norm": 0.37109375, "learning_rate": 0.00029870975328205216, "loss": 0.3913, "step": 63150 }, { "epoch": 84.21333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002987093419439443, "loss": 0.3919, "step": 63160 }, { "epoch": 84.22666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029870893054056183, "loss": 0.4032, "step": 63170 }, { "epoch": 84.24, "grad_norm": 0.365234375, "learning_rate": 0.0002987085190719048, "loss": 0.3892, "step": 63180 }, { "epoch": 84.25333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002987081075379733, "loss": 0.3908, "step": 63190 }, { "epoch": 84.26666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002987076959387677, "loss": 0.3931, "step": 63200 }, { "epoch": 84.28, "grad_norm": 0.349609375, "learning_rate": 0.0002987072842742881, "loss": 0.4233, "step": 63210 }, { "epoch": 84.29333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029870687254453465, "loss": 0.3791, "step": 63220 }, { "epoch": 84.30666666666667, "grad_norm": 0.3125, "learning_rate": 0.0002987064607495076, "loss": 0.4027, "step": 63230 }, { "epoch": 84.32, "grad_norm": 0.326171875, "learning_rate": 0.000298706048889207, "loss": 0.404, "step": 63240 }, { "epoch": 84.33333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029870563696363317, "loss": 0.4085, "step": 63250 }, { "epoch": 84.34666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029870522497278624, "loss": 0.3994, "step": 63260 }, { "epoch": 84.36, "grad_norm": 0.416015625, "learning_rate": 0.0002987048129166664, "loss": 0.3992, "step": 63270 }, { "epoch": 84.37333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002987044007952738, "loss": 0.4001, "step": 63280 }, { "epoch": 84.38666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002987039886086087, "loss": 0.3929, "step": 63290 }, { "epoch": 84.4, "grad_norm": 0.4140625, "learning_rate": 0.00029870357635667115, "loss": 0.3994, "step": 63300 }, { "epoch": 84.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002987031640394615, "loss": 0.4048, "step": 63310 }, { "epoch": 84.42666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029870275165697974, "loss": 0.4055, "step": 63320 }, { "epoch": 84.44, "grad_norm": 0.34375, "learning_rate": 0.00029870233920922617, "loss": 0.4171, "step": 63330 }, { "epoch": 84.45333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029870192669620096, "loss": 0.4062, "step": 63340 }, { "epoch": 84.46666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002987015141179043, "loss": 0.4153, "step": 63350 }, { "epoch": 84.48, "grad_norm": 0.33203125, "learning_rate": 0.00029870110147433627, "loss": 0.3962, "step": 63360 }, { "epoch": 84.49333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002987006887654972, "loss": 0.4085, "step": 63370 }, { "epoch": 84.50666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002987002759913872, "loss": 0.4056, "step": 63380 }, { "epoch": 84.52, "grad_norm": 0.37890625, "learning_rate": 0.00029869986315200645, "loss": 0.3959, "step": 63390 }, { "epoch": 84.53333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002986994502473551, "loss": 0.3993, "step": 63400 }, { "epoch": 84.54666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002986990372774334, "loss": 0.4014, "step": 63410 }, { "epoch": 84.56, "grad_norm": 0.302734375, "learning_rate": 0.0002986986242422415, "loss": 0.395, "step": 63420 }, { "epoch": 84.57333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002986982111417796, "loss": 0.3987, "step": 63430 }, { "epoch": 84.58666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002986977979760478, "loss": 0.3862, "step": 63440 }, { "epoch": 84.6, "grad_norm": 0.322265625, "learning_rate": 0.00029869738474504637, "loss": 0.389, "step": 63450 }, { "epoch": 84.61333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029869697144877547, "loss": 0.3782, "step": 63460 }, { "epoch": 84.62666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029869655808723527, "loss": 0.3834, "step": 63470 }, { "epoch": 84.64, "grad_norm": 0.408203125, "learning_rate": 0.000298696144660426, "loss": 0.397, "step": 63480 }, { "epoch": 84.65333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002986957311683477, "loss": 0.4078, "step": 63490 }, { "epoch": 84.66666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029869531761100073, "loss": 0.3921, "step": 63500 }, { "epoch": 84.68, "grad_norm": 0.326171875, "learning_rate": 0.00029869490398838513, "loss": 0.3853, "step": 63510 }, { "epoch": 84.69333333333333, "grad_norm": 0.298828125, "learning_rate": 0.00029869449030050116, "loss": 0.3943, "step": 63520 }, { "epoch": 84.70666666666666, "grad_norm": 0.361328125, "learning_rate": 0.000298694076547349, "loss": 0.388, "step": 63530 }, { "epoch": 84.72, "grad_norm": 0.328125, "learning_rate": 0.0002986936627289288, "loss": 0.4101, "step": 63540 }, { "epoch": 84.73333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002986932488452408, "loss": 0.4038, "step": 63550 }, { "epoch": 84.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002986928348962851, "loss": 0.406, "step": 63560 }, { "epoch": 84.76, "grad_norm": 0.36328125, "learning_rate": 0.0002986924208820619, "loss": 0.4193, "step": 63570 }, { "epoch": 84.77333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029869200680257145, "loss": 0.407, "step": 63580 }, { "epoch": 84.78666666666666, "grad_norm": 0.318359375, "learning_rate": 0.0002986915926578138, "loss": 0.4066, "step": 63590 }, { "epoch": 84.8, "grad_norm": 0.3671875, "learning_rate": 0.0002986911784477893, "loss": 0.4054, "step": 63600 }, { "epoch": 84.81333333333333, "grad_norm": 0.392578125, "learning_rate": 0.000298690764172498, "loss": 0.3785, "step": 63610 }, { "epoch": 84.82666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029869034983194016, "loss": 0.3879, "step": 63620 }, { "epoch": 84.84, "grad_norm": 0.4296875, "learning_rate": 0.00029868993542611595, "loss": 0.4004, "step": 63630 }, { "epoch": 84.85333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002986895209550255, "loss": 0.3954, "step": 63640 }, { "epoch": 84.86666666666666, "grad_norm": 0.3515625, "learning_rate": 0.000298689106418669, "loss": 0.4006, "step": 63650 }, { "epoch": 84.88, "grad_norm": 0.3359375, "learning_rate": 0.0002986886918170467, "loss": 0.3811, "step": 63660 }, { "epoch": 84.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029868827715015875, "loss": 0.3916, "step": 63670 }, { "epoch": 84.90666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029868786241800524, "loss": 0.3991, "step": 63680 }, { "epoch": 84.92, "grad_norm": 0.373046875, "learning_rate": 0.0002986874476205865, "loss": 0.4017, "step": 63690 }, { "epoch": 84.93333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029868703275790263, "loss": 0.3939, "step": 63700 }, { "epoch": 84.94666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002986866178299538, "loss": 0.3953, "step": 63710 }, { "epoch": 84.96, "grad_norm": 0.314453125, "learning_rate": 0.00029868620283674024, "loss": 0.3936, "step": 63720 }, { "epoch": 84.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002986857877782621, "loss": 0.4199, "step": 63730 }, { "epoch": 84.98666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002986853726545196, "loss": 0.3934, "step": 63740 }, { "epoch": 85.0, "grad_norm": 0.341796875, "learning_rate": 0.00029868495746551287, "loss": 0.3878, "step": 63750 }, { "epoch": 85.0, "eval_loss": 0.4299112856388092, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8768, "eval_samples_per_second": 1.62, "eval_steps_per_second": 0.101, "step": 63750 }, { "epoch": 85.01333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002986845422112422, "loss": 0.4045, "step": 63760 }, { "epoch": 85.02666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029868412689170755, "loss": 0.4172, "step": 63770 }, { "epoch": 85.04, "grad_norm": 0.376953125, "learning_rate": 0.0002986837115069093, "loss": 0.4297, "step": 63780 }, { "epoch": 85.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002986832960568476, "loss": 0.4165, "step": 63790 }, { "epoch": 85.06666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002986828805415226, "loss": 0.4028, "step": 63800 }, { "epoch": 85.08, "grad_norm": 0.34375, "learning_rate": 0.0002986824649609345, "loss": 0.4072, "step": 63810 }, { "epoch": 85.09333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002986820493150834, "loss": 0.4069, "step": 63820 }, { "epoch": 85.10666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002986816336039696, "loss": 0.3953, "step": 63830 }, { "epoch": 85.12, "grad_norm": 0.375, "learning_rate": 0.0002986812178275933, "loss": 0.4009, "step": 63840 }, { "epoch": 85.13333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029868080198595454, "loss": 0.3925, "step": 63850 }, { "epoch": 85.14666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029868038607905355, "loss": 0.4117, "step": 63860 }, { "epoch": 85.16, "grad_norm": 0.3359375, "learning_rate": 0.00029867997010689064, "loss": 0.4046, "step": 63870 }, { "epoch": 85.17333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029867955406946586, "loss": 0.3989, "step": 63880 }, { "epoch": 85.18666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029867913796677943, "loss": 0.3984, "step": 63890 }, { "epoch": 85.2, "grad_norm": 0.42578125, "learning_rate": 0.0002986787217988315, "loss": 0.3913, "step": 63900 }, { "epoch": 85.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002986783055656223, "loss": 0.392, "step": 63910 }, { "epoch": 85.22666666666667, "grad_norm": 0.37109375, "learning_rate": 0.000298677889267152, "loss": 0.4041, "step": 63920 }, { "epoch": 85.24, "grad_norm": 0.37890625, "learning_rate": 0.0002986774729034208, "loss": 0.3878, "step": 63930 }, { "epoch": 85.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002986770564744288, "loss": 0.3904, "step": 63940 }, { "epoch": 85.26666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029867663998017633, "loss": 0.3935, "step": 63950 }, { "epoch": 85.28, "grad_norm": 0.359375, "learning_rate": 0.0002986762234206635, "loss": 0.4231, "step": 63960 }, { "epoch": 85.29333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002986758067958904, "loss": 0.379, "step": 63970 }, { "epoch": 85.30666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002986753901058573, "loss": 0.4029, "step": 63980 }, { "epoch": 85.32, "grad_norm": 0.328125, "learning_rate": 0.00029867497335056445, "loss": 0.4046, "step": 63990 }, { "epoch": 85.33333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002986745565300119, "loss": 0.4078, "step": 64000 }, { "epoch": 85.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029867413964419987, "loss": 0.3987, "step": 64010 }, { "epoch": 85.36, "grad_norm": 0.4453125, "learning_rate": 0.0002986737226931286, "loss": 0.3989, "step": 64020 }, { "epoch": 85.37333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002986733056767983, "loss": 0.3991, "step": 64030 }, { "epoch": 85.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.000298672888595209, "loss": 0.3927, "step": 64040 }, { "epoch": 85.4, "grad_norm": 0.373046875, "learning_rate": 0.000298672471448361, "loss": 0.3992, "step": 64050 }, { "epoch": 85.41333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002986720542362545, "loss": 0.4037, "step": 64060 }, { "epoch": 85.42666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002986716369588896, "loss": 0.4056, "step": 64070 }, { "epoch": 85.44, "grad_norm": 0.37890625, "learning_rate": 0.0002986712196162665, "loss": 0.4168, "step": 64080 }, { "epoch": 85.45333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029867080220838545, "loss": 0.4058, "step": 64090 }, { "epoch": 85.46666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002986703847352466, "loss": 0.4144, "step": 64100 }, { "epoch": 85.48, "grad_norm": 0.3828125, "learning_rate": 0.0002986699671968501, "loss": 0.3957, "step": 64110 }, { "epoch": 85.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029866954959319614, "loss": 0.4085, "step": 64120 }, { "epoch": 85.50666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029866913192428497, "loss": 0.406, "step": 64130 }, { "epoch": 85.52, "grad_norm": 0.318359375, "learning_rate": 0.0002986687141901167, "loss": 0.3972, "step": 64140 }, { "epoch": 85.53333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002986682963906915, "loss": 0.399, "step": 64150 }, { "epoch": 85.54666666666667, "grad_norm": 0.375, "learning_rate": 0.00029866787852600966, "loss": 0.4012, "step": 64160 }, { "epoch": 85.56, "grad_norm": 0.298828125, "learning_rate": 0.00029866746059607123, "loss": 0.395, "step": 64170 }, { "epoch": 85.57333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002986670426008765, "loss": 0.3994, "step": 64180 }, { "epoch": 85.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002986666245404256, "loss": 0.3879, "step": 64190 }, { "epoch": 85.6, "grad_norm": 0.3828125, "learning_rate": 0.0002986662064147187, "loss": 0.3891, "step": 64200 }, { "epoch": 85.61333333333333, "grad_norm": 0.326171875, "learning_rate": 0.000298665788223756, "loss": 0.378, "step": 64210 }, { "epoch": 85.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029866536996753777, "loss": 0.384, "step": 64220 }, { "epoch": 85.64, "grad_norm": 0.400390625, "learning_rate": 0.000298664951646064, "loss": 0.3972, "step": 64230 }, { "epoch": 85.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002986645332593351, "loss": 0.4061, "step": 64240 }, { "epoch": 85.66666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002986641148073511, "loss": 0.3931, "step": 64250 }, { "epoch": 85.68, "grad_norm": 0.375, "learning_rate": 0.0002986636962901122, "loss": 0.3858, "step": 64260 }, { "epoch": 85.69333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029866327770761863, "loss": 0.3949, "step": 64270 }, { "epoch": 85.70666666666666, "grad_norm": 0.375, "learning_rate": 0.0002986628590598706, "loss": 0.387, "step": 64280 }, { "epoch": 85.72, "grad_norm": 0.3515625, "learning_rate": 0.0002986624403468682, "loss": 0.4098, "step": 64290 }, { "epoch": 85.73333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029866202156861164, "loss": 0.4033, "step": 64300 }, { "epoch": 85.74666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029866160272510114, "loss": 0.4049, "step": 64310 }, { "epoch": 85.76, "grad_norm": 0.357421875, "learning_rate": 0.00029866118381633686, "loss": 0.4197, "step": 64320 }, { "epoch": 85.77333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029866076484231905, "loss": 0.4064, "step": 64330 }, { "epoch": 85.78666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0002986603458030478, "loss": 0.4066, "step": 64340 }, { "epoch": 85.8, "grad_norm": 0.345703125, "learning_rate": 0.0002986599266985233, "loss": 0.4053, "step": 64350 }, { "epoch": 85.81333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002986595075287458, "loss": 0.3792, "step": 64360 }, { "epoch": 85.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029865908829371544, "loss": 0.3893, "step": 64370 }, { "epoch": 85.84, "grad_norm": 0.35546875, "learning_rate": 0.0002986586689934324, "loss": 0.4003, "step": 64380 }, { "epoch": 85.85333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029865824962789695, "loss": 0.3955, "step": 64390 }, { "epoch": 85.86666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002986578301971091, "loss": 0.4003, "step": 64400 }, { "epoch": 85.88, "grad_norm": 0.328125, "learning_rate": 0.0002986574107010692, "loss": 0.3808, "step": 64410 }, { "epoch": 85.89333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029865699113977736, "loss": 0.3917, "step": 64420 }, { "epoch": 85.90666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002986565715132337, "loss": 0.399, "step": 64430 }, { "epoch": 85.92, "grad_norm": 0.38671875, "learning_rate": 0.00029865615182143857, "loss": 0.4016, "step": 64440 }, { "epoch": 85.93333333333334, "grad_norm": 0.375, "learning_rate": 0.000298655732064392, "loss": 0.3946, "step": 64450 }, { "epoch": 85.94666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029865531224209426, "loss": 0.3961, "step": 64460 }, { "epoch": 85.96, "grad_norm": 0.349609375, "learning_rate": 0.00029865489235454554, "loss": 0.3937, "step": 64470 }, { "epoch": 85.97333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029865447240174595, "loss": 0.4193, "step": 64480 }, { "epoch": 85.98666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002986540523836958, "loss": 0.3928, "step": 64490 }, { "epoch": 86.0, "grad_norm": 0.357421875, "learning_rate": 0.0002986536323003951, "loss": 0.3876, "step": 64500 }, { "epoch": 86.0, "eval_loss": 0.42981016635894775, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8661, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 64500 }, { "epoch": 86.01333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002986532121518441, "loss": 0.4047, "step": 64510 }, { "epoch": 86.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029865279193804314, "loss": 0.4165, "step": 64520 }, { "epoch": 86.04, "grad_norm": 0.3828125, "learning_rate": 0.0002986523716589922, "loss": 0.4297, "step": 64530 }, { "epoch": 86.05333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002986519513146915, "loss": 0.4162, "step": 64540 }, { "epoch": 86.06666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002986515309051413, "loss": 0.4031, "step": 64550 }, { "epoch": 86.08, "grad_norm": 0.447265625, "learning_rate": 0.0002986511104303418, "loss": 0.4067, "step": 64560 }, { "epoch": 86.09333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002986506898902931, "loss": 0.408, "step": 64570 }, { "epoch": 86.10666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029865026928499537, "loss": 0.3952, "step": 64580 }, { "epoch": 86.12, "grad_norm": 0.38671875, "learning_rate": 0.0002986498486144489, "loss": 0.4017, "step": 64590 }, { "epoch": 86.13333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029864942787865385, "loss": 0.3924, "step": 64600 }, { "epoch": 86.14666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029864900707761026, "loss": 0.4112, "step": 64610 }, { "epoch": 86.16, "grad_norm": 0.36328125, "learning_rate": 0.0002986485862113185, "loss": 0.4046, "step": 64620 }, { "epoch": 86.17333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029864816527977873, "loss": 0.3994, "step": 64630 }, { "epoch": 86.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.000298647744282991, "loss": 0.397, "step": 64640 }, { "epoch": 86.2, "grad_norm": 0.421875, "learning_rate": 0.0002986473232209556, "loss": 0.3911, "step": 64650 }, { "epoch": 86.21333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002986469020936727, "loss": 0.391, "step": 64660 }, { "epoch": 86.22666666666667, "grad_norm": 0.44921875, "learning_rate": 0.00029864648090114254, "loss": 0.4036, "step": 64670 }, { "epoch": 86.24, "grad_norm": 0.34765625, "learning_rate": 0.0002986460596433652, "loss": 0.389, "step": 64680 }, { "epoch": 86.25333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029864563832034086, "loss": 0.3906, "step": 64690 }, { "epoch": 86.26666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029864521693206985, "loss": 0.3932, "step": 64700 }, { "epoch": 86.28, "grad_norm": 0.373046875, "learning_rate": 0.0002986447954785522, "loss": 0.4236, "step": 64710 }, { "epoch": 86.29333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002986443739597882, "loss": 0.3785, "step": 64720 }, { "epoch": 86.30666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002986439523757779, "loss": 0.4015, "step": 64730 }, { "epoch": 86.32, "grad_norm": 0.333984375, "learning_rate": 0.00029864353072652167, "loss": 0.404, "step": 64740 }, { "epoch": 86.33333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029864310901201965, "loss": 0.4084, "step": 64750 }, { "epoch": 86.34666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002986426872322718, "loss": 0.398, "step": 64760 }, { "epoch": 86.36, "grad_norm": 0.421875, "learning_rate": 0.0002986422653872786, "loss": 0.399, "step": 64770 }, { "epoch": 86.37333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029864184347704016, "loss": 0.4005, "step": 64780 }, { "epoch": 86.38666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002986414215015565, "loss": 0.3924, "step": 64790 }, { "epoch": 86.4, "grad_norm": 0.3671875, "learning_rate": 0.00029864099946082804, "loss": 0.3988, "step": 64800 }, { "epoch": 86.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029864057735485476, "loss": 0.4037, "step": 64810 }, { "epoch": 86.42666666666666, "grad_norm": 0.34375, "learning_rate": 0.000298640155183637, "loss": 0.4056, "step": 64820 }, { "epoch": 86.44, "grad_norm": 0.353515625, "learning_rate": 0.00029863973294717486, "loss": 0.4162, "step": 64830 }, { "epoch": 86.45333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002986393106454685, "loss": 0.4058, "step": 64840 }, { "epoch": 86.46666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029863888827851823, "loss": 0.4145, "step": 64850 }, { "epoch": 86.48, "grad_norm": 0.31640625, "learning_rate": 0.0002986384658463242, "loss": 0.3957, "step": 64860 }, { "epoch": 86.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029863804334888643, "loss": 0.4079, "step": 64870 }, { "epoch": 86.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002986376207862053, "loss": 0.4048, "step": 64880 }, { "epoch": 86.52, "grad_norm": 0.3125, "learning_rate": 0.0002986371981582809, "loss": 0.3956, "step": 64890 }, { "epoch": 86.53333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002986367754651135, "loss": 0.399, "step": 64900 }, { "epoch": 86.54666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029863635270670316, "loss": 0.4011, "step": 64910 }, { "epoch": 86.56, "grad_norm": 0.298828125, "learning_rate": 0.0002986359298830501, "loss": 0.3954, "step": 64920 }, { "epoch": 86.57333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002986355069941546, "loss": 0.3981, "step": 64930 }, { "epoch": 86.58666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029863508404001676, "loss": 0.3869, "step": 64940 }, { "epoch": 86.6, "grad_norm": 0.322265625, "learning_rate": 0.00029863466102063687, "loss": 0.389, "step": 64950 }, { "epoch": 86.61333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002986342379360149, "loss": 0.3788, "step": 64960 }, { "epoch": 86.62666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002986338147861513, "loss": 0.3836, "step": 64970 }, { "epoch": 86.64, "grad_norm": 0.376953125, "learning_rate": 0.000298633391571046, "loss": 0.3958, "step": 64980 }, { "epoch": 86.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002986329682906994, "loss": 0.4059, "step": 64990 }, { "epoch": 86.66666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029863254494511156, "loss": 0.3929, "step": 65000 }, { "epoch": 86.68, "grad_norm": 0.318359375, "learning_rate": 0.00029863212153428276, "loss": 0.3861, "step": 65010 }, { "epoch": 86.69333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029863169805821306, "loss": 0.3939, "step": 65020 }, { "epoch": 86.70666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029863127451690275, "loss": 0.3873, "step": 65030 }, { "epoch": 86.72, "grad_norm": 0.34375, "learning_rate": 0.000298630850910352, "loss": 0.4098, "step": 65040 }, { "epoch": 86.73333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002986304272385609, "loss": 0.4031, "step": 65050 }, { "epoch": 86.74666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002986300035015298, "loss": 0.4058, "step": 65060 }, { "epoch": 86.76, "grad_norm": 0.390625, "learning_rate": 0.0002986295796992587, "loss": 0.419, "step": 65070 }, { "epoch": 86.77333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029862915583174797, "loss": 0.4064, "step": 65080 }, { "epoch": 86.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029862873189899773, "loss": 0.4066, "step": 65090 }, { "epoch": 86.8, "grad_norm": 0.3671875, "learning_rate": 0.0002986283079010081, "loss": 0.4042, "step": 65100 }, { "epoch": 86.81333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029862788383777926, "loss": 0.379, "step": 65110 }, { "epoch": 86.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002986274597093115, "loss": 0.389, "step": 65120 }, { "epoch": 86.84, "grad_norm": 0.375, "learning_rate": 0.000298627035515605, "loss": 0.4005, "step": 65130 }, { "epoch": 86.85333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029862661125665984, "loss": 0.3956, "step": 65140 }, { "epoch": 86.86666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002986261869324763, "loss": 0.3994, "step": 65150 }, { "epoch": 86.88, "grad_norm": 0.33984375, "learning_rate": 0.00029862576254305453, "loss": 0.3799, "step": 65160 }, { "epoch": 86.89333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002986253380883947, "loss": 0.3922, "step": 65170 }, { "epoch": 86.90666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029862491356849705, "loss": 0.3997, "step": 65180 }, { "epoch": 86.92, "grad_norm": 0.380859375, "learning_rate": 0.0002986244889833617, "loss": 0.4017, "step": 65190 }, { "epoch": 86.93333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002986240643329889, "loss": 0.3944, "step": 65200 }, { "epoch": 86.94666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002986236396173788, "loss": 0.3947, "step": 65210 }, { "epoch": 86.96, "grad_norm": 0.337890625, "learning_rate": 0.00029862321483653157, "loss": 0.3931, "step": 65220 }, { "epoch": 86.97333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002986227899904475, "loss": 0.4189, "step": 65230 }, { "epoch": 86.98666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002986223650791266, "loss": 0.3925, "step": 65240 }, { "epoch": 87.0, "grad_norm": 0.35546875, "learning_rate": 0.00029862194010256914, "loss": 0.387, "step": 65250 }, { "epoch": 87.0, "eval_loss": 0.429412841796875, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6604, "eval_samples_per_second": 1.656, "eval_steps_per_second": 0.104, "step": 65250 }, { "epoch": 87.01333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002986215150607754, "loss": 0.4051, "step": 65260 }, { "epoch": 87.02666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029862108995374546, "loss": 0.4167, "step": 65270 }, { "epoch": 87.04, "grad_norm": 0.326171875, "learning_rate": 0.00029862066478147947, "loss": 0.4294, "step": 65280 }, { "epoch": 87.05333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029862023954397774, "loss": 0.4151, "step": 65290 }, { "epoch": 87.06666666666666, "grad_norm": 0.375, "learning_rate": 0.00029861981424124037, "loss": 0.4036, "step": 65300 }, { "epoch": 87.08, "grad_norm": 0.361328125, "learning_rate": 0.0002986193888732676, "loss": 0.407, "step": 65310 }, { "epoch": 87.09333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029861896344005956, "loss": 0.4079, "step": 65320 }, { "epoch": 87.10666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029861853794161644, "loss": 0.3962, "step": 65330 }, { "epoch": 87.12, "grad_norm": 0.37109375, "learning_rate": 0.00029861811237793856, "loss": 0.4011, "step": 65340 }, { "epoch": 87.13333333333334, "grad_norm": 0.328125, "learning_rate": 0.0002986176867490259, "loss": 0.3919, "step": 65350 }, { "epoch": 87.14666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029861726105487877, "loss": 0.4103, "step": 65360 }, { "epoch": 87.16, "grad_norm": 0.375, "learning_rate": 0.0002986168352954973, "loss": 0.4034, "step": 65370 }, { "epoch": 87.17333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029861640947088176, "loss": 0.3985, "step": 65380 }, { "epoch": 87.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002986159835810322, "loss": 0.3975, "step": 65390 }, { "epoch": 87.2, "grad_norm": 0.375, "learning_rate": 0.000298615557625949, "loss": 0.3905, "step": 65400 }, { "epoch": 87.21333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002986151316056322, "loss": 0.391, "step": 65410 }, { "epoch": 87.22666666666667, "grad_norm": 0.376953125, "learning_rate": 0.000298614705520082, "loss": 0.403, "step": 65420 }, { "epoch": 87.24, "grad_norm": 0.365234375, "learning_rate": 0.0002986142793692987, "loss": 0.3876, "step": 65430 }, { "epoch": 87.25333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002986138531532823, "loss": 0.3909, "step": 65440 }, { "epoch": 87.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029861342687203315, "loss": 0.3928, "step": 65450 }, { "epoch": 87.28, "grad_norm": 0.349609375, "learning_rate": 0.00029861300052555137, "loss": 0.4223, "step": 65460 }, { "epoch": 87.29333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029861257411383717, "loss": 0.3785, "step": 65470 }, { "epoch": 87.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029861214763689063, "loss": 0.4015, "step": 65480 }, { "epoch": 87.32, "grad_norm": 0.3046875, "learning_rate": 0.00029861172109471205, "loss": 0.4041, "step": 65490 }, { "epoch": 87.33333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002986112944873017, "loss": 0.4075, "step": 65500 }, { "epoch": 87.34666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002986108678146596, "loss": 0.3974, "step": 65510 }, { "epoch": 87.36, "grad_norm": 0.40234375, "learning_rate": 0.000298610441076786, "loss": 0.3977, "step": 65520 }, { "epoch": 87.37333333333333, "grad_norm": 0.376953125, "learning_rate": 0.000298610014273681, "loss": 0.3991, "step": 65530 }, { "epoch": 87.38666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029860958740534493, "loss": 0.3916, "step": 65540 }, { "epoch": 87.4, "grad_norm": 0.36328125, "learning_rate": 0.000298609160471778, "loss": 0.3994, "step": 65550 }, { "epoch": 87.41333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002986087334729802, "loss": 0.4035, "step": 65560 }, { "epoch": 87.42666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029860830640895193, "loss": 0.4047, "step": 65570 }, { "epoch": 87.44, "grad_norm": 0.34375, "learning_rate": 0.0002986078792796932, "loss": 0.4159, "step": 65580 }, { "epoch": 87.45333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029860745208520434, "loss": 0.4059, "step": 65590 }, { "epoch": 87.46666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029860702482548547, "loss": 0.4144, "step": 65600 }, { "epoch": 87.48, "grad_norm": 0.373046875, "learning_rate": 0.00029860659750053677, "loss": 0.3956, "step": 65610 }, { "epoch": 87.49333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029860617011035845, "loss": 0.4082, "step": 65620 }, { "epoch": 87.50666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002986057426549507, "loss": 0.4066, "step": 65630 }, { "epoch": 87.52, "grad_norm": 0.328125, "learning_rate": 0.0002986053151343137, "loss": 0.3951, "step": 65640 }, { "epoch": 87.53333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002986048875484476, "loss": 0.3991, "step": 65650 }, { "epoch": 87.54666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002986044598973526, "loss": 0.4006, "step": 65660 }, { "epoch": 87.56, "grad_norm": 0.359375, "learning_rate": 0.000298604032181029, "loss": 0.3953, "step": 65670 }, { "epoch": 87.57333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029860360439947685, "loss": 0.3985, "step": 65680 }, { "epoch": 87.58666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002986031765526964, "loss": 0.3872, "step": 65690 }, { "epoch": 87.6, "grad_norm": 0.35546875, "learning_rate": 0.0002986027486406878, "loss": 0.3894, "step": 65700 }, { "epoch": 87.61333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0002986023206634513, "loss": 0.3795, "step": 65710 }, { "epoch": 87.62666666666667, "grad_norm": 0.3125, "learning_rate": 0.000298601892620987, "loss": 0.3835, "step": 65720 }, { "epoch": 87.64, "grad_norm": 0.357421875, "learning_rate": 0.0002986014645132952, "loss": 0.3963, "step": 65730 }, { "epoch": 87.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.000298601036340376, "loss": 0.4054, "step": 65740 }, { "epoch": 87.66666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002986006081022296, "loss": 0.3925, "step": 65750 }, { "epoch": 87.68, "grad_norm": 0.34765625, "learning_rate": 0.0002986001797988562, "loss": 0.3845, "step": 65760 }, { "epoch": 87.69333333333333, "grad_norm": 0.326171875, "learning_rate": 0.000298599751430256, "loss": 0.3941, "step": 65770 }, { "epoch": 87.70666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029859932299642917, "loss": 0.3876, "step": 65780 }, { "epoch": 87.72, "grad_norm": 0.369140625, "learning_rate": 0.0002985988944973759, "loss": 0.4106, "step": 65790 }, { "epoch": 87.73333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029859846593309643, "loss": 0.4043, "step": 65800 }, { "epoch": 87.74666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029859803730359084, "loss": 0.4053, "step": 65810 }, { "epoch": 87.76, "grad_norm": 0.388671875, "learning_rate": 0.00029859760860885944, "loss": 0.4191, "step": 65820 }, { "epoch": 87.77333333333333, "grad_norm": 0.447265625, "learning_rate": 0.0002985971798489023, "loss": 0.4054, "step": 65830 }, { "epoch": 87.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002985967510237197, "loss": 0.4059, "step": 65840 }, { "epoch": 87.8, "grad_norm": 0.421875, "learning_rate": 0.0002985963221333118, "loss": 0.4047, "step": 65850 }, { "epoch": 87.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029859589317767876, "loss": 0.3786, "step": 65860 }, { "epoch": 87.82666666666667, "grad_norm": 0.375, "learning_rate": 0.0002985954641568208, "loss": 0.3887, "step": 65870 }, { "epoch": 87.84, "grad_norm": 0.45703125, "learning_rate": 0.00029859503507073817, "loss": 0.4001, "step": 65880 }, { "epoch": 87.85333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002985946059194309, "loss": 0.3952, "step": 65890 }, { "epoch": 87.86666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002985941767028993, "loss": 0.3992, "step": 65900 }, { "epoch": 87.88, "grad_norm": 0.3125, "learning_rate": 0.00029859374742114347, "loss": 0.3804, "step": 65910 }, { "epoch": 87.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002985933180741637, "loss": 0.3911, "step": 65920 }, { "epoch": 87.90666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002985928886619602, "loss": 0.3981, "step": 65930 }, { "epoch": 87.92, "grad_norm": 0.375, "learning_rate": 0.00029859245918453293, "loss": 0.4013, "step": 65940 }, { "epoch": 87.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029859202964188235, "loss": 0.3947, "step": 65950 }, { "epoch": 87.94666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002985916000340085, "loss": 0.3955, "step": 65960 }, { "epoch": 87.96, "grad_norm": 0.31640625, "learning_rate": 0.00029859117036091164, "loss": 0.3929, "step": 65970 }, { "epoch": 87.97333333333333, "grad_norm": 0.4609375, "learning_rate": 0.0002985907406225919, "loss": 0.4193, "step": 65980 }, { "epoch": 87.98666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002985903108190495, "loss": 0.3928, "step": 65990 }, { "epoch": 88.0, "grad_norm": 0.3671875, "learning_rate": 0.00029858988095028466, "loss": 0.387, "step": 66000 }, { "epoch": 88.0, "eval_loss": 0.4300340712070465, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.7851, "eval_samples_per_second": 1.484, "eval_steps_per_second": 0.093, "step": 66000 }, { "epoch": 88.01333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002985894510162975, "loss": 0.4048, "step": 66010 }, { "epoch": 88.02666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029858902101708817, "loss": 0.4176, "step": 66020 }, { "epoch": 88.04, "grad_norm": 0.3203125, "learning_rate": 0.000298588590952657, "loss": 0.4299, "step": 66030 }, { "epoch": 88.05333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002985881608230041, "loss": 0.4155, "step": 66040 }, { "epoch": 88.06666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029858773062812967, "loss": 0.4026, "step": 66050 }, { "epoch": 88.08, "grad_norm": 0.38671875, "learning_rate": 0.0002985873003680339, "loss": 0.407, "step": 66060 }, { "epoch": 88.09333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029858687004271695, "loss": 0.4075, "step": 66070 }, { "epoch": 88.10666666666667, "grad_norm": 0.33203125, "learning_rate": 0.000298586439652179, "loss": 0.395, "step": 66080 }, { "epoch": 88.12, "grad_norm": 0.345703125, "learning_rate": 0.0002985860091964203, "loss": 0.401, "step": 66090 }, { "epoch": 88.13333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029858557867544104, "loss": 0.3925, "step": 66100 }, { "epoch": 88.14666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029858514808924137, "loss": 0.4114, "step": 66110 }, { "epoch": 88.16, "grad_norm": 0.33984375, "learning_rate": 0.0002985847174378215, "loss": 0.4049, "step": 66120 }, { "epoch": 88.17333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029858428672118153, "loss": 0.3984, "step": 66130 }, { "epoch": 88.18666666666667, "grad_norm": 0.44140625, "learning_rate": 0.00029858385593932186, "loss": 0.3977, "step": 66140 }, { "epoch": 88.2, "grad_norm": 0.390625, "learning_rate": 0.00029858342509224244, "loss": 0.3903, "step": 66150 }, { "epoch": 88.21333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002985829941799436, "loss": 0.3918, "step": 66160 }, { "epoch": 88.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002985825632024255, "loss": 0.4033, "step": 66170 }, { "epoch": 88.24, "grad_norm": 0.421875, "learning_rate": 0.0002985821321596883, "loss": 0.3877, "step": 66180 }, { "epoch": 88.25333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002985817010517322, "loss": 0.3901, "step": 66190 }, { "epoch": 88.26666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002985812698785574, "loss": 0.392, "step": 66200 }, { "epoch": 88.28, "grad_norm": 0.39453125, "learning_rate": 0.0002985808386401641, "loss": 0.422, "step": 66210 }, { "epoch": 88.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029858040733655246, "loss": 0.3789, "step": 66220 }, { "epoch": 88.30666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029857997596772275, "loss": 0.4018, "step": 66230 }, { "epoch": 88.32, "grad_norm": 0.33984375, "learning_rate": 0.0002985795445336751, "loss": 0.4029, "step": 66240 }, { "epoch": 88.33333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002985791130344096, "loss": 0.4072, "step": 66250 }, { "epoch": 88.34666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029857868146992663, "loss": 0.398, "step": 66260 }, { "epoch": 88.36, "grad_norm": 0.421875, "learning_rate": 0.0002985782498402263, "loss": 0.3982, "step": 66270 }, { "epoch": 88.37333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029857781814530873, "loss": 0.4002, "step": 66280 }, { "epoch": 88.38666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002985773863851742, "loss": 0.3917, "step": 66290 }, { "epoch": 88.4, "grad_norm": 0.33203125, "learning_rate": 0.00029857695455982284, "loss": 0.3997, "step": 66300 }, { "epoch": 88.41333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002985765226692548, "loss": 0.4033, "step": 66310 }, { "epoch": 88.42666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002985760907134704, "loss": 0.4054, "step": 66320 }, { "epoch": 88.44, "grad_norm": 0.408203125, "learning_rate": 0.0002985756586924698, "loss": 0.4161, "step": 66330 }, { "epoch": 88.45333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002985752266062531, "loss": 0.4047, "step": 66340 }, { "epoch": 88.46666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002985747944548206, "loss": 0.414, "step": 66350 }, { "epoch": 88.48, "grad_norm": 0.412109375, "learning_rate": 0.00029857436223817236, "loss": 0.3954, "step": 66360 }, { "epoch": 88.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002985739299563087, "loss": 0.4078, "step": 66370 }, { "epoch": 88.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002985734976092297, "loss": 0.4047, "step": 66380 }, { "epoch": 88.52, "grad_norm": 0.337890625, "learning_rate": 0.0002985730651969357, "loss": 0.3947, "step": 66390 }, { "epoch": 88.53333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029857263271942664, "loss": 0.3993, "step": 66400 }, { "epoch": 88.54666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029857220017670295, "loss": 0.4009, "step": 66410 }, { "epoch": 88.56, "grad_norm": 0.314453125, "learning_rate": 0.00029857176756876476, "loss": 0.3944, "step": 66420 }, { "epoch": 88.57333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002985713348956122, "loss": 0.3989, "step": 66430 }, { "epoch": 88.58666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029857090215724546, "loss": 0.3872, "step": 66440 }, { "epoch": 88.6, "grad_norm": 0.353515625, "learning_rate": 0.0002985704693536648, "loss": 0.3885, "step": 66450 }, { "epoch": 88.61333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029857003648487036, "loss": 0.3776, "step": 66460 }, { "epoch": 88.62666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029856960355086233, "loss": 0.3835, "step": 66470 }, { "epoch": 88.64, "grad_norm": 0.345703125, "learning_rate": 0.00029856917055164095, "loss": 0.3959, "step": 66480 }, { "epoch": 88.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029856873748720626, "loss": 0.406, "step": 66490 }, { "epoch": 88.66666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029856830435755867, "loss": 0.3931, "step": 66500 }, { "epoch": 88.68, "grad_norm": 0.388671875, "learning_rate": 0.00029856787116269826, "loss": 0.3841, "step": 66510 }, { "epoch": 88.69333333333333, "grad_norm": 0.44140625, "learning_rate": 0.0002985674379026252, "loss": 0.3942, "step": 66520 }, { "epoch": 88.70666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029856700457733966, "loss": 0.3873, "step": 66530 }, { "epoch": 88.72, "grad_norm": 0.390625, "learning_rate": 0.0002985665711868419, "loss": 0.4096, "step": 66540 }, { "epoch": 88.73333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029856613773113216, "loss": 0.4039, "step": 66550 }, { "epoch": 88.74666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002985657042102104, "loss": 0.4066, "step": 66560 }, { "epoch": 88.76, "grad_norm": 0.373046875, "learning_rate": 0.0002985652706240771, "loss": 0.4176, "step": 66570 }, { "epoch": 88.77333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002985648369727323, "loss": 0.406, "step": 66580 }, { "epoch": 88.78666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029856440325617614, "loss": 0.4051, "step": 66590 }, { "epoch": 88.8, "grad_norm": 0.365234375, "learning_rate": 0.0002985639694744089, "loss": 0.4032, "step": 66600 }, { "epoch": 88.81333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002985635356274307, "loss": 0.3784, "step": 66610 }, { "epoch": 88.82666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029856310171524187, "loss": 0.388, "step": 66620 }, { "epoch": 88.84, "grad_norm": 0.37890625, "learning_rate": 0.00029856266773784244, "loss": 0.4, "step": 66630 }, { "epoch": 88.85333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029856223369523265, "loss": 0.3951, "step": 66640 }, { "epoch": 88.86666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029856179958741275, "loss": 0.3991, "step": 66650 }, { "epoch": 88.88, "grad_norm": 0.3203125, "learning_rate": 0.00029856136541438286, "loss": 0.3793, "step": 66660 }, { "epoch": 88.89333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002985609311761432, "loss": 0.3912, "step": 66670 }, { "epoch": 88.90666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029856049687269394, "loss": 0.3978, "step": 66680 }, { "epoch": 88.92, "grad_norm": 0.36328125, "learning_rate": 0.00029856006250403533, "loss": 0.401, "step": 66690 }, { "epoch": 88.93333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002985596280701675, "loss": 0.3936, "step": 66700 }, { "epoch": 88.94666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002985591935710907, "loss": 0.3946, "step": 66710 }, { "epoch": 88.96, "grad_norm": 0.330078125, "learning_rate": 0.000298558759006805, "loss": 0.3925, "step": 66720 }, { "epoch": 88.97333333333333, "grad_norm": 0.478515625, "learning_rate": 0.00029855832437731075, "loss": 0.4194, "step": 66730 }, { "epoch": 88.98666666666666, "grad_norm": 0.392578125, "learning_rate": 0.000298557889682608, "loss": 0.3919, "step": 66740 }, { "epoch": 89.0, "grad_norm": 0.376953125, "learning_rate": 0.00029855745492269703, "loss": 0.386, "step": 66750 }, { "epoch": 89.0, "eval_loss": 0.4287775158882141, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.4584, "eval_samples_per_second": 1.53, "eval_steps_per_second": 0.096, "step": 66750 }, { "epoch": 89.01333333333334, "grad_norm": 0.376953125, "learning_rate": 0.000298557020097578, "loss": 0.4049, "step": 66760 }, { "epoch": 89.02666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002985565852072511, "loss": 0.416, "step": 66770 }, { "epoch": 89.04, "grad_norm": 0.361328125, "learning_rate": 0.0002985561502517165, "loss": 0.4289, "step": 66780 }, { "epoch": 89.05333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002985557152309745, "loss": 0.416, "step": 66790 }, { "epoch": 89.06666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002985552801450251, "loss": 0.4032, "step": 66800 }, { "epoch": 89.08, "grad_norm": 0.37890625, "learning_rate": 0.0002985548449938687, "loss": 0.4059, "step": 66810 }, { "epoch": 89.09333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002985544097775053, "loss": 0.4074, "step": 66820 }, { "epoch": 89.10666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029855397449593524, "loss": 0.3951, "step": 66830 }, { "epoch": 89.12, "grad_norm": 0.37109375, "learning_rate": 0.0002985535391491586, "loss": 0.3996, "step": 66840 }, { "epoch": 89.13333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029855310373717565, "loss": 0.3924, "step": 66850 }, { "epoch": 89.14666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029855266825998657, "loss": 0.4104, "step": 66860 }, { "epoch": 89.16, "grad_norm": 0.4296875, "learning_rate": 0.00029855223271759156, "loss": 0.4041, "step": 66870 }, { "epoch": 89.17333333333333, "grad_norm": 0.6953125, "learning_rate": 0.00029855179710999073, "loss": 0.3996, "step": 66880 }, { "epoch": 89.18666666666667, "grad_norm": 0.9609375, "learning_rate": 0.0002985513614371843, "loss": 0.397, "step": 66890 }, { "epoch": 89.2, "grad_norm": 1.140625, "learning_rate": 0.0002985509256991726, "loss": 0.3917, "step": 66900 }, { "epoch": 89.21333333333334, "grad_norm": 0.55859375, "learning_rate": 0.0002985504898959556, "loss": 0.3925, "step": 66910 }, { "epoch": 89.22666666666667, "grad_norm": 0.54296875, "learning_rate": 0.00029855005402753366, "loss": 0.4032, "step": 66920 }, { "epoch": 89.24, "grad_norm": 0.416015625, "learning_rate": 0.0002985496180939069, "loss": 0.3876, "step": 66930 }, { "epoch": 89.25333333333333, "grad_norm": 0.453125, "learning_rate": 0.00029854918209507557, "loss": 0.3907, "step": 66940 }, { "epoch": 89.26666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002985487460310397, "loss": 0.3928, "step": 66950 }, { "epoch": 89.28, "grad_norm": 0.36328125, "learning_rate": 0.0002985483099017997, "loss": 0.4233, "step": 66960 }, { "epoch": 89.29333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029854787370735557, "loss": 0.3792, "step": 66970 }, { "epoch": 89.30666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0002985474374477077, "loss": 0.4016, "step": 66980 }, { "epoch": 89.32, "grad_norm": 0.337890625, "learning_rate": 0.00029854700112285607, "loss": 0.4031, "step": 66990 }, { "epoch": 89.33333333333333, "grad_norm": 0.357421875, "learning_rate": 0.000298546564732801, "loss": 0.4066, "step": 67000 }, { "epoch": 89.34666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002985461282775427, "loss": 0.3978, "step": 67010 }, { "epoch": 89.36, "grad_norm": 0.404296875, "learning_rate": 0.00029854569175708125, "loss": 0.3984, "step": 67020 }, { "epoch": 89.37333333333333, "grad_norm": 0.31640625, "learning_rate": 0.000298545255171417, "loss": 0.399, "step": 67030 }, { "epoch": 89.38666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029854481852054993, "loss": 0.3912, "step": 67040 }, { "epoch": 89.4, "grad_norm": 0.416015625, "learning_rate": 0.0002985443818044804, "loss": 0.3989, "step": 67050 }, { "epoch": 89.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002985439450232086, "loss": 0.4029, "step": 67060 }, { "epoch": 89.42666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002985435081767346, "loss": 0.4053, "step": 67070 }, { "epoch": 89.44, "grad_norm": 0.384765625, "learning_rate": 0.0002985430712650587, "loss": 0.4159, "step": 67080 }, { "epoch": 89.45333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029854263428818106, "loss": 0.4056, "step": 67090 }, { "epoch": 89.46666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002985421972461019, "loss": 0.4139, "step": 67100 }, { "epoch": 89.48, "grad_norm": 0.353515625, "learning_rate": 0.0002985417601388213, "loss": 0.3953, "step": 67110 }, { "epoch": 89.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002985413229663396, "loss": 0.4066, "step": 67120 }, { "epoch": 89.50666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002985408857286569, "loss": 0.4052, "step": 67130 }, { "epoch": 89.52, "grad_norm": 0.318359375, "learning_rate": 0.00029854044842577337, "loss": 0.3948, "step": 67140 }, { "epoch": 89.53333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029854001105768935, "loss": 0.3974, "step": 67150 }, { "epoch": 89.54666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002985395736244048, "loss": 0.4, "step": 67160 }, { "epoch": 89.56, "grad_norm": 0.3515625, "learning_rate": 0.0002985391361259202, "loss": 0.394, "step": 67170 }, { "epoch": 89.57333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002985386985622355, "loss": 0.3987, "step": 67180 }, { "epoch": 89.58666666666667, "grad_norm": 0.3359375, "learning_rate": 0.000298538260933351, "loss": 0.3871, "step": 67190 }, { "epoch": 89.6, "grad_norm": 0.322265625, "learning_rate": 0.00029853782323926683, "loss": 0.3881, "step": 67200 }, { "epoch": 89.61333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029853738547998325, "loss": 0.3779, "step": 67210 }, { "epoch": 89.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029853694765550037, "loss": 0.3837, "step": 67220 }, { "epoch": 89.64, "grad_norm": 0.396484375, "learning_rate": 0.0002985365097658185, "loss": 0.3956, "step": 67230 }, { "epoch": 89.65333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029853607181093775, "loss": 0.4066, "step": 67240 }, { "epoch": 89.66666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002985356337908583, "loss": 0.3927, "step": 67250 }, { "epoch": 89.68, "grad_norm": 0.365234375, "learning_rate": 0.00029853519570558043, "loss": 0.3854, "step": 67260 }, { "epoch": 89.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002985347575551042, "loss": 0.3932, "step": 67270 }, { "epoch": 89.70666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029853431933942994, "loss": 0.3872, "step": 67280 }, { "epoch": 89.72, "grad_norm": 0.375, "learning_rate": 0.0002985338810585578, "loss": 0.409, "step": 67290 }, { "epoch": 89.73333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002985334427124879, "loss": 0.4026, "step": 67300 }, { "epoch": 89.74666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002985330043012205, "loss": 0.4054, "step": 67310 }, { "epoch": 89.76, "grad_norm": 0.3515625, "learning_rate": 0.0002985325658247557, "loss": 0.4189, "step": 67320 }, { "epoch": 89.77333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002985321272830939, "loss": 0.4048, "step": 67330 }, { "epoch": 89.78666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029853168867623506, "loss": 0.4058, "step": 67340 }, { "epoch": 89.8, "grad_norm": 0.41796875, "learning_rate": 0.0002985312500041795, "loss": 0.4043, "step": 67350 }, { "epoch": 89.81333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002985308112669274, "loss": 0.3782, "step": 67360 }, { "epoch": 89.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029853037246447894, "loss": 0.3875, "step": 67370 }, { "epoch": 89.84, "grad_norm": 0.39453125, "learning_rate": 0.0002985299335968343, "loss": 0.3991, "step": 67380 }, { "epoch": 89.85333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002985294946639937, "loss": 0.394, "step": 67390 }, { "epoch": 89.86666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002985290556659573, "loss": 0.399, "step": 67400 }, { "epoch": 89.88, "grad_norm": 0.337890625, "learning_rate": 0.0002985286166027253, "loss": 0.3795, "step": 67410 }, { "epoch": 89.89333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002985281774742979, "loss": 0.3909, "step": 67420 }, { "epoch": 89.90666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029852773828067535, "loss": 0.3976, "step": 67430 }, { "epoch": 89.92, "grad_norm": 0.365234375, "learning_rate": 0.0002985272990218577, "loss": 0.4009, "step": 67440 }, { "epoch": 89.93333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002985268596978453, "loss": 0.3941, "step": 67450 }, { "epoch": 89.94666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002985264203086383, "loss": 0.3943, "step": 67460 }, { "epoch": 89.96, "grad_norm": 0.400390625, "learning_rate": 0.0002985259808542368, "loss": 0.3913, "step": 67470 }, { "epoch": 89.97333333333333, "grad_norm": 0.435546875, "learning_rate": 0.00029852554133464107, "loss": 0.4176, "step": 67480 }, { "epoch": 89.98666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029852510174985133, "loss": 0.391, "step": 67490 }, { "epoch": 90.0, "grad_norm": 0.373046875, "learning_rate": 0.0002985246620998677, "loss": 0.3867, "step": 67500 }, { "epoch": 90.0, "eval_loss": 0.4301512539386749, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9285, "eval_samples_per_second": 1.612, "eval_steps_per_second": 0.101, "step": 67500 }, { "epoch": 90.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002985242223846904, "loss": 0.4043, "step": 67510 }, { "epoch": 90.02666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029852378260431965, "loss": 0.4162, "step": 67520 }, { "epoch": 90.04, "grad_norm": 0.31640625, "learning_rate": 0.0002985233427587556, "loss": 0.4298, "step": 67530 }, { "epoch": 90.05333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029852290284799847, "loss": 0.4151, "step": 67540 }, { "epoch": 90.06666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002985224628720485, "loss": 0.4039, "step": 67550 }, { "epoch": 90.08, "grad_norm": 0.42578125, "learning_rate": 0.0002985220228309058, "loss": 0.4064, "step": 67560 }, { "epoch": 90.09333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002985215827245706, "loss": 0.4068, "step": 67570 }, { "epoch": 90.10666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029852114255304304, "loss": 0.3947, "step": 67580 }, { "epoch": 90.12, "grad_norm": 0.361328125, "learning_rate": 0.00029852070231632346, "loss": 0.3991, "step": 67590 }, { "epoch": 90.13333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029852026201441183, "loss": 0.3919, "step": 67600 }, { "epoch": 90.14666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002985198216473086, "loss": 0.4099, "step": 67610 }, { "epoch": 90.16, "grad_norm": 0.330078125, "learning_rate": 0.00029851938121501373, "loss": 0.4045, "step": 67620 }, { "epoch": 90.17333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002985189407175276, "loss": 0.3978, "step": 67630 }, { "epoch": 90.18666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029851850015485027, "loss": 0.3977, "step": 67640 }, { "epoch": 90.2, "grad_norm": 0.373046875, "learning_rate": 0.000298518059526982, "loss": 0.3903, "step": 67650 }, { "epoch": 90.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002985176188339229, "loss": 0.3916, "step": 67660 }, { "epoch": 90.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029851717807567334, "loss": 0.4026, "step": 67670 }, { "epoch": 90.24, "grad_norm": 0.38671875, "learning_rate": 0.0002985167372522333, "loss": 0.3866, "step": 67680 }, { "epoch": 90.25333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002985162963636031, "loss": 0.3904, "step": 67690 }, { "epoch": 90.26666666666667, "grad_norm": 0.365234375, "learning_rate": 0.000298515855409783, "loss": 0.3922, "step": 67700 }, { "epoch": 90.28, "grad_norm": 0.390625, "learning_rate": 0.000298515414390773, "loss": 0.422, "step": 67710 }, { "epoch": 90.29333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029851497330657346, "loss": 0.3784, "step": 67720 }, { "epoch": 90.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029851453215718447, "loss": 0.4019, "step": 67730 }, { "epoch": 90.32, "grad_norm": 0.298828125, "learning_rate": 0.00029851409094260625, "loss": 0.4035, "step": 67740 }, { "epoch": 90.33333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002985136496628391, "loss": 0.4069, "step": 67750 }, { "epoch": 90.34666666666666, "grad_norm": 0.45703125, "learning_rate": 0.00029851320831788305, "loss": 0.3974, "step": 67760 }, { "epoch": 90.36, "grad_norm": 0.51953125, "learning_rate": 0.00029851276690773834, "loss": 0.3983, "step": 67770 }, { "epoch": 90.37333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002985123254324052, "loss": 0.3995, "step": 67780 }, { "epoch": 90.38666666666667, "grad_norm": 0.455078125, "learning_rate": 0.00029851188389188384, "loss": 0.3924, "step": 67790 }, { "epoch": 90.4, "grad_norm": 0.361328125, "learning_rate": 0.00029851144228617443, "loss": 0.3988, "step": 67800 }, { "epoch": 90.41333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002985110006152772, "loss": 0.4029, "step": 67810 }, { "epoch": 90.42666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0002985105588791922, "loss": 0.4043, "step": 67820 }, { "epoch": 90.44, "grad_norm": 0.333984375, "learning_rate": 0.00029851011707791983, "loss": 0.4161, "step": 67830 }, { "epoch": 90.45333333333333, "grad_norm": 0.486328125, "learning_rate": 0.0002985096752114601, "loss": 0.4048, "step": 67840 }, { "epoch": 90.46666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029850923327981335, "loss": 0.4139, "step": 67850 }, { "epoch": 90.48, "grad_norm": 0.365234375, "learning_rate": 0.0002985087912829797, "loss": 0.3948, "step": 67860 }, { "epoch": 90.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002985083492209593, "loss": 0.408, "step": 67870 }, { "epoch": 90.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002985079070937524, "loss": 0.4037, "step": 67880 }, { "epoch": 90.52, "grad_norm": 0.333984375, "learning_rate": 0.00029850746490135926, "loss": 0.3954, "step": 67890 }, { "epoch": 90.53333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029850702264378, "loss": 0.3972, "step": 67900 }, { "epoch": 90.54666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002985065803210148, "loss": 0.4, "step": 67910 }, { "epoch": 90.56, "grad_norm": 0.306640625, "learning_rate": 0.0002985061379330639, "loss": 0.3949, "step": 67920 }, { "epoch": 90.57333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002985056954799274, "loss": 0.398, "step": 67930 }, { "epoch": 90.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002985052529616056, "loss": 0.3869, "step": 67940 }, { "epoch": 90.6, "grad_norm": 0.375, "learning_rate": 0.00029850481037809866, "loss": 0.3894, "step": 67950 }, { "epoch": 90.61333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029850436772940677, "loss": 0.3784, "step": 67960 }, { "epoch": 90.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.00029850392501553014, "loss": 0.3836, "step": 67970 }, { "epoch": 90.64, "grad_norm": 0.39453125, "learning_rate": 0.0002985034822364689, "loss": 0.3956, "step": 67980 }, { "epoch": 90.65333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029850303939222335, "loss": 0.4051, "step": 67990 }, { "epoch": 90.66666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029850259648279363, "loss": 0.3934, "step": 68000 }, { "epoch": 90.68, "grad_norm": 0.412109375, "learning_rate": 0.0002985021535081799, "loss": 0.3844, "step": 68010 }, { "epoch": 90.69333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029850171046838243, "loss": 0.3941, "step": 68020 }, { "epoch": 90.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002985012673634013, "loss": 0.3872, "step": 68030 }, { "epoch": 90.72, "grad_norm": 0.388671875, "learning_rate": 0.0002985008241932368, "loss": 0.4089, "step": 68040 }, { "epoch": 90.73333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029850038095788914, "loss": 0.4026, "step": 68050 }, { "epoch": 90.74666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029849993765735847, "loss": 0.4052, "step": 68060 }, { "epoch": 90.76, "grad_norm": 0.37109375, "learning_rate": 0.00029849949429164497, "loss": 0.4184, "step": 68070 }, { "epoch": 90.77333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029849905086074886, "loss": 0.4052, "step": 68080 }, { "epoch": 90.78666666666666, "grad_norm": 0.314453125, "learning_rate": 0.00029849860736467034, "loss": 0.4055, "step": 68090 }, { "epoch": 90.8, "grad_norm": 0.3359375, "learning_rate": 0.00029849816380340954, "loss": 0.4042, "step": 68100 }, { "epoch": 90.81333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002984977201769668, "loss": 0.3772, "step": 68110 }, { "epoch": 90.82666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029849727648534216, "loss": 0.3882, "step": 68120 }, { "epoch": 90.84, "grad_norm": 0.396484375, "learning_rate": 0.0002984968327285359, "loss": 0.3995, "step": 68130 }, { "epoch": 90.85333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002984963889065482, "loss": 0.3956, "step": 68140 }, { "epoch": 90.86666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029849594501937923, "loss": 0.3983, "step": 68150 }, { "epoch": 90.88, "grad_norm": 0.369140625, "learning_rate": 0.0002984955010670292, "loss": 0.3795, "step": 68160 }, { "epoch": 90.89333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029849505704949834, "loss": 0.3912, "step": 68170 }, { "epoch": 90.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029849461296678676, "loss": 0.3982, "step": 68180 }, { "epoch": 90.92, "grad_norm": 0.361328125, "learning_rate": 0.00029849416881889474, "loss": 0.4007, "step": 68190 }, { "epoch": 90.93333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029849372460582244, "loss": 0.3935, "step": 68200 }, { "epoch": 90.94666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029849328032757007, "loss": 0.3944, "step": 68210 }, { "epoch": 90.96, "grad_norm": 0.314453125, "learning_rate": 0.0002984928359841378, "loss": 0.3916, "step": 68220 }, { "epoch": 90.97333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029849239157552583, "loss": 0.4171, "step": 68230 }, { "epoch": 90.98666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002984919471017344, "loss": 0.3919, "step": 68240 }, { "epoch": 91.0, "grad_norm": 0.3984375, "learning_rate": 0.0002984915025627636, "loss": 0.3864, "step": 68250 }, { "epoch": 91.0, "eval_loss": 0.4294961392879486, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2185, "eval_samples_per_second": 1.566, "eval_steps_per_second": 0.098, "step": 68250 }, { "epoch": 91.01333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002984910579586138, "loss": 0.4039, "step": 68260 }, { "epoch": 91.02666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029849061328928497, "loss": 0.4171, "step": 68270 }, { "epoch": 91.04, "grad_norm": 0.34765625, "learning_rate": 0.0002984901685547775, "loss": 0.4286, "step": 68280 }, { "epoch": 91.05333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002984897237550915, "loss": 0.4154, "step": 68290 }, { "epoch": 91.06666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029848927889022714, "loss": 0.4027, "step": 68300 }, { "epoch": 91.08, "grad_norm": 0.390625, "learning_rate": 0.0002984888339601846, "loss": 0.4053, "step": 68310 }, { "epoch": 91.09333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002984883889649642, "loss": 0.4074, "step": 68320 }, { "epoch": 91.10666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002984879439045661, "loss": 0.3938, "step": 68330 }, { "epoch": 91.12, "grad_norm": 0.400390625, "learning_rate": 0.0002984874987789904, "loss": 0.3997, "step": 68340 }, { "epoch": 91.13333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002984870535882373, "loss": 0.391, "step": 68350 }, { "epoch": 91.14666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002984866083323071, "loss": 0.41, "step": 68360 }, { "epoch": 91.16, "grad_norm": 0.33984375, "learning_rate": 0.0002984861630112, "loss": 0.404, "step": 68370 }, { "epoch": 91.17333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029848571762491606, "loss": 0.3979, "step": 68380 }, { "epoch": 91.18666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029848527217345557, "loss": 0.3967, "step": 68390 }, { "epoch": 91.2, "grad_norm": 0.39453125, "learning_rate": 0.0002984848266568187, "loss": 0.3908, "step": 68400 }, { "epoch": 91.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029848438107500565, "loss": 0.3908, "step": 68410 }, { "epoch": 91.22666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002984839354280166, "loss": 0.4032, "step": 68420 }, { "epoch": 91.24, "grad_norm": 0.388671875, "learning_rate": 0.00029848348971585185, "loss": 0.3858, "step": 68430 }, { "epoch": 91.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002984830439385114, "loss": 0.3896, "step": 68440 }, { "epoch": 91.26666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002984825980959956, "loss": 0.3918, "step": 68450 }, { "epoch": 91.28, "grad_norm": 0.392578125, "learning_rate": 0.00029848215218830464, "loss": 0.4219, "step": 68460 }, { "epoch": 91.29333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029848170621543863, "loss": 0.3775, "step": 68470 }, { "epoch": 91.30666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0002984812601773978, "loss": 0.4011, "step": 68480 }, { "epoch": 91.32, "grad_norm": 0.3203125, "learning_rate": 0.0002984808140741824, "loss": 0.4025, "step": 68490 }, { "epoch": 91.33333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002984803679057926, "loss": 0.4069, "step": 68500 }, { "epoch": 91.34666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029847992167222854, "loss": 0.3968, "step": 68510 }, { "epoch": 91.36, "grad_norm": 0.470703125, "learning_rate": 0.0002984794753734905, "loss": 0.3983, "step": 68520 }, { "epoch": 91.37333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029847902900957863, "loss": 0.3989, "step": 68530 }, { "epoch": 91.38666666666667, "grad_norm": 0.421875, "learning_rate": 0.00029847858258049304, "loss": 0.3911, "step": 68540 }, { "epoch": 91.4, "grad_norm": 0.36328125, "learning_rate": 0.0002984781360862341, "loss": 0.3984, "step": 68550 }, { "epoch": 91.41333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029847768952680193, "loss": 0.4031, "step": 68560 }, { "epoch": 91.42666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029847724290219663, "loss": 0.4049, "step": 68570 }, { "epoch": 91.44, "grad_norm": 0.33203125, "learning_rate": 0.0002984767962124185, "loss": 0.4159, "step": 68580 }, { "epoch": 91.45333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002984763494574678, "loss": 0.4042, "step": 68590 }, { "epoch": 91.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029847590263734457, "loss": 0.4132, "step": 68600 }, { "epoch": 91.48, "grad_norm": 0.30859375, "learning_rate": 0.0002984754557520491, "loss": 0.3948, "step": 68610 }, { "epoch": 91.49333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029847500880158157, "loss": 0.4065, "step": 68620 }, { "epoch": 91.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002984745617859422, "loss": 0.4049, "step": 68630 }, { "epoch": 91.52, "grad_norm": 0.333984375, "learning_rate": 0.0002984741147051311, "loss": 0.3947, "step": 68640 }, { "epoch": 91.53333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002984736675591486, "loss": 0.3981, "step": 68650 }, { "epoch": 91.54666666666667, "grad_norm": 0.375, "learning_rate": 0.00029847322034799473, "loss": 0.3998, "step": 68660 }, { "epoch": 91.56, "grad_norm": 0.349609375, "learning_rate": 0.0002984727730716698, "loss": 0.394, "step": 68670 }, { "epoch": 91.57333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029847232573017405, "loss": 0.3984, "step": 68680 }, { "epoch": 91.58666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002984718783235076, "loss": 0.3862, "step": 68690 }, { "epoch": 91.6, "grad_norm": 0.29296875, "learning_rate": 0.0002984714308516706, "loss": 0.3885, "step": 68700 }, { "epoch": 91.61333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002984709833146633, "loss": 0.3774, "step": 68710 }, { "epoch": 91.62666666666667, "grad_norm": 0.3203125, "learning_rate": 0.000298470535712486, "loss": 0.3826, "step": 68720 }, { "epoch": 91.64, "grad_norm": 0.36328125, "learning_rate": 0.0002984700880451387, "loss": 0.3958, "step": 68730 }, { "epoch": 91.65333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002984696403126217, "loss": 0.4061, "step": 68740 }, { "epoch": 91.66666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002984691925149352, "loss": 0.3911, "step": 68750 }, { "epoch": 91.68, "grad_norm": 0.38671875, "learning_rate": 0.0002984687446520794, "loss": 0.385, "step": 68760 }, { "epoch": 91.69333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002984682967240545, "loss": 0.3936, "step": 68770 }, { "epoch": 91.70666666666666, "grad_norm": 0.375, "learning_rate": 0.00029846784873086067, "loss": 0.3864, "step": 68780 }, { "epoch": 91.72, "grad_norm": 0.37890625, "learning_rate": 0.00029846740067249807, "loss": 0.4095, "step": 68790 }, { "epoch": 91.73333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029846695254896695, "loss": 0.4027, "step": 68800 }, { "epoch": 91.74666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002984665043602675, "loss": 0.4049, "step": 68810 }, { "epoch": 91.76, "grad_norm": 0.390625, "learning_rate": 0.00029846605610639996, "loss": 0.4175, "step": 68820 }, { "epoch": 91.77333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002984656077873645, "loss": 0.4051, "step": 68830 }, { "epoch": 91.78666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002984651594031612, "loss": 0.4058, "step": 68840 }, { "epoch": 91.8, "grad_norm": 0.33984375, "learning_rate": 0.00029846471095379043, "loss": 0.4038, "step": 68850 }, { "epoch": 91.81333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002984642624392523, "loss": 0.3783, "step": 68860 }, { "epoch": 91.82666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029846381385954703, "loss": 0.3887, "step": 68870 }, { "epoch": 91.84, "grad_norm": 0.36328125, "learning_rate": 0.0002984633652146748, "loss": 0.4, "step": 68880 }, { "epoch": 91.85333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002984629165046358, "loss": 0.3946, "step": 68890 }, { "epoch": 91.86666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029846246772943026, "loss": 0.3988, "step": 68900 }, { "epoch": 91.88, "grad_norm": 0.3203125, "learning_rate": 0.00029846201888905833, "loss": 0.3791, "step": 68910 }, { "epoch": 91.89333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029846156998352026, "loss": 0.3903, "step": 68920 }, { "epoch": 91.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029846112101281617, "loss": 0.3977, "step": 68930 }, { "epoch": 91.92, "grad_norm": 0.349609375, "learning_rate": 0.0002984606719769464, "loss": 0.4001, "step": 68940 }, { "epoch": 91.93333333333334, "grad_norm": 0.294921875, "learning_rate": 0.000298460222875911, "loss": 0.3937, "step": 68950 }, { "epoch": 91.94666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029845977370971023, "loss": 0.3947, "step": 68960 }, { "epoch": 91.96, "grad_norm": 0.337890625, "learning_rate": 0.00029845932447834426, "loss": 0.3923, "step": 68970 }, { "epoch": 91.97333333333333, "grad_norm": 0.462890625, "learning_rate": 0.00029845887518181334, "loss": 0.4178, "step": 68980 }, { "epoch": 91.98666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002984584258201176, "loss": 0.3912, "step": 68990 }, { "epoch": 92.0, "grad_norm": 0.3671875, "learning_rate": 0.0002984579763932573, "loss": 0.3863, "step": 69000 }, { "epoch": 92.0, "eval_loss": 0.4288484454154968, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5535, "eval_samples_per_second": 1.675, "eval_steps_per_second": 0.105, "step": 69000 }, { "epoch": 92.01333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029845752690123257, "loss": 0.4039, "step": 69010 }, { "epoch": 92.02666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002984570773440437, "loss": 0.4167, "step": 69020 }, { "epoch": 92.04, "grad_norm": 0.376953125, "learning_rate": 0.0002984566277216908, "loss": 0.4291, "step": 69030 }, { "epoch": 92.05333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002984561780341741, "loss": 0.4145, "step": 69040 }, { "epoch": 92.06666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002984557282814938, "loss": 0.402, "step": 69050 }, { "epoch": 92.08, "grad_norm": 0.44140625, "learning_rate": 0.00029845527846365013, "loss": 0.4069, "step": 69060 }, { "epoch": 92.09333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029845482858064325, "loss": 0.4067, "step": 69070 }, { "epoch": 92.10666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029845437863247333, "loss": 0.3955, "step": 69080 }, { "epoch": 92.12, "grad_norm": 0.376953125, "learning_rate": 0.00029845392861914063, "loss": 0.3995, "step": 69090 }, { "epoch": 92.13333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029845347854064527, "loss": 0.391, "step": 69100 }, { "epoch": 92.14666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002984530283969875, "loss": 0.4101, "step": 69110 }, { "epoch": 92.16, "grad_norm": 0.34765625, "learning_rate": 0.0002984525781881675, "loss": 0.4034, "step": 69120 }, { "epoch": 92.17333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029845212791418553, "loss": 0.3983, "step": 69130 }, { "epoch": 92.18666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002984516775750417, "loss": 0.3965, "step": 69140 }, { "epoch": 92.2, "grad_norm": 0.3671875, "learning_rate": 0.00029845122717073625, "loss": 0.3901, "step": 69150 }, { "epoch": 92.21333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002984507767012694, "loss": 0.3906, "step": 69160 }, { "epoch": 92.22666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002984503261666413, "loss": 0.402, "step": 69170 }, { "epoch": 92.24, "grad_norm": 0.412109375, "learning_rate": 0.00029844987556685215, "loss": 0.3871, "step": 69180 }, { "epoch": 92.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002984494249019022, "loss": 0.3888, "step": 69190 }, { "epoch": 92.26666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029844897417179156, "loss": 0.3913, "step": 69200 }, { "epoch": 92.28, "grad_norm": 0.40625, "learning_rate": 0.0002984485233765205, "loss": 0.4226, "step": 69210 }, { "epoch": 92.29333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002984480725160892, "loss": 0.378, "step": 69220 }, { "epoch": 92.30666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029844762159049785, "loss": 0.4009, "step": 69230 }, { "epoch": 92.32, "grad_norm": 0.310546875, "learning_rate": 0.0002984471705997467, "loss": 0.4036, "step": 69240 }, { "epoch": 92.33333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002984467195438358, "loss": 0.4066, "step": 69250 }, { "epoch": 92.34666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002984462684227656, "loss": 0.3969, "step": 69260 }, { "epoch": 92.36, "grad_norm": 0.4453125, "learning_rate": 0.00029844581723653603, "loss": 0.3974, "step": 69270 }, { "epoch": 92.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029844536598514745, "loss": 0.3988, "step": 69280 }, { "epoch": 92.38666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002984449146686, "loss": 0.3919, "step": 69290 }, { "epoch": 92.4, "grad_norm": 0.3515625, "learning_rate": 0.0002984444632868939, "loss": 0.3984, "step": 69300 }, { "epoch": 92.41333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002984440118400293, "loss": 0.4024, "step": 69310 }, { "epoch": 92.42666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002984435603280065, "loss": 0.4041, "step": 69320 }, { "epoch": 92.44, "grad_norm": 0.404296875, "learning_rate": 0.00029844310875082563, "loss": 0.4156, "step": 69330 }, { "epoch": 92.45333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029844265710848687, "loss": 0.4047, "step": 69340 }, { "epoch": 92.46666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002984422054009905, "loss": 0.414, "step": 69350 }, { "epoch": 92.48, "grad_norm": 0.384765625, "learning_rate": 0.0002984417536283366, "loss": 0.395, "step": 69360 }, { "epoch": 92.49333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029844130179052544, "loss": 0.4066, "step": 69370 }, { "epoch": 92.50666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002984408498875572, "loss": 0.4052, "step": 69380 }, { "epoch": 92.52, "grad_norm": 0.353515625, "learning_rate": 0.0002984403979194321, "loss": 0.3956, "step": 69390 }, { "epoch": 92.53333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029843994588615034, "loss": 0.398, "step": 69400 }, { "epoch": 92.54666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029843949378771206, "loss": 0.3998, "step": 69410 }, { "epoch": 92.56, "grad_norm": 0.322265625, "learning_rate": 0.00029843904162411757, "loss": 0.3936, "step": 69420 }, { "epoch": 92.57333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002984385893953669, "loss": 0.3967, "step": 69430 }, { "epoch": 92.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029843813710146044, "loss": 0.3863, "step": 69440 }, { "epoch": 92.6, "grad_norm": 0.32421875, "learning_rate": 0.00029843768474239823, "loss": 0.3878, "step": 69450 }, { "epoch": 92.61333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002984372323181806, "loss": 0.3771, "step": 69460 }, { "epoch": 92.62666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029843677982880766, "loss": 0.3831, "step": 69470 }, { "epoch": 92.64, "grad_norm": 0.3828125, "learning_rate": 0.0002984363272742796, "loss": 0.3955, "step": 69480 }, { "epoch": 92.65333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002984358746545967, "loss": 0.4056, "step": 69490 }, { "epoch": 92.66666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002984354219697591, "loss": 0.3916, "step": 69500 }, { "epoch": 92.68, "grad_norm": 0.330078125, "learning_rate": 0.000298434969219767, "loss": 0.3849, "step": 69510 }, { "epoch": 92.69333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029843451640462054, "loss": 0.3938, "step": 69520 }, { "epoch": 92.70666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002984340635243201, "loss": 0.3862, "step": 69530 }, { "epoch": 92.72, "grad_norm": 0.421875, "learning_rate": 0.0002984336105788657, "loss": 0.4095, "step": 69540 }, { "epoch": 92.73333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002984331575682576, "loss": 0.4026, "step": 69550 }, { "epoch": 92.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002984327044924961, "loss": 0.4054, "step": 69560 }, { "epoch": 92.76, "grad_norm": 0.392578125, "learning_rate": 0.00029843225135158116, "loss": 0.4181, "step": 69570 }, { "epoch": 92.77333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002984317981455132, "loss": 0.4043, "step": 69580 }, { "epoch": 92.78666666666666, "grad_norm": 0.30078125, "learning_rate": 0.00029843134487429236, "loss": 0.4058, "step": 69590 }, { "epoch": 92.8, "grad_norm": 0.37890625, "learning_rate": 0.00029843089153791877, "loss": 0.4036, "step": 69600 }, { "epoch": 92.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002984304381363927, "loss": 0.3772, "step": 69610 }, { "epoch": 92.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002984299846697143, "loss": 0.3875, "step": 69620 }, { "epoch": 92.84, "grad_norm": 0.388671875, "learning_rate": 0.0002984295311378838, "loss": 0.3994, "step": 69630 }, { "epoch": 92.85333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029842907754090145, "loss": 0.3947, "step": 69640 }, { "epoch": 92.86666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029842862387876733, "loss": 0.3991, "step": 69650 }, { "epoch": 92.88, "grad_norm": 0.35546875, "learning_rate": 0.0002984281701514817, "loss": 0.3793, "step": 69660 }, { "epoch": 92.89333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002984277163590448, "loss": 0.3905, "step": 69670 }, { "epoch": 92.90666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002984272625014568, "loss": 0.3975, "step": 69680 }, { "epoch": 92.92, "grad_norm": 0.361328125, "learning_rate": 0.0002984268085787179, "loss": 0.4003, "step": 69690 }, { "epoch": 92.93333333333334, "grad_norm": 0.328125, "learning_rate": 0.00029842635459082824, "loss": 0.3937, "step": 69700 }, { "epoch": 92.94666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029842590053778806, "loss": 0.3942, "step": 69710 }, { "epoch": 92.96, "grad_norm": 0.32421875, "learning_rate": 0.0002984254464195976, "loss": 0.3921, "step": 69720 }, { "epoch": 92.97333333333333, "grad_norm": 0.408203125, "learning_rate": 0.000298424992236257, "loss": 0.417, "step": 69730 }, { "epoch": 92.98666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002984245379877665, "loss": 0.3912, "step": 69740 }, { "epoch": 93.0, "grad_norm": 0.36328125, "learning_rate": 0.0002984240836741263, "loss": 0.3862, "step": 69750 }, { "epoch": 93.0, "eval_loss": 0.43076202273368835, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2055, "eval_samples_per_second": 1.568, "eval_steps_per_second": 0.098, "step": 69750 }, { "epoch": 93.01333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002984236292953366, "loss": 0.4033, "step": 69760 }, { "epoch": 93.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002984231748513976, "loss": 0.4167, "step": 69770 }, { "epoch": 93.04, "grad_norm": 0.322265625, "learning_rate": 0.0002984227203423094, "loss": 0.4288, "step": 69780 }, { "epoch": 93.05333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002984222657680724, "loss": 0.4148, "step": 69790 }, { "epoch": 93.06666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002984218111286866, "loss": 0.4017, "step": 69800 }, { "epoch": 93.08, "grad_norm": 0.41796875, "learning_rate": 0.00029842135642415234, "loss": 0.4057, "step": 69810 }, { "epoch": 93.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002984209016544697, "loss": 0.4064, "step": 69820 }, { "epoch": 93.10666666666667, "grad_norm": 0.3515625, "learning_rate": 0.000298420446819639, "loss": 0.3944, "step": 69830 }, { "epoch": 93.12, "grad_norm": 0.384765625, "learning_rate": 0.0002984199919196603, "loss": 0.4002, "step": 69840 }, { "epoch": 93.13333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029841953695453397, "loss": 0.3913, "step": 69850 }, { "epoch": 93.14666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029841908192426004, "loss": 0.4096, "step": 69860 }, { "epoch": 93.16, "grad_norm": 0.34765625, "learning_rate": 0.0002984186268288389, "loss": 0.4038, "step": 69870 }, { "epoch": 93.17333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029841817166827053, "loss": 0.3989, "step": 69880 }, { "epoch": 93.18666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029841771644255533, "loss": 0.3971, "step": 69890 }, { "epoch": 93.2, "grad_norm": 0.349609375, "learning_rate": 0.00029841726115169335, "loss": 0.3898, "step": 69900 }, { "epoch": 93.21333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029841680579568487, "loss": 0.3904, "step": 69910 }, { "epoch": 93.22666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002984163503745301, "loss": 0.4016, "step": 69920 }, { "epoch": 93.24, "grad_norm": 0.421875, "learning_rate": 0.0002984158948882292, "loss": 0.3874, "step": 69930 }, { "epoch": 93.25333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029841543933678235, "loss": 0.3895, "step": 69940 }, { "epoch": 93.26666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029841498372018977, "loss": 0.3915, "step": 69950 }, { "epoch": 93.28, "grad_norm": 0.380859375, "learning_rate": 0.00029841452803845166, "loss": 0.4219, "step": 69960 }, { "epoch": 93.29333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002984140722915683, "loss": 0.3774, "step": 69970 }, { "epoch": 93.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029841361647953976, "loss": 0.4007, "step": 69980 }, { "epoch": 93.32, "grad_norm": 0.32421875, "learning_rate": 0.0002984131606023663, "loss": 0.4035, "step": 69990 }, { "epoch": 93.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029841270466004816, "loss": 0.4071, "step": 70000 }, { "epoch": 93.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029841224865258546, "loss": 0.3983, "step": 70010 }, { "epoch": 93.36, "grad_norm": 0.384765625, "learning_rate": 0.0002984117925799785, "loss": 0.3969, "step": 70020 }, { "epoch": 93.37333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002984113364422274, "loss": 0.3984, "step": 70030 }, { "epoch": 93.38666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029841088023933236, "loss": 0.3906, "step": 70040 }, { "epoch": 93.4, "grad_norm": 0.3515625, "learning_rate": 0.0002984104239712936, "loss": 0.3976, "step": 70050 }, { "epoch": 93.41333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002984099676381113, "loss": 0.4022, "step": 70060 }, { "epoch": 93.42666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002984095112397857, "loss": 0.4033, "step": 70070 }, { "epoch": 93.44, "grad_norm": 0.341796875, "learning_rate": 0.000298409054776317, "loss": 0.415, "step": 70080 }, { "epoch": 93.45333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002984085982477054, "loss": 0.4035, "step": 70090 }, { "epoch": 93.46666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029840814165395105, "loss": 0.4129, "step": 70100 }, { "epoch": 93.48, "grad_norm": 0.35546875, "learning_rate": 0.0002984076849950542, "loss": 0.3956, "step": 70110 }, { "epoch": 93.49333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029840722827101504, "loss": 0.4062, "step": 70120 }, { "epoch": 93.50666666666666, "grad_norm": 0.375, "learning_rate": 0.00029840677148183374, "loss": 0.4045, "step": 70130 }, { "epoch": 93.52, "grad_norm": 0.375, "learning_rate": 0.00029840631462751054, "loss": 0.3952, "step": 70140 }, { "epoch": 93.53333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002984058577080456, "loss": 0.398, "step": 70150 }, { "epoch": 93.54666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002984054007234392, "loss": 0.4003, "step": 70160 }, { "epoch": 93.56, "grad_norm": 0.3125, "learning_rate": 0.00029840494367369143, "loss": 0.3937, "step": 70170 }, { "epoch": 93.57333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002984044865588026, "loss": 0.3974, "step": 70180 }, { "epoch": 93.58666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002984040293787728, "loss": 0.3861, "step": 70190 }, { "epoch": 93.6, "grad_norm": 0.345703125, "learning_rate": 0.00029840357213360236, "loss": 0.3877, "step": 70200 }, { "epoch": 93.61333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002984031148232913, "loss": 0.3783, "step": 70210 }, { "epoch": 93.62666666666667, "grad_norm": 0.30078125, "learning_rate": 0.00029840265744784, "loss": 0.3833, "step": 70220 }, { "epoch": 93.64, "grad_norm": 0.349609375, "learning_rate": 0.0002984022000072486, "loss": 0.3958, "step": 70230 }, { "epoch": 93.65333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0002984017425015173, "loss": 0.4053, "step": 70240 }, { "epoch": 93.66666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029840128493064625, "loss": 0.3915, "step": 70250 }, { "epoch": 93.68, "grad_norm": 0.44140625, "learning_rate": 0.0002984008272946357, "loss": 0.3844, "step": 70260 }, { "epoch": 93.69333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029840036959348585, "loss": 0.3934, "step": 70270 }, { "epoch": 93.70666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029839991182719695, "loss": 0.3864, "step": 70280 }, { "epoch": 93.72, "grad_norm": 0.3984375, "learning_rate": 0.00029839945399576907, "loss": 0.4087, "step": 70290 }, { "epoch": 93.73333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029839899609920254, "loss": 0.4036, "step": 70300 }, { "epoch": 93.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002983985381374974, "loss": 0.4049, "step": 70310 }, { "epoch": 93.76, "grad_norm": 0.375, "learning_rate": 0.0002983980801106541, "loss": 0.4178, "step": 70320 }, { "epoch": 93.77333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002983976220186726, "loss": 0.4058, "step": 70330 }, { "epoch": 93.78666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002983971638615533, "loss": 0.4053, "step": 70340 }, { "epoch": 93.8, "grad_norm": 0.38671875, "learning_rate": 0.0002983967056392962, "loss": 0.4031, "step": 70350 }, { "epoch": 93.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0002983962473519017, "loss": 0.378, "step": 70360 }, { "epoch": 93.82666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002983957889993698, "loss": 0.3885, "step": 70370 }, { "epoch": 93.84, "grad_norm": 0.392578125, "learning_rate": 0.00029839533058170087, "loss": 0.3992, "step": 70380 }, { "epoch": 93.85333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029839487209889506, "loss": 0.3945, "step": 70390 }, { "epoch": 93.86666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029839441355095255, "loss": 0.3985, "step": 70400 }, { "epoch": 93.88, "grad_norm": 0.333984375, "learning_rate": 0.0002983939549378735, "loss": 0.3791, "step": 70410 }, { "epoch": 93.89333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002983934962596582, "loss": 0.391, "step": 70420 }, { "epoch": 93.90666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002983930375163068, "loss": 0.3979, "step": 70430 }, { "epoch": 93.92, "grad_norm": 0.3984375, "learning_rate": 0.0002983925787078195, "loss": 0.3998, "step": 70440 }, { "epoch": 93.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002983921198341965, "loss": 0.3928, "step": 70450 }, { "epoch": 93.94666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029839166089543805, "loss": 0.3947, "step": 70460 }, { "epoch": 93.96, "grad_norm": 0.337890625, "learning_rate": 0.0002983912018915444, "loss": 0.3925, "step": 70470 }, { "epoch": 93.97333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002983907428225155, "loss": 0.417, "step": 70480 }, { "epoch": 93.98666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029839028368835183, "loss": 0.3912, "step": 70490 }, { "epoch": 94.0, "grad_norm": 0.341796875, "learning_rate": 0.00029838982448905345, "loss": 0.3861, "step": 70500 }, { "epoch": 94.0, "eval_loss": 0.42953479290008545, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9969, "eval_samples_per_second": 1.6, "eval_steps_per_second": 0.1, "step": 70500 }, { "epoch": 94.01333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002983893652246206, "loss": 0.404, "step": 70510 }, { "epoch": 94.02666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002983889058950535, "loss": 0.4161, "step": 70520 }, { "epoch": 94.04, "grad_norm": 0.34375, "learning_rate": 0.0002983884465003523, "loss": 0.4284, "step": 70530 }, { "epoch": 94.05333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029838798704051725, "loss": 0.4141, "step": 70540 }, { "epoch": 94.06666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002983875275155485, "loss": 0.4014, "step": 70550 }, { "epoch": 94.08, "grad_norm": 0.419921875, "learning_rate": 0.00029838706792544625, "loss": 0.4053, "step": 70560 }, { "epoch": 94.09333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029838660827021077, "loss": 0.4063, "step": 70570 }, { "epoch": 94.10666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002983861485498423, "loss": 0.395, "step": 70580 }, { "epoch": 94.12, "grad_norm": 0.36328125, "learning_rate": 0.0002983856887643409, "loss": 0.4, "step": 70590 }, { "epoch": 94.13333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002983852289137068, "loss": 0.3908, "step": 70600 }, { "epoch": 94.14666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002983847689979403, "loss": 0.4096, "step": 70610 }, { "epoch": 94.16, "grad_norm": 0.32421875, "learning_rate": 0.0002983843090170415, "loss": 0.4022, "step": 70620 }, { "epoch": 94.17333333333333, "grad_norm": 0.375, "learning_rate": 0.00029838384897101067, "loss": 0.3983, "step": 70630 }, { "epoch": 94.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029838338885984796, "loss": 0.3967, "step": 70640 }, { "epoch": 94.2, "grad_norm": 0.380859375, "learning_rate": 0.00029838292868355365, "loss": 0.389, "step": 70650 }, { "epoch": 94.21333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029838246844212784, "loss": 0.3907, "step": 70660 }, { "epoch": 94.22666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002983820081355708, "loss": 0.402, "step": 70670 }, { "epoch": 94.24, "grad_norm": 0.404296875, "learning_rate": 0.00029838154776388277, "loss": 0.387, "step": 70680 }, { "epoch": 94.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002983810873270638, "loss": 0.3895, "step": 70690 }, { "epoch": 94.26666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002983806268251142, "loss": 0.3915, "step": 70700 }, { "epoch": 94.28, "grad_norm": 0.373046875, "learning_rate": 0.00029838016625803425, "loss": 0.4212, "step": 70710 }, { "epoch": 94.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.000298379705625824, "loss": 0.3766, "step": 70720 }, { "epoch": 94.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029837924492848373, "loss": 0.4007, "step": 70730 }, { "epoch": 94.32, "grad_norm": 0.361328125, "learning_rate": 0.0002983787841660136, "loss": 0.4027, "step": 70740 }, { "epoch": 94.33333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029837832333841385, "loss": 0.4068, "step": 70750 }, { "epoch": 94.34666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002983778624456847, "loss": 0.3968, "step": 70760 }, { "epoch": 94.36, "grad_norm": 0.455078125, "learning_rate": 0.00029837740148782634, "loss": 0.3974, "step": 70770 }, { "epoch": 94.37333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029837694046483886, "loss": 0.3982, "step": 70780 }, { "epoch": 94.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029837647937672266, "loss": 0.3912, "step": 70790 }, { "epoch": 94.4, "grad_norm": 0.3671875, "learning_rate": 0.0002983760182234778, "loss": 0.3983, "step": 70800 }, { "epoch": 94.41333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002983755570051045, "loss": 0.4022, "step": 70810 }, { "epoch": 94.42666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029837509572160304, "loss": 0.4046, "step": 70820 }, { "epoch": 94.44, "grad_norm": 0.35546875, "learning_rate": 0.00029837463437297354, "loss": 0.4151, "step": 70830 }, { "epoch": 94.45333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002983741729592162, "loss": 0.4039, "step": 70840 }, { "epoch": 94.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002983737114803313, "loss": 0.4134, "step": 70850 }, { "epoch": 94.48, "grad_norm": 0.4140625, "learning_rate": 0.000298373249936319, "loss": 0.3942, "step": 70860 }, { "epoch": 94.49333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029837278832717945, "loss": 0.4062, "step": 70870 }, { "epoch": 94.50666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002983723266529129, "loss": 0.4051, "step": 70880 }, { "epoch": 94.52, "grad_norm": 0.357421875, "learning_rate": 0.0002983718649135196, "loss": 0.3957, "step": 70890 }, { "epoch": 94.53333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029837140310899976, "loss": 0.398, "step": 70900 }, { "epoch": 94.54666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002983709412393534, "loss": 0.3997, "step": 70910 }, { "epoch": 94.56, "grad_norm": 0.306640625, "learning_rate": 0.00029837047930458095, "loss": 0.3941, "step": 70920 }, { "epoch": 94.57333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002983700173046825, "loss": 0.3968, "step": 70930 }, { "epoch": 94.58666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002983695552396582, "loss": 0.3857, "step": 70940 }, { "epoch": 94.6, "grad_norm": 0.34765625, "learning_rate": 0.0002983690931095084, "loss": 0.3877, "step": 70950 }, { "epoch": 94.61333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002983686309142332, "loss": 0.3778, "step": 70960 }, { "epoch": 94.62666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0002983681686538328, "loss": 0.3824, "step": 70970 }, { "epoch": 94.64, "grad_norm": 0.359375, "learning_rate": 0.00029836770632830743, "loss": 0.3948, "step": 70980 }, { "epoch": 94.65333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029836724393765736, "loss": 0.4044, "step": 70990 }, { "epoch": 94.66666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002983667814818827, "loss": 0.3911, "step": 71000 }, { "epoch": 94.68, "grad_norm": 0.33203125, "learning_rate": 0.0002983663189609836, "loss": 0.3838, "step": 71010 }, { "epoch": 94.69333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002983658563749604, "loss": 0.3928, "step": 71020 }, { "epoch": 94.70666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029836539372381324, "loss": 0.386, "step": 71030 }, { "epoch": 94.72, "grad_norm": 0.359375, "learning_rate": 0.0002983649310075423, "loss": 0.409, "step": 71040 }, { "epoch": 94.73333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002983644682261478, "loss": 0.4032, "step": 71050 }, { "epoch": 94.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002983640053796301, "loss": 0.4035, "step": 71060 }, { "epoch": 94.76, "grad_norm": 0.427734375, "learning_rate": 0.0002983635424679891, "loss": 0.4176, "step": 71070 }, { "epoch": 94.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002983630794912252, "loss": 0.4055, "step": 71080 }, { "epoch": 94.78666666666666, "grad_norm": 0.318359375, "learning_rate": 0.00029836261644933856, "loss": 0.4052, "step": 71090 }, { "epoch": 94.8, "grad_norm": 0.38671875, "learning_rate": 0.0002983621533423294, "loss": 0.4038, "step": 71100 }, { "epoch": 94.81333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002983616901701979, "loss": 0.3777, "step": 71110 }, { "epoch": 94.82666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029836122693294425, "loss": 0.3868, "step": 71120 }, { "epoch": 94.84, "grad_norm": 0.40625, "learning_rate": 0.00029836076363056873, "loss": 0.3992, "step": 71130 }, { "epoch": 94.85333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029836030026307147, "loss": 0.3944, "step": 71140 }, { "epoch": 94.86666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002983598368304527, "loss": 0.3986, "step": 71150 }, { "epoch": 94.88, "grad_norm": 0.390625, "learning_rate": 0.0002983593733327126, "loss": 0.3803, "step": 71160 }, { "epoch": 94.89333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002983589097698514, "loss": 0.3904, "step": 71170 }, { "epoch": 94.90666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029835844614186925, "loss": 0.3968, "step": 71180 }, { "epoch": 94.92, "grad_norm": 0.375, "learning_rate": 0.00029835798244876645, "loss": 0.4002, "step": 71190 }, { "epoch": 94.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002983575186905431, "loss": 0.3932, "step": 71200 }, { "epoch": 94.94666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002983570548671995, "loss": 0.3937, "step": 71210 }, { "epoch": 94.96, "grad_norm": 0.296875, "learning_rate": 0.0002983565909787358, "loss": 0.3921, "step": 71220 }, { "epoch": 94.97333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002983561270251522, "loss": 0.4176, "step": 71230 }, { "epoch": 94.98666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029835566300644894, "loss": 0.3915, "step": 71240 }, { "epoch": 95.0, "grad_norm": 0.3359375, "learning_rate": 0.0002983551989226262, "loss": 0.386, "step": 71250 }, { "epoch": 95.0, "eval_loss": 0.4297771155834198, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9652, "eval_samples_per_second": 1.606, "eval_steps_per_second": 0.1, "step": 71250 }, { "epoch": 95.01333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029835473477368414, "loss": 0.4043, "step": 71260 }, { "epoch": 95.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.000298354270559623, "loss": 0.4163, "step": 71270 }, { "epoch": 95.04, "grad_norm": 0.388671875, "learning_rate": 0.000298353806280443, "loss": 0.4286, "step": 71280 }, { "epoch": 95.05333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002983533419361444, "loss": 0.4141, "step": 71290 }, { "epoch": 95.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029835287752672733, "loss": 0.4021, "step": 71300 }, { "epoch": 95.08, "grad_norm": 0.388671875, "learning_rate": 0.00029835241305219194, "loss": 0.4051, "step": 71310 }, { "epoch": 95.09333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002983519485125385, "loss": 0.4071, "step": 71320 }, { "epoch": 95.10666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029835148390776724, "loss": 0.3948, "step": 71330 }, { "epoch": 95.12, "grad_norm": 0.373046875, "learning_rate": 0.0002983510192378783, "loss": 0.4003, "step": 71340 }, { "epoch": 95.13333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029835055450287197, "loss": 0.3909, "step": 71350 }, { "epoch": 95.14666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029835008970274834, "loss": 0.4102, "step": 71360 }, { "epoch": 95.16, "grad_norm": 0.333984375, "learning_rate": 0.0002983496248375077, "loss": 0.4031, "step": 71370 }, { "epoch": 95.17333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002983491599071502, "loss": 0.3977, "step": 71380 }, { "epoch": 95.18666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0002983486949116761, "loss": 0.3963, "step": 71390 }, { "epoch": 95.2, "grad_norm": 0.3515625, "learning_rate": 0.0002983482298510856, "loss": 0.3891, "step": 71400 }, { "epoch": 95.21333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029834776472537885, "loss": 0.3899, "step": 71410 }, { "epoch": 95.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002983472995345561, "loss": 0.4015, "step": 71420 }, { "epoch": 95.24, "grad_norm": 0.359375, "learning_rate": 0.0002983468342786175, "loss": 0.3865, "step": 71430 }, { "epoch": 95.25333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029834636895756335, "loss": 0.3886, "step": 71440 }, { "epoch": 95.26666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029834590357139375, "loss": 0.3918, "step": 71450 }, { "epoch": 95.28, "grad_norm": 0.3828125, "learning_rate": 0.00029834543812010903, "loss": 0.4204, "step": 71460 }, { "epoch": 95.29333333333334, "grad_norm": 0.423828125, "learning_rate": 0.00029834497260370924, "loss": 0.3771, "step": 71470 }, { "epoch": 95.30666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029834450702219466, "loss": 0.4014, "step": 71480 }, { "epoch": 95.32, "grad_norm": 0.333984375, "learning_rate": 0.00029834404137556555, "loss": 0.4023, "step": 71490 }, { "epoch": 95.33333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029834357566382207, "loss": 0.4059, "step": 71500 }, { "epoch": 95.34666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029834310988696434, "loss": 0.396, "step": 71510 }, { "epoch": 95.36, "grad_norm": 0.474609375, "learning_rate": 0.0002983426440449927, "loss": 0.3971, "step": 71520 }, { "epoch": 95.37333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029834217813790725, "loss": 0.3974, "step": 71530 }, { "epoch": 95.38666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002983417121657082, "loss": 0.3905, "step": 71540 }, { "epoch": 95.4, "grad_norm": 0.3828125, "learning_rate": 0.0002983412461283959, "loss": 0.3983, "step": 71550 }, { "epoch": 95.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002983407800259704, "loss": 0.4029, "step": 71560 }, { "epoch": 95.42666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029834031385843194, "loss": 0.4042, "step": 71570 }, { "epoch": 95.44, "grad_norm": 0.388671875, "learning_rate": 0.0002983398476257807, "loss": 0.4148, "step": 71580 }, { "epoch": 95.45333333333333, "grad_norm": 0.451171875, "learning_rate": 0.00029833938132801696, "loss": 0.404, "step": 71590 }, { "epoch": 95.46666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002983389149651409, "loss": 0.4126, "step": 71600 }, { "epoch": 95.48, "grad_norm": 0.3359375, "learning_rate": 0.0002983384485371527, "loss": 0.3947, "step": 71610 }, { "epoch": 95.49333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002983379820440526, "loss": 0.4062, "step": 71620 }, { "epoch": 95.50666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002983375154858407, "loss": 0.403, "step": 71630 }, { "epoch": 95.52, "grad_norm": 0.33984375, "learning_rate": 0.00029833704886251736, "loss": 0.3945, "step": 71640 }, { "epoch": 95.53333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029833658217408266, "loss": 0.3975, "step": 71650 }, { "epoch": 95.54666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002983361154205369, "loss": 0.4001, "step": 71660 }, { "epoch": 95.56, "grad_norm": 0.322265625, "learning_rate": 0.0002983356486018802, "loss": 0.393, "step": 71670 }, { "epoch": 95.57333333333334, "grad_norm": 0.451171875, "learning_rate": 0.00029833518171811283, "loss": 0.3986, "step": 71680 }, { "epoch": 95.58666666666667, "grad_norm": 0.349609375, "learning_rate": 0.000298334714769235, "loss": 0.3856, "step": 71690 }, { "epoch": 95.6, "grad_norm": 0.33203125, "learning_rate": 0.0002983342477552468, "loss": 0.388, "step": 71700 }, { "epoch": 95.61333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002983337806761486, "loss": 0.3767, "step": 71710 }, { "epoch": 95.62666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029833331353194045, "loss": 0.3825, "step": 71720 }, { "epoch": 95.64, "grad_norm": 0.34375, "learning_rate": 0.00029833284632262266, "loss": 0.3947, "step": 71730 }, { "epoch": 95.65333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002983323790481954, "loss": 0.4046, "step": 71740 }, { "epoch": 95.66666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002983319117086589, "loss": 0.3915, "step": 71750 }, { "epoch": 95.68, "grad_norm": 0.384765625, "learning_rate": 0.0002983314443040133, "loss": 0.3841, "step": 71760 }, { "epoch": 95.69333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002983309768342589, "loss": 0.3929, "step": 71770 }, { "epoch": 95.70666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002983305092993958, "loss": 0.3864, "step": 71780 }, { "epoch": 95.72, "grad_norm": 0.384765625, "learning_rate": 0.0002983300416994243, "loss": 0.4086, "step": 71790 }, { "epoch": 95.73333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002983295740343446, "loss": 0.402, "step": 71800 }, { "epoch": 95.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002983291063041568, "loss": 0.4039, "step": 71810 }, { "epoch": 95.76, "grad_norm": 0.361328125, "learning_rate": 0.0002983286385088612, "loss": 0.4172, "step": 71820 }, { "epoch": 95.77333333333333, "grad_norm": 0.412109375, "learning_rate": 0.000298328170648458, "loss": 0.4052, "step": 71830 }, { "epoch": 95.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029832770272294736, "loss": 0.4047, "step": 71840 }, { "epoch": 95.8, "grad_norm": 0.380859375, "learning_rate": 0.0002983272347323295, "loss": 0.4034, "step": 71850 }, { "epoch": 95.81333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029832676667660465, "loss": 0.3776, "step": 71860 }, { "epoch": 95.82666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029832629855577306, "loss": 0.3872, "step": 71870 }, { "epoch": 95.84, "grad_norm": 0.41015625, "learning_rate": 0.0002983258303698348, "loss": 0.3974, "step": 71880 }, { "epoch": 95.85333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002983253621187902, "loss": 0.3943, "step": 71890 }, { "epoch": 95.86666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029832489380263936, "loss": 0.3984, "step": 71900 }, { "epoch": 95.88, "grad_norm": 0.349609375, "learning_rate": 0.00029832442542138257, "loss": 0.3794, "step": 71910 }, { "epoch": 95.89333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002983239569750201, "loss": 0.3908, "step": 71920 }, { "epoch": 95.90666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002983234884635519, "loss": 0.3971, "step": 71930 }, { "epoch": 95.92, "grad_norm": 0.39453125, "learning_rate": 0.0002983230198869784, "loss": 0.3993, "step": 71940 }, { "epoch": 95.93333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029832255124529985, "loss": 0.3927, "step": 71950 }, { "epoch": 95.94666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002983220825385163, "loss": 0.395, "step": 71960 }, { "epoch": 95.96, "grad_norm": 0.345703125, "learning_rate": 0.00029832161376662795, "loss": 0.392, "step": 71970 }, { "epoch": 95.97333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002983211449296351, "loss": 0.4175, "step": 71980 }, { "epoch": 95.98666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029832067602753796, "loss": 0.3911, "step": 71990 }, { "epoch": 96.0, "grad_norm": 0.345703125, "learning_rate": 0.0002983202070603366, "loss": 0.3858, "step": 72000 }, { "epoch": 96.0, "eval_loss": 0.42892059683799744, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8523, "eval_samples_per_second": 1.624, "eval_steps_per_second": 0.101, "step": 72000 }, { "epoch": 96.01333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002983197380280314, "loss": 0.4026, "step": 72010 }, { "epoch": 96.02666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029831926893062247, "loss": 0.4162, "step": 72020 }, { "epoch": 96.04, "grad_norm": 0.3046875, "learning_rate": 0.00029831879976811, "loss": 0.4281, "step": 72030 }, { "epoch": 96.05333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002983183305404943, "loss": 0.4144, "step": 72040 }, { "epoch": 96.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029831786124777545, "loss": 0.4016, "step": 72050 }, { "epoch": 96.08, "grad_norm": 0.4296875, "learning_rate": 0.00029831739188995374, "loss": 0.4042, "step": 72060 }, { "epoch": 96.09333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002983169224670293, "loss": 0.4057, "step": 72070 }, { "epoch": 96.10666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002983164529790024, "loss": 0.3938, "step": 72080 }, { "epoch": 96.12, "grad_norm": 0.416015625, "learning_rate": 0.0002983159834258733, "loss": 0.3987, "step": 72090 }, { "epoch": 96.13333333333334, "grad_norm": 0.4453125, "learning_rate": 0.0002983155138076421, "loss": 0.3906, "step": 72100 }, { "epoch": 96.14666666666666, "grad_norm": 0.376953125, "learning_rate": 0.000298315044124309, "loss": 0.409, "step": 72110 }, { "epoch": 96.16, "grad_norm": 0.376953125, "learning_rate": 0.00029831457437587427, "loss": 0.4025, "step": 72120 }, { "epoch": 96.17333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002983141045623381, "loss": 0.3983, "step": 72130 }, { "epoch": 96.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002983136346837007, "loss": 0.3965, "step": 72140 }, { "epoch": 96.2, "grad_norm": 0.416015625, "learning_rate": 0.0002983131647399622, "loss": 0.3894, "step": 72150 }, { "epoch": 96.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029831269473112296, "loss": 0.39, "step": 72160 }, { "epoch": 96.22666666666667, "grad_norm": 0.341796875, "learning_rate": 0.000298312224657183, "loss": 0.4016, "step": 72170 }, { "epoch": 96.24, "grad_norm": 0.419921875, "learning_rate": 0.00029831175451814273, "loss": 0.3866, "step": 72180 }, { "epoch": 96.25333333333333, "grad_norm": 0.318359375, "learning_rate": 0.00029831128431400224, "loss": 0.389, "step": 72190 }, { "epoch": 96.26666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002983108140447617, "loss": 0.3916, "step": 72200 }, { "epoch": 96.28, "grad_norm": 0.373046875, "learning_rate": 0.0002983103437104214, "loss": 0.4208, "step": 72210 }, { "epoch": 96.29333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002983098733109815, "loss": 0.3767, "step": 72220 }, { "epoch": 96.30666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002983094028464422, "loss": 0.4004, "step": 72230 }, { "epoch": 96.32, "grad_norm": 0.306640625, "learning_rate": 0.00029830893231680373, "loss": 0.4028, "step": 72240 }, { "epoch": 96.33333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002983084617220663, "loss": 0.4056, "step": 72250 }, { "epoch": 96.34666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002983079910622301, "loss": 0.3965, "step": 72260 }, { "epoch": 96.36, "grad_norm": 0.37890625, "learning_rate": 0.0002983075203372953, "loss": 0.3964, "step": 72270 }, { "epoch": 96.37333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002983070495472622, "loss": 0.3982, "step": 72280 }, { "epoch": 96.38666666666667, "grad_norm": 0.44140625, "learning_rate": 0.000298306578692131, "loss": 0.3906, "step": 72290 }, { "epoch": 96.4, "grad_norm": 0.359375, "learning_rate": 0.0002983061077719018, "loss": 0.3975, "step": 72300 }, { "epoch": 96.41333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002983056367865749, "loss": 0.401, "step": 72310 }, { "epoch": 96.42666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029830516573615045, "loss": 0.4035, "step": 72320 }, { "epoch": 96.44, "grad_norm": 0.36328125, "learning_rate": 0.0002983046946206287, "loss": 0.4146, "step": 72330 }, { "epoch": 96.45333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029830422344000987, "loss": 0.4042, "step": 72340 }, { "epoch": 96.46666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002983037521942941, "loss": 0.413, "step": 72350 }, { "epoch": 96.48, "grad_norm": 0.380859375, "learning_rate": 0.00029830328088348166, "loss": 0.3947, "step": 72360 }, { "epoch": 96.49333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002983028095075727, "loss": 0.4063, "step": 72370 }, { "epoch": 96.50666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029830233806656743, "loss": 0.4039, "step": 72380 }, { "epoch": 96.52, "grad_norm": 0.341796875, "learning_rate": 0.00029830186656046613, "loss": 0.3934, "step": 72390 }, { "epoch": 96.53333333333333, "grad_norm": 0.41015625, "learning_rate": 0.000298301394989269, "loss": 0.3976, "step": 72400 }, { "epoch": 96.54666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029830092335297615, "loss": 0.3997, "step": 72410 }, { "epoch": 96.56, "grad_norm": 0.33984375, "learning_rate": 0.00029830045165158786, "loss": 0.393, "step": 72420 }, { "epoch": 96.57333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029829997988510434, "loss": 0.3973, "step": 72430 }, { "epoch": 96.58666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029829950805352576, "loss": 0.3857, "step": 72440 }, { "epoch": 96.6, "grad_norm": 0.310546875, "learning_rate": 0.00029829903615685233, "loss": 0.387, "step": 72450 }, { "epoch": 96.61333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002982985641950843, "loss": 0.3769, "step": 72460 }, { "epoch": 96.62666666666667, "grad_norm": 0.3046875, "learning_rate": 0.00029829809216822185, "loss": 0.3821, "step": 72470 }, { "epoch": 96.64, "grad_norm": 0.388671875, "learning_rate": 0.00029829762007626523, "loss": 0.3944, "step": 72480 }, { "epoch": 96.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002982971479192146, "loss": 0.4044, "step": 72490 }, { "epoch": 96.66666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029829667569707005, "loss": 0.3912, "step": 72500 }, { "epoch": 96.68, "grad_norm": 0.412109375, "learning_rate": 0.00029829620340983203, "loss": 0.3832, "step": 72510 }, { "epoch": 96.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002982957310575006, "loss": 0.3939, "step": 72520 }, { "epoch": 96.70666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029829525864007595, "loss": 0.3858, "step": 72530 }, { "epoch": 96.72, "grad_norm": 0.349609375, "learning_rate": 0.0002982947861575584, "loss": 0.4089, "step": 72540 }, { "epoch": 96.73333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029829431360994807, "loss": 0.4025, "step": 72550 }, { "epoch": 96.74666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029829384099724514, "loss": 0.4033, "step": 72560 }, { "epoch": 96.76, "grad_norm": 0.384765625, "learning_rate": 0.0002982933683194499, "loss": 0.4168, "step": 72570 }, { "epoch": 96.77333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029829289557656253, "loss": 0.4042, "step": 72580 }, { "epoch": 96.78666666666666, "grad_norm": 0.298828125, "learning_rate": 0.00029829242276858324, "loss": 0.4049, "step": 72590 }, { "epoch": 96.8, "grad_norm": 0.388671875, "learning_rate": 0.0002982919498955122, "loss": 0.4038, "step": 72600 }, { "epoch": 96.81333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002982914769573497, "loss": 0.3766, "step": 72610 }, { "epoch": 96.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002982910039540958, "loss": 0.3868, "step": 72620 }, { "epoch": 96.84, "grad_norm": 0.41796875, "learning_rate": 0.0002982905308857509, "loss": 0.3988, "step": 72630 }, { "epoch": 96.85333333333334, "grad_norm": 0.357421875, "learning_rate": 0.000298290057752315, "loss": 0.3935, "step": 72640 }, { "epoch": 96.86666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029828958455378854, "loss": 0.3983, "step": 72650 }, { "epoch": 96.88, "grad_norm": 0.3671875, "learning_rate": 0.0002982891112901715, "loss": 0.3785, "step": 72660 }, { "epoch": 96.89333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029828863796146427, "loss": 0.3905, "step": 72670 }, { "epoch": 96.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002982881645676669, "loss": 0.3974, "step": 72680 }, { "epoch": 96.92, "grad_norm": 0.388671875, "learning_rate": 0.00029828769110877974, "loss": 0.4009, "step": 72690 }, { "epoch": 96.93333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029828721758480293, "loss": 0.3925, "step": 72700 }, { "epoch": 96.94666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029828674399573664, "loss": 0.3942, "step": 72710 }, { "epoch": 96.96, "grad_norm": 0.34765625, "learning_rate": 0.00029828627034158114, "loss": 0.3914, "step": 72720 }, { "epoch": 96.97333333333333, "grad_norm": 0.478515625, "learning_rate": 0.00029828579662233664, "loss": 0.4165, "step": 72730 }, { "epoch": 96.98666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029828532283800326, "loss": 0.3909, "step": 72740 }, { "epoch": 97.0, "grad_norm": 0.349609375, "learning_rate": 0.0002982848489885813, "loss": 0.3849, "step": 72750 }, { "epoch": 97.0, "eval_loss": 0.42961400747299194, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7252, "eval_samples_per_second": 1.645, "eval_steps_per_second": 0.103, "step": 72750 }, { "epoch": 97.01333333333334, "grad_norm": 0.447265625, "learning_rate": 0.000298284375074071, "loss": 0.4037, "step": 72760 }, { "epoch": 97.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029828390109447247, "loss": 0.416, "step": 72770 }, { "epoch": 97.04, "grad_norm": 0.380859375, "learning_rate": 0.00029828342704978593, "loss": 0.4283, "step": 72780 }, { "epoch": 97.05333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029828295294001165, "loss": 0.414, "step": 72790 }, { "epoch": 97.06666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002982824787651498, "loss": 0.4011, "step": 72800 }, { "epoch": 97.08, "grad_norm": 0.341796875, "learning_rate": 0.0002982820045252006, "loss": 0.4052, "step": 72810 }, { "epoch": 97.09333333333333, "grad_norm": 0.375, "learning_rate": 0.00029828153022016423, "loss": 0.4059, "step": 72820 }, { "epoch": 97.10666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002982810558500409, "loss": 0.3938, "step": 72830 }, { "epoch": 97.12, "grad_norm": 0.361328125, "learning_rate": 0.0002982805814148309, "loss": 0.399, "step": 72840 }, { "epoch": 97.13333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002982801069145343, "loss": 0.3899, "step": 72850 }, { "epoch": 97.14666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002982796323491515, "loss": 0.4086, "step": 72860 }, { "epoch": 97.16, "grad_norm": 0.361328125, "learning_rate": 0.0002982791577186825, "loss": 0.4033, "step": 72870 }, { "epoch": 97.17333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029827868302312755, "loss": 0.3976, "step": 72880 }, { "epoch": 97.18666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029827820826248703, "loss": 0.3959, "step": 72890 }, { "epoch": 97.2, "grad_norm": 0.390625, "learning_rate": 0.0002982777334367609, "loss": 0.3891, "step": 72900 }, { "epoch": 97.21333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002982772585459496, "loss": 0.3902, "step": 72910 }, { "epoch": 97.22666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002982767835900532, "loss": 0.4013, "step": 72920 }, { "epoch": 97.24, "grad_norm": 0.390625, "learning_rate": 0.0002982763085690719, "loss": 0.3867, "step": 72930 }, { "epoch": 97.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.000298275833483006, "loss": 0.3885, "step": 72940 }, { "epoch": 97.26666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029827535833185564, "loss": 0.391, "step": 72950 }, { "epoch": 97.28, "grad_norm": 0.400390625, "learning_rate": 0.0002982748831156211, "loss": 0.4203, "step": 72960 }, { "epoch": 97.29333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002982744078343025, "loss": 0.3769, "step": 72970 }, { "epoch": 97.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029827393248790004, "loss": 0.4007, "step": 72980 }, { "epoch": 97.32, "grad_norm": 0.328125, "learning_rate": 0.000298273457076414, "loss": 0.4014, "step": 72990 }, { "epoch": 97.33333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029827298159984457, "loss": 0.4062, "step": 73000 }, { "epoch": 97.34666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029827250605819197, "loss": 0.3969, "step": 73010 }, { "epoch": 97.36, "grad_norm": 0.412109375, "learning_rate": 0.0002982720304514564, "loss": 0.397, "step": 73020 }, { "epoch": 97.37333333333333, "grad_norm": 0.33203125, "learning_rate": 0.000298271554779638, "loss": 0.3977, "step": 73030 }, { "epoch": 97.38666666666667, "grad_norm": 0.435546875, "learning_rate": 0.00029827107904273705, "loss": 0.3903, "step": 73040 }, { "epoch": 97.4, "grad_norm": 0.404296875, "learning_rate": 0.0002982706032407538, "loss": 0.3976, "step": 73050 }, { "epoch": 97.41333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029827012737368837, "loss": 0.4009, "step": 73060 }, { "epoch": 97.42666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029826965144154094, "loss": 0.4032, "step": 73070 }, { "epoch": 97.44, "grad_norm": 0.357421875, "learning_rate": 0.0002982691754443119, "loss": 0.4146, "step": 73080 }, { "epoch": 97.45333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002982686993820013, "loss": 0.4041, "step": 73090 }, { "epoch": 97.46666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002982682232546094, "loss": 0.4132, "step": 73100 }, { "epoch": 97.48, "grad_norm": 0.35546875, "learning_rate": 0.0002982677470621363, "loss": 0.3943, "step": 73110 }, { "epoch": 97.49333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002982672708045824, "loss": 0.4067, "step": 73120 }, { "epoch": 97.50666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002982667944819478, "loss": 0.4033, "step": 73130 }, { "epoch": 97.52, "grad_norm": 0.341796875, "learning_rate": 0.00029826631809423275, "loss": 0.3949, "step": 73140 }, { "epoch": 97.53333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002982658416414374, "loss": 0.3972, "step": 73150 }, { "epoch": 97.54666666666667, "grad_norm": 0.392578125, "learning_rate": 0.000298265365123562, "loss": 0.399, "step": 73160 }, { "epoch": 97.56, "grad_norm": 0.353515625, "learning_rate": 0.0002982648885406068, "loss": 0.3936, "step": 73170 }, { "epoch": 97.57333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029826441189257193, "loss": 0.3967, "step": 73180 }, { "epoch": 97.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002982639351794576, "loss": 0.3867, "step": 73190 }, { "epoch": 97.6, "grad_norm": 0.31640625, "learning_rate": 0.00029826345840126405, "loss": 0.3876, "step": 73200 }, { "epoch": 97.61333333333333, "grad_norm": 0.328125, "learning_rate": 0.00029826298155799155, "loss": 0.3772, "step": 73210 }, { "epoch": 97.62666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002982625046496402, "loss": 0.3828, "step": 73220 }, { "epoch": 97.64, "grad_norm": 0.384765625, "learning_rate": 0.0002982620276762103, "loss": 0.3949, "step": 73230 }, { "epoch": 97.65333333333334, "grad_norm": 0.37109375, "learning_rate": 0.000298261550637702, "loss": 0.4041, "step": 73240 }, { "epoch": 97.66666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002982610735341155, "loss": 0.3908, "step": 73250 }, { "epoch": 97.68, "grad_norm": 0.361328125, "learning_rate": 0.00029826059636545106, "loss": 0.3834, "step": 73260 }, { "epoch": 97.69333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002982601191317089, "loss": 0.3918, "step": 73270 }, { "epoch": 97.70666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002982596418328892, "loss": 0.386, "step": 73280 }, { "epoch": 97.72, "grad_norm": 0.359375, "learning_rate": 0.00029825916446899213, "loss": 0.4078, "step": 73290 }, { "epoch": 97.73333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002982586870400179, "loss": 0.4021, "step": 73300 }, { "epoch": 97.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002982582095459668, "loss": 0.4034, "step": 73310 }, { "epoch": 97.76, "grad_norm": 0.388671875, "learning_rate": 0.000298257731986839, "loss": 0.4172, "step": 73320 }, { "epoch": 97.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002982572543626347, "loss": 0.4039, "step": 73330 }, { "epoch": 97.78666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002982567766733541, "loss": 0.4057, "step": 73340 }, { "epoch": 97.8, "grad_norm": 0.357421875, "learning_rate": 0.0002982562989189974, "loss": 0.4025, "step": 73350 }, { "epoch": 97.81333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029825582109956495, "loss": 0.3766, "step": 73360 }, { "epoch": 97.82666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002982553432150567, "loss": 0.3874, "step": 73370 }, { "epoch": 97.84, "grad_norm": 0.39453125, "learning_rate": 0.0002982548652654731, "loss": 0.3982, "step": 73380 }, { "epoch": 97.85333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029825438725081423, "loss": 0.3937, "step": 73390 }, { "epoch": 97.86666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029825390917108033, "loss": 0.3977, "step": 73400 }, { "epoch": 97.88, "grad_norm": 0.3515625, "learning_rate": 0.0002982534310262716, "loss": 0.3785, "step": 73410 }, { "epoch": 97.89333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002982529528163883, "loss": 0.3899, "step": 73420 }, { "epoch": 97.90666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029825247454143055, "loss": 0.397, "step": 73430 }, { "epoch": 97.92, "grad_norm": 0.392578125, "learning_rate": 0.00029825199620139864, "loss": 0.3999, "step": 73440 }, { "epoch": 97.93333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029825151779629274, "loss": 0.3928, "step": 73450 }, { "epoch": 97.94666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002982510393261131, "loss": 0.3939, "step": 73460 }, { "epoch": 97.96, "grad_norm": 0.361328125, "learning_rate": 0.0002982505607908599, "loss": 0.3914, "step": 73470 }, { "epoch": 97.97333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002982500821905333, "loss": 0.4173, "step": 73480 }, { "epoch": 97.98666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002982496035251336, "loss": 0.39, "step": 73490 }, { "epoch": 98.0, "grad_norm": 0.37109375, "learning_rate": 0.000298249124794661, "loss": 0.3854, "step": 73500 }, { "epoch": 98.0, "eval_loss": 0.4290412366390228, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0693, "eval_samples_per_second": 1.589, "eval_steps_per_second": 0.099, "step": 73500 }, { "epoch": 98.01333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002982486459991156, "loss": 0.4023, "step": 73510 }, { "epoch": 98.02666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002982481671384978, "loss": 0.4163, "step": 73520 }, { "epoch": 98.04, "grad_norm": 0.3046875, "learning_rate": 0.0002982476882128076, "loss": 0.4277, "step": 73530 }, { "epoch": 98.05333333333333, "grad_norm": 0.375, "learning_rate": 0.0002982472092220454, "loss": 0.4145, "step": 73540 }, { "epoch": 98.06666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002982467301662113, "loss": 0.4013, "step": 73550 }, { "epoch": 98.08, "grad_norm": 0.392578125, "learning_rate": 0.00029824625104530553, "loss": 0.4058, "step": 73560 }, { "epoch": 98.09333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029824577185932823, "loss": 0.4058, "step": 73570 }, { "epoch": 98.10666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002982452926082798, "loss": 0.3936, "step": 73580 }, { "epoch": 98.12, "grad_norm": 0.3515625, "learning_rate": 0.00029824481329216026, "loss": 0.3995, "step": 73590 }, { "epoch": 98.13333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002982443339109699, "loss": 0.3912, "step": 73600 }, { "epoch": 98.14666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029824385446470896, "loss": 0.4086, "step": 73610 }, { "epoch": 98.16, "grad_norm": 0.349609375, "learning_rate": 0.0002982433749533776, "loss": 0.4029, "step": 73620 }, { "epoch": 98.17333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029824289537697606, "loss": 0.3976, "step": 73630 }, { "epoch": 98.18666666666667, "grad_norm": 0.44921875, "learning_rate": 0.00029824241573550456, "loss": 0.3964, "step": 73640 }, { "epoch": 98.2, "grad_norm": 0.43359375, "learning_rate": 0.00029824193602896325, "loss": 0.389, "step": 73650 }, { "epoch": 98.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029824145625735235, "loss": 0.3896, "step": 73660 }, { "epoch": 98.22666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029824097642067214, "loss": 0.4016, "step": 73670 }, { "epoch": 98.24, "grad_norm": 0.400390625, "learning_rate": 0.00029824049651892273, "loss": 0.3875, "step": 73680 }, { "epoch": 98.25333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029824001655210443, "loss": 0.3888, "step": 73690 }, { "epoch": 98.26666666666667, "grad_norm": 0.421875, "learning_rate": 0.00029823953652021747, "loss": 0.3915, "step": 73700 }, { "epoch": 98.28, "grad_norm": 0.373046875, "learning_rate": 0.00029823905642326195, "loss": 0.4203, "step": 73710 }, { "epoch": 98.29333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002982385762612381, "loss": 0.377, "step": 73720 }, { "epoch": 98.30666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029823809603414617, "loss": 0.3993, "step": 73730 }, { "epoch": 98.32, "grad_norm": 0.330078125, "learning_rate": 0.0002982376157419864, "loss": 0.4025, "step": 73740 }, { "epoch": 98.33333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029823713538475893, "loss": 0.4064, "step": 73750 }, { "epoch": 98.34666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029823665496246405, "loss": 0.3962, "step": 73760 }, { "epoch": 98.36, "grad_norm": 0.44140625, "learning_rate": 0.0002982361744751019, "loss": 0.3968, "step": 73770 }, { "epoch": 98.37333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029823569392267273, "loss": 0.3976, "step": 73780 }, { "epoch": 98.38666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029823521330517674, "loss": 0.3901, "step": 73790 }, { "epoch": 98.4, "grad_norm": 0.35546875, "learning_rate": 0.0002982347326226141, "loss": 0.3977, "step": 73800 }, { "epoch": 98.41333333333333, "grad_norm": 0.375, "learning_rate": 0.00029823425187498515, "loss": 0.4017, "step": 73810 }, { "epoch": 98.42666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002982337710622899, "loss": 0.4038, "step": 73820 }, { "epoch": 98.44, "grad_norm": 0.357421875, "learning_rate": 0.0002982332901845287, "loss": 0.4147, "step": 73830 }, { "epoch": 98.45333333333333, "grad_norm": 0.421875, "learning_rate": 0.00029823280924170175, "loss": 0.4028, "step": 73840 }, { "epoch": 98.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002982323282338093, "loss": 0.4131, "step": 73850 }, { "epoch": 98.48, "grad_norm": 0.357421875, "learning_rate": 0.00029823184716085144, "loss": 0.3948, "step": 73860 }, { "epoch": 98.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002982313660228284, "loss": 0.4065, "step": 73870 }, { "epoch": 98.50666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029823088481974056, "loss": 0.4036, "step": 73880 }, { "epoch": 98.52, "grad_norm": 0.361328125, "learning_rate": 0.0002982304035515879, "loss": 0.3943, "step": 73890 }, { "epoch": 98.53333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002982299222183708, "loss": 0.398, "step": 73900 }, { "epoch": 98.54666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029822944082008937, "loss": 0.3983, "step": 73910 }, { "epoch": 98.56, "grad_norm": 0.306640625, "learning_rate": 0.00029822895935674394, "loss": 0.3932, "step": 73920 }, { "epoch": 98.57333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029822847782833456, "loss": 0.3966, "step": 73930 }, { "epoch": 98.58666666666667, "grad_norm": 0.458984375, "learning_rate": 0.00029822799623486156, "loss": 0.3863, "step": 73940 }, { "epoch": 98.6, "grad_norm": 0.4140625, "learning_rate": 0.0002982275145763251, "loss": 0.3879, "step": 73950 }, { "epoch": 98.61333333333333, "grad_norm": 0.32421875, "learning_rate": 0.0002982270328527254, "loss": 0.3766, "step": 73960 }, { "epoch": 98.62666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002982265510640627, "loss": 0.382, "step": 73970 }, { "epoch": 98.64, "grad_norm": 0.365234375, "learning_rate": 0.00029822606921033724, "loss": 0.3942, "step": 73980 }, { "epoch": 98.65333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0002982255872915491, "loss": 0.4039, "step": 73990 }, { "epoch": 98.66666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029822510530769865, "loss": 0.3917, "step": 74000 }, { "epoch": 98.68, "grad_norm": 0.4375, "learning_rate": 0.000298224623258786, "loss": 0.3839, "step": 74010 }, { "epoch": 98.69333333333333, "grad_norm": 0.33203125, "learning_rate": 0.00029822414114481137, "loss": 0.392, "step": 74020 }, { "epoch": 98.70666666666666, "grad_norm": 0.419921875, "learning_rate": 0.000298223658965775, "loss": 0.3863, "step": 74030 }, { "epoch": 98.72, "grad_norm": 0.390625, "learning_rate": 0.0002982231767216771, "loss": 0.4081, "step": 74040 }, { "epoch": 98.73333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002982226944125178, "loss": 0.4017, "step": 74050 }, { "epoch": 98.74666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029822221203829746, "loss": 0.4037, "step": 74060 }, { "epoch": 98.76, "grad_norm": 0.384765625, "learning_rate": 0.0002982217295990162, "loss": 0.4173, "step": 74070 }, { "epoch": 98.77333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029822124709467425, "loss": 0.4046, "step": 74080 }, { "epoch": 98.78666666666666, "grad_norm": 0.3125, "learning_rate": 0.0002982207645252718, "loss": 0.4038, "step": 74090 }, { "epoch": 98.8, "grad_norm": 0.3671875, "learning_rate": 0.00029822028189080906, "loss": 0.4031, "step": 74100 }, { "epoch": 98.81333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002982197991912863, "loss": 0.3761, "step": 74110 }, { "epoch": 98.82666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002982193164267037, "loss": 0.3863, "step": 74120 }, { "epoch": 98.84, "grad_norm": 0.427734375, "learning_rate": 0.0002982188335970615, "loss": 0.3982, "step": 74130 }, { "epoch": 98.85333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002982183507023598, "loss": 0.3935, "step": 74140 }, { "epoch": 98.86666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029821786774259895, "loss": 0.3977, "step": 74150 }, { "epoch": 98.88, "grad_norm": 0.330078125, "learning_rate": 0.00029821738471777904, "loss": 0.3785, "step": 74160 }, { "epoch": 98.89333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002982169016279004, "loss": 0.3898, "step": 74170 }, { "epoch": 98.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029821641847296317, "loss": 0.3964, "step": 74180 }, { "epoch": 98.92, "grad_norm": 0.421875, "learning_rate": 0.0002982159352529676, "loss": 0.3995, "step": 74190 }, { "epoch": 98.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029821545196791384, "loss": 0.3927, "step": 74200 }, { "epoch": 98.94666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029821496861780216, "loss": 0.3938, "step": 74210 }, { "epoch": 98.96, "grad_norm": 0.36328125, "learning_rate": 0.0002982144852026327, "loss": 0.3914, "step": 74220 }, { "epoch": 98.97333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002982140017224058, "loss": 0.4166, "step": 74230 }, { "epoch": 98.98666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002982135181771216, "loss": 0.3903, "step": 74240 }, { "epoch": 99.0, "grad_norm": 0.361328125, "learning_rate": 0.0002982130345667803, "loss": 0.3856, "step": 74250 }, { "epoch": 99.0, "eval_loss": 0.4287482798099518, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9618, "eval_samples_per_second": 1.606, "eval_steps_per_second": 0.1, "step": 74250 }, { "epoch": 99.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002982125508913821, "loss": 0.4031, "step": 74260 }, { "epoch": 99.02666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029821206715092724, "loss": 0.4161, "step": 74270 }, { "epoch": 99.04, "grad_norm": 0.33984375, "learning_rate": 0.00029821158334541597, "loss": 0.4271, "step": 74280 }, { "epoch": 99.05333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002982110994748485, "loss": 0.4142, "step": 74290 }, { "epoch": 99.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002982106155392249, "loss": 0.4015, "step": 74300 }, { "epoch": 99.08, "grad_norm": 0.392578125, "learning_rate": 0.00029821013153854555, "loss": 0.4048, "step": 74310 }, { "epoch": 99.09333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002982096474728105, "loss": 0.4063, "step": 74320 }, { "epoch": 99.10666666666667, "grad_norm": 0.375, "learning_rate": 0.00029820916334202016, "loss": 0.3932, "step": 74330 }, { "epoch": 99.12, "grad_norm": 0.3828125, "learning_rate": 0.00029820867914617463, "loss": 0.3994, "step": 74340 }, { "epoch": 99.13333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029820819488527415, "loss": 0.3905, "step": 74350 }, { "epoch": 99.14666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002982077105593189, "loss": 0.4088, "step": 74360 }, { "epoch": 99.16, "grad_norm": 0.353515625, "learning_rate": 0.00029820722616830906, "loss": 0.4031, "step": 74370 }, { "epoch": 99.17333333333333, "grad_norm": 0.390625, "learning_rate": 0.000298206741712245, "loss": 0.3968, "step": 74380 }, { "epoch": 99.18666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002982062571911267, "loss": 0.3968, "step": 74390 }, { "epoch": 99.2, "grad_norm": 0.357421875, "learning_rate": 0.0002982057726049546, "loss": 0.3899, "step": 74400 }, { "epoch": 99.21333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029820528795372874, "loss": 0.3896, "step": 74410 }, { "epoch": 99.22666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002982048032374495, "loss": 0.4013, "step": 74420 }, { "epoch": 99.24, "grad_norm": 0.41015625, "learning_rate": 0.0002982043184561169, "loss": 0.3866, "step": 74430 }, { "epoch": 99.25333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029820383360973124, "loss": 0.3887, "step": 74440 }, { "epoch": 99.26666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002982033486982928, "loss": 0.3906, "step": 74450 }, { "epoch": 99.28, "grad_norm": 0.34765625, "learning_rate": 0.0002982028637218017, "loss": 0.4213, "step": 74460 }, { "epoch": 99.29333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002982023786802583, "loss": 0.3772, "step": 74470 }, { "epoch": 99.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002982018935736626, "loss": 0.4001, "step": 74480 }, { "epoch": 99.32, "grad_norm": 0.34375, "learning_rate": 0.0002982014084020149, "loss": 0.4027, "step": 74490 }, { "epoch": 99.33333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029820092316531544, "loss": 0.4066, "step": 74500 }, { "epoch": 99.34666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029820043786356446, "loss": 0.3967, "step": 74510 }, { "epoch": 99.36, "grad_norm": 0.48046875, "learning_rate": 0.0002981999524967621, "loss": 0.3964, "step": 74520 }, { "epoch": 99.37333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002981994670649086, "loss": 0.3988, "step": 74530 }, { "epoch": 99.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002981989815680042, "loss": 0.389, "step": 74540 }, { "epoch": 99.4, "grad_norm": 0.35546875, "learning_rate": 0.00029819849600604907, "loss": 0.3979, "step": 74550 }, { "epoch": 99.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029819801037904344, "loss": 0.4015, "step": 74560 }, { "epoch": 99.42666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002981975246869876, "loss": 0.4036, "step": 74570 }, { "epoch": 99.44, "grad_norm": 0.333984375, "learning_rate": 0.0002981970389298816, "loss": 0.4149, "step": 74580 }, { "epoch": 99.45333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002981965531077258, "loss": 0.4034, "step": 74590 }, { "epoch": 99.46666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029819606722052036, "loss": 0.4135, "step": 74600 }, { "epoch": 99.48, "grad_norm": 0.3515625, "learning_rate": 0.00029819558126826547, "loss": 0.3939, "step": 74610 }, { "epoch": 99.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002981950952509614, "loss": 0.4058, "step": 74620 }, { "epoch": 99.50666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002981946091686083, "loss": 0.4031, "step": 74630 }, { "epoch": 99.52, "grad_norm": 0.36328125, "learning_rate": 0.0002981941230212064, "loss": 0.3936, "step": 74640 }, { "epoch": 99.53333333333333, "grad_norm": 0.375, "learning_rate": 0.00029819363680875594, "loss": 0.3973, "step": 74650 }, { "epoch": 99.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002981931505312571, "loss": 0.3989, "step": 74660 }, { "epoch": 99.56, "grad_norm": 0.330078125, "learning_rate": 0.00029819266418871013, "loss": 0.3931, "step": 74670 }, { "epoch": 99.57333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002981921777811152, "loss": 0.3969, "step": 74680 }, { "epoch": 99.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002981916913084726, "loss": 0.385, "step": 74690 }, { "epoch": 99.6, "grad_norm": 0.34375, "learning_rate": 0.0002981912047707824, "loss": 0.3866, "step": 74700 }, { "epoch": 99.61333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029819071816804504, "loss": 0.3767, "step": 74710 }, { "epoch": 99.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002981902315002605, "loss": 0.3827, "step": 74720 }, { "epoch": 99.64, "grad_norm": 0.388671875, "learning_rate": 0.0002981897447674292, "loss": 0.3948, "step": 74730 }, { "epoch": 99.65333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029818925796955113, "loss": 0.4038, "step": 74740 }, { "epoch": 99.66666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029818877110662664, "loss": 0.3917, "step": 74750 }, { "epoch": 99.68, "grad_norm": 0.35546875, "learning_rate": 0.000298188284178656, "loss": 0.3829, "step": 74760 }, { "epoch": 99.69333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002981877971856393, "loss": 0.3927, "step": 74770 }, { "epoch": 99.70666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002981873101275768, "loss": 0.3856, "step": 74780 }, { "epoch": 99.72, "grad_norm": 0.38671875, "learning_rate": 0.00029818682300446865, "loss": 0.4081, "step": 74790 }, { "epoch": 99.73333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002981863358163152, "loss": 0.4011, "step": 74800 }, { "epoch": 99.74666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002981858485631166, "loss": 0.4042, "step": 74810 }, { "epoch": 99.76, "grad_norm": 0.359375, "learning_rate": 0.000298185361244873, "loss": 0.4177, "step": 74820 }, { "epoch": 99.77333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029818487386158477, "loss": 0.4044, "step": 74830 }, { "epoch": 99.78666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029818438641325193, "loss": 0.4047, "step": 74840 }, { "epoch": 99.8, "grad_norm": 0.357421875, "learning_rate": 0.0002981838988998749, "loss": 0.4039, "step": 74850 }, { "epoch": 99.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002981834113214536, "loss": 0.3765, "step": 74860 }, { "epoch": 99.82666666666667, "grad_norm": 0.375, "learning_rate": 0.00029818292367798856, "loss": 0.3864, "step": 74870 }, { "epoch": 99.84, "grad_norm": 0.3984375, "learning_rate": 0.00029818243596947984, "loss": 0.3974, "step": 74880 }, { "epoch": 99.85333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002981819481959277, "loss": 0.3938, "step": 74890 }, { "epoch": 99.86666666666666, "grad_norm": 0.451171875, "learning_rate": 0.0002981814603573323, "loss": 0.3977, "step": 74900 }, { "epoch": 99.88, "grad_norm": 0.357421875, "learning_rate": 0.0002981809724536939, "loss": 0.3782, "step": 74910 }, { "epoch": 99.89333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002981804844850127, "loss": 0.3897, "step": 74920 }, { "epoch": 99.90666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029817999645128886, "loss": 0.3967, "step": 74930 }, { "epoch": 99.92, "grad_norm": 0.337890625, "learning_rate": 0.00029817950835252265, "loss": 0.3984, "step": 74940 }, { "epoch": 99.93333333333334, "grad_norm": 0.3125, "learning_rate": 0.00029817902018871434, "loss": 0.3924, "step": 74950 }, { "epoch": 99.94666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029817853195986403, "loss": 0.3928, "step": 74960 }, { "epoch": 99.96, "grad_norm": 0.31640625, "learning_rate": 0.00029817804366597206, "loss": 0.3913, "step": 74970 }, { "epoch": 99.97333333333333, "grad_norm": 0.44921875, "learning_rate": 0.0002981775553070385, "loss": 0.4154, "step": 74980 }, { "epoch": 99.98666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029817706688306365, "loss": 0.3904, "step": 74990 }, { "epoch": 100.0, "grad_norm": 0.384765625, "learning_rate": 0.00029817657839404776, "loss": 0.3848, "step": 75000 }, { "epoch": 100.0, "eval_loss": 0.42911437153816223, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8267, "eval_samples_per_second": 1.628, "eval_steps_per_second": 0.102, "step": 75000 }, { "epoch": 100.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002981760898399909, "loss": 0.4026, "step": 75010 }, { "epoch": 100.02666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029817560122089346, "loss": 0.4161, "step": 75020 }, { "epoch": 100.04, "grad_norm": 0.3515625, "learning_rate": 0.0002981751125367556, "loss": 0.4275, "step": 75030 }, { "epoch": 100.05333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002981746237875775, "loss": 0.4133, "step": 75040 }, { "epoch": 100.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029817413497335927, "loss": 0.4015, "step": 75050 }, { "epoch": 100.08, "grad_norm": 0.40625, "learning_rate": 0.00029817364609410134, "loss": 0.4045, "step": 75060 }, { "epoch": 100.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029817315714980385, "loss": 0.4059, "step": 75070 }, { "epoch": 100.10666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002981726681404669, "loss": 0.3934, "step": 75080 }, { "epoch": 100.12, "grad_norm": 0.39453125, "learning_rate": 0.0002981721790660908, "loss": 0.3979, "step": 75090 }, { "epoch": 100.13333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029817168992667586, "loss": 0.3896, "step": 75100 }, { "epoch": 100.14666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002981712007222221, "loss": 0.4085, "step": 75110 }, { "epoch": 100.16, "grad_norm": 0.359375, "learning_rate": 0.00029817071145272985, "loss": 0.4032, "step": 75120 }, { "epoch": 100.17333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029817022211819927, "loss": 0.3977, "step": 75130 }, { "epoch": 100.18666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029816973271863065, "loss": 0.396, "step": 75140 }, { "epoch": 100.2, "grad_norm": 0.37890625, "learning_rate": 0.00029816924325402417, "loss": 0.3887, "step": 75150 }, { "epoch": 100.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029816875372438, "loss": 0.389, "step": 75160 }, { "epoch": 100.22666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002981682641296984, "loss": 0.4014, "step": 75170 }, { "epoch": 100.24, "grad_norm": 0.345703125, "learning_rate": 0.0002981677744699796, "loss": 0.386, "step": 75180 }, { "epoch": 100.25333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029816728474522377, "loss": 0.3884, "step": 75190 }, { "epoch": 100.26666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002981667949554311, "loss": 0.3903, "step": 75200 }, { "epoch": 100.28, "grad_norm": 0.375, "learning_rate": 0.00029816630510060195, "loss": 0.4211, "step": 75210 }, { "epoch": 100.29333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029816581518073636, "loss": 0.3767, "step": 75220 }, { "epoch": 100.30666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029816532519583465, "loss": 0.4004, "step": 75230 }, { "epoch": 100.32, "grad_norm": 0.349609375, "learning_rate": 0.00029816483514589695, "loss": 0.4021, "step": 75240 }, { "epoch": 100.33333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029816434503092366, "loss": 0.4055, "step": 75250 }, { "epoch": 100.34666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029816385485091477, "loss": 0.3957, "step": 75260 }, { "epoch": 100.36, "grad_norm": 0.498046875, "learning_rate": 0.00029816336460587056, "loss": 0.3964, "step": 75270 }, { "epoch": 100.37333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029816287429579135, "loss": 0.3976, "step": 75280 }, { "epoch": 100.38666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029816238392067724, "loss": 0.3903, "step": 75290 }, { "epoch": 100.4, "grad_norm": 0.37109375, "learning_rate": 0.0002981618934805285, "loss": 0.3967, "step": 75300 }, { "epoch": 100.41333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029816140297534533, "loss": 0.4013, "step": 75310 }, { "epoch": 100.42666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029816091240512796, "loss": 0.4042, "step": 75320 }, { "epoch": 100.44, "grad_norm": 0.384765625, "learning_rate": 0.0002981604217698766, "loss": 0.4141, "step": 75330 }, { "epoch": 100.45333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002981599310695914, "loss": 0.4043, "step": 75340 }, { "epoch": 100.46666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002981594403042727, "loss": 0.4127, "step": 75350 }, { "epoch": 100.48, "grad_norm": 0.365234375, "learning_rate": 0.00029815894947392063, "loss": 0.3938, "step": 75360 }, { "epoch": 100.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002981584585785354, "loss": 0.4055, "step": 75370 }, { "epoch": 100.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029815796761811726, "loss": 0.4039, "step": 75380 }, { "epoch": 100.52, "grad_norm": 0.3828125, "learning_rate": 0.00029815747659266644, "loss": 0.3939, "step": 75390 }, { "epoch": 100.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002981569855021831, "loss": 0.3967, "step": 75400 }, { "epoch": 100.54666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002981564943466675, "loss": 0.3985, "step": 75410 }, { "epoch": 100.56, "grad_norm": 0.330078125, "learning_rate": 0.00029815600312611986, "loss": 0.3934, "step": 75420 }, { "epoch": 100.57333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029815551184054036, "loss": 0.3965, "step": 75430 }, { "epoch": 100.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029815502048992923, "loss": 0.3846, "step": 75440 }, { "epoch": 100.6, "grad_norm": 0.337890625, "learning_rate": 0.0002981545290742867, "loss": 0.3865, "step": 75450 }, { "epoch": 100.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.000298154037593613, "loss": 0.3767, "step": 75460 }, { "epoch": 100.62666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029815354604790823, "loss": 0.3818, "step": 75470 }, { "epoch": 100.64, "grad_norm": 0.38671875, "learning_rate": 0.00029815305443717276, "loss": 0.3942, "step": 75480 }, { "epoch": 100.65333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029815256276140674, "loss": 0.4043, "step": 75490 }, { "epoch": 100.66666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002981520710206104, "loss": 0.391, "step": 75500 }, { "epoch": 100.68, "grad_norm": 0.39453125, "learning_rate": 0.0002981515792147839, "loss": 0.3828, "step": 75510 }, { "epoch": 100.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002981510873439275, "loss": 0.3923, "step": 75520 }, { "epoch": 100.70666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029815059540804146, "loss": 0.3854, "step": 75530 }, { "epoch": 100.72, "grad_norm": 0.400390625, "learning_rate": 0.0002981501034071259, "loss": 0.4076, "step": 75540 }, { "epoch": 100.73333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002981496113411811, "loss": 0.4017, "step": 75550 }, { "epoch": 100.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029814911921020735, "loss": 0.4034, "step": 75560 }, { "epoch": 100.76, "grad_norm": 0.43359375, "learning_rate": 0.0002981486270142047, "loss": 0.4169, "step": 75570 }, { "epoch": 100.77333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029814813475317344, "loss": 0.4044, "step": 75580 }, { "epoch": 100.78666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002981476424271138, "loss": 0.4049, "step": 75590 }, { "epoch": 100.8, "grad_norm": 0.37109375, "learning_rate": 0.00029814715003602605, "loss": 0.4027, "step": 75600 }, { "epoch": 100.81333333333333, "grad_norm": 0.455078125, "learning_rate": 0.0002981466575799103, "loss": 0.375, "step": 75610 }, { "epoch": 100.82666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029814616505876673, "loss": 0.387, "step": 75620 }, { "epoch": 100.84, "grad_norm": 0.419921875, "learning_rate": 0.0002981456724725957, "loss": 0.3976, "step": 75630 }, { "epoch": 100.85333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002981451798213974, "loss": 0.3937, "step": 75640 }, { "epoch": 100.86666666666666, "grad_norm": 0.419921875, "learning_rate": 0.000298144687105172, "loss": 0.3973, "step": 75650 }, { "epoch": 100.88, "grad_norm": 0.330078125, "learning_rate": 0.00029814419432391966, "loss": 0.3786, "step": 75660 }, { "epoch": 100.89333333333333, "grad_norm": 0.3359375, "learning_rate": 0.0002981437014776407, "loss": 0.39, "step": 75670 }, { "epoch": 100.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002981432085663353, "loss": 0.3972, "step": 75680 }, { "epoch": 100.92, "grad_norm": 0.359375, "learning_rate": 0.00029814271559000364, "loss": 0.3983, "step": 75690 }, { "epoch": 100.93333333333334, "grad_norm": 0.314453125, "learning_rate": 0.00029814222254864606, "loss": 0.3926, "step": 75700 }, { "epoch": 100.94666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002981417294422626, "loss": 0.3939, "step": 75710 }, { "epoch": 100.96, "grad_norm": 0.357421875, "learning_rate": 0.0002981412362708536, "loss": 0.3912, "step": 75720 }, { "epoch": 100.97333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002981407430344192, "loss": 0.4165, "step": 75730 }, { "epoch": 100.98666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002981402497329597, "loss": 0.3903, "step": 75740 }, { "epoch": 101.0, "grad_norm": 0.40625, "learning_rate": 0.00029813975636647526, "loss": 0.3853, "step": 75750 }, { "epoch": 101.0, "eval_loss": 0.43032407760620117, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.3762, "eval_samples_per_second": 1.706, "eval_steps_per_second": 0.107, "step": 75750 }, { "epoch": 101.01333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002981392629349661, "loss": 0.4021, "step": 75760 }, { "epoch": 101.02666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002981387694384325, "loss": 0.4149, "step": 75770 }, { "epoch": 101.04, "grad_norm": 0.337890625, "learning_rate": 0.0002981382758768745, "loss": 0.4284, "step": 75780 }, { "epoch": 101.05333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029813778225029256, "loss": 0.4143, "step": 75790 }, { "epoch": 101.06666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002981372885586867, "loss": 0.4016, "step": 75800 }, { "epoch": 101.08, "grad_norm": 0.412109375, "learning_rate": 0.00029813679480205724, "loss": 0.4053, "step": 75810 }, { "epoch": 101.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029813630098040434, "loss": 0.4058, "step": 75820 }, { "epoch": 101.10666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002981358070937283, "loss": 0.3933, "step": 75830 }, { "epoch": 101.12, "grad_norm": 0.365234375, "learning_rate": 0.0002981353131420293, "loss": 0.398, "step": 75840 }, { "epoch": 101.13333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029813481912530743, "loss": 0.3898, "step": 75850 }, { "epoch": 101.14666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002981343250435631, "loss": 0.4091, "step": 75860 }, { "epoch": 101.16, "grad_norm": 0.314453125, "learning_rate": 0.0002981338308967964, "loss": 0.4022, "step": 75870 }, { "epoch": 101.17333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002981333366850077, "loss": 0.396, "step": 75880 }, { "epoch": 101.18666666666667, "grad_norm": 0.3515625, "learning_rate": 0.000298132842408197, "loss": 0.3954, "step": 75890 }, { "epoch": 101.2, "grad_norm": 0.322265625, "learning_rate": 0.00029813234806636463, "loss": 0.3894, "step": 75900 }, { "epoch": 101.21333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002981318536595108, "loss": 0.3898, "step": 75910 }, { "epoch": 101.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002981313591876358, "loss": 0.4011, "step": 75920 }, { "epoch": 101.24, "grad_norm": 0.37109375, "learning_rate": 0.00029813086465073965, "loss": 0.3866, "step": 75930 }, { "epoch": 101.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029813037004882277, "loss": 0.3887, "step": 75940 }, { "epoch": 101.26666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002981298753818853, "loss": 0.3908, "step": 75950 }, { "epoch": 101.28, "grad_norm": 0.400390625, "learning_rate": 0.00029812938064992744, "loss": 0.4208, "step": 75960 }, { "epoch": 101.29333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002981288858529494, "loss": 0.3764, "step": 75970 }, { "epoch": 101.30666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029812839099095146, "loss": 0.3999, "step": 75980 }, { "epoch": 101.32, "grad_norm": 0.314453125, "learning_rate": 0.0002981278960639338, "loss": 0.4025, "step": 75990 }, { "epoch": 101.33333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029812740107189664, "loss": 0.4055, "step": 76000 }, { "epoch": 101.34666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029812690601484015, "loss": 0.3956, "step": 76010 }, { "epoch": 101.36, "grad_norm": 0.3984375, "learning_rate": 0.00029812641089276465, "loss": 0.3967, "step": 76020 }, { "epoch": 101.37333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029812591570567025, "loss": 0.3969, "step": 76030 }, { "epoch": 101.38666666666667, "grad_norm": 0.427734375, "learning_rate": 0.00029812542045355717, "loss": 0.3893, "step": 76040 }, { "epoch": 101.4, "grad_norm": 0.33984375, "learning_rate": 0.0002981249251364257, "loss": 0.3965, "step": 76050 }, { "epoch": 101.41333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002981244297542761, "loss": 0.4007, "step": 76060 }, { "epoch": 101.42666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002981239343071085, "loss": 0.4024, "step": 76070 }, { "epoch": 101.44, "grad_norm": 0.32421875, "learning_rate": 0.0002981234387949231, "loss": 0.4144, "step": 76080 }, { "epoch": 101.45333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029812294321772013, "loss": 0.4022, "step": 76090 }, { "epoch": 101.46666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029812244757549983, "loss": 0.4121, "step": 76100 }, { "epoch": 101.48, "grad_norm": 0.380859375, "learning_rate": 0.0002981219518682625, "loss": 0.3934, "step": 76110 }, { "epoch": 101.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002981214560960082, "loss": 0.4052, "step": 76120 }, { "epoch": 101.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029812096025873724, "loss": 0.4032, "step": 76130 }, { "epoch": 101.52, "grad_norm": 0.337890625, "learning_rate": 0.0002981204643564498, "loss": 0.3935, "step": 76140 }, { "epoch": 101.53333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029811996838914617, "loss": 0.397, "step": 76150 }, { "epoch": 101.54666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029811947235682646, "loss": 0.3991, "step": 76160 }, { "epoch": 101.56, "grad_norm": 0.33203125, "learning_rate": 0.00029811897625949094, "loss": 0.3934, "step": 76170 }, { "epoch": 101.57333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002981184800971399, "loss": 0.3967, "step": 76180 }, { "epoch": 101.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002981179838697734, "loss": 0.3854, "step": 76190 }, { "epoch": 101.6, "grad_norm": 0.361328125, "learning_rate": 0.0002981174875773918, "loss": 0.387, "step": 76200 }, { "epoch": 101.61333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029811699121999526, "loss": 0.377, "step": 76210 }, { "epoch": 101.62666666666667, "grad_norm": 0.310546875, "learning_rate": 0.000298116494797584, "loss": 0.382, "step": 76220 }, { "epoch": 101.64, "grad_norm": 0.375, "learning_rate": 0.00029811599831015823, "loss": 0.394, "step": 76230 }, { "epoch": 101.65333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002981155017577181, "loss": 0.4037, "step": 76240 }, { "epoch": 101.66666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029811500514026403, "loss": 0.3904, "step": 76250 }, { "epoch": 101.68, "grad_norm": 0.33984375, "learning_rate": 0.0002981145084577961, "loss": 0.383, "step": 76260 }, { "epoch": 101.69333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029811401171031445, "loss": 0.3918, "step": 76270 }, { "epoch": 101.70666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029811351489781945, "loss": 0.3844, "step": 76280 }, { "epoch": 101.72, "grad_norm": 0.34375, "learning_rate": 0.00029811301802031123, "loss": 0.4077, "step": 76290 }, { "epoch": 101.73333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029811252107779014, "loss": 0.4014, "step": 76300 }, { "epoch": 101.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029811202407025616, "loss": 0.403, "step": 76310 }, { "epoch": 101.76, "grad_norm": 0.376953125, "learning_rate": 0.00029811152699770973, "loss": 0.4169, "step": 76320 }, { "epoch": 101.77333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029811102986015097, "loss": 0.4032, "step": 76330 }, { "epoch": 101.78666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029811053265758, "loss": 0.4048, "step": 76340 }, { "epoch": 101.8, "grad_norm": 0.380859375, "learning_rate": 0.0002981100353899972, "loss": 0.4024, "step": 76350 }, { "epoch": 101.81333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002981095380574028, "loss": 0.376, "step": 76360 }, { "epoch": 101.82666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029810904065979694, "loss": 0.3861, "step": 76370 }, { "epoch": 101.84, "grad_norm": 0.4453125, "learning_rate": 0.0002981085431971798, "loss": 0.3987, "step": 76380 }, { "epoch": 101.85333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002981080456695517, "loss": 0.3931, "step": 76390 }, { "epoch": 101.86666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002981075480769128, "loss": 0.3971, "step": 76400 }, { "epoch": 101.88, "grad_norm": 0.439453125, "learning_rate": 0.0002981070504192633, "loss": 0.378, "step": 76410 }, { "epoch": 101.89333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029810655269660346, "loss": 0.3888, "step": 76420 }, { "epoch": 101.90666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002981060549089335, "loss": 0.3964, "step": 76430 }, { "epoch": 101.92, "grad_norm": 0.3984375, "learning_rate": 0.00029810555705625356, "loss": 0.399, "step": 76440 }, { "epoch": 101.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.000298105059138564, "loss": 0.3919, "step": 76450 }, { "epoch": 101.94666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029810456115586493, "loss": 0.394, "step": 76460 }, { "epoch": 101.96, "grad_norm": 0.357421875, "learning_rate": 0.0002981040631081566, "loss": 0.3909, "step": 76470 }, { "epoch": 101.97333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002981035649954392, "loss": 0.4165, "step": 76480 }, { "epoch": 101.98666666666666, "grad_norm": 0.34375, "learning_rate": 0.00029810306681771296, "loss": 0.3897, "step": 76490 }, { "epoch": 102.0, "grad_norm": 0.328125, "learning_rate": 0.0002981025685749782, "loss": 0.3847, "step": 76500 }, { "epoch": 102.0, "eval_loss": 0.42988264560699463, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1026, "eval_samples_per_second": 1.584, "eval_steps_per_second": 0.099, "step": 76500 }, { "epoch": 102.01333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029810207026723497, "loss": 0.4019, "step": 76510 }, { "epoch": 102.02666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029810157189448354, "loss": 0.4142, "step": 76520 }, { "epoch": 102.04, "grad_norm": 0.375, "learning_rate": 0.0002981010734567242, "loss": 0.4268, "step": 76530 }, { "epoch": 102.05333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002981005749539572, "loss": 0.4136, "step": 76540 }, { "epoch": 102.06666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002981000763861826, "loss": 0.4008, "step": 76550 }, { "epoch": 102.08, "grad_norm": 0.4453125, "learning_rate": 0.00029809957775340075, "loss": 0.405, "step": 76560 }, { "epoch": 102.09333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029809907905561185, "loss": 0.4054, "step": 76570 }, { "epoch": 102.10666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029809858029281603, "loss": 0.3936, "step": 76580 }, { "epoch": 102.12, "grad_norm": 0.376953125, "learning_rate": 0.00029809808146501356, "loss": 0.3981, "step": 76590 }, { "epoch": 102.13333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029809758257220477, "loss": 0.3902, "step": 76600 }, { "epoch": 102.14666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002980970836143897, "loss": 0.4096, "step": 76610 }, { "epoch": 102.16, "grad_norm": 0.333984375, "learning_rate": 0.0002980965845915687, "loss": 0.4021, "step": 76620 }, { "epoch": 102.17333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029809608550374186, "loss": 0.397, "step": 76630 }, { "epoch": 102.18666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029809558635090957, "loss": 0.395, "step": 76640 }, { "epoch": 102.2, "grad_norm": 0.33984375, "learning_rate": 0.00029809508713307193, "loss": 0.3887, "step": 76650 }, { "epoch": 102.21333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029809458785022916, "loss": 0.3888, "step": 76660 }, { "epoch": 102.22666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002980940885023815, "loss": 0.4012, "step": 76670 }, { "epoch": 102.24, "grad_norm": 0.439453125, "learning_rate": 0.00029809358908952914, "loss": 0.3862, "step": 76680 }, { "epoch": 102.25333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029809308961167245, "loss": 0.3878, "step": 76690 }, { "epoch": 102.26666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029809259006881143, "loss": 0.3904, "step": 76700 }, { "epoch": 102.28, "grad_norm": 0.37890625, "learning_rate": 0.0002980920904609465, "loss": 0.421, "step": 76710 }, { "epoch": 102.29333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002980915907880777, "loss": 0.3767, "step": 76720 }, { "epoch": 102.30666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029809109105020536, "loss": 0.4, "step": 76730 }, { "epoch": 102.32, "grad_norm": 0.3125, "learning_rate": 0.0002980905912473296, "loss": 0.4019, "step": 76740 }, { "epoch": 102.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002980900913794508, "loss": 0.4053, "step": 76750 }, { "epoch": 102.34666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029808959144656905, "loss": 0.3952, "step": 76760 }, { "epoch": 102.36, "grad_norm": 0.455078125, "learning_rate": 0.00029808909144868464, "loss": 0.3958, "step": 76770 }, { "epoch": 102.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029808859138579776, "loss": 0.3977, "step": 76780 }, { "epoch": 102.38666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002980880912579086, "loss": 0.3898, "step": 76790 }, { "epoch": 102.4, "grad_norm": 0.326171875, "learning_rate": 0.0002980875910650174, "loss": 0.3968, "step": 76800 }, { "epoch": 102.41333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002980870908071244, "loss": 0.402, "step": 76810 }, { "epoch": 102.42666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002980865904842298, "loss": 0.4036, "step": 76820 }, { "epoch": 102.44, "grad_norm": 0.341796875, "learning_rate": 0.0002980860900963338, "loss": 0.4146, "step": 76830 }, { "epoch": 102.45333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002980855896434367, "loss": 0.4033, "step": 76840 }, { "epoch": 102.46666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002980850891255386, "loss": 0.412, "step": 76850 }, { "epoch": 102.48, "grad_norm": 0.388671875, "learning_rate": 0.0002980845885426398, "loss": 0.3925, "step": 76860 }, { "epoch": 102.49333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002980840878947406, "loss": 0.4054, "step": 76870 }, { "epoch": 102.50666666666666, "grad_norm": 0.3359375, "learning_rate": 0.000298083587181841, "loss": 0.4034, "step": 76880 }, { "epoch": 102.52, "grad_norm": 0.322265625, "learning_rate": 0.00029808308640394144, "loss": 0.3939, "step": 76890 }, { "epoch": 102.53333333333333, "grad_norm": 0.390625, "learning_rate": 0.000298082585561042, "loss": 0.3965, "step": 76900 }, { "epoch": 102.54666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029808208465314297, "loss": 0.399, "step": 76910 }, { "epoch": 102.56, "grad_norm": 0.322265625, "learning_rate": 0.00029808158368024444, "loss": 0.393, "step": 76920 }, { "epoch": 102.57333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029808108264234686, "loss": 0.3966, "step": 76930 }, { "epoch": 102.58666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029808058153945027, "loss": 0.3851, "step": 76940 }, { "epoch": 102.6, "grad_norm": 0.3515625, "learning_rate": 0.00029808008037155494, "loss": 0.3864, "step": 76950 }, { "epoch": 102.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002980795791386611, "loss": 0.3766, "step": 76960 }, { "epoch": 102.62666666666667, "grad_norm": 0.306640625, "learning_rate": 0.00029807907784076896, "loss": 0.3809, "step": 76970 }, { "epoch": 102.64, "grad_norm": 0.353515625, "learning_rate": 0.00029807857647787874, "loss": 0.3942, "step": 76980 }, { "epoch": 102.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002980780750499907, "loss": 0.4036, "step": 76990 }, { "epoch": 102.66666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029807757355710497, "loss": 0.3909, "step": 77000 }, { "epoch": 102.68, "grad_norm": 0.3828125, "learning_rate": 0.0002980770719992219, "loss": 0.3831, "step": 77010 }, { "epoch": 102.69333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002980765703763415, "loss": 0.3921, "step": 77020 }, { "epoch": 102.70666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029807606868846424, "loss": 0.3856, "step": 77030 }, { "epoch": 102.72, "grad_norm": 0.3828125, "learning_rate": 0.0002980755669355902, "loss": 0.4077, "step": 77040 }, { "epoch": 102.73333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002980750651177196, "loss": 0.4005, "step": 77050 }, { "epoch": 102.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0002980745632348527, "loss": 0.4031, "step": 77060 }, { "epoch": 102.76, "grad_norm": 0.35546875, "learning_rate": 0.0002980740612869897, "loss": 0.4167, "step": 77070 }, { "epoch": 102.77333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002980735592741308, "loss": 0.4035, "step": 77080 }, { "epoch": 102.78666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002980730571962763, "loss": 0.4037, "step": 77090 }, { "epoch": 102.8, "grad_norm": 0.376953125, "learning_rate": 0.00029807255505342637, "loss": 0.4027, "step": 77100 }, { "epoch": 102.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002980720528455812, "loss": 0.3757, "step": 77110 }, { "epoch": 102.82666666666667, "grad_norm": 0.41015625, "learning_rate": 0.000298071550572741, "loss": 0.3848, "step": 77120 }, { "epoch": 102.84, "grad_norm": 0.408203125, "learning_rate": 0.00029807104823490605, "loss": 0.3966, "step": 77130 }, { "epoch": 102.85333333333334, "grad_norm": 0.375, "learning_rate": 0.0002980705458320766, "loss": 0.3924, "step": 77140 }, { "epoch": 102.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002980700433642527, "loss": 0.3974, "step": 77150 }, { "epoch": 102.88, "grad_norm": 0.361328125, "learning_rate": 0.0002980695408314348, "loss": 0.378, "step": 77160 }, { "epoch": 102.89333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029806903823362295, "loss": 0.3894, "step": 77170 }, { "epoch": 102.90666666666667, "grad_norm": 0.4296875, "learning_rate": 0.0002980685355708175, "loss": 0.3956, "step": 77180 }, { "epoch": 102.92, "grad_norm": 0.412109375, "learning_rate": 0.0002980680328430185, "loss": 0.399, "step": 77190 }, { "epoch": 102.93333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029806753005022637, "loss": 0.392, "step": 77200 }, { "epoch": 102.94666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002980670271924412, "loss": 0.394, "step": 77210 }, { "epoch": 102.96, "grad_norm": 0.333984375, "learning_rate": 0.00029806652426966326, "loss": 0.3902, "step": 77220 }, { "epoch": 102.97333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002980660212818927, "loss": 0.4159, "step": 77230 }, { "epoch": 102.98666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029806551822912983, "loss": 0.3898, "step": 77240 }, { "epoch": 103.0, "grad_norm": 0.36328125, "learning_rate": 0.0002980650151113748, "loss": 0.3842, "step": 77250 }, { "epoch": 103.0, "eval_loss": 0.4284389615058899, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0398, "eval_samples_per_second": 1.594, "eval_steps_per_second": 0.1, "step": 77250 }, { "epoch": 103.01333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002980645119286279, "loss": 0.4021, "step": 77260 }, { "epoch": 103.02666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002980640086808893, "loss": 0.4142, "step": 77270 }, { "epoch": 103.04, "grad_norm": 0.349609375, "learning_rate": 0.00029806350536815926, "loss": 0.4267, "step": 77280 }, { "epoch": 103.05333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000298063001990438, "loss": 0.4141, "step": 77290 }, { "epoch": 103.06666666666666, "grad_norm": 0.41796875, "learning_rate": 0.00029806249854772565, "loss": 0.4007, "step": 77300 }, { "epoch": 103.08, "grad_norm": 0.376953125, "learning_rate": 0.0002980619950400225, "loss": 0.4042, "step": 77310 }, { "epoch": 103.09333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002980614914673288, "loss": 0.4051, "step": 77320 }, { "epoch": 103.10666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029806098782964475, "loss": 0.3937, "step": 77330 }, { "epoch": 103.12, "grad_norm": 0.48828125, "learning_rate": 0.00029806048412697056, "loss": 0.3988, "step": 77340 }, { "epoch": 103.13333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029805998035930647, "loss": 0.3898, "step": 77350 }, { "epoch": 103.14666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029805947652665265, "loss": 0.4087, "step": 77360 }, { "epoch": 103.16, "grad_norm": 0.333984375, "learning_rate": 0.0002980589726290094, "loss": 0.4027, "step": 77370 }, { "epoch": 103.17333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002980584686663769, "loss": 0.3971, "step": 77380 }, { "epoch": 103.18666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029805796463875533, "loss": 0.395, "step": 77390 }, { "epoch": 103.2, "grad_norm": 0.380859375, "learning_rate": 0.00029805746054614496, "loss": 0.3879, "step": 77400 }, { "epoch": 103.21333333333334, "grad_norm": 0.373046875, "learning_rate": 0.000298056956388546, "loss": 0.3885, "step": 77410 }, { "epoch": 103.22666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002980564521659587, "loss": 0.4, "step": 77420 }, { "epoch": 103.24, "grad_norm": 0.376953125, "learning_rate": 0.00029805594787838324, "loss": 0.3855, "step": 77430 }, { "epoch": 103.25333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029805544352581984, "loss": 0.3883, "step": 77440 }, { "epoch": 103.26666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029805493910826876, "loss": 0.3906, "step": 77450 }, { "epoch": 103.28, "grad_norm": 0.396484375, "learning_rate": 0.00029805443462573017, "loss": 0.4205, "step": 77460 }, { "epoch": 103.29333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029805393007820434, "loss": 0.3769, "step": 77470 }, { "epoch": 103.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002980534254656915, "loss": 0.4001, "step": 77480 }, { "epoch": 103.32, "grad_norm": 0.3203125, "learning_rate": 0.00029805292078819177, "loss": 0.4013, "step": 77490 }, { "epoch": 103.33333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002980524160457055, "loss": 0.4054, "step": 77500 }, { "epoch": 103.34666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029805191123823284, "loss": 0.3963, "step": 77510 }, { "epoch": 103.36, "grad_norm": 0.423828125, "learning_rate": 0.00029805140636577406, "loss": 0.3957, "step": 77520 }, { "epoch": 103.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002980509014283293, "loss": 0.3978, "step": 77530 }, { "epoch": 103.38666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002980503964258989, "loss": 0.3888, "step": 77540 }, { "epoch": 103.4, "grad_norm": 0.3828125, "learning_rate": 0.00029804989135848295, "loss": 0.3961, "step": 77550 }, { "epoch": 103.41333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002980493862260817, "loss": 0.4023, "step": 77560 }, { "epoch": 103.42666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002980488810286955, "loss": 0.4024, "step": 77570 }, { "epoch": 103.44, "grad_norm": 0.353515625, "learning_rate": 0.00029804837576632445, "loss": 0.4143, "step": 77580 }, { "epoch": 103.45333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029804787043896875, "loss": 0.4029, "step": 77590 }, { "epoch": 103.46666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029804736504662874, "loss": 0.4111, "step": 77600 }, { "epoch": 103.48, "grad_norm": 0.408203125, "learning_rate": 0.0002980468595893045, "loss": 0.3936, "step": 77610 }, { "epoch": 103.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029804635406699637, "loss": 0.4052, "step": 77620 }, { "epoch": 103.50666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0002980458484797045, "loss": 0.4027, "step": 77630 }, { "epoch": 103.52, "grad_norm": 0.330078125, "learning_rate": 0.0002980453428274292, "loss": 0.3935, "step": 77640 }, { "epoch": 103.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002980448371101706, "loss": 0.396, "step": 77650 }, { "epoch": 103.54666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029804433132792893, "loss": 0.3978, "step": 77660 }, { "epoch": 103.56, "grad_norm": 0.345703125, "learning_rate": 0.00029804382548070447, "loss": 0.3928, "step": 77670 }, { "epoch": 103.57333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002980433195684974, "loss": 0.3967, "step": 77680 }, { "epoch": 103.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002980428135913079, "loss": 0.3854, "step": 77690 }, { "epoch": 103.6, "grad_norm": 0.34375, "learning_rate": 0.00029804230754913627, "loss": 0.3873, "step": 77700 }, { "epoch": 103.61333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002980418014419827, "loss": 0.3767, "step": 77710 }, { "epoch": 103.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029804129526984745, "loss": 0.3811, "step": 77720 }, { "epoch": 103.64, "grad_norm": 0.369140625, "learning_rate": 0.00029804078903273066, "loss": 0.3946, "step": 77730 }, { "epoch": 103.65333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029804028273063265, "loss": 0.4036, "step": 77740 }, { "epoch": 103.66666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002980397763635536, "loss": 0.3897, "step": 77750 }, { "epoch": 103.68, "grad_norm": 0.349609375, "learning_rate": 0.00029803926993149366, "loss": 0.3823, "step": 77760 }, { "epoch": 103.69333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002980387634344531, "loss": 0.3924, "step": 77770 }, { "epoch": 103.70666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002980382568724322, "loss": 0.3854, "step": 77780 }, { "epoch": 103.72, "grad_norm": 0.4140625, "learning_rate": 0.0002980377502454312, "loss": 0.4073, "step": 77790 }, { "epoch": 103.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029803724355345016, "loss": 0.4015, "step": 77800 }, { "epoch": 103.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002980367367964895, "loss": 0.4036, "step": 77810 }, { "epoch": 103.76, "grad_norm": 0.357421875, "learning_rate": 0.0002980362299745493, "loss": 0.4158, "step": 77820 }, { "epoch": 103.77333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002980357230876298, "loss": 0.403, "step": 77830 }, { "epoch": 103.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002980352161357313, "loss": 0.4034, "step": 77840 }, { "epoch": 103.8, "grad_norm": 0.40234375, "learning_rate": 0.000298034709118854, "loss": 0.4022, "step": 77850 }, { "epoch": 103.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.000298034202036998, "loss": 0.3758, "step": 77860 }, { "epoch": 103.82666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002980336948901637, "loss": 0.3862, "step": 77870 }, { "epoch": 103.84, "grad_norm": 0.427734375, "learning_rate": 0.0002980331876783513, "loss": 0.3979, "step": 77880 }, { "epoch": 103.85333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002980326804015608, "loss": 0.3925, "step": 77890 }, { "epoch": 103.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002980321730597927, "loss": 0.3969, "step": 77900 }, { "epoch": 103.88, "grad_norm": 0.373046875, "learning_rate": 0.0002980316656530471, "loss": 0.379, "step": 77910 }, { "epoch": 103.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029803115818132425, "loss": 0.3896, "step": 77920 }, { "epoch": 103.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029803065064462435, "loss": 0.3962, "step": 77930 }, { "epoch": 103.92, "grad_norm": 0.380859375, "learning_rate": 0.0002980301430429476, "loss": 0.3987, "step": 77940 }, { "epoch": 103.93333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0002980296353762943, "loss": 0.392, "step": 77950 }, { "epoch": 103.94666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029802912764466453, "loss": 0.3929, "step": 77960 }, { "epoch": 103.96, "grad_norm": 0.328125, "learning_rate": 0.0002980286198480587, "loss": 0.3912, "step": 77970 }, { "epoch": 103.97333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029802811198647694, "loss": 0.4158, "step": 77980 }, { "epoch": 103.98666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002980276040599194, "loss": 0.3898, "step": 77990 }, { "epoch": 104.0, "grad_norm": 0.341796875, "learning_rate": 0.00029802709606838645, "loss": 0.3844, "step": 78000 }, { "epoch": 104.0, "eval_loss": 0.4279639422893524, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6951, "eval_samples_per_second": 1.65, "eval_steps_per_second": 0.103, "step": 78000 }, { "epoch": 104.01333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029802658801187824, "loss": 0.402, "step": 78010 }, { "epoch": 104.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029802607989039493, "loss": 0.4143, "step": 78020 }, { "epoch": 104.04, "grad_norm": 0.341796875, "learning_rate": 0.0002980255717039369, "loss": 0.4281, "step": 78030 }, { "epoch": 104.05333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002980250634525042, "loss": 0.4131, "step": 78040 }, { "epoch": 104.06666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002980245551360971, "loss": 0.4003, "step": 78050 }, { "epoch": 104.08, "grad_norm": 0.400390625, "learning_rate": 0.00029802404675471596, "loss": 0.4043, "step": 78060 }, { "epoch": 104.09333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029802353830836085, "loss": 0.4051, "step": 78070 }, { "epoch": 104.10666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029802302979703205, "loss": 0.393, "step": 78080 }, { "epoch": 104.12, "grad_norm": 0.4140625, "learning_rate": 0.00029802252122072977, "loss": 0.3978, "step": 78090 }, { "epoch": 104.13333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029802201257945424, "loss": 0.3895, "step": 78100 }, { "epoch": 104.14666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002980215038732057, "loss": 0.4095, "step": 78110 }, { "epoch": 104.16, "grad_norm": 0.390625, "learning_rate": 0.0002980209951019843, "loss": 0.4024, "step": 78120 }, { "epoch": 104.17333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029802048626579035, "loss": 0.3972, "step": 78130 }, { "epoch": 104.18666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029801997736462403, "loss": 0.3955, "step": 78140 }, { "epoch": 104.2, "grad_norm": 0.376953125, "learning_rate": 0.0002980194683984856, "loss": 0.3876, "step": 78150 }, { "epoch": 104.21333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029801895936737525, "loss": 0.3893, "step": 78160 }, { "epoch": 104.22666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029801845027129317, "loss": 0.4007, "step": 78170 }, { "epoch": 104.24, "grad_norm": 0.427734375, "learning_rate": 0.00029801794111023974, "loss": 0.3853, "step": 78180 }, { "epoch": 104.25333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029801743188421494, "loss": 0.3885, "step": 78190 }, { "epoch": 104.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002980169225932192, "loss": 0.3907, "step": 78200 }, { "epoch": 104.28, "grad_norm": 0.41796875, "learning_rate": 0.0002980164132372526, "loss": 0.4198, "step": 78210 }, { "epoch": 104.29333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029801590381631546, "loss": 0.3764, "step": 78220 }, { "epoch": 104.30666666666667, "grad_norm": 0.361328125, "learning_rate": 0.000298015394330408, "loss": 0.3987, "step": 78230 }, { "epoch": 104.32, "grad_norm": 0.3671875, "learning_rate": 0.0002980148847795304, "loss": 0.4022, "step": 78240 }, { "epoch": 104.33333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002980143751636829, "loss": 0.405, "step": 78250 }, { "epoch": 104.34666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029801386548286573, "loss": 0.3953, "step": 78260 }, { "epoch": 104.36, "grad_norm": 0.40625, "learning_rate": 0.0002980133557370791, "loss": 0.3962, "step": 78270 }, { "epoch": 104.37333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029801284592632324, "loss": 0.3967, "step": 78280 }, { "epoch": 104.38666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002980123360505984, "loss": 0.3889, "step": 78290 }, { "epoch": 104.4, "grad_norm": 0.361328125, "learning_rate": 0.00029801182610990476, "loss": 0.3964, "step": 78300 }, { "epoch": 104.41333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002980113161042425, "loss": 0.4011, "step": 78310 }, { "epoch": 104.42666666666666, "grad_norm": 0.35546875, "learning_rate": 0.000298010806033612, "loss": 0.4031, "step": 78320 }, { "epoch": 104.44, "grad_norm": 0.39453125, "learning_rate": 0.00029801029589801337, "loss": 0.4138, "step": 78330 }, { "epoch": 104.45333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029800978569744684, "loss": 0.4033, "step": 78340 }, { "epoch": 104.46666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029800927543191264, "loss": 0.4112, "step": 78350 }, { "epoch": 104.48, "grad_norm": 0.376953125, "learning_rate": 0.000298008765101411, "loss": 0.3934, "step": 78360 }, { "epoch": 104.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002980082547059422, "loss": 0.4049, "step": 78370 }, { "epoch": 104.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029800774424550635, "loss": 0.4032, "step": 78380 }, { "epoch": 104.52, "grad_norm": 0.3515625, "learning_rate": 0.00029800723372010374, "loss": 0.3933, "step": 78390 }, { "epoch": 104.53333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002980067231297346, "loss": 0.3969, "step": 78400 }, { "epoch": 104.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029800621247439915, "loss": 0.3985, "step": 78410 }, { "epoch": 104.56, "grad_norm": 0.33203125, "learning_rate": 0.0002980057017540976, "loss": 0.3925, "step": 78420 }, { "epoch": 104.57333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029800519096883016, "loss": 0.3958, "step": 78430 }, { "epoch": 104.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002980046801185971, "loss": 0.3843, "step": 78440 }, { "epoch": 104.6, "grad_norm": 0.373046875, "learning_rate": 0.0002980041692033986, "loss": 0.387, "step": 78450 }, { "epoch": 104.61333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029800365822323495, "loss": 0.3761, "step": 78460 }, { "epoch": 104.62666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002980031471781063, "loss": 0.3814, "step": 78470 }, { "epoch": 104.64, "grad_norm": 0.365234375, "learning_rate": 0.0002980026360680129, "loss": 0.3946, "step": 78480 }, { "epoch": 104.65333333333334, "grad_norm": 0.388671875, "learning_rate": 0.000298002124892955, "loss": 0.4036, "step": 78490 }, { "epoch": 104.66666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029800161365293277, "loss": 0.3903, "step": 78500 }, { "epoch": 104.68, "grad_norm": 0.3984375, "learning_rate": 0.00029800110234794646, "loss": 0.3829, "step": 78510 }, { "epoch": 104.69333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029800059097799634, "loss": 0.3913, "step": 78520 }, { "epoch": 104.70666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029800007954308255, "loss": 0.3853, "step": 78530 }, { "epoch": 104.72, "grad_norm": 0.380859375, "learning_rate": 0.0002979995680432054, "loss": 0.4079, "step": 78540 }, { "epoch": 104.73333333333333, "grad_norm": 0.34765625, "learning_rate": 0.000297999056478365, "loss": 0.4013, "step": 78550 }, { "epoch": 104.74666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002979985448485617, "loss": 0.403, "step": 78560 }, { "epoch": 104.76, "grad_norm": 0.43359375, "learning_rate": 0.0002979980331537957, "loss": 0.4165, "step": 78570 }, { "epoch": 104.77333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002979975213940672, "loss": 0.4035, "step": 78580 }, { "epoch": 104.78666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029799700956937636, "loss": 0.4036, "step": 78590 }, { "epoch": 104.8, "grad_norm": 0.375, "learning_rate": 0.0002979964976797235, "loss": 0.402, "step": 78600 }, { "epoch": 104.81333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002979959857251088, "loss": 0.3757, "step": 78610 }, { "epoch": 104.82666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002979954737055325, "loss": 0.3863, "step": 78620 }, { "epoch": 104.84, "grad_norm": 0.404296875, "learning_rate": 0.00029799496162099485, "loss": 0.398, "step": 78630 }, { "epoch": 104.85333333333334, "grad_norm": 0.34765625, "learning_rate": 0.000297994449471496, "loss": 0.3932, "step": 78640 }, { "epoch": 104.86666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002979939372570363, "loss": 0.3975, "step": 78650 }, { "epoch": 104.88, "grad_norm": 0.34765625, "learning_rate": 0.0002979934249776158, "loss": 0.3786, "step": 78660 }, { "epoch": 104.89333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029799291263323484, "loss": 0.3884, "step": 78670 }, { "epoch": 104.90666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029799240022389365, "loss": 0.3964, "step": 78680 }, { "epoch": 104.92, "grad_norm": 0.353515625, "learning_rate": 0.0002979918877495924, "loss": 0.3987, "step": 78690 }, { "epoch": 104.93333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002979913752103314, "loss": 0.3912, "step": 78700 }, { "epoch": 104.94666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002979908626061107, "loss": 0.3926, "step": 78710 }, { "epoch": 104.96, "grad_norm": 0.3515625, "learning_rate": 0.00029799034993693076, "loss": 0.3901, "step": 78720 }, { "epoch": 104.97333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002979898372027917, "loss": 0.4165, "step": 78730 }, { "epoch": 104.98666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029798932440369366, "loss": 0.3889, "step": 78740 }, { "epoch": 105.0, "grad_norm": 0.384765625, "learning_rate": 0.000297988811539637, "loss": 0.3848, "step": 78750 }, { "epoch": 105.0, "eval_loss": 0.42891037464141846, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.027, "eval_samples_per_second": 1.596, "eval_steps_per_second": 0.1, "step": 78750 }, { "epoch": 105.01333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029798829861062186, "loss": 0.4026, "step": 78760 }, { "epoch": 105.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029798778561664844, "loss": 0.4145, "step": 78770 }, { "epoch": 105.04, "grad_norm": 0.423828125, "learning_rate": 0.0002979872725577171, "loss": 0.4277, "step": 78780 }, { "epoch": 105.05333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002979867594338279, "loss": 0.4132, "step": 78790 }, { "epoch": 105.06666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029798624624498125, "loss": 0.4, "step": 78800 }, { "epoch": 105.08, "grad_norm": 0.451171875, "learning_rate": 0.0002979857329911772, "loss": 0.4043, "step": 78810 }, { "epoch": 105.09333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000297985219672416, "loss": 0.4057, "step": 78820 }, { "epoch": 105.10666666666667, "grad_norm": 0.373046875, "learning_rate": 0.000297984706288698, "loss": 0.3927, "step": 78830 }, { "epoch": 105.12, "grad_norm": 0.38671875, "learning_rate": 0.00029798419284002335, "loss": 0.3983, "step": 78840 }, { "epoch": 105.13333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002979836793263922, "loss": 0.3905, "step": 78850 }, { "epoch": 105.14666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029798316574780495, "loss": 0.4084, "step": 78860 }, { "epoch": 105.16, "grad_norm": 0.330078125, "learning_rate": 0.00029798265210426167, "loss": 0.4022, "step": 78870 }, { "epoch": 105.17333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002979821383957626, "loss": 0.3962, "step": 78880 }, { "epoch": 105.18666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029798162462230804, "loss": 0.3955, "step": 78890 }, { "epoch": 105.2, "grad_norm": 0.3828125, "learning_rate": 0.0002979811107838982, "loss": 0.3886, "step": 78900 }, { "epoch": 105.21333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029798059688053327, "loss": 0.3886, "step": 78910 }, { "epoch": 105.22666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029798008291221343, "loss": 0.3997, "step": 78920 }, { "epoch": 105.24, "grad_norm": 0.40234375, "learning_rate": 0.0002979795688789391, "loss": 0.3853, "step": 78930 }, { "epoch": 105.25333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002979790547807102, "loss": 0.3877, "step": 78940 }, { "epoch": 105.26666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029797854061752727, "loss": 0.3904, "step": 78950 }, { "epoch": 105.28, "grad_norm": 0.388671875, "learning_rate": 0.0002979780263893903, "loss": 0.4203, "step": 78960 }, { "epoch": 105.29333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029797751209629966, "loss": 0.3753, "step": 78970 }, { "epoch": 105.30666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029797699773825555, "loss": 0.3992, "step": 78980 }, { "epoch": 105.32, "grad_norm": 0.34375, "learning_rate": 0.00029797648331525813, "loss": 0.4017, "step": 78990 }, { "epoch": 105.33333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002979759688273077, "loss": 0.4046, "step": 79000 }, { "epoch": 105.34666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002979754542744044, "loss": 0.3954, "step": 79010 }, { "epoch": 105.36, "grad_norm": 0.447265625, "learning_rate": 0.00029797493965654854, "loss": 0.3959, "step": 79020 }, { "epoch": 105.37333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002979744249737403, "loss": 0.3968, "step": 79030 }, { "epoch": 105.38666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002979739102259799, "loss": 0.3896, "step": 79040 }, { "epoch": 105.4, "grad_norm": 0.333984375, "learning_rate": 0.00029797339541326765, "loss": 0.3963, "step": 79050 }, { "epoch": 105.41333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029797288053560366, "loss": 0.4018, "step": 79060 }, { "epoch": 105.42666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002979723655929882, "loss": 0.4026, "step": 79070 }, { "epoch": 105.44, "grad_norm": 0.373046875, "learning_rate": 0.00029797185058542155, "loss": 0.4125, "step": 79080 }, { "epoch": 105.45333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002979713355129039, "loss": 0.4029, "step": 79090 }, { "epoch": 105.46666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029797082037543544, "loss": 0.4124, "step": 79100 }, { "epoch": 105.48, "grad_norm": 0.4140625, "learning_rate": 0.0002979703051730164, "loss": 0.3932, "step": 79110 }, { "epoch": 105.49333333333334, "grad_norm": 0.392578125, "learning_rate": 0.000297969789905647, "loss": 0.4051, "step": 79120 }, { "epoch": 105.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029796927457332754, "loss": 0.4028, "step": 79130 }, { "epoch": 105.52, "grad_norm": 0.32421875, "learning_rate": 0.0002979687591760582, "loss": 0.3925, "step": 79140 }, { "epoch": 105.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002979682437138392, "loss": 0.3964, "step": 79150 }, { "epoch": 105.54666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002979677281866708, "loss": 0.3983, "step": 79160 }, { "epoch": 105.56, "grad_norm": 0.3515625, "learning_rate": 0.0002979672125945532, "loss": 0.3922, "step": 79170 }, { "epoch": 105.57333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029796669693748655, "loss": 0.3963, "step": 79180 }, { "epoch": 105.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002979661812154712, "loss": 0.3849, "step": 79190 }, { "epoch": 105.6, "grad_norm": 0.33203125, "learning_rate": 0.00029796566542850735, "loss": 0.3866, "step": 79200 }, { "epoch": 105.61333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0002979651495765952, "loss": 0.3759, "step": 79210 }, { "epoch": 105.62666666666667, "grad_norm": 0.330078125, "learning_rate": 0.000297964633659735, "loss": 0.3817, "step": 79220 }, { "epoch": 105.64, "grad_norm": 0.40625, "learning_rate": 0.0002979641176779269, "loss": 0.3951, "step": 79230 }, { "epoch": 105.65333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002979636016311712, "loss": 0.4028, "step": 79240 }, { "epoch": 105.66666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029796308551946813, "loss": 0.3903, "step": 79250 }, { "epoch": 105.68, "grad_norm": 0.36328125, "learning_rate": 0.0002979625693428179, "loss": 0.3827, "step": 79260 }, { "epoch": 105.69333333333333, "grad_norm": 0.294921875, "learning_rate": 0.0002979620531012207, "loss": 0.3916, "step": 79270 }, { "epoch": 105.70666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029796153679467676, "loss": 0.3843, "step": 79280 }, { "epoch": 105.72, "grad_norm": 0.416015625, "learning_rate": 0.00029796102042318643, "loss": 0.4075, "step": 79290 }, { "epoch": 105.73333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002979605039867498, "loss": 0.4015, "step": 79300 }, { "epoch": 105.74666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002979599874853671, "loss": 0.4038, "step": 79310 }, { "epoch": 105.76, "grad_norm": 0.384765625, "learning_rate": 0.00029795947091903867, "loss": 0.4151, "step": 79320 }, { "epoch": 105.77333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029795895428776466, "loss": 0.4035, "step": 79330 }, { "epoch": 105.78666666666666, "grad_norm": 0.310546875, "learning_rate": 0.00029795843759154527, "loss": 0.4045, "step": 79340 }, { "epoch": 105.8, "grad_norm": 0.357421875, "learning_rate": 0.0002979579208303807, "loss": 0.403, "step": 79350 }, { "epoch": 105.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029795740400427134, "loss": 0.3761, "step": 79360 }, { "epoch": 105.82666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029795688711321724, "loss": 0.3866, "step": 79370 }, { "epoch": 105.84, "grad_norm": 0.390625, "learning_rate": 0.0002979563701572187, "loss": 0.3981, "step": 79380 }, { "epoch": 105.85333333333334, "grad_norm": 0.380859375, "learning_rate": 0.000297955853136276, "loss": 0.3926, "step": 79390 }, { "epoch": 105.86666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029795533605038926, "loss": 0.3972, "step": 79400 }, { "epoch": 105.88, "grad_norm": 0.345703125, "learning_rate": 0.0002979548188995588, "loss": 0.3775, "step": 79410 }, { "epoch": 105.89333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0002979543016837848, "loss": 0.3883, "step": 79420 }, { "epoch": 105.90666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029795378440306745, "loss": 0.3965, "step": 79430 }, { "epoch": 105.92, "grad_norm": 0.37109375, "learning_rate": 0.00029795326705740706, "loss": 0.3982, "step": 79440 }, { "epoch": 105.93333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029795274964680376, "loss": 0.3914, "step": 79450 }, { "epoch": 105.94666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002979522321712579, "loss": 0.3918, "step": 79460 }, { "epoch": 105.96, "grad_norm": 0.30859375, "learning_rate": 0.0002979517146307696, "loss": 0.3896, "step": 79470 }, { "epoch": 105.97333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002979511970253392, "loss": 0.4149, "step": 79480 }, { "epoch": 105.98666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029795067935496676, "loss": 0.3898, "step": 79490 }, { "epoch": 106.0, "grad_norm": 0.3828125, "learning_rate": 0.00029795016161965267, "loss": 0.3848, "step": 79500 }, { "epoch": 106.0, "eval_loss": 0.42803066968917847, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1367, "eval_samples_per_second": 1.578, "eval_steps_per_second": 0.099, "step": 79500 }, { "epoch": 106.01333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029794964381939704, "loss": 0.4024, "step": 79510 }, { "epoch": 106.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002979491259542002, "loss": 0.4148, "step": 79520 }, { "epoch": 106.04, "grad_norm": 0.404296875, "learning_rate": 0.0002979486080240623, "loss": 0.4275, "step": 79530 }, { "epoch": 106.05333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002979480900289836, "loss": 0.4135, "step": 79540 }, { "epoch": 106.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002979475719689643, "loss": 0.4007, "step": 79550 }, { "epoch": 106.08, "grad_norm": 0.3671875, "learning_rate": 0.0002979470538440046, "loss": 0.4038, "step": 79560 }, { "epoch": 106.09333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029794653565410484, "loss": 0.4048, "step": 79570 }, { "epoch": 106.10666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002979460173992652, "loss": 0.3926, "step": 79580 }, { "epoch": 106.12, "grad_norm": 0.37890625, "learning_rate": 0.00029794549907948584, "loss": 0.3972, "step": 79590 }, { "epoch": 106.13333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029794498069476706, "loss": 0.3892, "step": 79600 }, { "epoch": 106.14666666666666, "grad_norm": 0.447265625, "learning_rate": 0.00029794446224510907, "loss": 0.4087, "step": 79610 }, { "epoch": 106.16, "grad_norm": 0.36328125, "learning_rate": 0.0002979439437305121, "loss": 0.4031, "step": 79620 }, { "epoch": 106.17333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029794342515097633, "loss": 0.3964, "step": 79630 }, { "epoch": 106.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029794290650650207, "loss": 0.3957, "step": 79640 }, { "epoch": 106.2, "grad_norm": 0.37109375, "learning_rate": 0.00029794238779708946, "loss": 0.3878, "step": 79650 }, { "epoch": 106.21333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002979418690227388, "loss": 0.3888, "step": 79660 }, { "epoch": 106.22666666666667, "grad_norm": 0.375, "learning_rate": 0.00029794135018345024, "loss": 0.3995, "step": 79670 }, { "epoch": 106.24, "grad_norm": 0.478515625, "learning_rate": 0.0002979408312792241, "loss": 0.3852, "step": 79680 }, { "epoch": 106.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029794031231006064, "loss": 0.3883, "step": 79690 }, { "epoch": 106.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002979397932759599, "loss": 0.3904, "step": 79700 }, { "epoch": 106.28, "grad_norm": 0.376953125, "learning_rate": 0.0002979392741769222, "loss": 0.4197, "step": 79710 }, { "epoch": 106.29333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029793875501294787, "loss": 0.3761, "step": 79720 }, { "epoch": 106.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002979382357840371, "loss": 0.3986, "step": 79730 }, { "epoch": 106.32, "grad_norm": 0.369140625, "learning_rate": 0.00029793771649018995, "loss": 0.4006, "step": 79740 }, { "epoch": 106.33333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029793719713140686, "loss": 0.405, "step": 79750 }, { "epoch": 106.34666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029793667770768793, "loss": 0.3953, "step": 79760 }, { "epoch": 106.36, "grad_norm": 0.380859375, "learning_rate": 0.00029793615821903347, "loss": 0.3951, "step": 79770 }, { "epoch": 106.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029793563866544365, "loss": 0.3968, "step": 79780 }, { "epoch": 106.38666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002979351190469187, "loss": 0.389, "step": 79790 }, { "epoch": 106.4, "grad_norm": 0.388671875, "learning_rate": 0.00029793459936345885, "loss": 0.3964, "step": 79800 }, { "epoch": 106.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029793407961506435, "loss": 0.401, "step": 79810 }, { "epoch": 106.42666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002979335598017354, "loss": 0.4026, "step": 79820 }, { "epoch": 106.44, "grad_norm": 0.3515625, "learning_rate": 0.0002979330399234723, "loss": 0.4134, "step": 79830 }, { "epoch": 106.45333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002979325199802752, "loss": 0.4026, "step": 79840 }, { "epoch": 106.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029793199997214435, "loss": 0.412, "step": 79850 }, { "epoch": 106.48, "grad_norm": 0.359375, "learning_rate": 0.00029793147989908, "loss": 0.3929, "step": 79860 }, { "epoch": 106.49333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029793095976108236, "loss": 0.4056, "step": 79870 }, { "epoch": 106.50666666666666, "grad_norm": 0.330078125, "learning_rate": 0.0002979304395581516, "loss": 0.4023, "step": 79880 }, { "epoch": 106.52, "grad_norm": 0.33203125, "learning_rate": 0.0002979299192902881, "loss": 0.3939, "step": 79890 }, { "epoch": 106.53333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002979293989574919, "loss": 0.396, "step": 79900 }, { "epoch": 106.54666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002979288785597634, "loss": 0.3982, "step": 79910 }, { "epoch": 106.56, "grad_norm": 0.349609375, "learning_rate": 0.0002979283580971027, "loss": 0.3922, "step": 79920 }, { "epoch": 106.57333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002979278375695101, "loss": 0.3955, "step": 79930 }, { "epoch": 106.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002979273169769858, "loss": 0.3854, "step": 79940 }, { "epoch": 106.6, "grad_norm": 0.345703125, "learning_rate": 0.00029792679631953007, "loss": 0.3875, "step": 79950 }, { "epoch": 106.61333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0002979262755971431, "loss": 0.3753, "step": 79960 }, { "epoch": 106.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002979257548098251, "loss": 0.3815, "step": 79970 }, { "epoch": 106.64, "grad_norm": 0.392578125, "learning_rate": 0.00029792523395757634, "loss": 0.3942, "step": 79980 }, { "epoch": 106.65333333333334, "grad_norm": 0.4140625, "learning_rate": 0.000297924713040397, "loss": 0.403, "step": 79990 }, { "epoch": 106.66666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002979241920582874, "loss": 0.3904, "step": 80000 }, { "epoch": 106.68, "grad_norm": 0.373046875, "learning_rate": 0.0002979236710112476, "loss": 0.3826, "step": 80010 }, { "epoch": 106.69333333333333, "grad_norm": 0.353515625, "learning_rate": 0.000297923149899278, "loss": 0.3925, "step": 80020 }, { "epoch": 106.70666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002979226287223788, "loss": 0.3844, "step": 80030 }, { "epoch": 106.72, "grad_norm": 0.41015625, "learning_rate": 0.0002979221074805502, "loss": 0.4064, "step": 80040 }, { "epoch": 106.73333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0002979215861737924, "loss": 0.4006, "step": 80050 }, { "epoch": 106.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002979210648021056, "loss": 0.4029, "step": 80060 }, { "epoch": 106.76, "grad_norm": 0.373046875, "learning_rate": 0.00029792054336549016, "loss": 0.4159, "step": 80070 }, { "epoch": 106.77333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029792002186394617, "loss": 0.403, "step": 80080 }, { "epoch": 106.78666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029791950029747397, "loss": 0.4041, "step": 80090 }, { "epoch": 106.8, "grad_norm": 0.373046875, "learning_rate": 0.0002979189786660737, "loss": 0.4026, "step": 80100 }, { "epoch": 106.81333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029791845696974567, "loss": 0.3757, "step": 80110 }, { "epoch": 106.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029791793520849005, "loss": 0.3858, "step": 80120 }, { "epoch": 106.84, "grad_norm": 0.40234375, "learning_rate": 0.0002979174133823071, "loss": 0.3969, "step": 80130 }, { "epoch": 106.85333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029791689149119696, "loss": 0.3928, "step": 80140 }, { "epoch": 106.86666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029791636953516, "loss": 0.3968, "step": 80150 }, { "epoch": 106.88, "grad_norm": 0.345703125, "learning_rate": 0.0002979158475141964, "loss": 0.378, "step": 80160 }, { "epoch": 106.89333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002979153254283063, "loss": 0.3896, "step": 80170 }, { "epoch": 106.90666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002979148032774901, "loss": 0.3951, "step": 80180 }, { "epoch": 106.92, "grad_norm": 0.375, "learning_rate": 0.00029791428106174786, "loss": 0.3981, "step": 80190 }, { "epoch": 106.93333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029791375878107987, "loss": 0.3915, "step": 80200 }, { "epoch": 106.94666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002979132364354864, "loss": 0.392, "step": 80210 }, { "epoch": 106.96, "grad_norm": 0.310546875, "learning_rate": 0.00029791271402496763, "loss": 0.3907, "step": 80220 }, { "epoch": 106.97333333333333, "grad_norm": 0.48828125, "learning_rate": 0.0002979121915495238, "loss": 0.4156, "step": 80230 }, { "epoch": 106.98666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029791166900915514, "loss": 0.3891, "step": 80240 }, { "epoch": 107.0, "grad_norm": 0.376953125, "learning_rate": 0.00029791114640386195, "loss": 0.3847, "step": 80250 }, { "epoch": 107.0, "eval_loss": 0.4279867112636566, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8638, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 80250 }, { "epoch": 107.01333333333334, "grad_norm": 0.447265625, "learning_rate": 0.00029791062373364435, "loss": 0.402, "step": 80260 }, { "epoch": 107.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002979101009985026, "loss": 0.4151, "step": 80270 }, { "epoch": 107.04, "grad_norm": 0.3671875, "learning_rate": 0.000297909578198437, "loss": 0.4269, "step": 80280 }, { "epoch": 107.05333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029790905533344763, "loss": 0.4125, "step": 80290 }, { "epoch": 107.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029790853240353494, "loss": 0.4001, "step": 80300 }, { "epoch": 107.08, "grad_norm": 0.4375, "learning_rate": 0.00029790800940869897, "loss": 0.4039, "step": 80310 }, { "epoch": 107.09333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029790748634894, "loss": 0.4051, "step": 80320 }, { "epoch": 107.10666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029790696322425824, "loss": 0.3929, "step": 80330 }, { "epoch": 107.12, "grad_norm": 0.357421875, "learning_rate": 0.00029790644003465397, "loss": 0.3974, "step": 80340 }, { "epoch": 107.13333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029790591678012746, "loss": 0.3884, "step": 80350 }, { "epoch": 107.14666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002979053934606788, "loss": 0.4081, "step": 80360 }, { "epoch": 107.16, "grad_norm": 0.3203125, "learning_rate": 0.00029790487007630835, "loss": 0.4015, "step": 80370 }, { "epoch": 107.17333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002979043466270163, "loss": 0.3967, "step": 80380 }, { "epoch": 107.18666666666667, "grad_norm": 0.43359375, "learning_rate": 0.0002979038231128028, "loss": 0.3948, "step": 80390 }, { "epoch": 107.2, "grad_norm": 0.38671875, "learning_rate": 0.00029790329953366824, "loss": 0.3879, "step": 80400 }, { "epoch": 107.21333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002979027758896127, "loss": 0.3882, "step": 80410 }, { "epoch": 107.22666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002979022521806365, "loss": 0.3997, "step": 80420 }, { "epoch": 107.24, "grad_norm": 0.3515625, "learning_rate": 0.0002979017284067398, "loss": 0.3846, "step": 80430 }, { "epoch": 107.25333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002979012045679229, "loss": 0.3877, "step": 80440 }, { "epoch": 107.26666666666667, "grad_norm": 0.37890625, "learning_rate": 0.000297900680664186, "loss": 0.39, "step": 80450 }, { "epoch": 107.28, "grad_norm": 0.369140625, "learning_rate": 0.00029790015669552936, "loss": 0.4195, "step": 80460 }, { "epoch": 107.29333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029789963266195317, "loss": 0.375, "step": 80470 }, { "epoch": 107.30666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002978991085634576, "loss": 0.3986, "step": 80480 }, { "epoch": 107.32, "grad_norm": 0.357421875, "learning_rate": 0.000297898584400043, "loss": 0.4011, "step": 80490 }, { "epoch": 107.33333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002978980601717095, "loss": 0.4046, "step": 80500 }, { "epoch": 107.34666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002978975358784575, "loss": 0.3957, "step": 80510 }, { "epoch": 107.36, "grad_norm": 0.416015625, "learning_rate": 0.000297897011520287, "loss": 0.3955, "step": 80520 }, { "epoch": 107.37333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002978964870971984, "loss": 0.3973, "step": 80530 }, { "epoch": 107.38666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029789596260919185, "loss": 0.388, "step": 80540 }, { "epoch": 107.4, "grad_norm": 0.369140625, "learning_rate": 0.0002978954380562676, "loss": 0.3967, "step": 80550 }, { "epoch": 107.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029789491343842585, "loss": 0.4015, "step": 80560 }, { "epoch": 107.42666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002978943887556669, "loss": 0.402, "step": 80570 }, { "epoch": 107.44, "grad_norm": 0.376953125, "learning_rate": 0.0002978938640079909, "loss": 0.4126, "step": 80580 }, { "epoch": 107.45333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029789333919539814, "loss": 0.4033, "step": 80590 }, { "epoch": 107.46666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029789281431788885, "loss": 0.4108, "step": 80600 }, { "epoch": 107.48, "grad_norm": 0.3359375, "learning_rate": 0.0002978922893754632, "loss": 0.3928, "step": 80610 }, { "epoch": 107.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029789176436812153, "loss": 0.4048, "step": 80620 }, { "epoch": 107.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029789123929586394, "loss": 0.4018, "step": 80630 }, { "epoch": 107.52, "grad_norm": 0.30859375, "learning_rate": 0.00029789071415869077, "loss": 0.3932, "step": 80640 }, { "epoch": 107.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002978901889566022, "loss": 0.3952, "step": 80650 }, { "epoch": 107.54666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002978896636895984, "loss": 0.3984, "step": 80660 }, { "epoch": 107.56, "grad_norm": 0.341796875, "learning_rate": 0.0002978891383576797, "loss": 0.3928, "step": 80670 }, { "epoch": 107.57333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029788861296084636, "loss": 0.3957, "step": 80680 }, { "epoch": 107.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029788808749909847, "loss": 0.3842, "step": 80690 }, { "epoch": 107.6, "grad_norm": 0.369140625, "learning_rate": 0.00029788756197243635, "loss": 0.3862, "step": 80700 }, { "epoch": 107.61333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029788703638086023, "loss": 0.3763, "step": 80710 }, { "epoch": 107.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002978865107243703, "loss": 0.3808, "step": 80720 }, { "epoch": 107.64, "grad_norm": 0.349609375, "learning_rate": 0.0002978859850029669, "loss": 0.3944, "step": 80730 }, { "epoch": 107.65333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029788545921665007, "loss": 0.4029, "step": 80740 }, { "epoch": 107.66666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029788493336542027, "loss": 0.3912, "step": 80750 }, { "epoch": 107.68, "grad_norm": 0.384765625, "learning_rate": 0.0002978844074492775, "loss": 0.3826, "step": 80760 }, { "epoch": 107.69333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002978838814682222, "loss": 0.3915, "step": 80770 }, { "epoch": 107.70666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029788335542225443, "loss": 0.3838, "step": 80780 }, { "epoch": 107.72, "grad_norm": 0.373046875, "learning_rate": 0.00029788282931137453, "loss": 0.4069, "step": 80790 }, { "epoch": 107.73333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002978823031355827, "loss": 0.4, "step": 80800 }, { "epoch": 107.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002978817768948791, "loss": 0.4032, "step": 80810 }, { "epoch": 107.76, "grad_norm": 0.392578125, "learning_rate": 0.0002978812505892641, "loss": 0.4159, "step": 80820 }, { "epoch": 107.77333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002978807242187378, "loss": 0.4033, "step": 80830 }, { "epoch": 107.78666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002978801977833005, "loss": 0.4037, "step": 80840 }, { "epoch": 107.8, "grad_norm": 0.365234375, "learning_rate": 0.0002978796712829525, "loss": 0.4016, "step": 80850 }, { "epoch": 107.81333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029787914471769385, "loss": 0.3755, "step": 80860 }, { "epoch": 107.82666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029787861808752497, "loss": 0.3856, "step": 80870 }, { "epoch": 107.84, "grad_norm": 0.3828125, "learning_rate": 0.0002978780913924459, "loss": 0.3975, "step": 80880 }, { "epoch": 107.85333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029787756463245705, "loss": 0.3922, "step": 80890 }, { "epoch": 107.86666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029787703780755856, "loss": 0.3963, "step": 80900 }, { "epoch": 107.88, "grad_norm": 0.322265625, "learning_rate": 0.0002978765109177507, "loss": 0.3776, "step": 80910 }, { "epoch": 107.89333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029787598396303363, "loss": 0.3893, "step": 80920 }, { "epoch": 107.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029787545694340766, "loss": 0.3957, "step": 80930 }, { "epoch": 107.92, "grad_norm": 0.39453125, "learning_rate": 0.00029787492985887295, "loss": 0.3983, "step": 80940 }, { "epoch": 107.93333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002978744027094298, "loss": 0.3917, "step": 80950 }, { "epoch": 107.94666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029787387549507844, "loss": 0.3914, "step": 80960 }, { "epoch": 107.96, "grad_norm": 0.328125, "learning_rate": 0.00029787334821581907, "loss": 0.3905, "step": 80970 }, { "epoch": 107.97333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002978728208716519, "loss": 0.4158, "step": 80980 }, { "epoch": 107.98666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002978722934625772, "loss": 0.3891, "step": 80990 }, { "epoch": 108.0, "grad_norm": 0.349609375, "learning_rate": 0.0002978717659885952, "loss": 0.3842, "step": 81000 }, { "epoch": 108.0, "eval_loss": 0.42724087834358215, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7432, "eval_samples_per_second": 1.642, "eval_steps_per_second": 0.103, "step": 81000 }, { "epoch": 108.01333333333334, "grad_norm": 0.470703125, "learning_rate": 0.0002978712384497061, "loss": 0.4022, "step": 81010 }, { "epoch": 108.02666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002978707108459101, "loss": 0.4144, "step": 81020 }, { "epoch": 108.04, "grad_norm": 0.326171875, "learning_rate": 0.0002978701831772076, "loss": 0.4265, "step": 81030 }, { "epoch": 108.05333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002978696554435987, "loss": 0.4131, "step": 81040 }, { "epoch": 108.06666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029786912764508355, "loss": 0.3994, "step": 81050 }, { "epoch": 108.08, "grad_norm": 0.38671875, "learning_rate": 0.00029786859978166256, "loss": 0.4033, "step": 81060 }, { "epoch": 108.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029786807185333585, "loss": 0.4048, "step": 81070 }, { "epoch": 108.10666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002978675438601037, "loss": 0.3932, "step": 81080 }, { "epoch": 108.12, "grad_norm": 0.390625, "learning_rate": 0.00029786701580196634, "loss": 0.3975, "step": 81090 }, { "epoch": 108.13333333333334, "grad_norm": 0.375, "learning_rate": 0.000297866487678924, "loss": 0.3891, "step": 81100 }, { "epoch": 108.14666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002978659594909768, "loss": 0.4081, "step": 81110 }, { "epoch": 108.16, "grad_norm": 0.333984375, "learning_rate": 0.00029786543123812515, "loss": 0.4014, "step": 81120 }, { "epoch": 108.17333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002978649029203692, "loss": 0.3958, "step": 81130 }, { "epoch": 108.18666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002978643745377092, "loss": 0.3952, "step": 81140 }, { "epoch": 108.2, "grad_norm": 0.392578125, "learning_rate": 0.00029786384609014526, "loss": 0.3873, "step": 81150 }, { "epoch": 108.21333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002978633175776778, "loss": 0.3875, "step": 81160 }, { "epoch": 108.22666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029786278900030696, "loss": 0.4002, "step": 81170 }, { "epoch": 108.24, "grad_norm": 0.42578125, "learning_rate": 0.00029786226035803296, "loss": 0.3854, "step": 81180 }, { "epoch": 108.25333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002978617316508561, "loss": 0.3868, "step": 81190 }, { "epoch": 108.26666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002978612028787765, "loss": 0.3885, "step": 81200 }, { "epoch": 108.28, "grad_norm": 0.375, "learning_rate": 0.00029786067404179455, "loss": 0.4194, "step": 81210 }, { "epoch": 108.29333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002978601451399103, "loss": 0.3758, "step": 81220 }, { "epoch": 108.30666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002978596161731241, "loss": 0.3993, "step": 81230 }, { "epoch": 108.32, "grad_norm": 0.34375, "learning_rate": 0.0002978590871414362, "loss": 0.401, "step": 81240 }, { "epoch": 108.33333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029785855804484674, "loss": 0.4039, "step": 81250 }, { "epoch": 108.34666666666666, "grad_norm": 0.41015625, "learning_rate": 0.000297858028883356, "loss": 0.3942, "step": 81260 }, { "epoch": 108.36, "grad_norm": 0.447265625, "learning_rate": 0.0002978574996569642, "loss": 0.3953, "step": 81270 }, { "epoch": 108.37333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002978569703656716, "loss": 0.3966, "step": 81280 }, { "epoch": 108.38666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029785644100947844, "loss": 0.3887, "step": 81290 }, { "epoch": 108.4, "grad_norm": 0.337890625, "learning_rate": 0.0002978559115883849, "loss": 0.3961, "step": 81300 }, { "epoch": 108.41333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029785538210239126, "loss": 0.4009, "step": 81310 }, { "epoch": 108.42666666666666, "grad_norm": 0.375, "learning_rate": 0.0002978548525514977, "loss": 0.4018, "step": 81320 }, { "epoch": 108.44, "grad_norm": 0.359375, "learning_rate": 0.0002978543229357045, "loss": 0.4141, "step": 81330 }, { "epoch": 108.45333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029785379325501186, "loss": 0.4028, "step": 81340 }, { "epoch": 108.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029785326350942006, "loss": 0.4115, "step": 81350 }, { "epoch": 108.48, "grad_norm": 0.376953125, "learning_rate": 0.0002978527336989293, "loss": 0.3929, "step": 81360 }, { "epoch": 108.49333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002978522038235398, "loss": 0.4048, "step": 81370 }, { "epoch": 108.50666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029785167388325184, "loss": 0.4028, "step": 81380 }, { "epoch": 108.52, "grad_norm": 0.32421875, "learning_rate": 0.00029785114387806557, "loss": 0.3928, "step": 81390 }, { "epoch": 108.53333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029785061380798133, "loss": 0.396, "step": 81400 }, { "epoch": 108.54666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029785008367299925, "loss": 0.3982, "step": 81410 }, { "epoch": 108.56, "grad_norm": 0.3046875, "learning_rate": 0.0002978495534731196, "loss": 0.3912, "step": 81420 }, { "epoch": 108.57333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002978490232083427, "loss": 0.3961, "step": 81430 }, { "epoch": 108.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002978484928786686, "loss": 0.3844, "step": 81440 }, { "epoch": 108.6, "grad_norm": 0.35546875, "learning_rate": 0.0002978479624840977, "loss": 0.3855, "step": 81450 }, { "epoch": 108.61333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002978474320246301, "loss": 0.3769, "step": 81460 }, { "epoch": 108.62666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002978469015002662, "loss": 0.3813, "step": 81470 }, { "epoch": 108.64, "grad_norm": 0.373046875, "learning_rate": 0.0002978463709110061, "loss": 0.393, "step": 81480 }, { "epoch": 108.65333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029784584025685, "loss": 0.4034, "step": 81490 }, { "epoch": 108.66666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002978453095377983, "loss": 0.3899, "step": 81500 }, { "epoch": 108.68, "grad_norm": 0.3671875, "learning_rate": 0.00029784477875385114, "loss": 0.3816, "step": 81510 }, { "epoch": 108.69333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029784424790500866, "loss": 0.3903, "step": 81520 }, { "epoch": 108.70666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002978437169912712, "loss": 0.3844, "step": 81530 }, { "epoch": 108.72, "grad_norm": 0.365234375, "learning_rate": 0.000297843186012639, "loss": 0.4067, "step": 81540 }, { "epoch": 108.73333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002978426549691123, "loss": 0.4006, "step": 81550 }, { "epoch": 108.74666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002978421238606912, "loss": 0.4034, "step": 81560 }, { "epoch": 108.76, "grad_norm": 0.34765625, "learning_rate": 0.00029784159268737614, "loss": 0.4168, "step": 81570 }, { "epoch": 108.77333333333333, "grad_norm": 0.484375, "learning_rate": 0.0002978410614491672, "loss": 0.4034, "step": 81580 }, { "epoch": 108.78666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029784053014606464, "loss": 0.4035, "step": 81590 }, { "epoch": 108.8, "grad_norm": 0.4140625, "learning_rate": 0.0002978399987780687, "loss": 0.4024, "step": 81600 }, { "epoch": 108.81333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029783946734517964, "loss": 0.3757, "step": 81610 }, { "epoch": 108.82666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002978389358473977, "loss": 0.3857, "step": 81620 }, { "epoch": 108.84, "grad_norm": 0.4140625, "learning_rate": 0.0002978384042847231, "loss": 0.3971, "step": 81630 }, { "epoch": 108.85333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002978378726571561, "loss": 0.3926, "step": 81640 }, { "epoch": 108.86666666666666, "grad_norm": 0.375, "learning_rate": 0.0002978373409646968, "loss": 0.3975, "step": 81650 }, { "epoch": 108.88, "grad_norm": 0.3984375, "learning_rate": 0.0002978368092073456, "loss": 0.3774, "step": 81660 }, { "epoch": 108.89333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002978362773851026, "loss": 0.389, "step": 81670 }, { "epoch": 108.90666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029783574549796814, "loss": 0.3967, "step": 81680 }, { "epoch": 108.92, "grad_norm": 0.400390625, "learning_rate": 0.0002978352135459424, "loss": 0.3984, "step": 81690 }, { "epoch": 108.93333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0002978346815290257, "loss": 0.3913, "step": 81700 }, { "epoch": 108.94666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029783414944721813, "loss": 0.393, "step": 81710 }, { "epoch": 108.96, "grad_norm": 0.330078125, "learning_rate": 0.00029783361730051995, "loss": 0.3901, "step": 81720 }, { "epoch": 108.97333333333333, "grad_norm": 0.447265625, "learning_rate": 0.00029783308508893146, "loss": 0.4157, "step": 81730 }, { "epoch": 108.98666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002978325528124529, "loss": 0.3889, "step": 81740 }, { "epoch": 109.0, "grad_norm": 0.3671875, "learning_rate": 0.0002978320204710845, "loss": 0.3835, "step": 81750 }, { "epoch": 109.0, "eval_loss": 0.4269210398197174, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9391, "eval_samples_per_second": 1.61, "eval_steps_per_second": 0.101, "step": 81750 }, { "epoch": 109.01333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029783148806482643, "loss": 0.401, "step": 81760 }, { "epoch": 109.02666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002978309555936789, "loss": 0.4143, "step": 81770 }, { "epoch": 109.04, "grad_norm": 0.404296875, "learning_rate": 0.0002978304230576423, "loss": 0.4274, "step": 81780 }, { "epoch": 109.05333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029782989045671677, "loss": 0.4135, "step": 81790 }, { "epoch": 109.06666666666666, "grad_norm": 0.375, "learning_rate": 0.00029782935779090253, "loss": 0.4008, "step": 81800 }, { "epoch": 109.08, "grad_norm": 0.404296875, "learning_rate": 0.0002978288250601998, "loss": 0.4031, "step": 81810 }, { "epoch": 109.09333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002978282922646088, "loss": 0.404, "step": 81820 }, { "epoch": 109.10666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002978277594041299, "loss": 0.3923, "step": 81830 }, { "epoch": 109.12, "grad_norm": 0.36328125, "learning_rate": 0.0002978272264787631, "loss": 0.3979, "step": 81840 }, { "epoch": 109.13333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0002978266934885089, "loss": 0.3889, "step": 81850 }, { "epoch": 109.14666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002978261604333674, "loss": 0.4074, "step": 81860 }, { "epoch": 109.16, "grad_norm": 0.349609375, "learning_rate": 0.0002978256273133388, "loss": 0.4008, "step": 81870 }, { "epoch": 109.17333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029782509412842336, "loss": 0.3954, "step": 81880 }, { "epoch": 109.18666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002978245608786213, "loss": 0.3958, "step": 81890 }, { "epoch": 109.2, "grad_norm": 0.345703125, "learning_rate": 0.000297824027563933, "loss": 0.3871, "step": 81900 }, { "epoch": 109.21333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002978234941843585, "loss": 0.3879, "step": 81910 }, { "epoch": 109.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029782296073989806, "loss": 0.3995, "step": 81920 }, { "epoch": 109.24, "grad_norm": 0.37109375, "learning_rate": 0.00029782242723055204, "loss": 0.3848, "step": 81930 }, { "epoch": 109.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002978218936563206, "loss": 0.3876, "step": 81940 }, { "epoch": 109.26666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029782136001720385, "loss": 0.3896, "step": 81950 }, { "epoch": 109.28, "grad_norm": 0.404296875, "learning_rate": 0.0002978208263132023, "loss": 0.4189, "step": 81960 }, { "epoch": 109.29333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029782029254431594, "loss": 0.3763, "step": 81970 }, { "epoch": 109.30666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029781975871054513, "loss": 0.3993, "step": 81980 }, { "epoch": 109.32, "grad_norm": 0.33984375, "learning_rate": 0.00029781922481189, "loss": 0.4017, "step": 81990 }, { "epoch": 109.33333333333333, "grad_norm": 0.359375, "learning_rate": 0.000297818690848351, "loss": 0.4046, "step": 82000 }, { "epoch": 109.34666666666666, "grad_norm": 0.47265625, "learning_rate": 0.0002978181568199281, "loss": 0.3949, "step": 82010 }, { "epoch": 109.36, "grad_norm": 0.43359375, "learning_rate": 0.0002978176227266217, "loss": 0.3951, "step": 82020 }, { "epoch": 109.37333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029781708856843196, "loss": 0.3958, "step": 82030 }, { "epoch": 109.38666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002978165543453592, "loss": 0.3884, "step": 82040 }, { "epoch": 109.4, "grad_norm": 0.390625, "learning_rate": 0.0002978160200574035, "loss": 0.3972, "step": 82050 }, { "epoch": 109.41333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029781548570456527, "loss": 0.4008, "step": 82060 }, { "epoch": 109.42666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029781495128684463, "loss": 0.4023, "step": 82070 }, { "epoch": 109.44, "grad_norm": 0.396484375, "learning_rate": 0.0002978144168042418, "loss": 0.4137, "step": 82080 }, { "epoch": 109.45333333333333, "grad_norm": 0.427734375, "learning_rate": 0.00029781388225675714, "loss": 0.4021, "step": 82090 }, { "epoch": 109.46666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029781334764439083, "loss": 0.4117, "step": 82100 }, { "epoch": 109.48, "grad_norm": 0.369140625, "learning_rate": 0.00029781281296714304, "loss": 0.3917, "step": 82110 }, { "epoch": 109.49333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029781227822501405, "loss": 0.4049, "step": 82120 }, { "epoch": 109.50666666666666, "grad_norm": 0.349609375, "learning_rate": 0.00029781174341800406, "loss": 0.4016, "step": 82130 }, { "epoch": 109.52, "grad_norm": 0.357421875, "learning_rate": 0.0002978112085461134, "loss": 0.392, "step": 82140 }, { "epoch": 109.53333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002978106736093422, "loss": 0.3953, "step": 82150 }, { "epoch": 109.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002978101386076907, "loss": 0.398, "step": 82160 }, { "epoch": 109.56, "grad_norm": 0.3125, "learning_rate": 0.0002978096035411593, "loss": 0.3924, "step": 82170 }, { "epoch": 109.57333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029780906840974803, "loss": 0.3945, "step": 82180 }, { "epoch": 109.58666666666667, "grad_norm": 0.375, "learning_rate": 0.0002978085332134572, "loss": 0.3849, "step": 82190 }, { "epoch": 109.6, "grad_norm": 0.333984375, "learning_rate": 0.000297807997952287, "loss": 0.3859, "step": 82200 }, { "epoch": 109.61333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0002978074626262378, "loss": 0.3758, "step": 82210 }, { "epoch": 109.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029780692723530965, "loss": 0.3798, "step": 82220 }, { "epoch": 109.64, "grad_norm": 0.34375, "learning_rate": 0.00029780639177950295, "loss": 0.3938, "step": 82230 }, { "epoch": 109.65333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029780585625881786, "loss": 0.402, "step": 82240 }, { "epoch": 109.66666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002978053206732546, "loss": 0.3899, "step": 82250 }, { "epoch": 109.68, "grad_norm": 0.36328125, "learning_rate": 0.00029780478502281345, "loss": 0.3819, "step": 82260 }, { "epoch": 109.69333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002978042493074946, "loss": 0.3911, "step": 82270 }, { "epoch": 109.70666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029780371352729836, "loss": 0.3848, "step": 82280 }, { "epoch": 109.72, "grad_norm": 0.36328125, "learning_rate": 0.00029780317768222486, "loss": 0.4061, "step": 82290 }, { "epoch": 109.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002978026417722744, "loss": 0.4006, "step": 82300 }, { "epoch": 109.74666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029780210579744714, "loss": 0.4035, "step": 82310 }, { "epoch": 109.76, "grad_norm": 0.39453125, "learning_rate": 0.00029780156975774347, "loss": 0.4158, "step": 82320 }, { "epoch": 109.77333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002978010336531635, "loss": 0.4029, "step": 82330 }, { "epoch": 109.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002978004974837075, "loss": 0.403, "step": 82340 }, { "epoch": 109.8, "grad_norm": 0.376953125, "learning_rate": 0.0002977999612493757, "loss": 0.4016, "step": 82350 }, { "epoch": 109.81333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002977994249501684, "loss": 0.3762, "step": 82360 }, { "epoch": 109.82666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002977988885860857, "loss": 0.3854, "step": 82370 }, { "epoch": 109.84, "grad_norm": 0.38671875, "learning_rate": 0.00029779835215712795, "loss": 0.3963, "step": 82380 }, { "epoch": 109.85333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029779781566329524, "loss": 0.3918, "step": 82390 }, { "epoch": 109.86666666666666, "grad_norm": 0.375, "learning_rate": 0.00029779727910458806, "loss": 0.397, "step": 82400 }, { "epoch": 109.88, "grad_norm": 0.375, "learning_rate": 0.0002977967424810064, "loss": 0.3774, "step": 82410 }, { "epoch": 109.89333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002977962057925506, "loss": 0.3883, "step": 82420 }, { "epoch": 109.90666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029779566903922095, "loss": 0.3958, "step": 82430 }, { "epoch": 109.92, "grad_norm": 0.40234375, "learning_rate": 0.00029779513222101756, "loss": 0.3979, "step": 82440 }, { "epoch": 109.93333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029779459533794077, "loss": 0.3917, "step": 82450 }, { "epoch": 109.94666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029779405838999075, "loss": 0.3922, "step": 82460 }, { "epoch": 109.96, "grad_norm": 0.341796875, "learning_rate": 0.00029779352137716776, "loss": 0.39, "step": 82470 }, { "epoch": 109.97333333333333, "grad_norm": 0.419921875, "learning_rate": 0.000297792984299472, "loss": 0.4152, "step": 82480 }, { "epoch": 109.98666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002977924471569038, "loss": 0.3883, "step": 82490 }, { "epoch": 110.0, "grad_norm": 0.3984375, "learning_rate": 0.0002977919099494633, "loss": 0.3842, "step": 82500 }, { "epoch": 110.0, "eval_loss": 0.42733293771743774, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8538, "eval_samples_per_second": 1.624, "eval_steps_per_second": 0.101, "step": 82500 }, { "epoch": 110.01333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029779137267715085, "loss": 0.4014, "step": 82510 }, { "epoch": 110.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029779083533996656, "loss": 0.4143, "step": 82520 }, { "epoch": 110.04, "grad_norm": 0.376953125, "learning_rate": 0.0002977902979379107, "loss": 0.4263, "step": 82530 }, { "epoch": 110.05333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002977897604709835, "loss": 0.4131, "step": 82540 }, { "epoch": 110.06666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029778922293918525, "loss": 0.3997, "step": 82550 }, { "epoch": 110.08, "grad_norm": 0.40625, "learning_rate": 0.00029778868534251614, "loss": 0.4034, "step": 82560 }, { "epoch": 110.09333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029778814768097645, "loss": 0.4039, "step": 82570 }, { "epoch": 110.10666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002977876099545664, "loss": 0.3924, "step": 82580 }, { "epoch": 110.12, "grad_norm": 0.37890625, "learning_rate": 0.00029778707216328613, "loss": 0.3968, "step": 82590 }, { "epoch": 110.13333333333334, "grad_norm": 0.3515625, "learning_rate": 0.000297786534307136, "loss": 0.3891, "step": 82600 }, { "epoch": 110.14666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002977859963861162, "loss": 0.408, "step": 82610 }, { "epoch": 110.16, "grad_norm": 0.349609375, "learning_rate": 0.00029778545840022697, "loss": 0.4018, "step": 82620 }, { "epoch": 110.17333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029778492034946856, "loss": 0.3962, "step": 82630 }, { "epoch": 110.18666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029778438223384114, "loss": 0.3947, "step": 82640 }, { "epoch": 110.2, "grad_norm": 0.40234375, "learning_rate": 0.00029778384405334504, "loss": 0.3867, "step": 82650 }, { "epoch": 110.21333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002977833058079805, "loss": 0.3887, "step": 82660 }, { "epoch": 110.22666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029778276749774766, "loss": 0.3995, "step": 82670 }, { "epoch": 110.24, "grad_norm": 0.404296875, "learning_rate": 0.00029778222912264676, "loss": 0.3841, "step": 82680 }, { "epoch": 110.25333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029778169068267815, "loss": 0.3863, "step": 82690 }, { "epoch": 110.26666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029778115217784194, "loss": 0.3883, "step": 82700 }, { "epoch": 110.28, "grad_norm": 0.376953125, "learning_rate": 0.00029778061360813846, "loss": 0.4188, "step": 82710 }, { "epoch": 110.29333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002977800749735679, "loss": 0.3757, "step": 82720 }, { "epoch": 110.30666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0002977795362741306, "loss": 0.3997, "step": 82730 }, { "epoch": 110.32, "grad_norm": 0.34375, "learning_rate": 0.0002977789975098266, "loss": 0.4006, "step": 82740 }, { "epoch": 110.33333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029777845868065624, "loss": 0.4046, "step": 82750 }, { "epoch": 110.34666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002977779197866198, "loss": 0.3948, "step": 82760 }, { "epoch": 110.36, "grad_norm": 0.46484375, "learning_rate": 0.00029777738082771744, "loss": 0.395, "step": 82770 }, { "epoch": 110.37333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002977768418039495, "loss": 0.3957, "step": 82780 }, { "epoch": 110.38666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029777630271531606, "loss": 0.3897, "step": 82790 }, { "epoch": 110.4, "grad_norm": 0.37890625, "learning_rate": 0.00029777576356181747, "loss": 0.3962, "step": 82800 }, { "epoch": 110.41333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029777522434345393, "loss": 0.4009, "step": 82810 }, { "epoch": 110.42666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002977746850602257, "loss": 0.402, "step": 82820 }, { "epoch": 110.44, "grad_norm": 0.421875, "learning_rate": 0.00029777414571213306, "loss": 0.4133, "step": 82830 }, { "epoch": 110.45333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002977736062991761, "loss": 0.4019, "step": 82840 }, { "epoch": 110.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029777306682135524, "loss": 0.4114, "step": 82850 }, { "epoch": 110.48, "grad_norm": 0.412109375, "learning_rate": 0.00029777252727867056, "loss": 0.3935, "step": 82860 }, { "epoch": 110.49333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029777198767112236, "loss": 0.4044, "step": 82870 }, { "epoch": 110.50666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002977714479987109, "loss": 0.4031, "step": 82880 }, { "epoch": 110.52, "grad_norm": 0.3515625, "learning_rate": 0.0002977709082614364, "loss": 0.3926, "step": 82890 }, { "epoch": 110.53333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029777036845929903, "loss": 0.3962, "step": 82900 }, { "epoch": 110.54666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002977698285922992, "loss": 0.398, "step": 82910 }, { "epoch": 110.56, "grad_norm": 0.375, "learning_rate": 0.00029776928866043694, "loss": 0.3917, "step": 82920 }, { "epoch": 110.57333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029776874866371263, "loss": 0.3959, "step": 82930 }, { "epoch": 110.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029776820860212647, "loss": 0.384, "step": 82940 }, { "epoch": 110.6, "grad_norm": 0.357421875, "learning_rate": 0.0002977676684756786, "loss": 0.3858, "step": 82950 }, { "epoch": 110.61333333333333, "grad_norm": 0.30078125, "learning_rate": 0.00029776712828436945, "loss": 0.3748, "step": 82960 }, { "epoch": 110.62666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0002977665880281991, "loss": 0.38, "step": 82970 }, { "epoch": 110.64, "grad_norm": 0.369140625, "learning_rate": 0.0002977660477071678, "loss": 0.3939, "step": 82980 }, { "epoch": 110.65333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002977655073212759, "loss": 0.4032, "step": 82990 }, { "epoch": 110.66666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029776496687052354, "loss": 0.3905, "step": 83000 }, { "epoch": 110.68, "grad_norm": 0.423828125, "learning_rate": 0.00029776442635491096, "loss": 0.381, "step": 83010 }, { "epoch": 110.69333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029776388577443843, "loss": 0.3919, "step": 83020 }, { "epoch": 110.70666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029776334512910616, "loss": 0.385, "step": 83030 }, { "epoch": 110.72, "grad_norm": 0.384765625, "learning_rate": 0.00029776280441891443, "loss": 0.4074, "step": 83040 }, { "epoch": 110.73333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029776226364386344, "loss": 0.4017, "step": 83050 }, { "epoch": 110.74666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002977617228039534, "loss": 0.4025, "step": 83060 }, { "epoch": 110.76, "grad_norm": 0.384765625, "learning_rate": 0.00029776118189918464, "loss": 0.4156, "step": 83070 }, { "epoch": 110.77333333333333, "grad_norm": 0.498046875, "learning_rate": 0.0002977606409295573, "loss": 0.4023, "step": 83080 }, { "epoch": 110.78666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0002977600998950717, "loss": 0.4042, "step": 83090 }, { "epoch": 110.8, "grad_norm": 0.37109375, "learning_rate": 0.000297759558795728, "loss": 0.4011, "step": 83100 }, { "epoch": 110.81333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002977590176315264, "loss": 0.3743, "step": 83110 }, { "epoch": 110.82666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029775847640246735, "loss": 0.3839, "step": 83120 }, { "epoch": 110.84, "grad_norm": 0.388671875, "learning_rate": 0.0002977579351085509, "loss": 0.3965, "step": 83130 }, { "epoch": 110.85333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002977573937497773, "loss": 0.3926, "step": 83140 }, { "epoch": 110.86666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002977568523261469, "loss": 0.3968, "step": 83150 }, { "epoch": 110.88, "grad_norm": 0.34765625, "learning_rate": 0.0002977563108376598, "loss": 0.3781, "step": 83160 }, { "epoch": 110.89333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002977557692843163, "loss": 0.3884, "step": 83170 }, { "epoch": 110.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029775522766611667, "loss": 0.3958, "step": 83180 }, { "epoch": 110.92, "grad_norm": 0.3828125, "learning_rate": 0.00029775468598306105, "loss": 0.3979, "step": 83190 }, { "epoch": 110.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002977541442351498, "loss": 0.3907, "step": 83200 }, { "epoch": 110.94666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002977536024223831, "loss": 0.3926, "step": 83210 }, { "epoch": 110.96, "grad_norm": 0.345703125, "learning_rate": 0.0002977530605447612, "loss": 0.3898, "step": 83220 }, { "epoch": 110.97333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002977525186022843, "loss": 0.4146, "step": 83230 }, { "epoch": 110.98666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029775197659495265, "loss": 0.3886, "step": 83240 }, { "epoch": 111.0, "grad_norm": 0.3671875, "learning_rate": 0.0002977514345227665, "loss": 0.3848, "step": 83250 }, { "epoch": 111.0, "eval_loss": 0.4272749125957489, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1705, "eval_samples_per_second": 1.573, "eval_steps_per_second": 0.098, "step": 83250 }, { "epoch": 111.01333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029775089238572613, "loss": 0.4018, "step": 83260 }, { "epoch": 111.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002977503501838317, "loss": 0.4133, "step": 83270 }, { "epoch": 111.04, "grad_norm": 0.330078125, "learning_rate": 0.00029774980791708353, "loss": 0.4263, "step": 83280 }, { "epoch": 111.05333333333333, "grad_norm": 0.33984375, "learning_rate": 0.00029774926558548176, "loss": 0.4134, "step": 83290 }, { "epoch": 111.06666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002977487231890267, "loss": 0.3999, "step": 83300 }, { "epoch": 111.08, "grad_norm": 0.375, "learning_rate": 0.00029774818072771857, "loss": 0.4037, "step": 83310 }, { "epoch": 111.09333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002977476382015576, "loss": 0.4048, "step": 83320 }, { "epoch": 111.10666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029774709561054407, "loss": 0.3924, "step": 83330 }, { "epoch": 111.12, "grad_norm": 0.34765625, "learning_rate": 0.00029774655295467813, "loss": 0.3972, "step": 83340 }, { "epoch": 111.13333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002977460102339601, "loss": 0.3889, "step": 83350 }, { "epoch": 111.14666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002977454674483902, "loss": 0.4071, "step": 83360 }, { "epoch": 111.16, "grad_norm": 0.359375, "learning_rate": 0.0002977449245979686, "loss": 0.401, "step": 83370 }, { "epoch": 111.17333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002977443816826957, "loss": 0.3955, "step": 83380 }, { "epoch": 111.18666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002977438387025716, "loss": 0.394, "step": 83390 }, { "epoch": 111.2, "grad_norm": 0.408203125, "learning_rate": 0.00029774329565759655, "loss": 0.3876, "step": 83400 }, { "epoch": 111.21333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002977427525477708, "loss": 0.3889, "step": 83410 }, { "epoch": 111.22666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029774220937309464, "loss": 0.399, "step": 83420 }, { "epoch": 111.24, "grad_norm": 0.40234375, "learning_rate": 0.00029774166613356825, "loss": 0.3849, "step": 83430 }, { "epoch": 111.25333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002977411228291919, "loss": 0.3868, "step": 83440 }, { "epoch": 111.26666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029774057945996575, "loss": 0.3885, "step": 83450 }, { "epoch": 111.28, "grad_norm": 0.328125, "learning_rate": 0.0002977400360258902, "loss": 0.4191, "step": 83460 }, { "epoch": 111.29333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002977394925269654, "loss": 0.375, "step": 83470 }, { "epoch": 111.30666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002977389489631915, "loss": 0.3979, "step": 83480 }, { "epoch": 111.32, "grad_norm": 0.31640625, "learning_rate": 0.00029773840533456883, "loss": 0.4003, "step": 83490 }, { "epoch": 111.33333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002977378616410976, "loss": 0.4042, "step": 83500 }, { "epoch": 111.34666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029773731788277816, "loss": 0.3941, "step": 83510 }, { "epoch": 111.36, "grad_norm": 0.443359375, "learning_rate": 0.0002977367740596106, "loss": 0.3949, "step": 83520 }, { "epoch": 111.37333333333333, "grad_norm": 0.333984375, "learning_rate": 0.00029773623017159516, "loss": 0.3963, "step": 83530 }, { "epoch": 111.38666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002977356862187322, "loss": 0.3887, "step": 83540 }, { "epoch": 111.4, "grad_norm": 0.359375, "learning_rate": 0.00029773514220102193, "loss": 0.395, "step": 83550 }, { "epoch": 111.41333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002977345981184645, "loss": 0.4003, "step": 83560 }, { "epoch": 111.42666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002977340539710602, "loss": 0.402, "step": 83570 }, { "epoch": 111.44, "grad_norm": 0.373046875, "learning_rate": 0.0002977335097588093, "loss": 0.4129, "step": 83580 }, { "epoch": 111.45333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029773296548171193, "loss": 0.4028, "step": 83590 }, { "epoch": 111.46666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029773242113976845, "loss": 0.4105, "step": 83600 }, { "epoch": 111.48, "grad_norm": 0.3671875, "learning_rate": 0.0002977318767329791, "loss": 0.3926, "step": 83610 }, { "epoch": 111.49333333333334, "grad_norm": 0.392578125, "learning_rate": 0.000297731332261344, "loss": 0.404, "step": 83620 }, { "epoch": 111.50666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002977307877248635, "loss": 0.4023, "step": 83630 }, { "epoch": 111.52, "grad_norm": 0.3671875, "learning_rate": 0.0002977302431235378, "loss": 0.3931, "step": 83640 }, { "epoch": 111.53333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002977296984573672, "loss": 0.3957, "step": 83650 }, { "epoch": 111.54666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002977291537263518, "loss": 0.3975, "step": 83660 }, { "epoch": 111.56, "grad_norm": 0.373046875, "learning_rate": 0.0002977286089304919, "loss": 0.3912, "step": 83670 }, { "epoch": 111.57333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002977280640697878, "loss": 0.3955, "step": 83680 }, { "epoch": 111.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002977275191442397, "loss": 0.3836, "step": 83690 }, { "epoch": 111.6, "grad_norm": 0.326171875, "learning_rate": 0.00029772697415384787, "loss": 0.386, "step": 83700 }, { "epoch": 111.61333333333333, "grad_norm": 0.375, "learning_rate": 0.0002977264290986125, "loss": 0.3753, "step": 83710 }, { "epoch": 111.62666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0002977258839785338, "loss": 0.3798, "step": 83720 }, { "epoch": 111.64, "grad_norm": 0.357421875, "learning_rate": 0.0002977253387936121, "loss": 0.3932, "step": 83730 }, { "epoch": 111.65333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002977247935438476, "loss": 0.4023, "step": 83740 }, { "epoch": 111.66666666666667, "grad_norm": 0.375, "learning_rate": 0.00029772424822924046, "loss": 0.3897, "step": 83750 }, { "epoch": 111.68, "grad_norm": 0.369140625, "learning_rate": 0.00029772370284979107, "loss": 0.382, "step": 83760 }, { "epoch": 111.69333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029772315740549956, "loss": 0.392, "step": 83770 }, { "epoch": 111.70666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002977226118963662, "loss": 0.3842, "step": 83780 }, { "epoch": 111.72, "grad_norm": 0.388671875, "learning_rate": 0.0002977220663223912, "loss": 0.4072, "step": 83790 }, { "epoch": 111.73333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002977215206835749, "loss": 0.4005, "step": 83800 }, { "epoch": 111.74666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002977209749799174, "loss": 0.403, "step": 83810 }, { "epoch": 111.76, "grad_norm": 0.37890625, "learning_rate": 0.0002977204292114191, "loss": 0.4159, "step": 83820 }, { "epoch": 111.77333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029771988337808005, "loss": 0.403, "step": 83830 }, { "epoch": 111.78666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029771933747990063, "loss": 0.4044, "step": 83840 }, { "epoch": 111.8, "grad_norm": 0.4296875, "learning_rate": 0.00029771879151688105, "loss": 0.4011, "step": 83850 }, { "epoch": 111.81333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029771824548902156, "loss": 0.3744, "step": 83860 }, { "epoch": 111.82666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029771769939632235, "loss": 0.3847, "step": 83870 }, { "epoch": 111.84, "grad_norm": 0.40234375, "learning_rate": 0.00029771715323878366, "loss": 0.3962, "step": 83880 }, { "epoch": 111.85333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002977166070164058, "loss": 0.3914, "step": 83890 }, { "epoch": 111.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029771606072918894, "loss": 0.3968, "step": 83900 }, { "epoch": 111.88, "grad_norm": 0.40234375, "learning_rate": 0.0002977155143771333, "loss": 0.3773, "step": 83910 }, { "epoch": 111.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002977149679602393, "loss": 0.3889, "step": 83920 }, { "epoch": 111.90666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029771442147850696, "loss": 0.3953, "step": 83930 }, { "epoch": 111.92, "grad_norm": 0.34765625, "learning_rate": 0.0002977138749319366, "loss": 0.3974, "step": 83940 }, { "epoch": 111.93333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002977133283205285, "loss": 0.3904, "step": 83950 }, { "epoch": 111.94666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002977127816442828, "loss": 0.392, "step": 83960 }, { "epoch": 111.96, "grad_norm": 0.361328125, "learning_rate": 0.0002977122349031999, "loss": 0.3889, "step": 83970 }, { "epoch": 111.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002977116880972799, "loss": 0.415, "step": 83980 }, { "epoch": 111.98666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002977111412265231, "loss": 0.3883, "step": 83990 }, { "epoch": 112.0, "grad_norm": 0.3515625, "learning_rate": 0.0002977105942909297, "loss": 0.3842, "step": 84000 }, { "epoch": 112.0, "eval_loss": 0.42895448207855225, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7574, "eval_samples_per_second": 1.64, "eval_steps_per_second": 0.102, "step": 84000 }, { "epoch": 112.01333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029771004729049993, "loss": 0.4014, "step": 84010 }, { "epoch": 112.02666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002977095002252341, "loss": 0.4136, "step": 84020 }, { "epoch": 112.04, "grad_norm": 0.34375, "learning_rate": 0.0002977089530951325, "loss": 0.4255, "step": 84030 }, { "epoch": 112.05333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002977084059001952, "loss": 0.4129, "step": 84040 }, { "epoch": 112.06666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002977078586404225, "loss": 0.4001, "step": 84050 }, { "epoch": 112.08, "grad_norm": 0.41015625, "learning_rate": 0.00029770731131581474, "loss": 0.4032, "step": 84060 }, { "epoch": 112.09333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029770676392637204, "loss": 0.4047, "step": 84070 }, { "epoch": 112.10666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002977062164720947, "loss": 0.3919, "step": 84080 }, { "epoch": 112.12, "grad_norm": 0.447265625, "learning_rate": 0.00029770566895298296, "loss": 0.398, "step": 84090 }, { "epoch": 112.13333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029770512136903705, "loss": 0.3893, "step": 84100 }, { "epoch": 112.14666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002977045737202572, "loss": 0.4078, "step": 84110 }, { "epoch": 112.16, "grad_norm": 0.365234375, "learning_rate": 0.00029770402600664365, "loss": 0.4011, "step": 84120 }, { "epoch": 112.17333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029770347822819665, "loss": 0.395, "step": 84130 }, { "epoch": 112.18666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029770293038491646, "loss": 0.3946, "step": 84140 }, { "epoch": 112.2, "grad_norm": 0.431640625, "learning_rate": 0.00029770238247680327, "loss": 0.3879, "step": 84150 }, { "epoch": 112.21333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002977018345038574, "loss": 0.3881, "step": 84160 }, { "epoch": 112.22666666666667, "grad_norm": 0.41796875, "learning_rate": 0.000297701286466079, "loss": 0.3993, "step": 84170 }, { "epoch": 112.24, "grad_norm": 0.400390625, "learning_rate": 0.0002977007383634683, "loss": 0.3854, "step": 84180 }, { "epoch": 112.25333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002977001901960257, "loss": 0.3867, "step": 84190 }, { "epoch": 112.26666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029769964196375127, "loss": 0.3885, "step": 84200 }, { "epoch": 112.28, "grad_norm": 0.408203125, "learning_rate": 0.0002976990936666453, "loss": 0.4196, "step": 84210 }, { "epoch": 112.29333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002976985453047081, "loss": 0.3746, "step": 84220 }, { "epoch": 112.30666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002976979968779398, "loss": 0.3982, "step": 84230 }, { "epoch": 112.32, "grad_norm": 0.3359375, "learning_rate": 0.00029769744838634073, "loss": 0.3998, "step": 84240 }, { "epoch": 112.33333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002976968998299111, "loss": 0.4043, "step": 84250 }, { "epoch": 112.34666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029769635120865115, "loss": 0.3942, "step": 84260 }, { "epoch": 112.36, "grad_norm": 0.458984375, "learning_rate": 0.00029769580252256105, "loss": 0.3955, "step": 84270 }, { "epoch": 112.37333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002976952537716412, "loss": 0.3957, "step": 84280 }, { "epoch": 112.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002976947049558917, "loss": 0.388, "step": 84290 }, { "epoch": 112.4, "grad_norm": 0.3671875, "learning_rate": 0.00029769415607531287, "loss": 0.3949, "step": 84300 }, { "epoch": 112.41333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029769360712990486, "loss": 0.4, "step": 84310 }, { "epoch": 112.42666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029769305811966807, "loss": 0.401, "step": 84320 }, { "epoch": 112.44, "grad_norm": 0.38671875, "learning_rate": 0.0002976925090446026, "loss": 0.413, "step": 84330 }, { "epoch": 112.45333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029769195990470866, "loss": 0.4022, "step": 84340 }, { "epoch": 112.46666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029769141069998665, "loss": 0.4109, "step": 84350 }, { "epoch": 112.48, "grad_norm": 0.4296875, "learning_rate": 0.0002976908614304367, "loss": 0.392, "step": 84360 }, { "epoch": 112.49333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002976903120960591, "loss": 0.4045, "step": 84370 }, { "epoch": 112.50666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029768976269685404, "loss": 0.402, "step": 84380 }, { "epoch": 112.52, "grad_norm": 0.357421875, "learning_rate": 0.0002976892132328218, "loss": 0.3929, "step": 84390 }, { "epoch": 112.53333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002976886637039626, "loss": 0.3948, "step": 84400 }, { "epoch": 112.54666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029768811411027673, "loss": 0.397, "step": 84410 }, { "epoch": 112.56, "grad_norm": 0.361328125, "learning_rate": 0.00029768756445176434, "loss": 0.3924, "step": 84420 }, { "epoch": 112.57333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029768701472842577, "loss": 0.3957, "step": 84430 }, { "epoch": 112.58666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029768646494026117, "loss": 0.3843, "step": 84440 }, { "epoch": 112.6, "grad_norm": 0.341796875, "learning_rate": 0.0002976859150872709, "loss": 0.3855, "step": 84450 }, { "epoch": 112.61333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029768536516945507, "loss": 0.3756, "step": 84460 }, { "epoch": 112.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.000297684815186814, "loss": 0.3809, "step": 84470 }, { "epoch": 112.64, "grad_norm": 0.421875, "learning_rate": 0.0002976842651393479, "loss": 0.3932, "step": 84480 }, { "epoch": 112.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.000297683715027057, "loss": 0.4024, "step": 84490 }, { "epoch": 112.66666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002976831648499416, "loss": 0.3895, "step": 84500 }, { "epoch": 112.68, "grad_norm": 0.390625, "learning_rate": 0.00029768261460800193, "loss": 0.3816, "step": 84510 }, { "epoch": 112.69333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002976820643012382, "loss": 0.3914, "step": 84520 }, { "epoch": 112.70666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002976815139296506, "loss": 0.3837, "step": 84530 }, { "epoch": 112.72, "grad_norm": 0.404296875, "learning_rate": 0.0002976809634932395, "loss": 0.407, "step": 84540 }, { "epoch": 112.73333333333333, "grad_norm": 0.39453125, "learning_rate": 0.000297680412992005, "loss": 0.4004, "step": 84550 }, { "epoch": 112.74666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029767986242594746, "loss": 0.4024, "step": 84560 }, { "epoch": 112.76, "grad_norm": 0.42578125, "learning_rate": 0.00029767931179506705, "loss": 0.4149, "step": 84570 }, { "epoch": 112.77333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002976787610993641, "loss": 0.4024, "step": 84580 }, { "epoch": 112.78666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029767821033883875, "loss": 0.4024, "step": 84590 }, { "epoch": 112.8, "grad_norm": 0.37109375, "learning_rate": 0.0002976776595134912, "loss": 0.4003, "step": 84600 }, { "epoch": 112.81333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029767710862332186, "loss": 0.376, "step": 84610 }, { "epoch": 112.82666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002976765576683309, "loss": 0.3842, "step": 84620 }, { "epoch": 112.84, "grad_norm": 0.41015625, "learning_rate": 0.0002976760066485185, "loss": 0.3957, "step": 84630 }, { "epoch": 112.85333333333334, "grad_norm": 0.384765625, "learning_rate": 0.000297675455563885, "loss": 0.3916, "step": 84640 }, { "epoch": 112.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029767490441443055, "loss": 0.3972, "step": 84650 }, { "epoch": 112.88, "grad_norm": 0.3671875, "learning_rate": 0.0002976743532001554, "loss": 0.377, "step": 84660 }, { "epoch": 112.89333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002976738019210599, "loss": 0.3886, "step": 84670 }, { "epoch": 112.90666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002976732505771442, "loss": 0.3946, "step": 84680 }, { "epoch": 112.92, "grad_norm": 0.37890625, "learning_rate": 0.0002976726991684085, "loss": 0.3974, "step": 84690 }, { "epoch": 112.93333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002976721476948531, "loss": 0.391, "step": 84700 }, { "epoch": 112.94666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002976715961564783, "loss": 0.3913, "step": 84710 }, { "epoch": 112.96, "grad_norm": 0.3359375, "learning_rate": 0.0002976710445532843, "loss": 0.3899, "step": 84720 }, { "epoch": 112.97333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029767049288527127, "loss": 0.4148, "step": 84730 }, { "epoch": 112.98666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029766994115243954, "loss": 0.3882, "step": 84740 }, { "epoch": 113.0, "grad_norm": 0.3671875, "learning_rate": 0.0002976693893547893, "loss": 0.3832, "step": 84750 }, { "epoch": 113.0, "eval_loss": 0.4275282025337219, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9629, "eval_samples_per_second": 1.606, "eval_steps_per_second": 0.1, "step": 84750 }, { "epoch": 113.01333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029766883749232084, "loss": 0.4002, "step": 84760 }, { "epoch": 113.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002976682855650343, "loss": 0.4138, "step": 84770 }, { "epoch": 113.04, "grad_norm": 0.35546875, "learning_rate": 0.0002976677335729301, "loss": 0.4261, "step": 84780 }, { "epoch": 113.05333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029766718151600833, "loss": 0.4122, "step": 84790 }, { "epoch": 113.06666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029766662939426927, "loss": 0.3987, "step": 84800 }, { "epoch": 113.08, "grad_norm": 0.421875, "learning_rate": 0.0002976660772077132, "loss": 0.4041, "step": 84810 }, { "epoch": 113.09333333333333, "grad_norm": 0.44921875, "learning_rate": 0.0002976655249563403, "loss": 0.4038, "step": 84820 }, { "epoch": 113.10666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002976649726401509, "loss": 0.3917, "step": 84830 }, { "epoch": 113.12, "grad_norm": 0.404296875, "learning_rate": 0.00029766442025914514, "loss": 0.3973, "step": 84840 }, { "epoch": 113.13333333333334, "grad_norm": 0.375, "learning_rate": 0.0002976638678133233, "loss": 0.3886, "step": 84850 }, { "epoch": 113.14666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002976633153026857, "loss": 0.4075, "step": 84860 }, { "epoch": 113.16, "grad_norm": 0.349609375, "learning_rate": 0.00029766276272723247, "loss": 0.4015, "step": 84870 }, { "epoch": 113.17333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029766221008696396, "loss": 0.3949, "step": 84880 }, { "epoch": 113.18666666666667, "grad_norm": 0.4609375, "learning_rate": 0.0002976616573818803, "loss": 0.3939, "step": 84890 }, { "epoch": 113.2, "grad_norm": 0.3671875, "learning_rate": 0.0002976611046119818, "loss": 0.3868, "step": 84900 }, { "epoch": 113.21333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029766055177726867, "loss": 0.3876, "step": 84910 }, { "epoch": 113.22666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002976599988777412, "loss": 0.3996, "step": 84920 }, { "epoch": 113.24, "grad_norm": 0.396484375, "learning_rate": 0.0002976594459133996, "loss": 0.3837, "step": 84930 }, { "epoch": 113.25333333333333, "grad_norm": 0.4609375, "learning_rate": 0.0002976588928842441, "loss": 0.3871, "step": 84940 }, { "epoch": 113.26666666666667, "grad_norm": 0.375, "learning_rate": 0.000297658339790275, "loss": 0.3885, "step": 84950 }, { "epoch": 113.28, "grad_norm": 0.388671875, "learning_rate": 0.0002976577866314925, "loss": 0.4196, "step": 84960 }, { "epoch": 113.29333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002976572334078968, "loss": 0.3749, "step": 84970 }, { "epoch": 113.30666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002976566801194882, "loss": 0.3982, "step": 84980 }, { "epoch": 113.32, "grad_norm": 0.33984375, "learning_rate": 0.00029765612676626696, "loss": 0.4003, "step": 84990 }, { "epoch": 113.33333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002976555733482333, "loss": 0.4039, "step": 85000 }, { "epoch": 113.34666666666666, "grad_norm": 0.466796875, "learning_rate": 0.0002976550198653874, "loss": 0.3944, "step": 85010 }, { "epoch": 113.36, "grad_norm": 0.453125, "learning_rate": 0.0002976544663177296, "loss": 0.3952, "step": 85020 }, { "epoch": 113.37333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002976539127052601, "loss": 0.3964, "step": 85030 }, { "epoch": 113.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029765335902797916, "loss": 0.388, "step": 85040 }, { "epoch": 113.4, "grad_norm": 0.373046875, "learning_rate": 0.00029765280528588694, "loss": 0.3954, "step": 85050 }, { "epoch": 113.41333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002976522514789838, "loss": 0.3998, "step": 85060 }, { "epoch": 113.42666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029765169760727, "loss": 0.4014, "step": 85070 }, { "epoch": 113.44, "grad_norm": 0.3671875, "learning_rate": 0.0002976511436707456, "loss": 0.4129, "step": 85080 }, { "epoch": 113.45333333333333, "grad_norm": 0.41796875, "learning_rate": 0.000297650589669411, "loss": 0.4022, "step": 85090 }, { "epoch": 113.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002976500356032664, "loss": 0.4101, "step": 85100 }, { "epoch": 113.48, "grad_norm": 0.353515625, "learning_rate": 0.0002976494814723121, "loss": 0.3918, "step": 85110 }, { "epoch": 113.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002976489272765483, "loss": 0.4034, "step": 85120 }, { "epoch": 113.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029764837301597517, "loss": 0.4026, "step": 85130 }, { "epoch": 113.52, "grad_norm": 0.330078125, "learning_rate": 0.0002976478186905931, "loss": 0.3921, "step": 85140 }, { "epoch": 113.53333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029764726430040215, "loss": 0.3957, "step": 85150 }, { "epoch": 113.54666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002976467098454027, "loss": 0.3971, "step": 85160 }, { "epoch": 113.56, "grad_norm": 0.333984375, "learning_rate": 0.000297646155325595, "loss": 0.3917, "step": 85170 }, { "epoch": 113.57333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002976456007409792, "loss": 0.3947, "step": 85180 }, { "epoch": 113.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029764504609155557, "loss": 0.3835, "step": 85190 }, { "epoch": 113.6, "grad_norm": 0.359375, "learning_rate": 0.0002976444913773244, "loss": 0.3849, "step": 85200 }, { "epoch": 113.61333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029764393659828596, "loss": 0.3747, "step": 85210 }, { "epoch": 113.62666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029764338175444045, "loss": 0.3799, "step": 85220 }, { "epoch": 113.64, "grad_norm": 0.41015625, "learning_rate": 0.00029764282684578805, "loss": 0.3927, "step": 85230 }, { "epoch": 113.65333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002976422718723291, "loss": 0.402, "step": 85240 }, { "epoch": 113.66666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0002976417168340638, "loss": 0.3894, "step": 85250 }, { "epoch": 113.68, "grad_norm": 0.380859375, "learning_rate": 0.0002976411617309924, "loss": 0.3815, "step": 85260 }, { "epoch": 113.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002976406065631151, "loss": 0.3911, "step": 85270 }, { "epoch": 113.70666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002976400513304322, "loss": 0.3833, "step": 85280 }, { "epoch": 113.72, "grad_norm": 0.392578125, "learning_rate": 0.00029763949603294393, "loss": 0.4065, "step": 85290 }, { "epoch": 113.73333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002976389406706506, "loss": 0.4005, "step": 85300 }, { "epoch": 113.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029763838524355236, "loss": 0.4015, "step": 85310 }, { "epoch": 113.76, "grad_norm": 0.43359375, "learning_rate": 0.00029763782975164945, "loss": 0.4157, "step": 85320 }, { "epoch": 113.77333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029763727419494215, "loss": 0.4022, "step": 85330 }, { "epoch": 113.78666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002976367185734307, "loss": 0.4027, "step": 85340 }, { "epoch": 113.8, "grad_norm": 0.44140625, "learning_rate": 0.00029763616288711536, "loss": 0.4017, "step": 85350 }, { "epoch": 113.81333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029763560713599635, "loss": 0.375, "step": 85360 }, { "epoch": 113.82666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029763505132007393, "loss": 0.3849, "step": 85370 }, { "epoch": 113.84, "grad_norm": 0.384765625, "learning_rate": 0.0002976344954393483, "loss": 0.3959, "step": 85380 }, { "epoch": 113.85333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002976339394938198, "loss": 0.3915, "step": 85390 }, { "epoch": 113.86666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029763338348348856, "loss": 0.3961, "step": 85400 }, { "epoch": 113.88, "grad_norm": 0.37890625, "learning_rate": 0.00029763282740835487, "loss": 0.3776, "step": 85410 }, { "epoch": 113.89333333333333, "grad_norm": 0.38671875, "learning_rate": 0.000297632271268419, "loss": 0.3879, "step": 85420 }, { "epoch": 113.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002976317150636812, "loss": 0.3954, "step": 85430 }, { "epoch": 113.92, "grad_norm": 0.380859375, "learning_rate": 0.00029763115879414165, "loss": 0.3977, "step": 85440 }, { "epoch": 113.93333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002976306024598007, "loss": 0.3908, "step": 85450 }, { "epoch": 113.94666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029763004606065844, "loss": 0.3911, "step": 85460 }, { "epoch": 113.96, "grad_norm": 0.3828125, "learning_rate": 0.00029762948959671527, "loss": 0.3887, "step": 85470 }, { "epoch": 113.97333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029762893306797133, "loss": 0.4141, "step": 85480 }, { "epoch": 113.98666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002976283764744269, "loss": 0.3885, "step": 85490 }, { "epoch": 114.0, "grad_norm": 0.400390625, "learning_rate": 0.0002976278198160822, "loss": 0.3837, "step": 85500 }, { "epoch": 114.0, "eval_loss": 0.4271842837333679, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8284, "eval_samples_per_second": 1.628, "eval_steps_per_second": 0.102, "step": 85500 }, { "epoch": 114.01333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002976272630929376, "loss": 0.4006, "step": 85510 }, { "epoch": 114.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029762670630499317, "loss": 0.4136, "step": 85520 }, { "epoch": 114.04, "grad_norm": 0.38671875, "learning_rate": 0.0002976261494522492, "loss": 0.4267, "step": 85530 }, { "epoch": 114.05333333333333, "grad_norm": 0.380859375, "learning_rate": 0.000297625592534706, "loss": 0.4125, "step": 85540 }, { "epoch": 114.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029762503555236377, "loss": 0.3991, "step": 85550 }, { "epoch": 114.08, "grad_norm": 0.3671875, "learning_rate": 0.00029762447850522277, "loss": 0.4031, "step": 85560 }, { "epoch": 114.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029762392139328324, "loss": 0.4042, "step": 85570 }, { "epoch": 114.10666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029762336421654544, "loss": 0.3913, "step": 85580 }, { "epoch": 114.12, "grad_norm": 0.390625, "learning_rate": 0.00029762280697500954, "loss": 0.3966, "step": 85590 }, { "epoch": 114.13333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029762224966867586, "loss": 0.3887, "step": 85600 }, { "epoch": 114.14666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002976216922975446, "loss": 0.4076, "step": 85610 }, { "epoch": 114.16, "grad_norm": 0.341796875, "learning_rate": 0.0002976211348616161, "loss": 0.4005, "step": 85620 }, { "epoch": 114.17333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029762057736089045, "loss": 0.3951, "step": 85630 }, { "epoch": 114.18666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029762001979536805, "loss": 0.3941, "step": 85640 }, { "epoch": 114.2, "grad_norm": 0.380859375, "learning_rate": 0.00029761946216504907, "loss": 0.3865, "step": 85650 }, { "epoch": 114.21333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002976189044699337, "loss": 0.3882, "step": 85660 }, { "epoch": 114.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002976183467100223, "loss": 0.3999, "step": 85670 }, { "epoch": 114.24, "grad_norm": 0.38671875, "learning_rate": 0.000297617788885315, "loss": 0.3846, "step": 85680 }, { "epoch": 114.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002976172309958122, "loss": 0.3867, "step": 85690 }, { "epoch": 114.26666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002976166730415139, "loss": 0.389, "step": 85700 }, { "epoch": 114.28, "grad_norm": 0.384765625, "learning_rate": 0.0002976161150224206, "loss": 0.4189, "step": 85710 }, { "epoch": 114.29333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029761555693853244, "loss": 0.3751, "step": 85720 }, { "epoch": 114.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029761499878984963, "loss": 0.3987, "step": 85730 }, { "epoch": 114.32, "grad_norm": 0.365234375, "learning_rate": 0.0002976144405763724, "loss": 0.4009, "step": 85740 }, { "epoch": 114.33333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029761388229810113, "loss": 0.4044, "step": 85750 }, { "epoch": 114.34666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029761332395503593, "loss": 0.3939, "step": 85760 }, { "epoch": 114.36, "grad_norm": 0.50390625, "learning_rate": 0.0002976127655471771, "loss": 0.3949, "step": 85770 }, { "epoch": 114.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029761220707452484, "loss": 0.3959, "step": 85780 }, { "epoch": 114.38666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002976116485370795, "loss": 0.3879, "step": 85790 }, { "epoch": 114.4, "grad_norm": 0.384765625, "learning_rate": 0.00029761108993484124, "loss": 0.3946, "step": 85800 }, { "epoch": 114.41333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002976105312678103, "loss": 0.3991, "step": 85810 }, { "epoch": 114.42666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029760997253598697, "loss": 0.4011, "step": 85820 }, { "epoch": 114.44, "grad_norm": 0.39453125, "learning_rate": 0.00029760941373937143, "loss": 0.413, "step": 85830 }, { "epoch": 114.45333333333333, "grad_norm": 0.443359375, "learning_rate": 0.000297608854877964, "loss": 0.4011, "step": 85840 }, { "epoch": 114.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029760829595176487, "loss": 0.4107, "step": 85850 }, { "epoch": 114.48, "grad_norm": 0.35546875, "learning_rate": 0.00029760773696077433, "loss": 0.3912, "step": 85860 }, { "epoch": 114.49333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029760717790499263, "loss": 0.4034, "step": 85870 }, { "epoch": 114.50666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029760661878442, "loss": 0.4018, "step": 85880 }, { "epoch": 114.52, "grad_norm": 0.32421875, "learning_rate": 0.0002976060595990566, "loss": 0.3916, "step": 85890 }, { "epoch": 114.53333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029760550034890277, "loss": 0.3953, "step": 85900 }, { "epoch": 114.54666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029760494103395874, "loss": 0.3969, "step": 85910 }, { "epoch": 114.56, "grad_norm": 0.306640625, "learning_rate": 0.0002976043816542248, "loss": 0.3915, "step": 85920 }, { "epoch": 114.57333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002976038222097011, "loss": 0.3952, "step": 85930 }, { "epoch": 114.58666666666667, "grad_norm": 0.34375, "learning_rate": 0.000297603262700388, "loss": 0.3836, "step": 85940 }, { "epoch": 114.6, "grad_norm": 0.357421875, "learning_rate": 0.0002976027031262856, "loss": 0.3855, "step": 85950 }, { "epoch": 114.61333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002976021434873943, "loss": 0.3751, "step": 85960 }, { "epoch": 114.62666666666667, "grad_norm": 0.31640625, "learning_rate": 0.00029760158378371417, "loss": 0.381, "step": 85970 }, { "epoch": 114.64, "grad_norm": 0.34765625, "learning_rate": 0.0002976010240152456, "loss": 0.393, "step": 85980 }, { "epoch": 114.65333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0002976004641819888, "loss": 0.4016, "step": 85990 }, { "epoch": 114.66666666666667, "grad_norm": 0.380859375, "learning_rate": 0.000297599904283944, "loss": 0.3894, "step": 86000 }, { "epoch": 114.68, "grad_norm": 0.3671875, "learning_rate": 0.00029759934432111145, "loss": 0.3823, "step": 86010 }, { "epoch": 114.69333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002975987842934914, "loss": 0.3907, "step": 86020 }, { "epoch": 114.70666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002975982242010841, "loss": 0.3833, "step": 86030 }, { "epoch": 114.72, "grad_norm": 0.326171875, "learning_rate": 0.0002975976640438898, "loss": 0.4065, "step": 86040 }, { "epoch": 114.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029759710382190873, "loss": 0.3998, "step": 86050 }, { "epoch": 114.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002975965435351411, "loss": 0.4013, "step": 86060 }, { "epoch": 114.76, "grad_norm": 0.408203125, "learning_rate": 0.0002975959831835873, "loss": 0.4156, "step": 86070 }, { "epoch": 114.77333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029759542276724737, "loss": 0.4026, "step": 86080 }, { "epoch": 114.78666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002975948622861217, "loss": 0.4035, "step": 86090 }, { "epoch": 114.8, "grad_norm": 0.376953125, "learning_rate": 0.0002975943017402105, "loss": 0.4006, "step": 86100 }, { "epoch": 114.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.000297593741129514, "loss": 0.3746, "step": 86110 }, { "epoch": 114.82666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029759318045403244, "loss": 0.3839, "step": 86120 }, { "epoch": 114.84, "grad_norm": 0.412109375, "learning_rate": 0.00029759261971376615, "loss": 0.3957, "step": 86130 }, { "epoch": 114.85333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002975920589087152, "loss": 0.3918, "step": 86140 }, { "epoch": 114.86666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029759149803888004, "loss": 0.3959, "step": 86150 }, { "epoch": 114.88, "grad_norm": 0.400390625, "learning_rate": 0.0002975909371042608, "loss": 0.3776, "step": 86160 }, { "epoch": 114.89333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029759037610485774, "loss": 0.3884, "step": 86170 }, { "epoch": 114.90666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029758981504067114, "loss": 0.3958, "step": 86180 }, { "epoch": 114.92, "grad_norm": 0.39453125, "learning_rate": 0.00029758925391170114, "loss": 0.3977, "step": 86190 }, { "epoch": 114.93333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029758869271794816, "loss": 0.3905, "step": 86200 }, { "epoch": 114.94666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002975881314594123, "loss": 0.3919, "step": 86210 }, { "epoch": 114.96, "grad_norm": 0.328125, "learning_rate": 0.00029758757013609386, "loss": 0.3899, "step": 86220 }, { "epoch": 114.97333333333333, "grad_norm": 0.4609375, "learning_rate": 0.00029758700874799314, "loss": 0.4146, "step": 86230 }, { "epoch": 114.98666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002975864472951103, "loss": 0.3873, "step": 86240 }, { "epoch": 115.0, "grad_norm": 0.34765625, "learning_rate": 0.0002975858857774456, "loss": 0.3834, "step": 86250 }, { "epoch": 115.0, "eval_loss": 0.4269208312034607, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.3669, "eval_samples_per_second": 1.543, "eval_steps_per_second": 0.096, "step": 86250 }, { "epoch": 115.01333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029758532419499936, "loss": 0.4007, "step": 86260 }, { "epoch": 115.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002975847625477717, "loss": 0.4134, "step": 86270 }, { "epoch": 115.04, "grad_norm": 0.33984375, "learning_rate": 0.000297584200835763, "loss": 0.4262, "step": 86280 }, { "epoch": 115.05333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002975836390589734, "loss": 0.4118, "step": 86290 }, { "epoch": 115.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029758307721740323, "loss": 0.3991, "step": 86300 }, { "epoch": 115.08, "grad_norm": 0.40625, "learning_rate": 0.0002975825153110527, "loss": 0.404, "step": 86310 }, { "epoch": 115.09333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029758195333992203, "loss": 0.4041, "step": 86320 }, { "epoch": 115.10666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002975813913040115, "loss": 0.3921, "step": 86330 }, { "epoch": 115.12, "grad_norm": 0.359375, "learning_rate": 0.00029758082920332133, "loss": 0.3968, "step": 86340 }, { "epoch": 115.13333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002975802670378518, "loss": 0.3881, "step": 86350 }, { "epoch": 115.14666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029757970480760314, "loss": 0.4069, "step": 86360 }, { "epoch": 115.16, "grad_norm": 0.353515625, "learning_rate": 0.0002975791425125756, "loss": 0.4012, "step": 86370 }, { "epoch": 115.17333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029757858015276947, "loss": 0.3955, "step": 86380 }, { "epoch": 115.18666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029757801772818486, "loss": 0.3935, "step": 86390 }, { "epoch": 115.2, "grad_norm": 0.4296875, "learning_rate": 0.0002975774552388222, "loss": 0.3879, "step": 86400 }, { "epoch": 115.21333333333334, "grad_norm": 0.375, "learning_rate": 0.00029757689268468157, "loss": 0.3885, "step": 86410 }, { "epoch": 115.22666666666667, "grad_norm": 0.375, "learning_rate": 0.0002975763300657633, "loss": 0.3993, "step": 86420 }, { "epoch": 115.24, "grad_norm": 0.37890625, "learning_rate": 0.0002975757673820677, "loss": 0.3855, "step": 86430 }, { "epoch": 115.25333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002975752046335949, "loss": 0.3868, "step": 86440 }, { "epoch": 115.26666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002975746418203452, "loss": 0.3897, "step": 86450 }, { "epoch": 115.28, "grad_norm": 0.423828125, "learning_rate": 0.0002975740789423189, "loss": 0.4191, "step": 86460 }, { "epoch": 115.29333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002975735159995161, "loss": 0.3749, "step": 86470 }, { "epoch": 115.30666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029757295299193717, "loss": 0.3983, "step": 86480 }, { "epoch": 115.32, "grad_norm": 0.330078125, "learning_rate": 0.0002975723899195823, "loss": 0.3997, "step": 86490 }, { "epoch": 115.33333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002975718267824518, "loss": 0.4041, "step": 86500 }, { "epoch": 115.34666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029757126358054585, "loss": 0.3942, "step": 86510 }, { "epoch": 115.36, "grad_norm": 0.42578125, "learning_rate": 0.0002975707003138647, "loss": 0.3953, "step": 86520 }, { "epoch": 115.37333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029757013698240864, "loss": 0.3952, "step": 86530 }, { "epoch": 115.38666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002975695735861779, "loss": 0.3883, "step": 86540 }, { "epoch": 115.4, "grad_norm": 0.400390625, "learning_rate": 0.00029756901012517275, "loss": 0.3948, "step": 86550 }, { "epoch": 115.41333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029756844659939343, "loss": 0.4005, "step": 86560 }, { "epoch": 115.42666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029756788300884014, "loss": 0.401, "step": 86570 }, { "epoch": 115.44, "grad_norm": 0.37109375, "learning_rate": 0.00029756731935351314, "loss": 0.4133, "step": 86580 }, { "epoch": 115.45333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002975667556334127, "loss": 0.4026, "step": 86590 }, { "epoch": 115.46666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002975661918485391, "loss": 0.4108, "step": 86600 }, { "epoch": 115.48, "grad_norm": 0.353515625, "learning_rate": 0.00029756562799889254, "loss": 0.392, "step": 86610 }, { "epoch": 115.49333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029756506408447326, "loss": 0.4028, "step": 86620 }, { "epoch": 115.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002975645001052815, "loss": 0.4017, "step": 86630 }, { "epoch": 115.52, "grad_norm": 0.361328125, "learning_rate": 0.0002975639360613176, "loss": 0.3919, "step": 86640 }, { "epoch": 115.53333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002975633719525817, "loss": 0.3956, "step": 86650 }, { "epoch": 115.54666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029756280777907407, "loss": 0.3972, "step": 86660 }, { "epoch": 115.56, "grad_norm": 0.330078125, "learning_rate": 0.000297562243540795, "loss": 0.3906, "step": 86670 }, { "epoch": 115.57333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002975616792377447, "loss": 0.3945, "step": 86680 }, { "epoch": 115.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002975611148699235, "loss": 0.3846, "step": 86690 }, { "epoch": 115.6, "grad_norm": 0.37109375, "learning_rate": 0.0002975605504373315, "loss": 0.3855, "step": 86700 }, { "epoch": 115.61333333333333, "grad_norm": 0.37890625, "learning_rate": 0.000297559985939969, "loss": 0.375, "step": 86710 }, { "epoch": 115.62666666666667, "grad_norm": 0.32421875, "learning_rate": 0.00029755942137783635, "loss": 0.3803, "step": 86720 }, { "epoch": 115.64, "grad_norm": 0.38671875, "learning_rate": 0.0002975588567509337, "loss": 0.3936, "step": 86730 }, { "epoch": 115.65333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002975582920592613, "loss": 0.4025, "step": 86740 }, { "epoch": 115.66666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029755772730281937, "loss": 0.389, "step": 86750 }, { "epoch": 115.68, "grad_norm": 0.353515625, "learning_rate": 0.0002975571624816083, "loss": 0.3816, "step": 86760 }, { "epoch": 115.69333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002975565975956282, "loss": 0.3906, "step": 86770 }, { "epoch": 115.70666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002975560326448794, "loss": 0.382, "step": 86780 }, { "epoch": 115.72, "grad_norm": 0.34375, "learning_rate": 0.00029755546762936207, "loss": 0.4052, "step": 86790 }, { "epoch": 115.73333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002975549025490765, "loss": 0.4001, "step": 86800 }, { "epoch": 115.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029755433740402297, "loss": 0.4025, "step": 86810 }, { "epoch": 115.76, "grad_norm": 0.365234375, "learning_rate": 0.00029755377219420164, "loss": 0.415, "step": 86820 }, { "epoch": 115.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029755320691961283, "loss": 0.4024, "step": 86830 }, { "epoch": 115.78666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002975526415802568, "loss": 0.4027, "step": 86840 }, { "epoch": 115.8, "grad_norm": 0.39453125, "learning_rate": 0.00029755207617613373, "loss": 0.4005, "step": 86850 }, { "epoch": 115.81333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002975515107072439, "loss": 0.3747, "step": 86860 }, { "epoch": 115.82666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029755094517358767, "loss": 0.3842, "step": 86870 }, { "epoch": 115.84, "grad_norm": 0.392578125, "learning_rate": 0.0002975503795751651, "loss": 0.3965, "step": 86880 }, { "epoch": 115.85333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002975498139119765, "loss": 0.3912, "step": 86890 }, { "epoch": 115.86666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029754924818402214, "loss": 0.3955, "step": 86900 }, { "epoch": 115.88, "grad_norm": 0.37890625, "learning_rate": 0.0002975486823913023, "loss": 0.3766, "step": 86910 }, { "epoch": 115.89333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002975481165338172, "loss": 0.3882, "step": 86920 }, { "epoch": 115.90666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029754755061156703, "loss": 0.3953, "step": 86930 }, { "epoch": 115.92, "grad_norm": 0.376953125, "learning_rate": 0.0002975469846245521, "loss": 0.3965, "step": 86940 }, { "epoch": 115.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029754641857277273, "loss": 0.391, "step": 86950 }, { "epoch": 115.94666666666667, "grad_norm": 0.3984375, "learning_rate": 0.000297545852456229, "loss": 0.3923, "step": 86960 }, { "epoch": 115.96, "grad_norm": 0.3671875, "learning_rate": 0.00029754528627492133, "loss": 0.3887, "step": 86970 }, { "epoch": 115.97333333333333, "grad_norm": 0.4609375, "learning_rate": 0.0002975447200288498, "loss": 0.4141, "step": 86980 }, { "epoch": 115.98666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029754415371801483, "loss": 0.3873, "step": 86990 }, { "epoch": 116.0, "grad_norm": 0.396484375, "learning_rate": 0.00029754358734241656, "loss": 0.3827, "step": 87000 }, { "epoch": 116.0, "eval_loss": 0.42860856652259827, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7875, "eval_samples_per_second": 1.635, "eval_steps_per_second": 0.102, "step": 87000 }, { "epoch": 116.01333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002975430209020552, "loss": 0.4011, "step": 87010 }, { "epoch": 116.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029754245439693114, "loss": 0.4136, "step": 87020 }, { "epoch": 116.04, "grad_norm": 0.359375, "learning_rate": 0.00029754188782704454, "loss": 0.4259, "step": 87030 }, { "epoch": 116.05333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002975413211923956, "loss": 0.4115, "step": 87040 }, { "epoch": 116.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002975407544929847, "loss": 0.3992, "step": 87050 }, { "epoch": 116.08, "grad_norm": 0.365234375, "learning_rate": 0.00029754018772881193, "loss": 0.4035, "step": 87060 }, { "epoch": 116.09333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029753962089987767, "loss": 0.4047, "step": 87070 }, { "epoch": 116.10666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029753905400618216, "loss": 0.3915, "step": 87080 }, { "epoch": 116.12, "grad_norm": 0.419921875, "learning_rate": 0.0002975384870477256, "loss": 0.3967, "step": 87090 }, { "epoch": 116.13333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002975379200245082, "loss": 0.388, "step": 87100 }, { "epoch": 116.14666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029753735293653027, "loss": 0.4066, "step": 87110 }, { "epoch": 116.16, "grad_norm": 0.310546875, "learning_rate": 0.00029753678578379214, "loss": 0.4001, "step": 87120 }, { "epoch": 116.17333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029753621856629385, "loss": 0.3956, "step": 87130 }, { "epoch": 116.18666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002975356512840358, "loss": 0.3928, "step": 87140 }, { "epoch": 116.2, "grad_norm": 0.3671875, "learning_rate": 0.00029753508393701823, "loss": 0.387, "step": 87150 }, { "epoch": 116.21333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002975345165252414, "loss": 0.3868, "step": 87160 }, { "epoch": 116.22666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002975339490487054, "loss": 0.3988, "step": 87170 }, { "epoch": 116.24, "grad_norm": 0.3828125, "learning_rate": 0.00029753338150741073, "loss": 0.3834, "step": 87180 }, { "epoch": 116.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002975328139013574, "loss": 0.3867, "step": 87190 }, { "epoch": 116.26666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029753224623054586, "loss": 0.3888, "step": 87200 }, { "epoch": 116.28, "grad_norm": 0.41015625, "learning_rate": 0.00029753167849497626, "loss": 0.4185, "step": 87210 }, { "epoch": 116.29333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002975311106946489, "loss": 0.3748, "step": 87220 }, { "epoch": 116.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029753054282956386, "loss": 0.3979, "step": 87230 }, { "epoch": 116.32, "grad_norm": 0.32421875, "learning_rate": 0.00029752997489972165, "loss": 0.4, "step": 87240 }, { "epoch": 116.33333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002975294069051223, "loss": 0.4038, "step": 87250 }, { "epoch": 116.34666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002975288388457662, "loss": 0.3942, "step": 87260 }, { "epoch": 116.36, "grad_norm": 0.416015625, "learning_rate": 0.0002975282707216535, "loss": 0.394, "step": 87270 }, { "epoch": 116.37333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002975277025327845, "loss": 0.3955, "step": 87280 }, { "epoch": 116.38666666666667, "grad_norm": 0.431640625, "learning_rate": 0.0002975271342791595, "loss": 0.3879, "step": 87290 }, { "epoch": 116.4, "grad_norm": 0.384765625, "learning_rate": 0.0002975265659607787, "loss": 0.3958, "step": 87300 }, { "epoch": 116.41333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002975259975776422, "loss": 0.3994, "step": 87310 }, { "epoch": 116.42666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029752542912975054, "loss": 0.4013, "step": 87320 }, { "epoch": 116.44, "grad_norm": 0.40234375, "learning_rate": 0.0002975248606171038, "loss": 0.4131, "step": 87330 }, { "epoch": 116.45333333333333, "grad_norm": 0.48828125, "learning_rate": 0.0002975242920397022, "loss": 0.4017, "step": 87340 }, { "epoch": 116.46666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002975237233975461, "loss": 0.4093, "step": 87350 }, { "epoch": 116.48, "grad_norm": 0.423828125, "learning_rate": 0.00029752315469063563, "loss": 0.3923, "step": 87360 }, { "epoch": 116.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029752258591897115, "loss": 0.404, "step": 87370 }, { "epoch": 116.50666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002975220170825528, "loss": 0.4018, "step": 87380 }, { "epoch": 116.52, "grad_norm": 0.359375, "learning_rate": 0.000297521448181381, "loss": 0.3931, "step": 87390 }, { "epoch": 116.53333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029752087921545577, "loss": 0.3952, "step": 87400 }, { "epoch": 116.54666666666667, "grad_norm": 0.435546875, "learning_rate": 0.00029752031018477756, "loss": 0.397, "step": 87410 }, { "epoch": 116.56, "grad_norm": 0.361328125, "learning_rate": 0.0002975197410893465, "loss": 0.3919, "step": 87420 }, { "epoch": 116.57333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002975191719291629, "loss": 0.3943, "step": 87430 }, { "epoch": 116.58666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029751860270422695, "loss": 0.3843, "step": 87440 }, { "epoch": 116.6, "grad_norm": 0.373046875, "learning_rate": 0.000297518033414539, "loss": 0.3858, "step": 87450 }, { "epoch": 116.61333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029751746406009923, "loss": 0.3752, "step": 87460 }, { "epoch": 116.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029751689464090785, "loss": 0.3805, "step": 87470 }, { "epoch": 116.64, "grad_norm": 0.365234375, "learning_rate": 0.0002975163251569652, "loss": 0.3926, "step": 87480 }, { "epoch": 116.65333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002975157556082715, "loss": 0.4018, "step": 87490 }, { "epoch": 116.66666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029751518599482695, "loss": 0.3891, "step": 87500 }, { "epoch": 116.68, "grad_norm": 0.412109375, "learning_rate": 0.00029751461631663187, "loss": 0.381, "step": 87510 }, { "epoch": 116.69333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029751404657368645, "loss": 0.3907, "step": 87520 }, { "epoch": 116.70666666666666, "grad_norm": 0.375, "learning_rate": 0.00029751347676599095, "loss": 0.3841, "step": 87530 }, { "epoch": 116.72, "grad_norm": 0.369140625, "learning_rate": 0.0002975129068935457, "loss": 0.4057, "step": 87540 }, { "epoch": 116.73333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002975123369563509, "loss": 0.4002, "step": 87550 }, { "epoch": 116.74666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002975117669544067, "loss": 0.4016, "step": 87560 }, { "epoch": 116.76, "grad_norm": 0.37890625, "learning_rate": 0.0002975111968877135, "loss": 0.4153, "step": 87570 }, { "epoch": 116.77333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029751062675627146, "loss": 0.4015, "step": 87580 }, { "epoch": 116.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002975100565600809, "loss": 0.4026, "step": 87590 }, { "epoch": 116.8, "grad_norm": 0.390625, "learning_rate": 0.000297509486299142, "loss": 0.4009, "step": 87600 }, { "epoch": 116.81333333333333, "grad_norm": 0.478515625, "learning_rate": 0.00029750891597345506, "loss": 0.375, "step": 87610 }, { "epoch": 116.82666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002975083455830203, "loss": 0.3852, "step": 87620 }, { "epoch": 116.84, "grad_norm": 0.4140625, "learning_rate": 0.000297507775127838, "loss": 0.3957, "step": 87630 }, { "epoch": 116.85333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002975072046079084, "loss": 0.3912, "step": 87640 }, { "epoch": 116.86666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029750663402323166, "loss": 0.3954, "step": 87650 }, { "epoch": 116.88, "grad_norm": 0.341796875, "learning_rate": 0.0002975060633738082, "loss": 0.3755, "step": 87660 }, { "epoch": 116.89333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002975054926596382, "loss": 0.3879, "step": 87670 }, { "epoch": 116.90666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029750492188072175, "loss": 0.3951, "step": 87680 }, { "epoch": 116.92, "grad_norm": 0.373046875, "learning_rate": 0.00029750435103705937, "loss": 0.3962, "step": 87690 }, { "epoch": 116.93333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002975037801286512, "loss": 0.3901, "step": 87700 }, { "epoch": 116.94666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002975032091554974, "loss": 0.3922, "step": 87710 }, { "epoch": 116.96, "grad_norm": 0.345703125, "learning_rate": 0.0002975026381175983, "loss": 0.3896, "step": 87720 }, { "epoch": 116.97333333333333, "grad_norm": 0.5, "learning_rate": 0.0002975020670149542, "loss": 0.4145, "step": 87730 }, { "epoch": 116.98666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029750149584756525, "loss": 0.3876, "step": 87740 }, { "epoch": 117.0, "grad_norm": 0.345703125, "learning_rate": 0.0002975009246154318, "loss": 0.3834, "step": 87750 }, { "epoch": 117.0, "eval_loss": 0.426981657743454, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7324, "eval_samples_per_second": 1.644, "eval_steps_per_second": 0.103, "step": 87750 }, { "epoch": 117.01333333333334, "grad_norm": 0.404296875, "learning_rate": 0.000297500353318554, "loss": 0.4009, "step": 87760 }, { "epoch": 117.02666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002974997819569322, "loss": 0.4135, "step": 87770 }, { "epoch": 117.04, "grad_norm": 0.3203125, "learning_rate": 0.00029749921053056656, "loss": 0.4269, "step": 87780 }, { "epoch": 117.05333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002974986390394574, "loss": 0.4114, "step": 87790 }, { "epoch": 117.06666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029749806748360485, "loss": 0.3992, "step": 87800 }, { "epoch": 117.08, "grad_norm": 0.37109375, "learning_rate": 0.0002974974958630094, "loss": 0.4032, "step": 87810 }, { "epoch": 117.09333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029749692417767104, "loss": 0.4037, "step": 87820 }, { "epoch": 117.10666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002974963524275902, "loss": 0.3919, "step": 87830 }, { "epoch": 117.12, "grad_norm": 0.380859375, "learning_rate": 0.000297495780612767, "loss": 0.3964, "step": 87840 }, { "epoch": 117.13333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002974952087332018, "loss": 0.3879, "step": 87850 }, { "epoch": 117.14666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002974946367888948, "loss": 0.4065, "step": 87860 }, { "epoch": 117.16, "grad_norm": 0.361328125, "learning_rate": 0.0002974940647798463, "loss": 0.4005, "step": 87870 }, { "epoch": 117.17333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002974934927060565, "loss": 0.3951, "step": 87880 }, { "epoch": 117.18666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002974929205675256, "loss": 0.3938, "step": 87890 }, { "epoch": 117.2, "grad_norm": 0.42578125, "learning_rate": 0.0002974923483642539, "loss": 0.3865, "step": 87900 }, { "epoch": 117.21333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029749177609624173, "loss": 0.3873, "step": 87910 }, { "epoch": 117.22666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029749120376348925, "loss": 0.3983, "step": 87920 }, { "epoch": 117.24, "grad_norm": 0.41796875, "learning_rate": 0.00029749063136599673, "loss": 0.3848, "step": 87930 }, { "epoch": 117.25333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029749005890376443, "loss": 0.3862, "step": 87940 }, { "epoch": 117.26666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029748948637679264, "loss": 0.3878, "step": 87950 }, { "epoch": 117.28, "grad_norm": 0.390625, "learning_rate": 0.0002974889137850815, "loss": 0.4181, "step": 87960 }, { "epoch": 117.29333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029748834112863136, "loss": 0.3742, "step": 87970 }, { "epoch": 117.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029748776840744247, "loss": 0.3982, "step": 87980 }, { "epoch": 117.32, "grad_norm": 0.34375, "learning_rate": 0.000297487195621515, "loss": 0.4013, "step": 87990 }, { "epoch": 117.33333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029748662277084934, "loss": 0.4036, "step": 88000 }, { "epoch": 117.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002974860498554456, "loss": 0.3939, "step": 88010 }, { "epoch": 117.36, "grad_norm": 0.51953125, "learning_rate": 0.00029748547687530406, "loss": 0.3949, "step": 88020 }, { "epoch": 117.37333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029748490383042504, "loss": 0.3954, "step": 88030 }, { "epoch": 117.38666666666667, "grad_norm": 0.451171875, "learning_rate": 0.00029748433072080874, "loss": 0.3881, "step": 88040 }, { "epoch": 117.4, "grad_norm": 0.361328125, "learning_rate": 0.00029748375754645544, "loss": 0.3966, "step": 88050 }, { "epoch": 117.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029748318430736535, "loss": 0.3988, "step": 88060 }, { "epoch": 117.42666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029748261100353873, "loss": 0.4011, "step": 88070 }, { "epoch": 117.44, "grad_norm": 0.357421875, "learning_rate": 0.0002974820376349759, "loss": 0.4122, "step": 88080 }, { "epoch": 117.45333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029748146420167704, "loss": 0.4007, "step": 88090 }, { "epoch": 117.46666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002974808907036424, "loss": 0.4102, "step": 88100 }, { "epoch": 117.48, "grad_norm": 0.396484375, "learning_rate": 0.0002974803171408722, "loss": 0.3918, "step": 88110 }, { "epoch": 117.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029747974351336683, "loss": 0.4035, "step": 88120 }, { "epoch": 117.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002974791698211264, "loss": 0.4023, "step": 88130 }, { "epoch": 117.52, "grad_norm": 0.375, "learning_rate": 0.00029747859606415127, "loss": 0.3923, "step": 88140 }, { "epoch": 117.53333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029747802224244167, "loss": 0.3953, "step": 88150 }, { "epoch": 117.54666666666667, "grad_norm": 0.375, "learning_rate": 0.00029747744835599777, "loss": 0.3975, "step": 88160 }, { "epoch": 117.56, "grad_norm": 0.3125, "learning_rate": 0.00029747687440481984, "loss": 0.3915, "step": 88170 }, { "epoch": 117.57333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002974763003889082, "loss": 0.3951, "step": 88180 }, { "epoch": 117.58666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002974757263082631, "loss": 0.3832, "step": 88190 }, { "epoch": 117.6, "grad_norm": 0.384765625, "learning_rate": 0.00029747515216288473, "loss": 0.3851, "step": 88200 }, { "epoch": 117.61333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0002974745779527733, "loss": 0.3751, "step": 88210 }, { "epoch": 117.62666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029747400367792926, "loss": 0.3808, "step": 88220 }, { "epoch": 117.64, "grad_norm": 0.41796875, "learning_rate": 0.00029747342933835266, "loss": 0.3924, "step": 88230 }, { "epoch": 117.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002974728549340438, "loss": 0.4028, "step": 88240 }, { "epoch": 117.66666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029747228046500307, "loss": 0.3894, "step": 88250 }, { "epoch": 117.68, "grad_norm": 0.3828125, "learning_rate": 0.0002974717059312305, "loss": 0.3807, "step": 88260 }, { "epoch": 117.69333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029747113133272654, "loss": 0.3898, "step": 88270 }, { "epoch": 117.70666666666666, "grad_norm": 0.44140625, "learning_rate": 0.0002974705566694913, "loss": 0.3833, "step": 88280 }, { "epoch": 117.72, "grad_norm": 0.486328125, "learning_rate": 0.00029746998194152513, "loss": 0.406, "step": 88290 }, { "epoch": 117.73333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002974694071488282, "loss": 0.4002, "step": 88300 }, { "epoch": 117.74666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002974688322914008, "loss": 0.4023, "step": 88310 }, { "epoch": 117.76, "grad_norm": 0.419921875, "learning_rate": 0.0002974682573692432, "loss": 0.4144, "step": 88320 }, { "epoch": 117.77333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029746768238235563, "loss": 0.4017, "step": 88330 }, { "epoch": 117.78666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002974671073307384, "loss": 0.4021, "step": 88340 }, { "epoch": 117.8, "grad_norm": 0.408203125, "learning_rate": 0.00029746653221439167, "loss": 0.4009, "step": 88350 }, { "epoch": 117.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002974659570333157, "loss": 0.3755, "step": 88360 }, { "epoch": 117.82666666666667, "grad_norm": 0.43359375, "learning_rate": 0.00029746538178751085, "loss": 0.3845, "step": 88370 }, { "epoch": 117.84, "grad_norm": 0.427734375, "learning_rate": 0.00029746480647697726, "loss": 0.3961, "step": 88380 }, { "epoch": 117.85333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029746423110171524, "loss": 0.3908, "step": 88390 }, { "epoch": 117.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029746365566172504, "loss": 0.3947, "step": 88400 }, { "epoch": 117.88, "grad_norm": 0.345703125, "learning_rate": 0.0002974630801570068, "loss": 0.3765, "step": 88410 }, { "epoch": 117.89333333333333, "grad_norm": 0.44140625, "learning_rate": 0.000297462504587561, "loss": 0.3885, "step": 88420 }, { "epoch": 117.90666666666667, "grad_norm": 0.375, "learning_rate": 0.0002974619289533877, "loss": 0.3949, "step": 88430 }, { "epoch": 117.92, "grad_norm": 0.384765625, "learning_rate": 0.00029746135325448724, "loss": 0.3979, "step": 88440 }, { "epoch": 117.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002974607774908598, "loss": 0.3901, "step": 88450 }, { "epoch": 117.94666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002974602016625057, "loss": 0.3914, "step": 88460 }, { "epoch": 117.96, "grad_norm": 0.3359375, "learning_rate": 0.0002974596257694252, "loss": 0.3891, "step": 88470 }, { "epoch": 117.97333333333333, "grad_norm": 0.447265625, "learning_rate": 0.00029745904981161856, "loss": 0.4134, "step": 88480 }, { "epoch": 117.98666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002974584737890859, "loss": 0.3878, "step": 88490 }, { "epoch": 118.0, "grad_norm": 0.3671875, "learning_rate": 0.00029745789770182764, "loss": 0.3823, "step": 88500 }, { "epoch": 118.0, "eval_loss": 0.4277586042881012, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8032, "eval_samples_per_second": 1.632, "eval_steps_per_second": 0.102, "step": 88500 }, { "epoch": 118.01333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029745732154984393, "loss": 0.4001, "step": 88510 }, { "epoch": 118.02666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002974567453331351, "loss": 0.4133, "step": 88520 }, { "epoch": 118.04, "grad_norm": 0.359375, "learning_rate": 0.00029745616905170133, "loss": 0.4261, "step": 88530 }, { "epoch": 118.05333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002974555927055429, "loss": 0.4114, "step": 88540 }, { "epoch": 118.06666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002974550162946601, "loss": 0.3992, "step": 88550 }, { "epoch": 118.08, "grad_norm": 0.40234375, "learning_rate": 0.00029745443981905314, "loss": 0.4025, "step": 88560 }, { "epoch": 118.09333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029745386327872226, "loss": 0.404, "step": 88570 }, { "epoch": 118.10666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029745328667366775, "loss": 0.3914, "step": 88580 }, { "epoch": 118.12, "grad_norm": 0.349609375, "learning_rate": 0.0002974527100038898, "loss": 0.3961, "step": 88590 }, { "epoch": 118.13333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029745213326938877, "loss": 0.3886, "step": 88600 }, { "epoch": 118.14666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002974515564701649, "loss": 0.408, "step": 88610 }, { "epoch": 118.16, "grad_norm": 0.326171875, "learning_rate": 0.0002974509796062183, "loss": 0.4008, "step": 88620 }, { "epoch": 118.17333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029745040267754934, "loss": 0.3949, "step": 88630 }, { "epoch": 118.18666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002974498256841583, "loss": 0.3938, "step": 88640 }, { "epoch": 118.2, "grad_norm": 0.38671875, "learning_rate": 0.00029744924862604535, "loss": 0.3865, "step": 88650 }, { "epoch": 118.21333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002974486715032108, "loss": 0.3877, "step": 88660 }, { "epoch": 118.22666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002974480943156549, "loss": 0.3988, "step": 88670 }, { "epoch": 118.24, "grad_norm": 0.4140625, "learning_rate": 0.0002974475170633779, "loss": 0.3836, "step": 88680 }, { "epoch": 118.25333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029744693974638, "loss": 0.3866, "step": 88690 }, { "epoch": 118.26666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002974463623646615, "loss": 0.3879, "step": 88700 }, { "epoch": 118.28, "grad_norm": 0.37890625, "learning_rate": 0.0002974457849182226, "loss": 0.4182, "step": 88710 }, { "epoch": 118.29333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029744520740706366, "loss": 0.3744, "step": 88720 }, { "epoch": 118.30666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029744462983118493, "loss": 0.3974, "step": 88730 }, { "epoch": 118.32, "grad_norm": 0.345703125, "learning_rate": 0.00029744405219058655, "loss": 0.4002, "step": 88740 }, { "epoch": 118.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029744347448526883, "loss": 0.404, "step": 88750 }, { "epoch": 118.34666666666666, "grad_norm": 0.466796875, "learning_rate": 0.000297442896715232, "loss": 0.3939, "step": 88760 }, { "epoch": 118.36, "grad_norm": 0.431640625, "learning_rate": 0.0002974423188804764, "loss": 0.3941, "step": 88770 }, { "epoch": 118.37333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002974417409810022, "loss": 0.3951, "step": 88780 }, { "epoch": 118.38666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029744116301680965, "loss": 0.3867, "step": 88790 }, { "epoch": 118.4, "grad_norm": 0.380859375, "learning_rate": 0.00029744058498789905, "loss": 0.3947, "step": 88800 }, { "epoch": 118.41333333333333, "grad_norm": 0.375, "learning_rate": 0.00029744000689427063, "loss": 0.3998, "step": 88810 }, { "epoch": 118.42666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002974394287359247, "loss": 0.401, "step": 88820 }, { "epoch": 118.44, "grad_norm": 0.359375, "learning_rate": 0.0002974388505128614, "loss": 0.4113, "step": 88830 }, { "epoch": 118.45333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029743827222508104, "loss": 0.401, "step": 88840 }, { "epoch": 118.46666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002974376938725839, "loss": 0.4095, "step": 88850 }, { "epoch": 118.48, "grad_norm": 0.3671875, "learning_rate": 0.00029743711545537026, "loss": 0.391, "step": 88860 }, { "epoch": 118.49333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029743653697344026, "loss": 0.4038, "step": 88870 }, { "epoch": 118.50666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029743595842679423, "loss": 0.4011, "step": 88880 }, { "epoch": 118.52, "grad_norm": 0.33984375, "learning_rate": 0.00029743537981543244, "loss": 0.3918, "step": 88890 }, { "epoch": 118.53333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029743480113935506, "loss": 0.395, "step": 88900 }, { "epoch": 118.54666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029743422239856247, "loss": 0.3952, "step": 88910 }, { "epoch": 118.56, "grad_norm": 0.302734375, "learning_rate": 0.0002974336435930549, "loss": 0.391, "step": 88920 }, { "epoch": 118.57333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029743306472283245, "loss": 0.3957, "step": 88930 }, { "epoch": 118.58666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002974324857878955, "loss": 0.3837, "step": 88940 }, { "epoch": 118.6, "grad_norm": 0.337890625, "learning_rate": 0.00029743190678824434, "loss": 0.3859, "step": 88950 }, { "epoch": 118.61333333333333, "grad_norm": 0.322265625, "learning_rate": 0.00029743132772387914, "loss": 0.3751, "step": 88960 }, { "epoch": 118.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029743074859480025, "loss": 0.3804, "step": 88970 }, { "epoch": 118.64, "grad_norm": 0.3984375, "learning_rate": 0.0002974301694010078, "loss": 0.3925, "step": 88980 }, { "epoch": 118.65333333333334, "grad_norm": 0.375, "learning_rate": 0.00029742959014250213, "loss": 0.4017, "step": 88990 }, { "epoch": 118.66666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029742901081928345, "loss": 0.3892, "step": 89000 }, { "epoch": 118.68, "grad_norm": 0.359375, "learning_rate": 0.00029742843143135204, "loss": 0.3806, "step": 89010 }, { "epoch": 118.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002974278519787082, "loss": 0.3906, "step": 89020 }, { "epoch": 118.70666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029742727246135205, "loss": 0.3834, "step": 89030 }, { "epoch": 118.72, "grad_norm": 0.37109375, "learning_rate": 0.000297426692879284, "loss": 0.4054, "step": 89040 }, { "epoch": 118.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002974261132325042, "loss": 0.3992, "step": 89050 }, { "epoch": 118.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029742553352101294, "loss": 0.4018, "step": 89060 }, { "epoch": 118.76, "grad_norm": 0.408203125, "learning_rate": 0.00029742495374481047, "loss": 0.4144, "step": 89070 }, { "epoch": 118.77333333333333, "grad_norm": 0.419921875, "learning_rate": 0.000297424373903897, "loss": 0.4018, "step": 89080 }, { "epoch": 118.78666666666666, "grad_norm": 0.34375, "learning_rate": 0.0002974237939982729, "loss": 0.4016, "step": 89090 }, { "epoch": 118.8, "grad_norm": 0.421875, "learning_rate": 0.00029742321402793833, "loss": 0.401, "step": 89100 }, { "epoch": 118.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002974226339928936, "loss": 0.3742, "step": 89110 }, { "epoch": 118.82666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002974220538931389, "loss": 0.3842, "step": 89120 }, { "epoch": 118.84, "grad_norm": 0.3984375, "learning_rate": 0.0002974214737286745, "loss": 0.3956, "step": 89130 }, { "epoch": 118.85333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002974208934995007, "loss": 0.3912, "step": 89140 }, { "epoch": 118.86666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002974203132056177, "loss": 0.396, "step": 89150 }, { "epoch": 118.88, "grad_norm": 0.412109375, "learning_rate": 0.00029741973284702584, "loss": 0.3762, "step": 89160 }, { "epoch": 118.89333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002974191524237252, "loss": 0.3872, "step": 89170 }, { "epoch": 118.90666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002974185719357163, "loss": 0.395, "step": 89180 }, { "epoch": 118.92, "grad_norm": 0.3984375, "learning_rate": 0.00029741799138299915, "loss": 0.396, "step": 89190 }, { "epoch": 118.93333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029741741076557413, "loss": 0.3902, "step": 89200 }, { "epoch": 118.94666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002974168300834415, "loss": 0.3904, "step": 89210 }, { "epoch": 118.96, "grad_norm": 0.341796875, "learning_rate": 0.00029741624933660144, "loss": 0.39, "step": 89220 }, { "epoch": 118.97333333333333, "grad_norm": 0.47265625, "learning_rate": 0.00029741566852505426, "loss": 0.4139, "step": 89230 }, { "epoch": 118.98666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002974150876488002, "loss": 0.3882, "step": 89240 }, { "epoch": 119.0, "grad_norm": 0.38671875, "learning_rate": 0.0002974145067078395, "loss": 0.383, "step": 89250 }, { "epoch": 119.0, "eval_loss": 0.42724609375, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2414, "eval_samples_per_second": 1.562, "eval_steps_per_second": 0.098, "step": 89250 }, { "epoch": 119.01333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002974139257021725, "loss": 0.3997, "step": 89260 }, { "epoch": 119.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029741334463179923, "loss": 0.414, "step": 89270 }, { "epoch": 119.04, "grad_norm": 0.4375, "learning_rate": 0.00029741276349672026, "loss": 0.4261, "step": 89280 }, { "epoch": 119.05333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002974121822969356, "loss": 0.4114, "step": 89290 }, { "epoch": 119.06666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029741160103244563, "loss": 0.3982, "step": 89300 }, { "epoch": 119.08, "grad_norm": 0.419921875, "learning_rate": 0.00029741101970325056, "loss": 0.4022, "step": 89310 }, { "epoch": 119.09333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029741043830935063, "loss": 0.4028, "step": 89320 }, { "epoch": 119.10666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002974098568507461, "loss": 0.3921, "step": 89330 }, { "epoch": 119.12, "grad_norm": 0.37890625, "learning_rate": 0.0002974092753274373, "loss": 0.3967, "step": 89340 }, { "epoch": 119.13333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002974086937394244, "loss": 0.3884, "step": 89350 }, { "epoch": 119.14666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002974081120867077, "loss": 0.4066, "step": 89360 }, { "epoch": 119.16, "grad_norm": 0.3671875, "learning_rate": 0.00029740753036928746, "loss": 0.4001, "step": 89370 }, { "epoch": 119.17333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029740694858716385, "loss": 0.3961, "step": 89380 }, { "epoch": 119.18666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002974063667403372, "loss": 0.3938, "step": 89390 }, { "epoch": 119.2, "grad_norm": 0.419921875, "learning_rate": 0.0002974057848288078, "loss": 0.3868, "step": 89400 }, { "epoch": 119.21333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002974052028525758, "loss": 0.3866, "step": 89410 }, { "epoch": 119.22666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002974046208116416, "loss": 0.3983, "step": 89420 }, { "epoch": 119.24, "grad_norm": 0.380859375, "learning_rate": 0.0002974040387060053, "loss": 0.3837, "step": 89430 }, { "epoch": 119.25333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002974034565356672, "loss": 0.3856, "step": 89440 }, { "epoch": 119.26666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029740287430062766, "loss": 0.3884, "step": 89450 }, { "epoch": 119.28, "grad_norm": 0.3828125, "learning_rate": 0.0002974022920008868, "loss": 0.4181, "step": 89460 }, { "epoch": 119.29333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029740170963644496, "loss": 0.3743, "step": 89470 }, { "epoch": 119.30666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029740112720730234, "loss": 0.3988, "step": 89480 }, { "epoch": 119.32, "grad_norm": 0.349609375, "learning_rate": 0.00029740054471345925, "loss": 0.4014, "step": 89490 }, { "epoch": 119.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002973999621549159, "loss": 0.4038, "step": 89500 }, { "epoch": 119.34666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002973993795316726, "loss": 0.393, "step": 89510 }, { "epoch": 119.36, "grad_norm": 0.4453125, "learning_rate": 0.0002973987968437296, "loss": 0.3945, "step": 89520 }, { "epoch": 119.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000297398214091087, "loss": 0.3957, "step": 89530 }, { "epoch": 119.38666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002973976312737453, "loss": 0.388, "step": 89540 }, { "epoch": 119.4, "grad_norm": 0.3828125, "learning_rate": 0.0002973970483917046, "loss": 0.3949, "step": 89550 }, { "epoch": 119.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002973964654449652, "loss": 0.3997, "step": 89560 }, { "epoch": 119.42666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029739588243352734, "loss": 0.4008, "step": 89570 }, { "epoch": 119.44, "grad_norm": 0.388671875, "learning_rate": 0.0002973952993573913, "loss": 0.4122, "step": 89580 }, { "epoch": 119.45333333333333, "grad_norm": 0.5390625, "learning_rate": 0.00029739471621655734, "loss": 0.4009, "step": 89590 }, { "epoch": 119.46666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002973941330110257, "loss": 0.4102, "step": 89600 }, { "epoch": 119.48, "grad_norm": 0.416015625, "learning_rate": 0.0002973935497407966, "loss": 0.3916, "step": 89610 }, { "epoch": 119.49333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002973929664058703, "loss": 0.4029, "step": 89620 }, { "epoch": 119.50666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002973923830062471, "loss": 0.4012, "step": 89630 }, { "epoch": 119.52, "grad_norm": 0.318359375, "learning_rate": 0.0002973917995419273, "loss": 0.3916, "step": 89640 }, { "epoch": 119.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029739121601291105, "loss": 0.3942, "step": 89650 }, { "epoch": 119.54666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002973906324191987, "loss": 0.396, "step": 89660 }, { "epoch": 119.56, "grad_norm": 0.34375, "learning_rate": 0.0002973900487607904, "loss": 0.3905, "step": 89670 }, { "epoch": 119.57333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002973894650376865, "loss": 0.3942, "step": 89680 }, { "epoch": 119.58666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029738888124988724, "loss": 0.3838, "step": 89690 }, { "epoch": 119.6, "grad_norm": 0.376953125, "learning_rate": 0.00029738829739739284, "loss": 0.3847, "step": 89700 }, { "epoch": 119.61333333333333, "grad_norm": 0.302734375, "learning_rate": 0.00029738771348020355, "loss": 0.3747, "step": 89710 }, { "epoch": 119.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.00029738712949831965, "loss": 0.38, "step": 89720 }, { "epoch": 119.64, "grad_norm": 0.408203125, "learning_rate": 0.00029738654545174146, "loss": 0.392, "step": 89730 }, { "epoch": 119.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029738596134046914, "loss": 0.4015, "step": 89740 }, { "epoch": 119.66666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029738537716450297, "loss": 0.3887, "step": 89750 }, { "epoch": 119.68, "grad_norm": 0.404296875, "learning_rate": 0.0002973847929238432, "loss": 0.3816, "step": 89760 }, { "epoch": 119.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029738420861849014, "loss": 0.3905, "step": 89770 }, { "epoch": 119.70666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029738362424844403, "loss": 0.3823, "step": 89780 }, { "epoch": 119.72, "grad_norm": 0.421875, "learning_rate": 0.00029738303981370504, "loss": 0.4055, "step": 89790 }, { "epoch": 119.73333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029738245531427354, "loss": 0.3992, "step": 89800 }, { "epoch": 119.74666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002973818707501497, "loss": 0.4019, "step": 89810 }, { "epoch": 119.76, "grad_norm": 0.412109375, "learning_rate": 0.0002973812861213339, "loss": 0.4147, "step": 89820 }, { "epoch": 119.77333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002973807014278262, "loss": 0.4022, "step": 89830 }, { "epoch": 119.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002973801166696271, "loss": 0.4015, "step": 89840 }, { "epoch": 119.8, "grad_norm": 0.40234375, "learning_rate": 0.00029737953184673664, "loss": 0.4007, "step": 89850 }, { "epoch": 119.81333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029737894695915513, "loss": 0.3738, "step": 89860 }, { "epoch": 119.82666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002973783620068829, "loss": 0.3848, "step": 89870 }, { "epoch": 119.84, "grad_norm": 0.4765625, "learning_rate": 0.0002973777769899202, "loss": 0.3952, "step": 89880 }, { "epoch": 119.85333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029737719190826725, "loss": 0.3906, "step": 89890 }, { "epoch": 119.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029737660676192425, "loss": 0.3943, "step": 89900 }, { "epoch": 119.88, "grad_norm": 0.361328125, "learning_rate": 0.00029737602155089157, "loss": 0.3763, "step": 89910 }, { "epoch": 119.89333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002973754362751694, "loss": 0.3876, "step": 89920 }, { "epoch": 119.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029737485093475803, "loss": 0.3951, "step": 89930 }, { "epoch": 119.92, "grad_norm": 0.388671875, "learning_rate": 0.00029737426552965766, "loss": 0.3969, "step": 89940 }, { "epoch": 119.93333333333334, "grad_norm": 0.326171875, "learning_rate": 0.00029737368005986863, "loss": 0.39, "step": 89950 }, { "epoch": 119.94666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002973730945253911, "loss": 0.3916, "step": 89960 }, { "epoch": 119.96, "grad_norm": 0.359375, "learning_rate": 0.00029737250892622545, "loss": 0.3893, "step": 89970 }, { "epoch": 119.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029737192326237177, "loss": 0.4137, "step": 89980 }, { "epoch": 119.98666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029737133753383047, "loss": 0.3877, "step": 89990 }, { "epoch": 120.0, "grad_norm": 0.41015625, "learning_rate": 0.00029737075174060177, "loss": 0.3829, "step": 90000 }, { "epoch": 120.0, "eval_loss": 0.42644834518432617, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1178, "eval_samples_per_second": 1.581, "eval_steps_per_second": 0.099, "step": 90000 }, { "epoch": 120.01333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002973701658826859, "loss": 0.401, "step": 90010 }, { "epoch": 120.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029736957996008307, "loss": 0.4141, "step": 90020 }, { "epoch": 120.04, "grad_norm": 0.318359375, "learning_rate": 0.0002973689939727936, "loss": 0.4258, "step": 90030 }, { "epoch": 120.05333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002973684079208178, "loss": 0.4113, "step": 90040 }, { "epoch": 120.06666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029736782180415585, "loss": 0.399, "step": 90050 }, { "epoch": 120.08, "grad_norm": 0.388671875, "learning_rate": 0.000297367235622808, "loss": 0.4021, "step": 90060 }, { "epoch": 120.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029736664937677455, "loss": 0.403, "step": 90070 }, { "epoch": 120.10666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029736606306605566, "loss": 0.3915, "step": 90080 }, { "epoch": 120.12, "grad_norm": 0.365234375, "learning_rate": 0.0002973654766906517, "loss": 0.3967, "step": 90090 }, { "epoch": 120.13333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029736489025056293, "loss": 0.3878, "step": 90100 }, { "epoch": 120.14666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002973643037457896, "loss": 0.4067, "step": 90110 }, { "epoch": 120.16, "grad_norm": 0.359375, "learning_rate": 0.00029736371717633186, "loss": 0.4, "step": 90120 }, { "epoch": 120.17333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002973631305421901, "loss": 0.395, "step": 90130 }, { "epoch": 120.18666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002973625438433645, "loss": 0.3937, "step": 90140 }, { "epoch": 120.2, "grad_norm": 0.373046875, "learning_rate": 0.00029736195707985537, "loss": 0.3867, "step": 90150 }, { "epoch": 120.21333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002973613702516629, "loss": 0.386, "step": 90160 }, { "epoch": 120.22666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002973607833587874, "loss": 0.3988, "step": 90170 }, { "epoch": 120.24, "grad_norm": 0.3984375, "learning_rate": 0.0002973601964012291, "loss": 0.3844, "step": 90180 }, { "epoch": 120.25333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029735960937898827, "loss": 0.3859, "step": 90190 }, { "epoch": 120.26666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002973590222920652, "loss": 0.3882, "step": 90200 }, { "epoch": 120.28, "grad_norm": 0.3984375, "learning_rate": 0.0002973584351404601, "loss": 0.419, "step": 90210 }, { "epoch": 120.29333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002973578479241732, "loss": 0.3741, "step": 90220 }, { "epoch": 120.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002973572606432049, "loss": 0.3986, "step": 90230 }, { "epoch": 120.32, "grad_norm": 0.306640625, "learning_rate": 0.0002973566732975552, "loss": 0.4007, "step": 90240 }, { "epoch": 120.33333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029735608588722466, "loss": 0.403, "step": 90250 }, { "epoch": 120.34666666666666, "grad_norm": 0.44140625, "learning_rate": 0.0002973554984122133, "loss": 0.3934, "step": 90260 }, { "epoch": 120.36, "grad_norm": 0.451171875, "learning_rate": 0.00029735491087252156, "loss": 0.3945, "step": 90270 }, { "epoch": 120.37333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029735432326814955, "loss": 0.3951, "step": 90280 }, { "epoch": 120.38666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002973537355990976, "loss": 0.3879, "step": 90290 }, { "epoch": 120.4, "grad_norm": 0.400390625, "learning_rate": 0.000297353147865366, "loss": 0.3947, "step": 90300 }, { "epoch": 120.41333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002973525600669549, "loss": 0.3999, "step": 90310 }, { "epoch": 120.42666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002973519722038647, "loss": 0.4015, "step": 90320 }, { "epoch": 120.44, "grad_norm": 0.3828125, "learning_rate": 0.0002973513842760955, "loss": 0.4123, "step": 90330 }, { "epoch": 120.45333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002973507962836476, "loss": 0.4009, "step": 90340 }, { "epoch": 120.46666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002973502082265214, "loss": 0.4097, "step": 90350 }, { "epoch": 120.48, "grad_norm": 0.33984375, "learning_rate": 0.00029734962010471706, "loss": 0.391, "step": 90360 }, { "epoch": 120.49333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002973490319182348, "loss": 0.4024, "step": 90370 }, { "epoch": 120.50666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002973484436670749, "loss": 0.4015, "step": 90380 }, { "epoch": 120.52, "grad_norm": 0.333984375, "learning_rate": 0.00029734785535123764, "loss": 0.3908, "step": 90390 }, { "epoch": 120.53333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029734726697072325, "loss": 0.3948, "step": 90400 }, { "epoch": 120.54666666666667, "grad_norm": 0.447265625, "learning_rate": 0.000297346678525532, "loss": 0.3963, "step": 90410 }, { "epoch": 120.56, "grad_norm": 0.33984375, "learning_rate": 0.0002973460900156642, "loss": 0.3911, "step": 90420 }, { "epoch": 120.57333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029734550144112, "loss": 0.3941, "step": 90430 }, { "epoch": 120.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029734491280189977, "loss": 0.3838, "step": 90440 }, { "epoch": 120.6, "grad_norm": 0.373046875, "learning_rate": 0.00029734432409800365, "loss": 0.3852, "step": 90450 }, { "epoch": 120.61333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029734373532943204, "loss": 0.3744, "step": 90460 }, { "epoch": 120.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002973431464961851, "loss": 0.3802, "step": 90470 }, { "epoch": 120.64, "grad_norm": 0.396484375, "learning_rate": 0.0002973425575982631, "loss": 0.3914, "step": 90480 }, { "epoch": 120.65333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029734196863566637, "loss": 0.4014, "step": 90490 }, { "epoch": 120.66666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002973413796083951, "loss": 0.3889, "step": 90500 }, { "epoch": 120.68, "grad_norm": 0.40625, "learning_rate": 0.0002973407905164495, "loss": 0.3811, "step": 90510 }, { "epoch": 120.69333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002973402013598299, "loss": 0.3902, "step": 90520 }, { "epoch": 120.70666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029733961213853656, "loss": 0.3833, "step": 90530 }, { "epoch": 120.72, "grad_norm": 0.41796875, "learning_rate": 0.00029733902285256975, "loss": 0.4058, "step": 90540 }, { "epoch": 120.73333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002973384335019297, "loss": 0.3983, "step": 90550 }, { "epoch": 120.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029733784408661663, "loss": 0.4024, "step": 90560 }, { "epoch": 120.76, "grad_norm": 0.388671875, "learning_rate": 0.00029733725460663087, "loss": 0.414, "step": 90570 }, { "epoch": 120.77333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029733666506197266, "loss": 0.4015, "step": 90580 }, { "epoch": 120.78666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002973360754526422, "loss": 0.4015, "step": 90590 }, { "epoch": 120.8, "grad_norm": 0.41015625, "learning_rate": 0.0002973354857786399, "loss": 0.4014, "step": 90600 }, { "epoch": 120.81333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002973348960399658, "loss": 0.3741, "step": 90610 }, { "epoch": 120.82666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002973343062366204, "loss": 0.3836, "step": 90620 }, { "epoch": 120.84, "grad_norm": 0.388671875, "learning_rate": 0.0002973337163686037, "loss": 0.3958, "step": 90630 }, { "epoch": 120.85333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029733312643591615, "loss": 0.3901, "step": 90640 }, { "epoch": 120.86666666666666, "grad_norm": 0.361328125, "learning_rate": 0.000297332536438558, "loss": 0.395, "step": 90650 }, { "epoch": 120.88, "grad_norm": 0.3515625, "learning_rate": 0.0002973319463765294, "loss": 0.3766, "step": 90660 }, { "epoch": 120.89333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002973313562498307, "loss": 0.3885, "step": 90670 }, { "epoch": 120.90666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002973307660584621, "loss": 0.3937, "step": 90680 }, { "epoch": 120.92, "grad_norm": 0.35546875, "learning_rate": 0.00029733017580242394, "loss": 0.3961, "step": 90690 }, { "epoch": 120.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029732958548171637, "loss": 0.3894, "step": 90700 }, { "epoch": 120.94666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029732899509633977, "loss": 0.3909, "step": 90710 }, { "epoch": 120.96, "grad_norm": 0.345703125, "learning_rate": 0.00029732840464629425, "loss": 0.3888, "step": 90720 }, { "epoch": 120.97333333333333, "grad_norm": 0.486328125, "learning_rate": 0.00029732781413158025, "loss": 0.4133, "step": 90730 }, { "epoch": 120.98666666666666, "grad_norm": 0.427734375, "learning_rate": 0.00029732722355219787, "loss": 0.3871, "step": 90740 }, { "epoch": 121.0, "grad_norm": 0.439453125, "learning_rate": 0.0002973266329081475, "loss": 0.3827, "step": 90750 }, { "epoch": 121.0, "eval_loss": 0.4287010729312897, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9912, "eval_samples_per_second": 1.601, "eval_steps_per_second": 0.1, "step": 90750 }, { "epoch": 121.01333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002973260421994293, "loss": 0.4011, "step": 90760 }, { "epoch": 121.02666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002973254514260435, "loss": 0.4126, "step": 90770 }, { "epoch": 121.04, "grad_norm": 0.34765625, "learning_rate": 0.0002973248605879905, "loss": 0.4262, "step": 90780 }, { "epoch": 121.05333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002973242696852704, "loss": 0.4116, "step": 90790 }, { "epoch": 121.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002973236787178836, "loss": 0.3981, "step": 90800 }, { "epoch": 121.08, "grad_norm": 0.40625, "learning_rate": 0.0002973230876858303, "loss": 0.4035, "step": 90810 }, { "epoch": 121.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002973224965891107, "loss": 0.403, "step": 90820 }, { "epoch": 121.10666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002973219054277252, "loss": 0.3918, "step": 90830 }, { "epoch": 121.12, "grad_norm": 0.396484375, "learning_rate": 0.000297321314201674, "loss": 0.3965, "step": 90840 }, { "epoch": 121.13333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029732072291095723, "loss": 0.3882, "step": 90850 }, { "epoch": 121.14666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002973201315555753, "loss": 0.4065, "step": 90860 }, { "epoch": 121.16, "grad_norm": 0.337890625, "learning_rate": 0.0002973195401355284, "loss": 0.3994, "step": 90870 }, { "epoch": 121.17333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002973189486508169, "loss": 0.3938, "step": 90880 }, { "epoch": 121.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002973183571014409, "loss": 0.3936, "step": 90890 }, { "epoch": 121.2, "grad_norm": 0.3671875, "learning_rate": 0.0002973177654874008, "loss": 0.3857, "step": 90900 }, { "epoch": 121.21333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002973171738086967, "loss": 0.3868, "step": 90910 }, { "epoch": 121.22666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029731658206532904, "loss": 0.3995, "step": 90920 }, { "epoch": 121.24, "grad_norm": 0.408203125, "learning_rate": 0.00029731599025729796, "loss": 0.3836, "step": 90930 }, { "epoch": 121.25333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002973153983846037, "loss": 0.3857, "step": 90940 }, { "epoch": 121.26666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002973148064472467, "loss": 0.3883, "step": 90950 }, { "epoch": 121.28, "grad_norm": 0.40234375, "learning_rate": 0.000297314214445227, "loss": 0.4184, "step": 90960 }, { "epoch": 121.29333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029731362237854497, "loss": 0.3744, "step": 90970 }, { "epoch": 121.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002973130302472009, "loss": 0.3978, "step": 90980 }, { "epoch": 121.32, "grad_norm": 0.365234375, "learning_rate": 0.00029731243805119497, "loss": 0.3996, "step": 90990 }, { "epoch": 121.33333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029731184579052743, "loss": 0.404, "step": 91000 }, { "epoch": 121.34666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002973112534651986, "loss": 0.3944, "step": 91010 }, { "epoch": 121.36, "grad_norm": 0.458984375, "learning_rate": 0.0002973106610752088, "loss": 0.3939, "step": 91020 }, { "epoch": 121.37333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002973100686205582, "loss": 0.3959, "step": 91030 }, { "epoch": 121.38666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029730947610124696, "loss": 0.387, "step": 91040 }, { "epoch": 121.4, "grad_norm": 0.3828125, "learning_rate": 0.00029730888351727554, "loss": 0.3949, "step": 91050 }, { "epoch": 121.41333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029730829086864415, "loss": 0.3991, "step": 91060 }, { "epoch": 121.42666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029730769815535294, "loss": 0.4009, "step": 91070 }, { "epoch": 121.44, "grad_norm": 0.35546875, "learning_rate": 0.00029730710537740224, "loss": 0.4121, "step": 91080 }, { "epoch": 121.45333333333333, "grad_norm": 0.453125, "learning_rate": 0.0002973065125347924, "loss": 0.4004, "step": 91090 }, { "epoch": 121.46666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002973059196275235, "loss": 0.41, "step": 91100 }, { "epoch": 121.48, "grad_norm": 0.41796875, "learning_rate": 0.00029730532665559595, "loss": 0.3904, "step": 91110 }, { "epoch": 121.49333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002973047336190099, "loss": 0.4027, "step": 91120 }, { "epoch": 121.50666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029730414051776574, "loss": 0.4013, "step": 91130 }, { "epoch": 121.52, "grad_norm": 0.384765625, "learning_rate": 0.0002973035473518636, "loss": 0.3923, "step": 91140 }, { "epoch": 121.53333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002973029541213038, "loss": 0.3946, "step": 91150 }, { "epoch": 121.54666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002973023608260866, "loss": 0.3971, "step": 91160 }, { "epoch": 121.56, "grad_norm": 0.337890625, "learning_rate": 0.0002973017674662123, "loss": 0.3897, "step": 91170 }, { "epoch": 121.57333333333334, "grad_norm": 0.4609375, "learning_rate": 0.00029730117404168106, "loss": 0.3946, "step": 91180 }, { "epoch": 121.58666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029730058055249325, "loss": 0.3836, "step": 91190 }, { "epoch": 121.6, "grad_norm": 0.373046875, "learning_rate": 0.00029729998699864904, "loss": 0.384, "step": 91200 }, { "epoch": 121.61333333333333, "grad_norm": 0.375, "learning_rate": 0.0002972993933801487, "loss": 0.3744, "step": 91210 }, { "epoch": 121.62666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029729879969699264, "loss": 0.3802, "step": 91220 }, { "epoch": 121.64, "grad_norm": 0.37890625, "learning_rate": 0.0002972982059491809, "loss": 0.3918, "step": 91230 }, { "epoch": 121.65333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029729761213671385, "loss": 0.4014, "step": 91240 }, { "epoch": 121.66666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002972970182595918, "loss": 0.3888, "step": 91250 }, { "epoch": 121.68, "grad_norm": 0.3828125, "learning_rate": 0.00029729642431781483, "loss": 0.3801, "step": 91260 }, { "epoch": 121.69333333333333, "grad_norm": 0.326171875, "learning_rate": 0.00029729583031138344, "loss": 0.3893, "step": 91270 }, { "epoch": 121.70666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002972952362402977, "loss": 0.3825, "step": 91280 }, { "epoch": 121.72, "grad_norm": 0.3828125, "learning_rate": 0.000297294642104558, "loss": 0.4051, "step": 91290 }, { "epoch": 121.73333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029729404790416444, "loss": 0.3984, "step": 91300 }, { "epoch": 121.74666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002972934536391175, "loss": 0.4014, "step": 91310 }, { "epoch": 121.76, "grad_norm": 0.33984375, "learning_rate": 0.0002972928593094173, "loss": 0.4145, "step": 91320 }, { "epoch": 121.77333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002972922649150641, "loss": 0.4018, "step": 91330 }, { "epoch": 121.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002972916704560582, "loss": 0.4015, "step": 91340 }, { "epoch": 121.8, "grad_norm": 0.392578125, "learning_rate": 0.00029729107593239984, "loss": 0.4003, "step": 91350 }, { "epoch": 121.81333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029729048134408934, "loss": 0.3741, "step": 91360 }, { "epoch": 121.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029728988669112683, "loss": 0.3837, "step": 91370 }, { "epoch": 121.84, "grad_norm": 0.40234375, "learning_rate": 0.0002972892919735127, "loss": 0.395, "step": 91380 }, { "epoch": 121.85333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029728869719124716, "loss": 0.3906, "step": 91390 }, { "epoch": 121.86666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002972881023443305, "loss": 0.3948, "step": 91400 }, { "epoch": 121.88, "grad_norm": 0.396484375, "learning_rate": 0.00029728750743276294, "loss": 0.3762, "step": 91410 }, { "epoch": 121.89333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002972869124565447, "loss": 0.3875, "step": 91420 }, { "epoch": 121.90666666666667, "grad_norm": 0.375, "learning_rate": 0.00029728631741567617, "loss": 0.3938, "step": 91430 }, { "epoch": 121.92, "grad_norm": 0.3828125, "learning_rate": 0.0002972857223101575, "loss": 0.3963, "step": 91440 }, { "epoch": 121.93333333333334, "grad_norm": 0.3203125, "learning_rate": 0.00029728512713998896, "loss": 0.3898, "step": 91450 }, { "epoch": 121.94666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029728453190517093, "loss": 0.3919, "step": 91460 }, { "epoch": 121.96, "grad_norm": 0.33984375, "learning_rate": 0.0002972839366057035, "loss": 0.3882, "step": 91470 }, { "epoch": 121.97333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002972833412415871, "loss": 0.4133, "step": 91480 }, { "epoch": 121.98666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002972827458128218, "loss": 0.3862, "step": 91490 }, { "epoch": 122.0, "grad_norm": 0.3671875, "learning_rate": 0.000297282150319408, "loss": 0.3824, "step": 91500 }, { "epoch": 122.0, "eval_loss": 0.4277336895465851, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5271, "eval_samples_per_second": 1.679, "eval_steps_per_second": 0.105, "step": 91500 }, { "epoch": 122.01333333333334, "grad_norm": 0.375, "learning_rate": 0.000297281554761346, "loss": 0.3996, "step": 91510 }, { "epoch": 122.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029728095913863595, "loss": 0.4131, "step": 91520 }, { "epoch": 122.04, "grad_norm": 0.39453125, "learning_rate": 0.0002972803634512781, "loss": 0.4256, "step": 91530 }, { "epoch": 122.05333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002972797676992728, "loss": 0.4119, "step": 91540 }, { "epoch": 122.06666666666666, "grad_norm": 0.453125, "learning_rate": 0.0002972791718826203, "loss": 0.3992, "step": 91550 }, { "epoch": 122.08, "grad_norm": 0.458984375, "learning_rate": 0.0002972785760013208, "loss": 0.4026, "step": 91560 }, { "epoch": 122.09333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002972779800553746, "loss": 0.4033, "step": 91570 }, { "epoch": 122.10666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029727738404478196, "loss": 0.3904, "step": 91580 }, { "epoch": 122.12, "grad_norm": 0.359375, "learning_rate": 0.00029727678796954315, "loss": 0.3954, "step": 91590 }, { "epoch": 122.13333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002972761918296584, "loss": 0.3885, "step": 91600 }, { "epoch": 122.14666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029727559562512805, "loss": 0.407, "step": 91610 }, { "epoch": 122.16, "grad_norm": 0.369140625, "learning_rate": 0.00029727499935595225, "loss": 0.4003, "step": 91620 }, { "epoch": 122.17333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029727440302213133, "loss": 0.3952, "step": 91630 }, { "epoch": 122.18666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029727380662366556, "loss": 0.3937, "step": 91640 }, { "epoch": 122.2, "grad_norm": 0.412109375, "learning_rate": 0.00029727321016055516, "loss": 0.3863, "step": 91650 }, { "epoch": 122.21333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002972726136328004, "loss": 0.3872, "step": 91660 }, { "epoch": 122.22666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002972720170404016, "loss": 0.3983, "step": 91670 }, { "epoch": 122.24, "grad_norm": 0.392578125, "learning_rate": 0.0002972714203833589, "loss": 0.3834, "step": 91680 }, { "epoch": 122.25333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002972708236616727, "loss": 0.386, "step": 91690 }, { "epoch": 122.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002972702268753432, "loss": 0.3887, "step": 91700 }, { "epoch": 122.28, "grad_norm": 0.408203125, "learning_rate": 0.00029726963002437063, "loss": 0.4177, "step": 91710 }, { "epoch": 122.29333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002972690331087553, "loss": 0.3739, "step": 91720 }, { "epoch": 122.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029726843612849747, "loss": 0.3972, "step": 91730 }, { "epoch": 122.32, "grad_norm": 0.380859375, "learning_rate": 0.00029726783908359735, "loss": 0.4008, "step": 91740 }, { "epoch": 122.33333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029726724197405525, "loss": 0.402, "step": 91750 }, { "epoch": 122.34666666666666, "grad_norm": 0.4765625, "learning_rate": 0.0002972666447998714, "loss": 0.3928, "step": 91760 }, { "epoch": 122.36, "grad_norm": 0.48828125, "learning_rate": 0.00029726604756104616, "loss": 0.3939, "step": 91770 }, { "epoch": 122.37333333333333, "grad_norm": 0.330078125, "learning_rate": 0.00029726545025757965, "loss": 0.3947, "step": 91780 }, { "epoch": 122.38666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002972648528894722, "loss": 0.3873, "step": 91790 }, { "epoch": 122.4, "grad_norm": 0.388671875, "learning_rate": 0.0002972642554567241, "loss": 0.3947, "step": 91800 }, { "epoch": 122.41333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002972636579593356, "loss": 0.3996, "step": 91810 }, { "epoch": 122.42666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029726306039730687, "loss": 0.4005, "step": 91820 }, { "epoch": 122.44, "grad_norm": 0.38671875, "learning_rate": 0.0002972624627706383, "loss": 0.4111, "step": 91830 }, { "epoch": 122.45333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002972618650793301, "loss": 0.4009, "step": 91840 }, { "epoch": 122.46666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002972612673233825, "loss": 0.4103, "step": 91850 }, { "epoch": 122.48, "grad_norm": 0.376953125, "learning_rate": 0.0002972606695027959, "loss": 0.3921, "step": 91860 }, { "epoch": 122.49333333333334, "grad_norm": 0.34765625, "learning_rate": 0.00029726007161757036, "loss": 0.4028, "step": 91870 }, { "epoch": 122.50666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002972594736677062, "loss": 0.4003, "step": 91880 }, { "epoch": 122.52, "grad_norm": 0.349609375, "learning_rate": 0.0002972588756532038, "loss": 0.3906, "step": 91890 }, { "epoch": 122.53333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029725827757406335, "loss": 0.3943, "step": 91900 }, { "epoch": 122.54666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002972576794302851, "loss": 0.3971, "step": 91910 }, { "epoch": 122.56, "grad_norm": 0.3671875, "learning_rate": 0.0002972570812218692, "loss": 0.3915, "step": 91920 }, { "epoch": 122.57333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029725648294881617, "loss": 0.3931, "step": 91930 }, { "epoch": 122.58666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002972558846111261, "loss": 0.3829, "step": 91940 }, { "epoch": 122.6, "grad_norm": 0.349609375, "learning_rate": 0.0002972552862087993, "loss": 0.3842, "step": 91950 }, { "epoch": 122.61333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029725468774183597, "loss": 0.3753, "step": 91960 }, { "epoch": 122.62666666666667, "grad_norm": 0.314453125, "learning_rate": 0.00029725408921023647, "loss": 0.3784, "step": 91970 }, { "epoch": 122.64, "grad_norm": 0.390625, "learning_rate": 0.000297253490614001, "loss": 0.3926, "step": 91980 }, { "epoch": 122.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029725289195312986, "loss": 0.4014, "step": 91990 }, { "epoch": 122.66666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029725229322762325, "loss": 0.3894, "step": 92000 }, { "epoch": 122.68, "grad_norm": 0.37890625, "learning_rate": 0.0002972516944374815, "loss": 0.3804, "step": 92010 }, { "epoch": 122.69333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029725109558270484, "loss": 0.3891, "step": 92020 }, { "epoch": 122.70666666666666, "grad_norm": 0.453125, "learning_rate": 0.0002972504966632935, "loss": 0.3826, "step": 92030 }, { "epoch": 122.72, "grad_norm": 0.486328125, "learning_rate": 0.00029724989767924786, "loss": 0.4051, "step": 92040 }, { "epoch": 122.73333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029724929863056805, "loss": 0.3991, "step": 92050 }, { "epoch": 122.74666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002972486995172544, "loss": 0.4014, "step": 92060 }, { "epoch": 122.76, "grad_norm": 0.392578125, "learning_rate": 0.0002972481003393072, "loss": 0.4135, "step": 92070 }, { "epoch": 122.77333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029724750109672655, "loss": 0.4021, "step": 92080 }, { "epoch": 122.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.000297246901789513, "loss": 0.402, "step": 92090 }, { "epoch": 122.8, "grad_norm": 0.384765625, "learning_rate": 0.00029724630241766657, "loss": 0.4008, "step": 92100 }, { "epoch": 122.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029724570298118755, "loss": 0.3739, "step": 92110 }, { "epoch": 122.82666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029724510348007636, "loss": 0.3833, "step": 92120 }, { "epoch": 122.84, "grad_norm": 0.474609375, "learning_rate": 0.0002972445039143331, "loss": 0.3954, "step": 92130 }, { "epoch": 122.85333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002972439042839581, "loss": 0.3904, "step": 92140 }, { "epoch": 122.86666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029724330458895165, "loss": 0.3951, "step": 92150 }, { "epoch": 122.88, "grad_norm": 0.421875, "learning_rate": 0.0002972427048293139, "loss": 0.3758, "step": 92160 }, { "epoch": 122.89333333333333, "grad_norm": 0.375, "learning_rate": 0.00029724210500504527, "loss": 0.3878, "step": 92170 }, { "epoch": 122.90666666666667, "grad_norm": 0.375, "learning_rate": 0.0002972415051161459, "loss": 0.3943, "step": 92180 }, { "epoch": 122.92, "grad_norm": 0.3828125, "learning_rate": 0.00029724090516261613, "loss": 0.3964, "step": 92190 }, { "epoch": 122.93333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029724030514445614, "loss": 0.3905, "step": 92200 }, { "epoch": 122.94666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002972397050616663, "loss": 0.3908, "step": 92210 }, { "epoch": 122.96, "grad_norm": 0.36328125, "learning_rate": 0.0002972391049142468, "loss": 0.3885, "step": 92220 }, { "epoch": 122.97333333333333, "grad_norm": 0.46484375, "learning_rate": 0.0002972385047021979, "loss": 0.414, "step": 92230 }, { "epoch": 122.98666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029723790442551994, "loss": 0.3876, "step": 92240 }, { "epoch": 123.0, "grad_norm": 0.33984375, "learning_rate": 0.00029723730408421305, "loss": 0.3818, "step": 92250 }, { "epoch": 123.0, "eval_loss": 0.4266425371170044, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.4314, "eval_samples_per_second": 1.534, "eval_steps_per_second": 0.096, "step": 92250 }, { "epoch": 123.01333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002972367036782777, "loss": 0.399, "step": 92260 }, { "epoch": 123.02666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002972361032077139, "loss": 0.4138, "step": 92270 }, { "epoch": 123.04, "grad_norm": 0.361328125, "learning_rate": 0.0002972355026725221, "loss": 0.4255, "step": 92280 }, { "epoch": 123.05333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002972349020727025, "loss": 0.4112, "step": 92290 }, { "epoch": 123.06666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029723430140825535, "loss": 0.3979, "step": 92300 }, { "epoch": 123.08, "grad_norm": 0.474609375, "learning_rate": 0.00029723370067918095, "loss": 0.4021, "step": 92310 }, { "epoch": 123.09333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029723309988547954, "loss": 0.403, "step": 92320 }, { "epoch": 123.10666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029723249902715134, "loss": 0.3905, "step": 92330 }, { "epoch": 123.12, "grad_norm": 0.419921875, "learning_rate": 0.0002972318981041967, "loss": 0.3961, "step": 92340 }, { "epoch": 123.13333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002972312971166159, "loss": 0.3878, "step": 92350 }, { "epoch": 123.14666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029723069606440907, "loss": 0.4068, "step": 92360 }, { "epoch": 123.16, "grad_norm": 0.38671875, "learning_rate": 0.0002972300949475766, "loss": 0.3999, "step": 92370 }, { "epoch": 123.17333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002972294937661187, "loss": 0.3947, "step": 92380 }, { "epoch": 123.18666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002972288925200356, "loss": 0.3937, "step": 92390 }, { "epoch": 123.2, "grad_norm": 0.39453125, "learning_rate": 0.00029722829120932767, "loss": 0.3859, "step": 92400 }, { "epoch": 123.21333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029722768983399505, "loss": 0.386, "step": 92410 }, { "epoch": 123.22666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002972270883940381, "loss": 0.399, "step": 92420 }, { "epoch": 123.24, "grad_norm": 0.47265625, "learning_rate": 0.000297226486889457, "loss": 0.3831, "step": 92430 }, { "epoch": 123.25333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029722588532025214, "loss": 0.3856, "step": 92440 }, { "epoch": 123.26666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029722528368642366, "loss": 0.3876, "step": 92450 }, { "epoch": 123.28, "grad_norm": 0.419921875, "learning_rate": 0.00029722468198797186, "loss": 0.4177, "step": 92460 }, { "epoch": 123.29333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029722408022489705, "loss": 0.3736, "step": 92470 }, { "epoch": 123.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002972234783971994, "loss": 0.397, "step": 92480 }, { "epoch": 123.32, "grad_norm": 0.337890625, "learning_rate": 0.00029722287650487924, "loss": 0.3996, "step": 92490 }, { "epoch": 123.33333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002972222745479369, "loss": 0.4026, "step": 92500 }, { "epoch": 123.34666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002972216725263725, "loss": 0.3936, "step": 92510 }, { "epoch": 123.36, "grad_norm": 0.4765625, "learning_rate": 0.00029722107044018636, "loss": 0.3932, "step": 92520 }, { "epoch": 123.37333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002972204682893788, "loss": 0.3951, "step": 92530 }, { "epoch": 123.38666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029721986607395, "loss": 0.3866, "step": 92540 }, { "epoch": 123.4, "grad_norm": 0.380859375, "learning_rate": 0.00029721926379390034, "loss": 0.3943, "step": 92550 }, { "epoch": 123.41333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029721866144923, "loss": 0.3989, "step": 92560 }, { "epoch": 123.42666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002972180590399392, "loss": 0.3996, "step": 92570 }, { "epoch": 123.44, "grad_norm": 0.36328125, "learning_rate": 0.0002972174565660283, "loss": 0.4118, "step": 92580 }, { "epoch": 123.45333333333333, "grad_norm": 0.4453125, "learning_rate": 0.00029721685402749753, "loss": 0.401, "step": 92590 }, { "epoch": 123.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002972162514243471, "loss": 0.4097, "step": 92600 }, { "epoch": 123.48, "grad_norm": 0.34375, "learning_rate": 0.00029721564875657736, "loss": 0.3909, "step": 92610 }, { "epoch": 123.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002972150460241885, "loss": 0.4031, "step": 92620 }, { "epoch": 123.50666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002972144432271809, "loss": 0.4003, "step": 92630 }, { "epoch": 123.52, "grad_norm": 0.345703125, "learning_rate": 0.0002972138403655547, "loss": 0.3915, "step": 92640 }, { "epoch": 123.53333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002972132374393102, "loss": 0.3946, "step": 92650 }, { "epoch": 123.54666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002972126344484477, "loss": 0.3966, "step": 92660 }, { "epoch": 123.56, "grad_norm": 0.328125, "learning_rate": 0.0002972120313929675, "loss": 0.3911, "step": 92670 }, { "epoch": 123.57333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029721142827286967, "loss": 0.3943, "step": 92680 }, { "epoch": 123.58666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029721082508815465, "loss": 0.3831, "step": 92690 }, { "epoch": 123.6, "grad_norm": 0.330078125, "learning_rate": 0.0002972102218388227, "loss": 0.3848, "step": 92700 }, { "epoch": 123.61333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029720961852487405, "loss": 0.375, "step": 92710 }, { "epoch": 123.62666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000297209015146309, "loss": 0.3803, "step": 92720 }, { "epoch": 123.64, "grad_norm": 0.3984375, "learning_rate": 0.00029720841170312773, "loss": 0.3919, "step": 92730 }, { "epoch": 123.65333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002972078081953306, "loss": 0.4017, "step": 92740 }, { "epoch": 123.66666666666667, "grad_norm": 0.421875, "learning_rate": 0.00029720720462291775, "loss": 0.3889, "step": 92750 }, { "epoch": 123.68, "grad_norm": 0.435546875, "learning_rate": 0.0002972066009858896, "loss": 0.3804, "step": 92760 }, { "epoch": 123.69333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0002972059972842463, "loss": 0.3902, "step": 92770 }, { "epoch": 123.70666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002972053935179882, "loss": 0.3838, "step": 92780 }, { "epoch": 123.72, "grad_norm": 0.36328125, "learning_rate": 0.0002972047896871154, "loss": 0.4056, "step": 92790 }, { "epoch": 123.73333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002972041857916284, "loss": 0.3989, "step": 92800 }, { "epoch": 123.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002972035818315273, "loss": 0.4014, "step": 92810 }, { "epoch": 123.76, "grad_norm": 0.369140625, "learning_rate": 0.0002972029778068125, "loss": 0.4148, "step": 92820 }, { "epoch": 123.77333333333333, "grad_norm": 0.46875, "learning_rate": 0.0002972023737174841, "loss": 0.4012, "step": 92830 }, { "epoch": 123.78666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002972017695635424, "loss": 0.4016, "step": 92840 }, { "epoch": 123.8, "grad_norm": 0.44140625, "learning_rate": 0.0002972011653449878, "loss": 0.4003, "step": 92850 }, { "epoch": 123.81333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029720056106182044, "loss": 0.3744, "step": 92860 }, { "epoch": 123.82666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029719995671404067, "loss": 0.3836, "step": 92870 }, { "epoch": 123.84, "grad_norm": 0.435546875, "learning_rate": 0.0002971993523016486, "loss": 0.3946, "step": 92880 }, { "epoch": 123.85333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002971987478246447, "loss": 0.3907, "step": 92890 }, { "epoch": 123.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002971981432830291, "loss": 0.3956, "step": 92900 }, { "epoch": 123.88, "grad_norm": 0.40625, "learning_rate": 0.0002971975386768021, "loss": 0.3766, "step": 92910 }, { "epoch": 123.89333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029719693400596394, "loss": 0.3873, "step": 92920 }, { "epoch": 123.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.000297196329270515, "loss": 0.3949, "step": 92930 }, { "epoch": 123.92, "grad_norm": 0.390625, "learning_rate": 0.00029719572447045535, "loss": 0.3961, "step": 92940 }, { "epoch": 123.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029719511960578544, "loss": 0.3899, "step": 92950 }, { "epoch": 123.94666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029719451467650544, "loss": 0.3918, "step": 92960 }, { "epoch": 123.96, "grad_norm": 0.38671875, "learning_rate": 0.00029719390968261565, "loss": 0.3886, "step": 92970 }, { "epoch": 123.97333333333333, "grad_norm": 0.490234375, "learning_rate": 0.0002971933046241163, "loss": 0.4144, "step": 92980 }, { "epoch": 123.98666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002971926995010077, "loss": 0.3871, "step": 92990 }, { "epoch": 124.0, "grad_norm": 0.380859375, "learning_rate": 0.00029719209431329003, "loss": 0.3824, "step": 93000 }, { "epoch": 124.0, "eval_loss": 0.4261782467365265, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1064, "eval_samples_per_second": 1.583, "eval_steps_per_second": 0.099, "step": 93000 }, { "epoch": 124.01333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029719148906096364, "loss": 0.3993, "step": 93010 }, { "epoch": 124.02666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002971908837440288, "loss": 0.4129, "step": 93020 }, { "epoch": 124.04, "grad_norm": 0.369140625, "learning_rate": 0.00029719027836248575, "loss": 0.4259, "step": 93030 }, { "epoch": 124.05333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029718967291633475, "loss": 0.4115, "step": 93040 }, { "epoch": 124.06666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002971890674055761, "loss": 0.3983, "step": 93050 }, { "epoch": 124.08, "grad_norm": 0.4609375, "learning_rate": 0.00029718846183020997, "loss": 0.401, "step": 93060 }, { "epoch": 124.09333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002971878561902367, "loss": 0.4032, "step": 93070 }, { "epoch": 124.10666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029718725048565655, "loss": 0.391, "step": 93080 }, { "epoch": 124.12, "grad_norm": 0.458984375, "learning_rate": 0.0002971866447164698, "loss": 0.396, "step": 93090 }, { "epoch": 124.13333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002971860388826767, "loss": 0.3871, "step": 93100 }, { "epoch": 124.14666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002971854329842775, "loss": 0.4062, "step": 93110 }, { "epoch": 124.16, "grad_norm": 0.34375, "learning_rate": 0.0002971848270212725, "loss": 0.3995, "step": 93120 }, { "epoch": 124.17333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029718422099366193, "loss": 0.3938, "step": 93130 }, { "epoch": 124.18666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029718361490144613, "loss": 0.3932, "step": 93140 }, { "epoch": 124.2, "grad_norm": 0.359375, "learning_rate": 0.00029718300874462527, "loss": 0.3861, "step": 93150 }, { "epoch": 124.21333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002971824025231996, "loss": 0.3869, "step": 93160 }, { "epoch": 124.22666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002971817962371695, "loss": 0.3994, "step": 93170 }, { "epoch": 124.24, "grad_norm": 0.3671875, "learning_rate": 0.0002971811898865352, "loss": 0.3833, "step": 93180 }, { "epoch": 124.25333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002971805834712969, "loss": 0.385, "step": 93190 }, { "epoch": 124.26666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002971799769914549, "loss": 0.388, "step": 93200 }, { "epoch": 124.28, "grad_norm": 0.388671875, "learning_rate": 0.00029717937044700956, "loss": 0.4176, "step": 93210 }, { "epoch": 124.29333333333334, "grad_norm": 0.345703125, "learning_rate": 0.000297178763837961, "loss": 0.374, "step": 93220 }, { "epoch": 124.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002971781571643095, "loss": 0.397, "step": 93230 }, { "epoch": 124.32, "grad_norm": 0.345703125, "learning_rate": 0.00029717755042605546, "loss": 0.3997, "step": 93240 }, { "epoch": 124.33333333333333, "grad_norm": 0.400390625, "learning_rate": 0.000297176943623199, "loss": 0.403, "step": 93250 }, { "epoch": 124.34666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002971763367557405, "loss": 0.3937, "step": 93260 }, { "epoch": 124.36, "grad_norm": 0.435546875, "learning_rate": 0.00029717572982368017, "loss": 0.3939, "step": 93270 }, { "epoch": 124.37333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002971751228270182, "loss": 0.3948, "step": 93280 }, { "epoch": 124.38666666666667, "grad_norm": 0.419921875, "learning_rate": 0.000297174515765755, "loss": 0.3872, "step": 93290 }, { "epoch": 124.4, "grad_norm": 0.37890625, "learning_rate": 0.0002971739086398908, "loss": 0.3941, "step": 93300 }, { "epoch": 124.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002971733014494258, "loss": 0.4, "step": 93310 }, { "epoch": 124.42666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002971726941943603, "loss": 0.4013, "step": 93320 }, { "epoch": 124.44, "grad_norm": 0.408203125, "learning_rate": 0.0002971720868746946, "loss": 0.4116, "step": 93330 }, { "epoch": 124.45333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002971714794904289, "loss": 0.4008, "step": 93340 }, { "epoch": 124.46666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029717087204156356, "loss": 0.4095, "step": 93350 }, { "epoch": 124.48, "grad_norm": 0.375, "learning_rate": 0.0002971702645280988, "loss": 0.3911, "step": 93360 }, { "epoch": 124.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002971696569500348, "loss": 0.4024, "step": 93370 }, { "epoch": 124.50666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029716904930737195, "loss": 0.401, "step": 93380 }, { "epoch": 124.52, "grad_norm": 0.31640625, "learning_rate": 0.0002971684416001105, "loss": 0.3915, "step": 93390 }, { "epoch": 124.53333333333333, "grad_norm": 0.375, "learning_rate": 0.0002971678338282506, "loss": 0.3945, "step": 93400 }, { "epoch": 124.54666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002971672259917927, "loss": 0.3956, "step": 93410 }, { "epoch": 124.56, "grad_norm": 0.3203125, "learning_rate": 0.000297166618090737, "loss": 0.3907, "step": 93420 }, { "epoch": 124.57333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002971660101250836, "loss": 0.3935, "step": 93430 }, { "epoch": 124.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.000297165402094833, "loss": 0.3822, "step": 93440 }, { "epoch": 124.6, "grad_norm": 0.357421875, "learning_rate": 0.0002971647939999854, "loss": 0.3841, "step": 93450 }, { "epoch": 124.61333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029716418584054097, "loss": 0.3745, "step": 93460 }, { "epoch": 124.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.00029716357761650007, "loss": 0.3805, "step": 93470 }, { "epoch": 124.64, "grad_norm": 0.388671875, "learning_rate": 0.000297162969327863, "loss": 0.3916, "step": 93480 }, { "epoch": 124.65333333333334, "grad_norm": 0.466796875, "learning_rate": 0.00029716236097462987, "loss": 0.4015, "step": 93490 }, { "epoch": 124.66666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029716175255680116, "loss": 0.3888, "step": 93500 }, { "epoch": 124.68, "grad_norm": 0.46875, "learning_rate": 0.00029716114407437694, "loss": 0.3804, "step": 93510 }, { "epoch": 124.69333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029716053552735763, "loss": 0.3891, "step": 93520 }, { "epoch": 124.70666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002971599269157434, "loss": 0.3828, "step": 93530 }, { "epoch": 124.72, "grad_norm": 0.39453125, "learning_rate": 0.00029715931823953446, "loss": 0.4038, "step": 93540 }, { "epoch": 124.73333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029715870949873125, "loss": 0.3986, "step": 93550 }, { "epoch": 124.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029715810069333394, "loss": 0.4014, "step": 93560 }, { "epoch": 124.76, "grad_norm": 0.40234375, "learning_rate": 0.00029715749182334284, "loss": 0.414, "step": 93570 }, { "epoch": 124.77333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029715688288875817, "loss": 0.4006, "step": 93580 }, { "epoch": 124.78666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002971562738895802, "loss": 0.402, "step": 93590 }, { "epoch": 124.8, "grad_norm": 0.390625, "learning_rate": 0.0002971556648258092, "loss": 0.3999, "step": 93600 }, { "epoch": 124.81333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002971550556974454, "loss": 0.3736, "step": 93610 }, { "epoch": 124.82666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029715444650448925, "loss": 0.3839, "step": 93620 }, { "epoch": 124.84, "grad_norm": 0.3828125, "learning_rate": 0.0002971538372469408, "loss": 0.3954, "step": 93630 }, { "epoch": 124.85333333333334, "grad_norm": 0.486328125, "learning_rate": 0.00029715322792480043, "loss": 0.3899, "step": 93640 }, { "epoch": 124.86666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029715261853806833, "loss": 0.3951, "step": 93650 }, { "epoch": 124.88, "grad_norm": 0.412109375, "learning_rate": 0.00029715200908674483, "loss": 0.3756, "step": 93660 }, { "epoch": 124.89333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002971513995708302, "loss": 0.3875, "step": 93670 }, { "epoch": 124.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029715078999032466, "loss": 0.3949, "step": 93680 }, { "epoch": 124.92, "grad_norm": 0.39453125, "learning_rate": 0.00029715018034522854, "loss": 0.3965, "step": 93690 }, { "epoch": 124.93333333333334, "grad_norm": 0.341796875, "learning_rate": 0.00029714957063554204, "loss": 0.3894, "step": 93700 }, { "epoch": 124.94666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002971489608612655, "loss": 0.3901, "step": 93710 }, { "epoch": 124.96, "grad_norm": 0.375, "learning_rate": 0.00029714835102239914, "loss": 0.388, "step": 93720 }, { "epoch": 124.97333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002971477411189432, "loss": 0.4136, "step": 93730 }, { "epoch": 124.98666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002971471311508981, "loss": 0.3877, "step": 93740 }, { "epoch": 125.0, "grad_norm": 0.37109375, "learning_rate": 0.00029714652111826386, "loss": 0.3819, "step": 93750 }, { "epoch": 125.0, "eval_loss": 0.4256143271923065, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.025, "eval_samples_per_second": 1.596, "eval_steps_per_second": 0.1, "step": 93750 }, { "epoch": 125.01333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002971459110210409, "loss": 0.4007, "step": 93760 }, { "epoch": 125.02666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002971453008592295, "loss": 0.4125, "step": 93770 }, { "epoch": 125.04, "grad_norm": 0.3359375, "learning_rate": 0.00029714469063282995, "loss": 0.426, "step": 93780 }, { "epoch": 125.05333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029714408034184245, "loss": 0.411, "step": 93790 }, { "epoch": 125.06666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029714346998626723, "loss": 0.3986, "step": 93800 }, { "epoch": 125.08, "grad_norm": 0.3828125, "learning_rate": 0.0002971428595661046, "loss": 0.4021, "step": 93810 }, { "epoch": 125.09333333333333, "grad_norm": 0.375, "learning_rate": 0.0002971422490813549, "loss": 0.4035, "step": 93820 }, { "epoch": 125.10666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002971416385320183, "loss": 0.3914, "step": 93830 }, { "epoch": 125.12, "grad_norm": 0.376953125, "learning_rate": 0.0002971410279180951, "loss": 0.3963, "step": 93840 }, { "epoch": 125.13333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002971404172395856, "loss": 0.387, "step": 93850 }, { "epoch": 125.14666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029713980649649, "loss": 0.4064, "step": 93860 }, { "epoch": 125.16, "grad_norm": 0.35546875, "learning_rate": 0.00029713919568880867, "loss": 0.3996, "step": 93870 }, { "epoch": 125.17333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002971385848165417, "loss": 0.3947, "step": 93880 }, { "epoch": 125.18666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002971379738796896, "loss": 0.3927, "step": 93890 }, { "epoch": 125.2, "grad_norm": 0.365234375, "learning_rate": 0.00029713736287825246, "loss": 0.3869, "step": 93900 }, { "epoch": 125.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002971367518122306, "loss": 0.3871, "step": 93910 }, { "epoch": 125.22666666666667, "grad_norm": 0.431640625, "learning_rate": 0.00029713614068162426, "loss": 0.3979, "step": 93920 }, { "epoch": 125.24, "grad_norm": 0.41015625, "learning_rate": 0.00029713552948643383, "loss": 0.3829, "step": 93930 }, { "epoch": 125.25333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002971349182266594, "loss": 0.3853, "step": 93940 }, { "epoch": 125.26666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002971343069023014, "loss": 0.3877, "step": 93950 }, { "epoch": 125.28, "grad_norm": 0.390625, "learning_rate": 0.00029713369551335995, "loss": 0.4183, "step": 93960 }, { "epoch": 125.29333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002971330840598354, "loss": 0.3737, "step": 93970 }, { "epoch": 125.30666666666667, "grad_norm": 0.361328125, "learning_rate": 0.000297132472541728, "loss": 0.3968, "step": 93980 }, { "epoch": 125.32, "grad_norm": 0.35546875, "learning_rate": 0.00029713186095903807, "loss": 0.3997, "step": 93990 }, { "epoch": 125.33333333333333, "grad_norm": 0.427734375, "learning_rate": 0.00029713124931176585, "loss": 0.4026, "step": 94000 }, { "epoch": 125.34666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029713063759991156, "loss": 0.3931, "step": 94010 }, { "epoch": 125.36, "grad_norm": 0.55078125, "learning_rate": 0.00029713002582347546, "loss": 0.3934, "step": 94020 }, { "epoch": 125.37333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029712941398245794, "loss": 0.3946, "step": 94030 }, { "epoch": 125.38666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029712880207685916, "loss": 0.3876, "step": 94040 }, { "epoch": 125.4, "grad_norm": 0.376953125, "learning_rate": 0.0002971281901066794, "loss": 0.395, "step": 94050 }, { "epoch": 125.41333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029712757807191895, "loss": 0.3985, "step": 94060 }, { "epoch": 125.42666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002971269659725781, "loss": 0.4003, "step": 94070 }, { "epoch": 125.44, "grad_norm": 0.3984375, "learning_rate": 0.0002971263538086571, "loss": 0.4118, "step": 94080 }, { "epoch": 125.45333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002971257415801562, "loss": 0.4001, "step": 94090 }, { "epoch": 125.46666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002971251292870757, "loss": 0.4095, "step": 94100 }, { "epoch": 125.48, "grad_norm": 0.390625, "learning_rate": 0.00029712451692941584, "loss": 0.3909, "step": 94110 }, { "epoch": 125.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002971239045071769, "loss": 0.4024, "step": 94120 }, { "epoch": 125.50666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002971232920203591, "loss": 0.4015, "step": 94130 }, { "epoch": 125.52, "grad_norm": 0.353515625, "learning_rate": 0.0002971226794689628, "loss": 0.3901, "step": 94140 }, { "epoch": 125.53333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029712206685298824, "loss": 0.3945, "step": 94150 }, { "epoch": 125.54666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002971214541724357, "loss": 0.3967, "step": 94160 }, { "epoch": 125.56, "grad_norm": 0.322265625, "learning_rate": 0.00029712084142730533, "loss": 0.3892, "step": 94170 }, { "epoch": 125.57333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029712022861759756, "loss": 0.3942, "step": 94180 }, { "epoch": 125.58666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002971196157433126, "loss": 0.3823, "step": 94190 }, { "epoch": 125.6, "grad_norm": 0.333984375, "learning_rate": 0.00029711900280445067, "loss": 0.3844, "step": 94200 }, { "epoch": 125.61333333333333, "grad_norm": 0.328125, "learning_rate": 0.0002971183898010121, "loss": 0.3745, "step": 94210 }, { "epoch": 125.62666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0002971177767329971, "loss": 0.3795, "step": 94220 }, { "epoch": 125.64, "grad_norm": 0.361328125, "learning_rate": 0.00029711716360040607, "loss": 0.3922, "step": 94230 }, { "epoch": 125.65333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002971165504032391, "loss": 0.4005, "step": 94240 }, { "epoch": 125.66666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002971159371414966, "loss": 0.3881, "step": 94250 }, { "epoch": 125.68, "grad_norm": 0.365234375, "learning_rate": 0.0002971153238151788, "loss": 0.3811, "step": 94260 }, { "epoch": 125.69333333333333, "grad_norm": 0.314453125, "learning_rate": 0.00029711471042428593, "loss": 0.3901, "step": 94270 }, { "epoch": 125.70666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029711409696881824, "loss": 0.3822, "step": 94280 }, { "epoch": 125.72, "grad_norm": 0.412109375, "learning_rate": 0.0002971134834487761, "loss": 0.4045, "step": 94290 }, { "epoch": 125.73333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002971128698641597, "loss": 0.3985, "step": 94300 }, { "epoch": 125.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029711225621496936, "loss": 0.401, "step": 94310 }, { "epoch": 125.76, "grad_norm": 0.3828125, "learning_rate": 0.00029711164250120526, "loss": 0.4139, "step": 94320 }, { "epoch": 125.77333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002971110287228678, "loss": 0.4011, "step": 94330 }, { "epoch": 125.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.00029711041487995716, "loss": 0.4026, "step": 94340 }, { "epoch": 125.8, "grad_norm": 0.359375, "learning_rate": 0.0002971098009724736, "loss": 0.3994, "step": 94350 }, { "epoch": 125.81333333333333, "grad_norm": 0.44140625, "learning_rate": 0.0002971091870004174, "loss": 0.3738, "step": 94360 }, { "epoch": 125.82666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002971085729637889, "loss": 0.3827, "step": 94370 }, { "epoch": 125.84, "grad_norm": 0.435546875, "learning_rate": 0.00029710795886258836, "loss": 0.3948, "step": 94380 }, { "epoch": 125.85333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002971073446968159, "loss": 0.3908, "step": 94390 }, { "epoch": 125.86666666666666, "grad_norm": 0.390625, "learning_rate": 0.000297106730466472, "loss": 0.3944, "step": 94400 }, { "epoch": 125.88, "grad_norm": 0.37890625, "learning_rate": 0.00029710611617155675, "loss": 0.3757, "step": 94410 }, { "epoch": 125.89333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002971055018120705, "loss": 0.3882, "step": 94420 }, { "epoch": 125.90666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029710488738801357, "loss": 0.3938, "step": 94430 }, { "epoch": 125.92, "grad_norm": 0.404296875, "learning_rate": 0.00029710427289938616, "loss": 0.3959, "step": 94440 }, { "epoch": 125.93333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029710365834618855, "loss": 0.3899, "step": 94450 }, { "epoch": 125.94666666666667, "grad_norm": 0.369140625, "learning_rate": 0.000297103043728421, "loss": 0.3905, "step": 94460 }, { "epoch": 125.96, "grad_norm": 0.359375, "learning_rate": 0.00029710242904608375, "loss": 0.389, "step": 94470 }, { "epoch": 125.97333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002971018142991772, "loss": 0.4129, "step": 94480 }, { "epoch": 125.98666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002971011994877015, "loss": 0.3863, "step": 94490 }, { "epoch": 126.0, "grad_norm": 0.404296875, "learning_rate": 0.000297100584611657, "loss": 0.3829, "step": 94500 }, { "epoch": 126.0, "eval_loss": 0.4274330735206604, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.773, "eval_samples_per_second": 1.637, "eval_steps_per_second": 0.102, "step": 94500 }, { "epoch": 126.01333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029709996967104387, "loss": 0.3986, "step": 94510 }, { "epoch": 126.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029709935466586243, "loss": 0.413, "step": 94520 }, { "epoch": 126.04, "grad_norm": 0.34375, "learning_rate": 0.00029709873959611296, "loss": 0.4259, "step": 94530 }, { "epoch": 126.05333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002970981244617958, "loss": 0.411, "step": 94540 }, { "epoch": 126.06666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029709750926291105, "loss": 0.399, "step": 94550 }, { "epoch": 126.08, "grad_norm": 0.388671875, "learning_rate": 0.00029709689399945905, "loss": 0.4025, "step": 94560 }, { "epoch": 126.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002970962786714402, "loss": 0.4026, "step": 94570 }, { "epoch": 126.10666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002970956632788546, "loss": 0.3907, "step": 94580 }, { "epoch": 126.12, "grad_norm": 0.41015625, "learning_rate": 0.0002970950478217026, "loss": 0.3955, "step": 94590 }, { "epoch": 126.13333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029709443229998446, "loss": 0.3879, "step": 94600 }, { "epoch": 126.14666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002970938167137005, "loss": 0.4065, "step": 94610 }, { "epoch": 126.16, "grad_norm": 0.369140625, "learning_rate": 0.00029709320106285084, "loss": 0.4001, "step": 94620 }, { "epoch": 126.17333333333333, "grad_norm": 0.50390625, "learning_rate": 0.0002970925853474358, "loss": 0.3941, "step": 94630 }, { "epoch": 126.18666666666667, "grad_norm": 0.4765625, "learning_rate": 0.0002970919695674558, "loss": 0.3929, "step": 94640 }, { "epoch": 126.2, "grad_norm": 0.392578125, "learning_rate": 0.000297091353722911, "loss": 0.3858, "step": 94650 }, { "epoch": 126.21333333333334, "grad_norm": 0.375, "learning_rate": 0.00029709073781380166, "loss": 0.3864, "step": 94660 }, { "epoch": 126.22666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029709012184012806, "loss": 0.3974, "step": 94670 }, { "epoch": 126.24, "grad_norm": 0.392578125, "learning_rate": 0.00029708950580189055, "loss": 0.3831, "step": 94680 }, { "epoch": 126.25333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029708888969908923, "loss": 0.3857, "step": 94690 }, { "epoch": 126.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002970882735317245, "loss": 0.3867, "step": 94700 }, { "epoch": 126.28, "grad_norm": 0.41015625, "learning_rate": 0.0002970876572997966, "loss": 0.4166, "step": 94710 }, { "epoch": 126.29333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029708704100330576, "loss": 0.3742, "step": 94720 }, { "epoch": 126.30666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029708642464225236, "loss": 0.3975, "step": 94730 }, { "epoch": 126.32, "grad_norm": 0.326171875, "learning_rate": 0.00029708580821663657, "loss": 0.3997, "step": 94740 }, { "epoch": 126.33333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029708519172645865, "loss": 0.4027, "step": 94750 }, { "epoch": 126.34666666666666, "grad_norm": 0.39453125, "learning_rate": 0.000297084575171719, "loss": 0.3931, "step": 94760 }, { "epoch": 126.36, "grad_norm": 0.48046875, "learning_rate": 0.00029708395855241774, "loss": 0.3941, "step": 94770 }, { "epoch": 126.37333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002970833418685552, "loss": 0.3942, "step": 94780 }, { "epoch": 126.38666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029708272512013164, "loss": 0.3871, "step": 94790 }, { "epoch": 126.4, "grad_norm": 0.390625, "learning_rate": 0.0002970821083071474, "loss": 0.3938, "step": 94800 }, { "epoch": 126.41333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029708149142960267, "loss": 0.3984, "step": 94810 }, { "epoch": 126.42666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029708087448749774, "loss": 0.3999, "step": 94820 }, { "epoch": 126.44, "grad_norm": 0.408203125, "learning_rate": 0.0002970802574808329, "loss": 0.4119, "step": 94830 }, { "epoch": 126.45333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002970796404096084, "loss": 0.3999, "step": 94840 }, { "epoch": 126.46666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002970790232738245, "loss": 0.4093, "step": 94850 }, { "epoch": 126.48, "grad_norm": 0.380859375, "learning_rate": 0.00029707840607348147, "loss": 0.391, "step": 94860 }, { "epoch": 126.49333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002970777888085797, "loss": 0.4023, "step": 94870 }, { "epoch": 126.50666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029707717147911924, "loss": 0.4005, "step": 94880 }, { "epoch": 126.52, "grad_norm": 0.3515625, "learning_rate": 0.0002970765540851005, "loss": 0.391, "step": 94890 }, { "epoch": 126.53333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002970759366265238, "loss": 0.395, "step": 94900 }, { "epoch": 126.54666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002970753191033893, "loss": 0.396, "step": 94910 }, { "epoch": 126.56, "grad_norm": 0.3515625, "learning_rate": 0.00029707470151569735, "loss": 0.3908, "step": 94920 }, { "epoch": 126.57333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002970740838634481, "loss": 0.3947, "step": 94930 }, { "epoch": 126.58666666666667, "grad_norm": 0.40234375, "learning_rate": 0.000297073466146642, "loss": 0.3832, "step": 94940 }, { "epoch": 126.6, "grad_norm": 0.35546875, "learning_rate": 0.0002970728483652792, "loss": 0.3838, "step": 94950 }, { "epoch": 126.61333333333333, "grad_norm": 0.3203125, "learning_rate": 0.00029707223051935995, "loss": 0.3752, "step": 94960 }, { "epoch": 126.62666666666667, "grad_norm": 0.326171875, "learning_rate": 0.00029707161260888467, "loss": 0.3796, "step": 94970 }, { "epoch": 126.64, "grad_norm": 0.412109375, "learning_rate": 0.0002970709946338535, "loss": 0.3923, "step": 94980 }, { "epoch": 126.65333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029707037659426665, "loss": 0.4018, "step": 94990 }, { "epoch": 126.66666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002970697584901246, "loss": 0.3886, "step": 95000 }, { "epoch": 126.68, "grad_norm": 0.4140625, "learning_rate": 0.00029706914032142745, "loss": 0.3803, "step": 95010 }, { "epoch": 126.69333333333333, "grad_norm": 0.5390625, "learning_rate": 0.00029706852208817553, "loss": 0.3891, "step": 95020 }, { "epoch": 126.70666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029706790379036913, "loss": 0.3829, "step": 95030 }, { "epoch": 126.72, "grad_norm": 0.390625, "learning_rate": 0.0002970672854280085, "loss": 0.4061, "step": 95040 }, { "epoch": 126.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002970666670010939, "loss": 0.3988, "step": 95050 }, { "epoch": 126.74666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002970660485096256, "loss": 0.4018, "step": 95060 }, { "epoch": 126.76, "grad_norm": 0.38671875, "learning_rate": 0.00029706542995360386, "loss": 0.4134, "step": 95070 }, { "epoch": 126.77333333333333, "grad_norm": 0.388671875, "learning_rate": 0.000297064811333029, "loss": 0.4015, "step": 95080 }, { "epoch": 126.78666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0002970641926479013, "loss": 0.4014, "step": 95090 }, { "epoch": 126.8, "grad_norm": 0.390625, "learning_rate": 0.000297063573898221, "loss": 0.3996, "step": 95100 }, { "epoch": 126.81333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029706295508398836, "loss": 0.3725, "step": 95110 }, { "epoch": 126.82666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002970623362052036, "loss": 0.3822, "step": 95120 }, { "epoch": 126.84, "grad_norm": 0.421875, "learning_rate": 0.0002970617172618671, "loss": 0.3943, "step": 95130 }, { "epoch": 126.85333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002970610982539791, "loss": 0.3898, "step": 95140 }, { "epoch": 126.86666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002970604791815398, "loss": 0.3947, "step": 95150 }, { "epoch": 126.88, "grad_norm": 0.3671875, "learning_rate": 0.0002970598600445496, "loss": 0.3751, "step": 95160 }, { "epoch": 126.89333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029705924084300864, "loss": 0.3873, "step": 95170 }, { "epoch": 126.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029705862157691727, "loss": 0.3929, "step": 95180 }, { "epoch": 126.92, "grad_norm": 0.390625, "learning_rate": 0.00029705800224627576, "loss": 0.3956, "step": 95190 }, { "epoch": 126.93333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029705738285108437, "loss": 0.3881, "step": 95200 }, { "epoch": 126.94666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029705676339134344, "loss": 0.3902, "step": 95210 }, { "epoch": 126.96, "grad_norm": 0.35546875, "learning_rate": 0.00029705614386705306, "loss": 0.3876, "step": 95220 }, { "epoch": 126.97333333333333, "grad_norm": 0.51953125, "learning_rate": 0.0002970555242782136, "loss": 0.4128, "step": 95230 }, { "epoch": 126.98666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002970549046248254, "loss": 0.3863, "step": 95240 }, { "epoch": 127.0, "grad_norm": 0.396484375, "learning_rate": 0.00029705428490688865, "loss": 0.3819, "step": 95250 }, { "epoch": 127.0, "eval_loss": 0.42642635107040405, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0499, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.1, "step": 95250 }, { "epoch": 127.01333333333334, "grad_norm": 0.43359375, "learning_rate": 0.00029705366512440366, "loss": 0.3991, "step": 95260 }, { "epoch": 127.02666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002970530452773707, "loss": 0.412, "step": 95270 }, { "epoch": 127.04, "grad_norm": 0.357421875, "learning_rate": 0.00029705242536579, "loss": 0.426, "step": 95280 }, { "epoch": 127.05333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002970518053896619, "loss": 0.4112, "step": 95290 }, { "epoch": 127.06666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002970511853489866, "loss": 0.3983, "step": 95300 }, { "epoch": 127.08, "grad_norm": 0.384765625, "learning_rate": 0.00029705056524376443, "loss": 0.4023, "step": 95310 }, { "epoch": 127.09333333333333, "grad_norm": 1.015625, "learning_rate": 0.00029704994507399565, "loss": 0.4041, "step": 95320 }, { "epoch": 127.10666666666667, "grad_norm": 1.0703125, "learning_rate": 0.0002970493248396805, "loss": 0.391, "step": 95330 }, { "epoch": 127.12, "grad_norm": 0.78515625, "learning_rate": 0.0002970487045408193, "loss": 0.3961, "step": 95340 }, { "epoch": 127.13333333333334, "grad_norm": 1.1015625, "learning_rate": 0.0002970480841774123, "loss": 0.388, "step": 95350 }, { "epoch": 127.14666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002970474637494597, "loss": 0.4062, "step": 95360 }, { "epoch": 127.16, "grad_norm": 0.447265625, "learning_rate": 0.00029704684325696195, "loss": 0.3997, "step": 95370 }, { "epoch": 127.17333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029704622269991914, "loss": 0.3947, "step": 95380 }, { "epoch": 127.18666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029704560207833165, "loss": 0.3922, "step": 95390 }, { "epoch": 127.2, "grad_norm": 0.369140625, "learning_rate": 0.00029704498139219965, "loss": 0.3848, "step": 95400 }, { "epoch": 127.21333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002970443606415236, "loss": 0.3863, "step": 95410 }, { "epoch": 127.22666666666667, "grad_norm": 0.45703125, "learning_rate": 0.00029704373982630355, "loss": 0.3975, "step": 95420 }, { "epoch": 127.24, "grad_norm": 0.455078125, "learning_rate": 0.0002970431189465399, "loss": 0.3839, "step": 95430 }, { "epoch": 127.25333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002970424980022329, "loss": 0.3866, "step": 95440 }, { "epoch": 127.26666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029704187699338287, "loss": 0.3873, "step": 95450 }, { "epoch": 127.28, "grad_norm": 0.421875, "learning_rate": 0.00029704125591998996, "loss": 0.4176, "step": 95460 }, { "epoch": 127.29333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029704063478205455, "loss": 0.3731, "step": 95470 }, { "epoch": 127.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.0002970400135795769, "loss": 0.3977, "step": 95480 }, { "epoch": 127.32, "grad_norm": 0.341796875, "learning_rate": 0.00029703939231255725, "loss": 0.3989, "step": 95490 }, { "epoch": 127.33333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029703877098099585, "loss": 0.4023, "step": 95500 }, { "epoch": 127.34666666666666, "grad_norm": 0.484375, "learning_rate": 0.00029703814958489304, "loss": 0.3935, "step": 95510 }, { "epoch": 127.36, "grad_norm": 0.515625, "learning_rate": 0.0002970375281242491, "loss": 0.3936, "step": 95520 }, { "epoch": 127.37333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002970369065990642, "loss": 0.3953, "step": 95530 }, { "epoch": 127.38666666666667, "grad_norm": 0.375, "learning_rate": 0.00029703628500933865, "loss": 0.3864, "step": 95540 }, { "epoch": 127.4, "grad_norm": 0.384765625, "learning_rate": 0.0002970356633550728, "loss": 0.3947, "step": 95550 }, { "epoch": 127.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002970350416362669, "loss": 0.3984, "step": 95560 }, { "epoch": 127.42666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029703441985292115, "loss": 0.3995, "step": 95570 }, { "epoch": 127.44, "grad_norm": 0.38671875, "learning_rate": 0.0002970337980050359, "loss": 0.4115, "step": 95580 }, { "epoch": 127.45333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029703317609261135, "loss": 0.4008, "step": 95590 }, { "epoch": 127.46666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002970325541156478, "loss": 0.4086, "step": 95600 }, { "epoch": 127.48, "grad_norm": 0.375, "learning_rate": 0.0002970319320741456, "loss": 0.3898, "step": 95610 }, { "epoch": 127.49333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002970313099681049, "loss": 0.4033, "step": 95620 }, { "epoch": 127.50666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002970306877975261, "loss": 0.4004, "step": 95630 }, { "epoch": 127.52, "grad_norm": 0.330078125, "learning_rate": 0.00029703006556240934, "loss": 0.3915, "step": 95640 }, { "epoch": 127.53333333333333, "grad_norm": 0.388671875, "learning_rate": 0.000297029443262755, "loss": 0.3932, "step": 95650 }, { "epoch": 127.54666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002970288208985633, "loss": 0.3956, "step": 95660 }, { "epoch": 127.56, "grad_norm": 0.3671875, "learning_rate": 0.0002970281984698345, "loss": 0.3899, "step": 95670 }, { "epoch": 127.57333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002970275759765689, "loss": 0.3941, "step": 95680 }, { "epoch": 127.58666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002970269534187668, "loss": 0.3822, "step": 95690 }, { "epoch": 127.6, "grad_norm": 0.375, "learning_rate": 0.00029702633079642843, "loss": 0.3838, "step": 95700 }, { "epoch": 127.61333333333333, "grad_norm": 0.30859375, "learning_rate": 0.00029702570810955403, "loss": 0.3743, "step": 95710 }, { "epoch": 127.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.000297025085358144, "loss": 0.3787, "step": 95720 }, { "epoch": 127.64, "grad_norm": 0.421875, "learning_rate": 0.0002970244625421985, "loss": 0.3916, "step": 95730 }, { "epoch": 127.65333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029702383966171786, "loss": 0.4008, "step": 95740 }, { "epoch": 127.66666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002970232167167023, "loss": 0.3878, "step": 95750 }, { "epoch": 127.68, "grad_norm": 0.35546875, "learning_rate": 0.00029702259370715216, "loss": 0.3801, "step": 95760 }, { "epoch": 127.69333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029702197063306764, "loss": 0.3898, "step": 95770 }, { "epoch": 127.70666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002970213474944491, "loss": 0.382, "step": 95780 }, { "epoch": 127.72, "grad_norm": 0.380859375, "learning_rate": 0.0002970207242912967, "loss": 0.4043, "step": 95790 }, { "epoch": 127.73333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002970201010236108, "loss": 0.3991, "step": 95800 }, { "epoch": 127.74666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002970194776913917, "loss": 0.4004, "step": 95810 }, { "epoch": 127.76, "grad_norm": 0.412109375, "learning_rate": 0.0002970188542946396, "loss": 0.4135, "step": 95820 }, { "epoch": 127.77333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029701823083335473, "loss": 0.4009, "step": 95830 }, { "epoch": 127.78666666666666, "grad_norm": 0.33203125, "learning_rate": 0.0002970176073075375, "loss": 0.401, "step": 95840 }, { "epoch": 127.8, "grad_norm": 0.392578125, "learning_rate": 0.0002970169837171881, "loss": 0.399, "step": 95850 }, { "epoch": 127.81333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029701636006230684, "loss": 0.3727, "step": 95860 }, { "epoch": 127.82666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029701573634289397, "loss": 0.3825, "step": 95870 }, { "epoch": 127.84, "grad_norm": 0.43359375, "learning_rate": 0.00029701511255894977, "loss": 0.3941, "step": 95880 }, { "epoch": 127.85333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002970144887104745, "loss": 0.3905, "step": 95890 }, { "epoch": 127.86666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029701386479746844, "loss": 0.3944, "step": 95900 }, { "epoch": 127.88, "grad_norm": 0.375, "learning_rate": 0.00029701324081993186, "loss": 0.3762, "step": 95910 }, { "epoch": 127.89333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002970126167778651, "loss": 0.3868, "step": 95920 }, { "epoch": 127.90666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029701199267126834, "loss": 0.3936, "step": 95930 }, { "epoch": 127.92, "grad_norm": 0.37890625, "learning_rate": 0.00029701136850014193, "loss": 0.3959, "step": 95940 }, { "epoch": 127.93333333333334, "grad_norm": 0.357421875, "learning_rate": 0.00029701074426448604, "loss": 0.3891, "step": 95950 }, { "epoch": 127.94666666666667, "grad_norm": 0.408203125, "learning_rate": 0.000297010119964301, "loss": 0.3904, "step": 95960 }, { "epoch": 127.96, "grad_norm": 0.3203125, "learning_rate": 0.00029700949559958713, "loss": 0.3879, "step": 95970 }, { "epoch": 127.97333333333333, "grad_norm": 0.46484375, "learning_rate": 0.0002970088711703447, "loss": 0.413, "step": 95980 }, { "epoch": 127.98666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029700824667657394, "loss": 0.3868, "step": 95990 }, { "epoch": 128.0, "grad_norm": 0.396484375, "learning_rate": 0.0002970076221182751, "loss": 0.3823, "step": 96000 }, { "epoch": 128.0, "eval_loss": 0.42754167318344116, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5003, "eval_samples_per_second": 1.684, "eval_steps_per_second": 0.105, "step": 96000 }, { "epoch": 128.01333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002970069974954485, "loss": 0.4002, "step": 96010 }, { "epoch": 128.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002970063728080944, "loss": 0.4126, "step": 96020 }, { "epoch": 128.04, "grad_norm": 0.36328125, "learning_rate": 0.0002970057480562131, "loss": 0.4245, "step": 96030 }, { "epoch": 128.05333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029700512323980484, "loss": 0.4108, "step": 96040 }, { "epoch": 128.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002970044983588699, "loss": 0.3986, "step": 96050 }, { "epoch": 128.08, "grad_norm": 0.408203125, "learning_rate": 0.00029700387341340855, "loss": 0.402, "step": 96060 }, { "epoch": 128.09333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002970032484034211, "loss": 0.4032, "step": 96070 }, { "epoch": 128.10666666666665, "grad_norm": 0.37109375, "learning_rate": 0.0002970026233289078, "loss": 0.3916, "step": 96080 }, { "epoch": 128.12, "grad_norm": 0.392578125, "learning_rate": 0.0002970019981898689, "loss": 0.3959, "step": 96090 }, { "epoch": 128.13333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029700137298630474, "loss": 0.3874, "step": 96100 }, { "epoch": 128.14666666666668, "grad_norm": 0.37890625, "learning_rate": 0.00029700074771821553, "loss": 0.4067, "step": 96110 }, { "epoch": 128.16, "grad_norm": 0.34765625, "learning_rate": 0.00029700012238560155, "loss": 0.3997, "step": 96120 }, { "epoch": 128.17333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029699949698846307, "loss": 0.3932, "step": 96130 }, { "epoch": 128.18666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002969988715268004, "loss": 0.3927, "step": 96140 }, { "epoch": 128.2, "grad_norm": 0.400390625, "learning_rate": 0.00029699824600061385, "loss": 0.3855, "step": 96150 }, { "epoch": 128.21333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029699762040990364, "loss": 0.3856, "step": 96160 }, { "epoch": 128.22666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029699699475467, "loss": 0.3977, "step": 96170 }, { "epoch": 128.24, "grad_norm": 0.404296875, "learning_rate": 0.0002969963690349133, "loss": 0.3836, "step": 96180 }, { "epoch": 128.25333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029699574325063377, "loss": 0.3859, "step": 96190 }, { "epoch": 128.26666666666668, "grad_norm": 0.44921875, "learning_rate": 0.0002969951174018317, "loss": 0.388, "step": 96200 }, { "epoch": 128.28, "grad_norm": 0.427734375, "learning_rate": 0.00029699449148850725, "loss": 0.4169, "step": 96210 }, { "epoch": 128.29333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029699386551066087, "loss": 0.3738, "step": 96220 }, { "epoch": 128.30666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029699323946829275, "loss": 0.3955, "step": 96230 }, { "epoch": 128.32, "grad_norm": 0.373046875, "learning_rate": 0.00029699261336140316, "loss": 0.3992, "step": 96240 }, { "epoch": 128.33333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002969919871899924, "loss": 0.4029, "step": 96250 }, { "epoch": 128.34666666666666, "grad_norm": 0.447265625, "learning_rate": 0.0002969913609540608, "loss": 0.3933, "step": 96260 }, { "epoch": 128.36, "grad_norm": 0.45703125, "learning_rate": 0.00029699073465360847, "loss": 0.3928, "step": 96270 }, { "epoch": 128.37333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002969901082886358, "loss": 0.3943, "step": 96280 }, { "epoch": 128.38666666666666, "grad_norm": 0.46875, "learning_rate": 0.000296989481859143, "loss": 0.3864, "step": 96290 }, { "epoch": 128.4, "grad_norm": 0.419921875, "learning_rate": 0.0002969888553651305, "loss": 0.3933, "step": 96300 }, { "epoch": 128.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002969882288065984, "loss": 0.3992, "step": 96310 }, { "epoch": 128.42666666666668, "grad_norm": 0.34765625, "learning_rate": 0.000296987602183547, "loss": 0.3999, "step": 96320 }, { "epoch": 128.44, "grad_norm": 0.419921875, "learning_rate": 0.00029698697549597675, "loss": 0.4118, "step": 96330 }, { "epoch": 128.45333333333335, "grad_norm": 0.447265625, "learning_rate": 0.0002969863487438877, "loss": 0.4005, "step": 96340 }, { "epoch": 128.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002969857219272802, "loss": 0.4093, "step": 96350 }, { "epoch": 128.48, "grad_norm": 0.375, "learning_rate": 0.00029698509504615464, "loss": 0.3907, "step": 96360 }, { "epoch": 128.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029698446810051107, "loss": 0.4024, "step": 96370 }, { "epoch": 128.50666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029698384109035, "loss": 0.4006, "step": 96380 }, { "epoch": 128.52, "grad_norm": 0.375, "learning_rate": 0.00029698321401567157, "loss": 0.391, "step": 96390 }, { "epoch": 128.53333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029698258687647607, "loss": 0.3934, "step": 96400 }, { "epoch": 128.54666666666665, "grad_norm": 0.435546875, "learning_rate": 0.00029698195967276376, "loss": 0.3957, "step": 96410 }, { "epoch": 128.56, "grad_norm": 0.349609375, "learning_rate": 0.00029698133240453503, "loss": 0.3895, "step": 96420 }, { "epoch": 128.57333333333332, "grad_norm": 0.427734375, "learning_rate": 0.00029698070507179, "loss": 0.3938, "step": 96430 }, { "epoch": 128.58666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000296980077674529, "loss": 0.3823, "step": 96440 }, { "epoch": 128.6, "grad_norm": 0.369140625, "learning_rate": 0.00029697945021275234, "loss": 0.3836, "step": 96450 }, { "epoch": 128.61333333333334, "grad_norm": 0.322265625, "learning_rate": 0.00029697882268646034, "loss": 0.374, "step": 96460 }, { "epoch": 128.62666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002969781950956531, "loss": 0.3796, "step": 96470 }, { "epoch": 128.64, "grad_norm": 0.400390625, "learning_rate": 0.0002969775674403311, "loss": 0.3918, "step": 96480 }, { "epoch": 128.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029697693972049446, "loss": 0.4005, "step": 96490 }, { "epoch": 128.66666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029697631193614354, "loss": 0.3884, "step": 96500 }, { "epoch": 128.68, "grad_norm": 0.384765625, "learning_rate": 0.00029697568408727857, "loss": 0.3797, "step": 96510 }, { "epoch": 128.69333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002969750561738999, "loss": 0.3891, "step": 96520 }, { "epoch": 128.70666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002969744281960077, "loss": 0.3819, "step": 96530 }, { "epoch": 128.72, "grad_norm": 0.3828125, "learning_rate": 0.00029697380015360236, "loss": 0.4043, "step": 96540 }, { "epoch": 128.73333333333332, "grad_norm": 0.359375, "learning_rate": 0.00029697317204668405, "loss": 0.3983, "step": 96550 }, { "epoch": 128.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002969725438752531, "loss": 0.4008, "step": 96560 }, { "epoch": 128.76, "grad_norm": 0.4140625, "learning_rate": 0.0002969719156393098, "loss": 0.4141, "step": 96570 }, { "epoch": 128.77333333333334, "grad_norm": 0.451171875, "learning_rate": 0.00029697128733885436, "loss": 0.4002, "step": 96580 }, { "epoch": 128.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.00029697065897388715, "loss": 0.4008, "step": 96590 }, { "epoch": 128.8, "grad_norm": 0.37109375, "learning_rate": 0.0002969700305444084, "loss": 0.4002, "step": 96600 }, { "epoch": 128.81333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002969694020504183, "loss": 0.3736, "step": 96610 }, { "epoch": 128.82666666666665, "grad_norm": 0.396484375, "learning_rate": 0.00029696877349191727, "loss": 0.3836, "step": 96620 }, { "epoch": 128.84, "grad_norm": 0.44140625, "learning_rate": 0.0002969681448689055, "loss": 0.3947, "step": 96630 }, { "epoch": 128.85333333333332, "grad_norm": 0.38671875, "learning_rate": 0.0002969675161813833, "loss": 0.3904, "step": 96640 }, { "epoch": 128.86666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029696688742935094, "loss": 0.3942, "step": 96650 }, { "epoch": 128.88, "grad_norm": 0.3828125, "learning_rate": 0.00029696625861280865, "loss": 0.3755, "step": 96660 }, { "epoch": 128.89333333333335, "grad_norm": 0.33984375, "learning_rate": 0.00029696562973175676, "loss": 0.3865, "step": 96670 }, { "epoch": 128.90666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002969650007861956, "loss": 0.3937, "step": 96680 }, { "epoch": 128.92, "grad_norm": 0.384765625, "learning_rate": 0.0002969643717761253, "loss": 0.3958, "step": 96690 }, { "epoch": 128.93333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002969637427015463, "loss": 0.3895, "step": 96700 }, { "epoch": 128.94666666666666, "grad_norm": 0.44140625, "learning_rate": 0.00029696311356245867, "loss": 0.3907, "step": 96710 }, { "epoch": 128.96, "grad_norm": 0.33984375, "learning_rate": 0.00029696248435886287, "loss": 0.3881, "step": 96720 }, { "epoch": 128.97333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002969618550907591, "loss": 0.4129, "step": 96730 }, { "epoch": 128.98666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002969612257581477, "loss": 0.3869, "step": 96740 }, { "epoch": 129.0, "grad_norm": 0.443359375, "learning_rate": 0.0002969605963610288, "loss": 0.3833, "step": 96750 }, { "epoch": 129.0, "eval_loss": 0.427841454744339, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0051, "eval_samples_per_second": 1.599, "eval_steps_per_second": 0.1, "step": 96750 }, { "epoch": 129.01333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029695996689940284, "loss": 0.3991, "step": 96760 }, { "epoch": 129.02666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029695933737327, "loss": 0.4123, "step": 96770 }, { "epoch": 129.04, "grad_norm": 0.359375, "learning_rate": 0.0002969587077826306, "loss": 0.4255, "step": 96780 }, { "epoch": 129.05333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002969580781274849, "loss": 0.411, "step": 96790 }, { "epoch": 129.06666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029695744840783315, "loss": 0.3979, "step": 96800 }, { "epoch": 129.08, "grad_norm": 0.396484375, "learning_rate": 0.0002969568186236757, "loss": 0.4013, "step": 96810 }, { "epoch": 129.09333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002969561887750128, "loss": 0.402, "step": 96820 }, { "epoch": 129.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.0002969555588618446, "loss": 0.3906, "step": 96830 }, { "epoch": 129.12, "grad_norm": 0.345703125, "learning_rate": 0.00029695492888417156, "loss": 0.3961, "step": 96840 }, { "epoch": 129.13333333333333, "grad_norm": 0.375, "learning_rate": 0.00029695429884199384, "loss": 0.3873, "step": 96850 }, { "epoch": 129.14666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002969536687353118, "loss": 0.4055, "step": 96860 }, { "epoch": 129.16, "grad_norm": 0.3984375, "learning_rate": 0.0002969530385641256, "loss": 0.3986, "step": 96870 }, { "epoch": 129.17333333333335, "grad_norm": 0.408203125, "learning_rate": 0.0002969524083284357, "loss": 0.3932, "step": 96880 }, { "epoch": 129.18666666666667, "grad_norm": 0.443359375, "learning_rate": 0.0002969517780282422, "loss": 0.3917, "step": 96890 }, { "epoch": 129.2, "grad_norm": 0.48046875, "learning_rate": 0.00029695114766354545, "loss": 0.3855, "step": 96900 }, { "epoch": 129.21333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002969505172343457, "loss": 0.3863, "step": 96910 }, { "epoch": 129.22666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002969498867406433, "loss": 0.398, "step": 96920 }, { "epoch": 129.24, "grad_norm": 0.404296875, "learning_rate": 0.0002969492561824384, "loss": 0.3829, "step": 96930 }, { "epoch": 129.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002969486255597314, "loss": 0.3847, "step": 96940 }, { "epoch": 129.26666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002969479948725225, "loss": 0.3873, "step": 96950 }, { "epoch": 129.28, "grad_norm": 0.373046875, "learning_rate": 0.000296947364120812, "loss": 0.417, "step": 96960 }, { "epoch": 129.29333333333332, "grad_norm": 0.3984375, "learning_rate": 0.0002969467333046002, "loss": 0.374, "step": 96970 }, { "epoch": 129.30666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002969461024238873, "loss": 0.3967, "step": 96980 }, { "epoch": 129.32, "grad_norm": 0.353515625, "learning_rate": 0.0002969454714786737, "loss": 0.3997, "step": 96990 }, { "epoch": 129.33333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002969448404689596, "loss": 0.4032, "step": 97000 }, { "epoch": 129.34666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002969442093947453, "loss": 0.3929, "step": 97010 }, { "epoch": 129.36, "grad_norm": 0.412109375, "learning_rate": 0.00029694357825603104, "loss": 0.3925, "step": 97020 }, { "epoch": 129.37333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002969429470528171, "loss": 0.3946, "step": 97030 }, { "epoch": 129.38666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002969423157851038, "loss": 0.3861, "step": 97040 }, { "epoch": 129.4, "grad_norm": 0.37890625, "learning_rate": 0.0002969416844528914, "loss": 0.3935, "step": 97050 }, { "epoch": 129.41333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029694105305618017, "loss": 0.3983, "step": 97060 }, { "epoch": 129.42666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002969404215949704, "loss": 0.3997, "step": 97070 }, { "epoch": 129.44, "grad_norm": 0.376953125, "learning_rate": 0.00029693979006926237, "loss": 0.411, "step": 97080 }, { "epoch": 129.45333333333335, "grad_norm": 0.443359375, "learning_rate": 0.0002969391584790563, "loss": 0.4005, "step": 97090 }, { "epoch": 129.46666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002969385268243525, "loss": 0.4096, "step": 97100 }, { "epoch": 129.48, "grad_norm": 0.40625, "learning_rate": 0.00029693789510515134, "loss": 0.39, "step": 97110 }, { "epoch": 129.49333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029693726332145296, "loss": 0.4031, "step": 97120 }, { "epoch": 129.50666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002969366314732577, "loss": 0.4003, "step": 97130 }, { "epoch": 129.52, "grad_norm": 0.36328125, "learning_rate": 0.0002969359995605658, "loss": 0.3904, "step": 97140 }, { "epoch": 129.53333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002969353675833776, "loss": 0.3932, "step": 97150 }, { "epoch": 129.54666666666665, "grad_norm": 0.40625, "learning_rate": 0.00029693473554169336, "loss": 0.3962, "step": 97160 }, { "epoch": 129.56, "grad_norm": 0.359375, "learning_rate": 0.0002969341034355133, "loss": 0.3899, "step": 97170 }, { "epoch": 129.57333333333332, "grad_norm": 0.376953125, "learning_rate": 0.0002969334712648378, "loss": 0.3944, "step": 97180 }, { "epoch": 129.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029693283902966706, "loss": 0.3831, "step": 97190 }, { "epoch": 129.6, "grad_norm": 0.376953125, "learning_rate": 0.00029693220673000136, "loss": 0.3847, "step": 97200 }, { "epoch": 129.61333333333334, "grad_norm": 0.310546875, "learning_rate": 0.000296931574365841, "loss": 0.3742, "step": 97210 }, { "epoch": 129.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002969309419371862, "loss": 0.3796, "step": 97220 }, { "epoch": 129.64, "grad_norm": 0.41015625, "learning_rate": 0.00029693030944403733, "loss": 0.3917, "step": 97230 }, { "epoch": 129.65333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002969296768863946, "loss": 0.4005, "step": 97240 }, { "epoch": 129.66666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029692904426425836, "loss": 0.3877, "step": 97250 }, { "epoch": 129.68, "grad_norm": 0.4296875, "learning_rate": 0.0002969284115776288, "loss": 0.3798, "step": 97260 }, { "epoch": 129.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002969277788265063, "loss": 0.3895, "step": 97270 }, { "epoch": 129.70666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029692714601089104, "loss": 0.3819, "step": 97280 }, { "epoch": 129.72, "grad_norm": 0.375, "learning_rate": 0.00029692651313078334, "loss": 0.405, "step": 97290 }, { "epoch": 129.73333333333332, "grad_norm": 0.48046875, "learning_rate": 0.0002969258801861834, "loss": 0.3991, "step": 97300 }, { "epoch": 129.74666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002969252471770917, "loss": 0.4005, "step": 97310 }, { "epoch": 129.76, "grad_norm": 0.39453125, "learning_rate": 0.0002969246141035083, "loss": 0.4136, "step": 97320 }, { "epoch": 129.77333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002969239809654336, "loss": 0.4008, "step": 97330 }, { "epoch": 129.78666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002969233477628678, "loss": 0.4008, "step": 97340 }, { "epoch": 129.8, "grad_norm": 0.37109375, "learning_rate": 0.00029692271449581123, "loss": 0.3988, "step": 97350 }, { "epoch": 129.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002969220811642642, "loss": 0.3733, "step": 97360 }, { "epoch": 129.82666666666665, "grad_norm": 0.396484375, "learning_rate": 0.0002969214477682269, "loss": 0.3823, "step": 97370 }, { "epoch": 129.84, "grad_norm": 0.40625, "learning_rate": 0.0002969208143076997, "loss": 0.394, "step": 97380 }, { "epoch": 129.85333333333332, "grad_norm": 0.42578125, "learning_rate": 0.0002969201807826828, "loss": 0.39, "step": 97390 }, { "epoch": 129.86666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029691954719317655, "loss": 0.3932, "step": 97400 }, { "epoch": 129.88, "grad_norm": 0.3828125, "learning_rate": 0.0002969189135391811, "loss": 0.3747, "step": 97410 }, { "epoch": 129.89333333333335, "grad_norm": 0.3515625, "learning_rate": 0.00029691827982069696, "loss": 0.3864, "step": 97420 }, { "epoch": 129.90666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002969176460377242, "loss": 0.3935, "step": 97430 }, { "epoch": 129.92, "grad_norm": 0.39453125, "learning_rate": 0.0002969170121902631, "loss": 0.395, "step": 97440 }, { "epoch": 129.93333333333334, "grad_norm": 0.318359375, "learning_rate": 0.0002969163782783141, "loss": 0.3887, "step": 97450 }, { "epoch": 129.94666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002969157443018773, "loss": 0.3894, "step": 97460 }, { "epoch": 129.96, "grad_norm": 0.341796875, "learning_rate": 0.0002969151102609531, "loss": 0.3876, "step": 97470 }, { "epoch": 129.97333333333333, "grad_norm": 0.48046875, "learning_rate": 0.0002969144761555417, "loss": 0.4131, "step": 97480 }, { "epoch": 129.98666666666668, "grad_norm": 0.37109375, "learning_rate": 0.0002969138419856435, "loss": 0.386, "step": 97490 }, { "epoch": 130.0, "grad_norm": 0.37109375, "learning_rate": 0.00029691320775125863, "loss": 0.382, "step": 97500 }, { "epoch": 130.0, "eval_loss": 0.42709052562713623, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.212, "eval_samples_per_second": 1.567, "eval_steps_per_second": 0.098, "step": 97500 }, { "epoch": 130.01333333333332, "grad_norm": 0.40625, "learning_rate": 0.00029691257345238744, "loss": 0.3998, "step": 97510 }, { "epoch": 130.02666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002969119390890302, "loss": 0.4118, "step": 97520 }, { "epoch": 130.04, "grad_norm": 0.380859375, "learning_rate": 0.0002969113046611872, "loss": 0.4253, "step": 97530 }, { "epoch": 130.05333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029691067016885867, "loss": 0.4107, "step": 97540 }, { "epoch": 130.06666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029691003561204494, "loss": 0.397, "step": 97550 }, { "epoch": 130.08, "grad_norm": 0.45703125, "learning_rate": 0.0002969094009907463, "loss": 0.4011, "step": 97560 }, { "epoch": 130.09333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029690876630496303, "loss": 0.4021, "step": 97570 }, { "epoch": 130.10666666666665, "grad_norm": 0.396484375, "learning_rate": 0.00029690813155469533, "loss": 0.3904, "step": 97580 }, { "epoch": 130.12, "grad_norm": 0.359375, "learning_rate": 0.00029690749673994357, "loss": 0.3955, "step": 97590 }, { "epoch": 130.13333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029690686186070796, "loss": 0.3865, "step": 97600 }, { "epoch": 130.14666666666668, "grad_norm": 0.376953125, "learning_rate": 0.0002969062269169888, "loss": 0.4059, "step": 97610 }, { "epoch": 130.16, "grad_norm": 0.333984375, "learning_rate": 0.0002969055919087864, "loss": 0.3996, "step": 97620 }, { "epoch": 130.17333333333335, "grad_norm": 0.439453125, "learning_rate": 0.000296904956836101, "loss": 0.3935, "step": 97630 }, { "epoch": 130.18666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002969043216989329, "loss": 0.3925, "step": 97640 }, { "epoch": 130.2, "grad_norm": 0.396484375, "learning_rate": 0.00029690368649728236, "loss": 0.3853, "step": 97650 }, { "epoch": 130.21333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002969030512311497, "loss": 0.3855, "step": 97660 }, { "epoch": 130.22666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029690241590053513, "loss": 0.3981, "step": 97670 }, { "epoch": 130.24, "grad_norm": 0.40234375, "learning_rate": 0.000296901780505439, "loss": 0.3824, "step": 97680 }, { "epoch": 130.25333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002969011450458616, "loss": 0.3851, "step": 97690 }, { "epoch": 130.26666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029690050952180307, "loss": 0.3869, "step": 97700 }, { "epoch": 130.28, "grad_norm": 0.40234375, "learning_rate": 0.00029689987393326385, "loss": 0.4179, "step": 97710 }, { "epoch": 130.29333333333332, "grad_norm": 0.39453125, "learning_rate": 0.0002968992382802441, "loss": 0.373, "step": 97720 }, { "epoch": 130.30666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002968986025627442, "loss": 0.3974, "step": 97730 }, { "epoch": 130.32, "grad_norm": 0.375, "learning_rate": 0.0002968979667807644, "loss": 0.399, "step": 97740 }, { "epoch": 130.33333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029689733093430493, "loss": 0.4024, "step": 97750 }, { "epoch": 130.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029689669502336606, "loss": 0.3931, "step": 97760 }, { "epoch": 130.36, "grad_norm": 0.5234375, "learning_rate": 0.0002968960590479482, "loss": 0.3943, "step": 97770 }, { "epoch": 130.37333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029689542300805153, "loss": 0.3946, "step": 97780 }, { "epoch": 130.38666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002968947869036763, "loss": 0.3868, "step": 97790 }, { "epoch": 130.4, "grad_norm": 0.3671875, "learning_rate": 0.0002968941507348228, "loss": 0.3939, "step": 97800 }, { "epoch": 130.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002968935145014914, "loss": 0.3993, "step": 97810 }, { "epoch": 130.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002968928782036823, "loss": 0.4001, "step": 97820 }, { "epoch": 130.44, "grad_norm": 0.4140625, "learning_rate": 0.00029689224184139575, "loss": 0.4104, "step": 97830 }, { "epoch": 130.45333333333335, "grad_norm": 0.439453125, "learning_rate": 0.00029689160541463214, "loss": 0.4005, "step": 97840 }, { "epoch": 130.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002968909689233916, "loss": 0.4086, "step": 97850 }, { "epoch": 130.48, "grad_norm": 0.384765625, "learning_rate": 0.0002968903323676746, "loss": 0.3909, "step": 97860 }, { "epoch": 130.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002968896957474812, "loss": 0.403, "step": 97870 }, { "epoch": 130.50666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002968890590628119, "loss": 0.3997, "step": 97880 }, { "epoch": 130.52, "grad_norm": 0.37890625, "learning_rate": 0.0002968884223136668, "loss": 0.3911, "step": 97890 }, { "epoch": 130.53333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002968877855000463, "loss": 0.3941, "step": 97900 }, { "epoch": 130.54666666666665, "grad_norm": 0.419921875, "learning_rate": 0.0002968871486219506, "loss": 0.3955, "step": 97910 }, { "epoch": 130.56, "grad_norm": 0.375, "learning_rate": 0.00029688651167938, "loss": 0.39, "step": 97920 }, { "epoch": 130.57333333333332, "grad_norm": 0.369140625, "learning_rate": 0.0002968858746723348, "loss": 0.3931, "step": 97930 }, { "epoch": 130.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002968852376008153, "loss": 0.3824, "step": 97940 }, { "epoch": 130.6, "grad_norm": 0.322265625, "learning_rate": 0.0002968846004648217, "loss": 0.3837, "step": 97950 }, { "epoch": 130.61333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029688396326435436, "loss": 0.3735, "step": 97960 }, { "epoch": 130.62666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002968833259994135, "loss": 0.3794, "step": 97970 }, { "epoch": 130.64, "grad_norm": 0.3671875, "learning_rate": 0.0002968826886699995, "loss": 0.3914, "step": 97980 }, { "epoch": 130.65333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029688205127611253, "loss": 0.4004, "step": 97990 }, { "epoch": 130.66666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002968814138177529, "loss": 0.3882, "step": 98000 }, { "epoch": 130.68, "grad_norm": 0.416015625, "learning_rate": 0.0002968807762949209, "loss": 0.3804, "step": 98010 }, { "epoch": 130.69333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029688013870761675, "loss": 0.3888, "step": 98020 }, { "epoch": 130.70666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029687950105584086, "loss": 0.3819, "step": 98030 }, { "epoch": 130.72, "grad_norm": 0.443359375, "learning_rate": 0.00029687886333959343, "loss": 0.4045, "step": 98040 }, { "epoch": 130.73333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029687822555887473, "loss": 0.3987, "step": 98050 }, { "epoch": 130.74666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002968775877136851, "loss": 0.4004, "step": 98060 }, { "epoch": 130.76, "grad_norm": 0.392578125, "learning_rate": 0.0002968769498040247, "loss": 0.413, "step": 98070 }, { "epoch": 130.77333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029687631182989395, "loss": 0.401, "step": 98080 }, { "epoch": 130.78666666666666, "grad_norm": 0.326171875, "learning_rate": 0.00029687567379129304, "loss": 0.4007, "step": 98090 }, { "epoch": 130.8, "grad_norm": 0.390625, "learning_rate": 0.00029687503568822234, "loss": 0.4003, "step": 98100 }, { "epoch": 130.81333333333333, "grad_norm": 0.427734375, "learning_rate": 0.000296874397520682, "loss": 0.3736, "step": 98110 }, { "epoch": 130.82666666666665, "grad_norm": 0.41796875, "learning_rate": 0.0002968737592886723, "loss": 0.3826, "step": 98120 }, { "epoch": 130.84, "grad_norm": 0.404296875, "learning_rate": 0.0002968731209921937, "loss": 0.3947, "step": 98130 }, { "epoch": 130.85333333333332, "grad_norm": 0.439453125, "learning_rate": 0.0002968724826312464, "loss": 0.3897, "step": 98140 }, { "epoch": 130.86666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029687184420583055, "loss": 0.3946, "step": 98150 }, { "epoch": 130.88, "grad_norm": 0.365234375, "learning_rate": 0.00029687120571594654, "loss": 0.3756, "step": 98160 }, { "epoch": 130.89333333333335, "grad_norm": 0.33984375, "learning_rate": 0.0002968705671615947, "loss": 0.3867, "step": 98170 }, { "epoch": 130.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002968699285427752, "loss": 0.3932, "step": 98180 }, { "epoch": 130.92, "grad_norm": 0.365234375, "learning_rate": 0.0002968692898594884, "loss": 0.3956, "step": 98190 }, { "epoch": 130.93333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002968686511117345, "loss": 0.3878, "step": 98200 }, { "epoch": 130.94666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029686801229951383, "loss": 0.3903, "step": 98210 }, { "epoch": 130.96, "grad_norm": 0.33984375, "learning_rate": 0.0002968673734228267, "loss": 0.3879, "step": 98220 }, { "epoch": 130.97333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029686673448167336, "loss": 0.4133, "step": 98230 }, { "epoch": 130.98666666666668, "grad_norm": 0.361328125, "learning_rate": 0.0002968660954760541, "loss": 0.3857, "step": 98240 }, { "epoch": 131.0, "grad_norm": 0.3828125, "learning_rate": 0.0002968654564059692, "loss": 0.3809, "step": 98250 }, { "epoch": 131.0, "eval_loss": 0.4273887872695923, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7595, "eval_samples_per_second": 1.639, "eval_steps_per_second": 0.102, "step": 98250 }, { "epoch": 131.01333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002968648172714189, "loss": 0.3978, "step": 98260 }, { "epoch": 131.02666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002968641780724036, "loss": 0.4129, "step": 98270 }, { "epoch": 131.04, "grad_norm": 0.35546875, "learning_rate": 0.00029686353880892333, "loss": 0.4256, "step": 98280 }, { "epoch": 131.05333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002968628994809787, "loss": 0.4109, "step": 98290 }, { "epoch": 131.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002968622600885697, "loss": 0.3981, "step": 98300 }, { "epoch": 131.08, "grad_norm": 0.421875, "learning_rate": 0.0002968616206316968, "loss": 0.4017, "step": 98310 }, { "epoch": 131.09333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002968609811103602, "loss": 0.4026, "step": 98320 }, { "epoch": 131.10666666666665, "grad_norm": 0.369140625, "learning_rate": 0.00029686034152456023, "loss": 0.3902, "step": 98330 }, { "epoch": 131.12, "grad_norm": 0.365234375, "learning_rate": 0.0002968597018742971, "loss": 0.3952, "step": 98340 }, { "epoch": 131.13333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002968590621595711, "loss": 0.3872, "step": 98350 }, { "epoch": 131.14666666666668, "grad_norm": 0.37109375, "learning_rate": 0.00029685842238038256, "loss": 0.4053, "step": 98360 }, { "epoch": 131.16, "grad_norm": 0.359375, "learning_rate": 0.0002968577825367318, "loss": 0.3992, "step": 98370 }, { "epoch": 131.17333333333335, "grad_norm": 0.404296875, "learning_rate": 0.00029685714262861897, "loss": 0.3934, "step": 98380 }, { "epoch": 131.18666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002968565026560444, "loss": 0.3927, "step": 98390 }, { "epoch": 131.2, "grad_norm": 0.376953125, "learning_rate": 0.00029685586261900845, "loss": 0.3855, "step": 98400 }, { "epoch": 131.21333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029685522251751136, "loss": 0.3862, "step": 98410 }, { "epoch": 131.22666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029685458235155336, "loss": 0.3981, "step": 98420 }, { "epoch": 131.24, "grad_norm": 0.384765625, "learning_rate": 0.00029685394212113477, "loss": 0.3829, "step": 98430 }, { "epoch": 131.25333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029685330182625585, "loss": 0.3854, "step": 98440 }, { "epoch": 131.26666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002968526614669169, "loss": 0.3877, "step": 98450 }, { "epoch": 131.28, "grad_norm": 0.3984375, "learning_rate": 0.00029685202104311827, "loss": 0.4164, "step": 98460 }, { "epoch": 131.29333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0002968513805548601, "loss": 0.3728, "step": 98470 }, { "epoch": 131.30666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029685074000214277, "loss": 0.3964, "step": 98480 }, { "epoch": 131.32, "grad_norm": 0.34375, "learning_rate": 0.0002968500993849665, "loss": 0.3994, "step": 98490 }, { "epoch": 131.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002968494587033316, "loss": 0.4021, "step": 98500 }, { "epoch": 131.34666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002968488179572384, "loss": 0.3931, "step": 98510 }, { "epoch": 131.36, "grad_norm": 0.44140625, "learning_rate": 0.0002968481771466871, "loss": 0.3935, "step": 98520 }, { "epoch": 131.37333333333333, "grad_norm": 0.349609375, "learning_rate": 0.000296847536271678, "loss": 0.3942, "step": 98530 }, { "epoch": 131.38666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002968468953322114, "loss": 0.3863, "step": 98540 }, { "epoch": 131.4, "grad_norm": 0.37890625, "learning_rate": 0.0002968462543282876, "loss": 0.394, "step": 98550 }, { "epoch": 131.41333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002968456132599069, "loss": 0.3984, "step": 98560 }, { "epoch": 131.42666666666668, "grad_norm": 0.4375, "learning_rate": 0.0002968449721270695, "loss": 0.4002, "step": 98570 }, { "epoch": 131.44, "grad_norm": 0.39453125, "learning_rate": 0.0002968443309297757, "loss": 0.4116, "step": 98580 }, { "epoch": 131.45333333333335, "grad_norm": 0.423828125, "learning_rate": 0.00029684368966802584, "loss": 0.3996, "step": 98590 }, { "epoch": 131.46666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029684304834182016, "loss": 0.4084, "step": 98600 }, { "epoch": 131.48, "grad_norm": 0.408203125, "learning_rate": 0.000296842406951159, "loss": 0.3901, "step": 98610 }, { "epoch": 131.49333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002968417654960425, "loss": 0.4023, "step": 98620 }, { "epoch": 131.50666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029684112397647107, "loss": 0.4005, "step": 98630 }, { "epoch": 131.52, "grad_norm": 0.388671875, "learning_rate": 0.00029684048239244493, "loss": 0.3901, "step": 98640 }, { "epoch": 131.53333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029683984074396443, "loss": 0.3946, "step": 98650 }, { "epoch": 131.54666666666665, "grad_norm": 0.384765625, "learning_rate": 0.0002968391990310298, "loss": 0.3962, "step": 98660 }, { "epoch": 131.56, "grad_norm": 0.357421875, "learning_rate": 0.0002968385572536413, "loss": 0.3906, "step": 98670 }, { "epoch": 131.57333333333332, "grad_norm": 0.3984375, "learning_rate": 0.00029683791541179925, "loss": 0.3935, "step": 98680 }, { "epoch": 131.58666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029683727350550393, "loss": 0.3824, "step": 98690 }, { "epoch": 131.6, "grad_norm": 0.396484375, "learning_rate": 0.00029683663153475556, "loss": 0.3836, "step": 98700 }, { "epoch": 131.61333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002968359894995545, "loss": 0.3735, "step": 98710 }, { "epoch": 131.62666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029683534739990107, "loss": 0.3787, "step": 98720 }, { "epoch": 131.64, "grad_norm": 0.4140625, "learning_rate": 0.00029683470523579543, "loss": 0.3908, "step": 98730 }, { "epoch": 131.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029683406300723793, "loss": 0.4005, "step": 98740 }, { "epoch": 131.66666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029683342071422884, "loss": 0.3887, "step": 98750 }, { "epoch": 131.68, "grad_norm": 0.38671875, "learning_rate": 0.00029683277835676844, "loss": 0.3801, "step": 98760 }, { "epoch": 131.69333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029683213593485703, "loss": 0.3893, "step": 98770 }, { "epoch": 131.70666666666668, "grad_norm": 0.41796875, "learning_rate": 0.0002968314934484949, "loss": 0.3823, "step": 98780 }, { "epoch": 131.72, "grad_norm": 0.38671875, "learning_rate": 0.00029683085089768227, "loss": 0.4042, "step": 98790 }, { "epoch": 131.73333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002968302082824195, "loss": 0.3979, "step": 98800 }, { "epoch": 131.74666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002968295656027068, "loss": 0.4005, "step": 98810 }, { "epoch": 131.76, "grad_norm": 0.38671875, "learning_rate": 0.0002968289228585445, "loss": 0.4128, "step": 98820 }, { "epoch": 131.77333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029682828004993285, "loss": 0.4005, "step": 98830 }, { "epoch": 131.78666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002968276371768722, "loss": 0.4008, "step": 98840 }, { "epoch": 131.8, "grad_norm": 0.400390625, "learning_rate": 0.00029682699423936275, "loss": 0.4, "step": 98850 }, { "epoch": 131.81333333333333, "grad_norm": 0.4765625, "learning_rate": 0.0002968263512374048, "loss": 0.373, "step": 98860 }, { "epoch": 131.82666666666665, "grad_norm": 0.40625, "learning_rate": 0.00029682570817099864, "loss": 0.3829, "step": 98870 }, { "epoch": 131.84, "grad_norm": 0.41796875, "learning_rate": 0.00029682506504014457, "loss": 0.3942, "step": 98880 }, { "epoch": 131.85333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029682442184484286, "loss": 0.3895, "step": 98890 }, { "epoch": 131.86666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002968237785850938, "loss": 0.3946, "step": 98900 }, { "epoch": 131.88, "grad_norm": 0.376953125, "learning_rate": 0.0002968231352608977, "loss": 0.3751, "step": 98910 }, { "epoch": 131.89333333333335, "grad_norm": 0.365234375, "learning_rate": 0.00029682249187225476, "loss": 0.3868, "step": 98920 }, { "epoch": 131.90666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029682184841916534, "loss": 0.3933, "step": 98930 }, { "epoch": 131.92, "grad_norm": 0.423828125, "learning_rate": 0.00029682120490162964, "loss": 0.3959, "step": 98940 }, { "epoch": 131.93333333333334, "grad_norm": 0.3359375, "learning_rate": 0.0002968205613196481, "loss": 0.3885, "step": 98950 }, { "epoch": 131.94666666666666, "grad_norm": 0.375, "learning_rate": 0.0002968199176732208, "loss": 0.3898, "step": 98960 }, { "epoch": 131.96, "grad_norm": 0.361328125, "learning_rate": 0.0002968192739623482, "loss": 0.3883, "step": 98970 }, { "epoch": 131.97333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029681863018703045, "loss": 0.4133, "step": 98980 }, { "epoch": 131.98666666666668, "grad_norm": 0.40625, "learning_rate": 0.0002968179863472679, "loss": 0.3861, "step": 98990 }, { "epoch": 132.0, "grad_norm": 0.369140625, "learning_rate": 0.00029681734244306083, "loss": 0.3818, "step": 99000 }, { "epoch": 132.0, "eval_loss": 0.4268704950809479, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0525, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.099, "step": 99000 }, { "epoch": 132.01333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002968166984744095, "loss": 0.3984, "step": 99010 }, { "epoch": 132.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002968160544413142, "loss": 0.4117, "step": 99020 }, { "epoch": 132.04, "grad_norm": 0.369140625, "learning_rate": 0.0002968154103437752, "loss": 0.4249, "step": 99030 }, { "epoch": 132.05333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002968147661817928, "loss": 0.4113, "step": 99040 }, { "epoch": 132.06666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029681412195536736, "loss": 0.3968, "step": 99050 }, { "epoch": 132.08, "grad_norm": 0.44921875, "learning_rate": 0.00029681347766449904, "loss": 0.4019, "step": 99060 }, { "epoch": 132.09333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002968128333091881, "loss": 0.4037, "step": 99070 }, { "epoch": 132.10666666666665, "grad_norm": 0.365234375, "learning_rate": 0.00029681218888943494, "loss": 0.3918, "step": 99080 }, { "epoch": 132.12, "grad_norm": 0.375, "learning_rate": 0.0002968115444052398, "loss": 0.3949, "step": 99090 }, { "epoch": 132.13333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029681089985660297, "loss": 0.3864, "step": 99100 }, { "epoch": 132.14666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002968102552435247, "loss": 0.4056, "step": 99110 }, { "epoch": 132.16, "grad_norm": 0.341796875, "learning_rate": 0.00029680961056600534, "loss": 0.3997, "step": 99120 }, { "epoch": 132.17333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029680896582404506, "loss": 0.3937, "step": 99130 }, { "epoch": 132.18666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029680832101764424, "loss": 0.3919, "step": 99140 }, { "epoch": 132.2, "grad_norm": 0.376953125, "learning_rate": 0.0002968076761468031, "loss": 0.3858, "step": 99150 }, { "epoch": 132.21333333333334, "grad_norm": 0.376953125, "learning_rate": 0.000296807031211522, "loss": 0.3863, "step": 99160 }, { "epoch": 132.22666666666666, "grad_norm": 0.43359375, "learning_rate": 0.0002968063862118012, "loss": 0.3977, "step": 99170 }, { "epoch": 132.24, "grad_norm": 0.408203125, "learning_rate": 0.0002968057411476409, "loss": 0.3811, "step": 99180 }, { "epoch": 132.25333333333333, "grad_norm": 0.375, "learning_rate": 0.00029680509601904143, "loss": 0.3843, "step": 99190 }, { "epoch": 132.26666666666668, "grad_norm": 0.3828125, "learning_rate": 0.00029680445082600317, "loss": 0.387, "step": 99200 }, { "epoch": 132.28, "grad_norm": 0.41796875, "learning_rate": 0.0002968038055685262, "loss": 0.4177, "step": 99210 }, { "epoch": 132.29333333333332, "grad_norm": 0.44140625, "learning_rate": 0.000296803160246611, "loss": 0.3732, "step": 99220 }, { "epoch": 132.30666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029680251486025776, "loss": 0.3965, "step": 99230 }, { "epoch": 132.32, "grad_norm": 0.349609375, "learning_rate": 0.0002968018694094668, "loss": 0.3981, "step": 99240 }, { "epoch": 132.33333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002968012238942384, "loss": 0.4012, "step": 99250 }, { "epoch": 132.34666666666666, "grad_norm": 0.455078125, "learning_rate": 0.0002968005783145728, "loss": 0.3928, "step": 99260 }, { "epoch": 132.36, "grad_norm": 0.423828125, "learning_rate": 0.00029679993267047025, "loss": 0.3925, "step": 99270 }, { "epoch": 132.37333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002967992869619312, "loss": 0.3949, "step": 99280 }, { "epoch": 132.38666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002967986411889558, "loss": 0.3858, "step": 99290 }, { "epoch": 132.4, "grad_norm": 0.373046875, "learning_rate": 0.0002967979953515443, "loss": 0.3936, "step": 99300 }, { "epoch": 132.41333333333333, "grad_norm": 0.416015625, "learning_rate": 0.0002967973494496971, "loss": 0.3978, "step": 99310 }, { "epoch": 132.42666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029679670348341437, "loss": 0.3994, "step": 99320 }, { "epoch": 132.44, "grad_norm": 0.37890625, "learning_rate": 0.0002967960574526965, "loss": 0.411, "step": 99330 }, { "epoch": 132.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002967954113575437, "loss": 0.3997, "step": 99340 }, { "epoch": 132.46666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002967947651979563, "loss": 0.4092, "step": 99350 }, { "epoch": 132.48, "grad_norm": 0.37109375, "learning_rate": 0.00029679411897393456, "loss": 0.3901, "step": 99360 }, { "epoch": 132.49333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029679347268547876, "loss": 0.4019, "step": 99370 }, { "epoch": 132.50666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002967928263325892, "loss": 0.4005, "step": 99380 }, { "epoch": 132.52, "grad_norm": 0.3515625, "learning_rate": 0.0002967921799152661, "loss": 0.3902, "step": 99390 }, { "epoch": 132.53333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029679153343350985, "loss": 0.394, "step": 99400 }, { "epoch": 132.54666666666665, "grad_norm": 0.466796875, "learning_rate": 0.0002967908868873207, "loss": 0.3961, "step": 99410 }, { "epoch": 132.56, "grad_norm": 0.35546875, "learning_rate": 0.0002967902402766989, "loss": 0.3896, "step": 99420 }, { "epoch": 132.57333333333332, "grad_norm": 0.357421875, "learning_rate": 0.00029678959360164467, "loss": 0.3935, "step": 99430 }, { "epoch": 132.58666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002967889468621585, "loss": 0.382, "step": 99440 }, { "epoch": 132.6, "grad_norm": 0.3671875, "learning_rate": 0.00029678830005824044, "loss": 0.3834, "step": 99450 }, { "epoch": 132.61333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029678765318989086, "loss": 0.3738, "step": 99460 }, { "epoch": 132.62666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029678700625711014, "loss": 0.3799, "step": 99470 }, { "epoch": 132.64, "grad_norm": 0.376953125, "learning_rate": 0.00029678635925989847, "loss": 0.391, "step": 99480 }, { "epoch": 132.65333333333334, "grad_norm": 0.458984375, "learning_rate": 0.00029678571219825614, "loss": 0.4002, "step": 99490 }, { "epoch": 132.66666666666666, "grad_norm": 0.3515625, "learning_rate": 0.00029678506507218347, "loss": 0.3879, "step": 99500 }, { "epoch": 132.68, "grad_norm": 0.380859375, "learning_rate": 0.00029678441788168067, "loss": 0.3793, "step": 99510 }, { "epoch": 132.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029678377062674813, "loss": 0.3888, "step": 99520 }, { "epoch": 132.70666666666668, "grad_norm": 0.51171875, "learning_rate": 0.00029678312330738607, "loss": 0.3822, "step": 99530 }, { "epoch": 132.72, "grad_norm": 0.375, "learning_rate": 0.00029678247592359474, "loss": 0.4044, "step": 99540 }, { "epoch": 132.73333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002967818284753745, "loss": 0.3977, "step": 99550 }, { "epoch": 132.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029678118096272563, "loss": 0.3997, "step": 99560 }, { "epoch": 132.76, "grad_norm": 0.44140625, "learning_rate": 0.0002967805333856483, "loss": 0.4134, "step": 99570 }, { "epoch": 132.77333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002967798857441429, "loss": 0.4006, "step": 99580 }, { "epoch": 132.78666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029677923803820975, "loss": 0.4008, "step": 99590 }, { "epoch": 132.8, "grad_norm": 0.400390625, "learning_rate": 0.00029677859026784907, "loss": 0.3994, "step": 99600 }, { "epoch": 132.81333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002967779424330611, "loss": 0.3729, "step": 99610 }, { "epoch": 132.82666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002967772945338462, "loss": 0.3821, "step": 99620 }, { "epoch": 132.84, "grad_norm": 0.388671875, "learning_rate": 0.0002967766465702046, "loss": 0.3941, "step": 99630 }, { "epoch": 132.85333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029677599854213666, "loss": 0.3894, "step": 99640 }, { "epoch": 132.86666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002967753504496426, "loss": 0.3947, "step": 99650 }, { "epoch": 132.88, "grad_norm": 0.37890625, "learning_rate": 0.00029677470229272276, "loss": 0.3752, "step": 99660 }, { "epoch": 132.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.00029677405407137734, "loss": 0.3871, "step": 99670 }, { "epoch": 132.90666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002967734057856067, "loss": 0.3931, "step": 99680 }, { "epoch": 132.92, "grad_norm": 0.375, "learning_rate": 0.00029677275743541105, "loss": 0.3952, "step": 99690 }, { "epoch": 132.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029677210902079076, "loss": 0.3885, "step": 99700 }, { "epoch": 132.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029677146054174605, "loss": 0.3896, "step": 99710 }, { "epoch": 132.96, "grad_norm": 0.341796875, "learning_rate": 0.0002967708119982773, "loss": 0.387, "step": 99720 }, { "epoch": 132.97333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029677016339038463, "loss": 0.412, "step": 99730 }, { "epoch": 132.98666666666668, "grad_norm": 0.349609375, "learning_rate": 0.00029676951471806846, "loss": 0.3857, "step": 99740 }, { "epoch": 133.0, "grad_norm": 0.427734375, "learning_rate": 0.0002967688659813291, "loss": 0.3815, "step": 99750 }, { "epoch": 133.0, "eval_loss": 0.42603302001953125, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9526, "eval_samples_per_second": 1.608, "eval_steps_per_second": 0.1, "step": 99750 }, { "epoch": 133.01333333333332, "grad_norm": 0.453125, "learning_rate": 0.0002967682171801667, "loss": 0.3987, "step": 99760 }, { "epoch": 133.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002967675683145816, "loss": 0.4127, "step": 99770 }, { "epoch": 133.04, "grad_norm": 0.345703125, "learning_rate": 0.0002967669193845742, "loss": 0.425, "step": 99780 }, { "epoch": 133.05333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002967662703901446, "loss": 0.4105, "step": 99790 }, { "epoch": 133.06666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029676562133129316, "loss": 0.3982, "step": 99800 }, { "epoch": 133.08, "grad_norm": 0.46875, "learning_rate": 0.0002967649722080202, "loss": 0.4008, "step": 99810 }, { "epoch": 133.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029676432302032596, "loss": 0.4032, "step": 99820 }, { "epoch": 133.10666666666665, "grad_norm": 0.3671875, "learning_rate": 0.0002967636737682108, "loss": 0.391, "step": 99830 }, { "epoch": 133.12, "grad_norm": 0.373046875, "learning_rate": 0.00029676302445167486, "loss": 0.3949, "step": 99840 }, { "epoch": 133.13333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029676237507071857, "loss": 0.3872, "step": 99850 }, { "epoch": 133.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029676172562534213, "loss": 0.4056, "step": 99860 }, { "epoch": 133.16, "grad_norm": 0.380859375, "learning_rate": 0.0002967610761155459, "loss": 0.3986, "step": 99870 }, { "epoch": 133.17333333333335, "grad_norm": 0.4296875, "learning_rate": 0.0002967604265413301, "loss": 0.3929, "step": 99880 }, { "epoch": 133.18666666666667, "grad_norm": 0.375, "learning_rate": 0.000296759776902695, "loss": 0.3921, "step": 99890 }, { "epoch": 133.2, "grad_norm": 0.3984375, "learning_rate": 0.00029675912719964097, "loss": 0.385, "step": 99900 }, { "epoch": 133.21333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029675847743216823, "loss": 0.386, "step": 99910 }, { "epoch": 133.22666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002967578276002771, "loss": 0.3978, "step": 99920 }, { "epoch": 133.24, "grad_norm": 0.4140625, "learning_rate": 0.0002967571777039678, "loss": 0.3821, "step": 99930 }, { "epoch": 133.25333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029675652774324067, "loss": 0.3847, "step": 99940 }, { "epoch": 133.26666666666668, "grad_norm": 0.34765625, "learning_rate": 0.00029675587771809596, "loss": 0.3864, "step": 99950 }, { "epoch": 133.28, "grad_norm": 0.421875, "learning_rate": 0.000296755227628534, "loss": 0.4169, "step": 99960 }, { "epoch": 133.29333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002967545774745551, "loss": 0.373, "step": 99970 }, { "epoch": 133.30666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029675392725615947, "loss": 0.3962, "step": 99980 }, { "epoch": 133.32, "grad_norm": 0.3359375, "learning_rate": 0.0002967532769733474, "loss": 0.3988, "step": 99990 }, { "epoch": 133.33333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002967526266261193, "loss": 0.4021, "step": 100000 }, { "epoch": 133.34666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029675197621447524, "loss": 0.3928, "step": 100010 }, { "epoch": 133.36, "grad_norm": 0.494140625, "learning_rate": 0.00029675132573841567, "loss": 0.3922, "step": 100020 }, { "epoch": 133.37333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029675067519794083, "loss": 0.394, "step": 100030 }, { "epoch": 133.38666666666666, "grad_norm": 0.419921875, "learning_rate": 0.000296750024593051, "loss": 0.3859, "step": 100040 }, { "epoch": 133.4, "grad_norm": 0.388671875, "learning_rate": 0.00029674937392374647, "loss": 0.3941, "step": 100050 }, { "epoch": 133.41333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029674872319002756, "loss": 0.3983, "step": 100060 }, { "epoch": 133.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029674807239189445, "loss": 0.3994, "step": 100070 }, { "epoch": 133.44, "grad_norm": 0.408203125, "learning_rate": 0.0002967474215293476, "loss": 0.411, "step": 100080 }, { "epoch": 133.45333333333335, "grad_norm": 0.48046875, "learning_rate": 0.0002967467706023871, "loss": 0.4, "step": 100090 }, { "epoch": 133.46666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002967461196110134, "loss": 0.4087, "step": 100100 }, { "epoch": 133.48, "grad_norm": 0.376953125, "learning_rate": 0.00029674546855522663, "loss": 0.3905, "step": 100110 }, { "epoch": 133.49333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002967448174350272, "loss": 0.4013, "step": 100120 }, { "epoch": 133.50666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002967441662504154, "loss": 0.4006, "step": 100130 }, { "epoch": 133.52, "grad_norm": 0.345703125, "learning_rate": 0.00029674351500139144, "loss": 0.3908, "step": 100140 }, { "epoch": 133.53333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002967428636879556, "loss": 0.3944, "step": 100150 }, { "epoch": 133.54666666666665, "grad_norm": 0.400390625, "learning_rate": 0.00029674221231010825, "loss": 0.396, "step": 100160 }, { "epoch": 133.56, "grad_norm": 0.359375, "learning_rate": 0.00029674156086784956, "loss": 0.3899, "step": 100170 }, { "epoch": 133.57333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029674090936118, "loss": 0.3936, "step": 100180 }, { "epoch": 133.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002967402577900997, "loss": 0.3818, "step": 100190 }, { "epoch": 133.6, "grad_norm": 0.388671875, "learning_rate": 0.0002967396061546089, "loss": 0.3828, "step": 100200 }, { "epoch": 133.61333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029673895445470804, "loss": 0.3735, "step": 100210 }, { "epoch": 133.62666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029673830269039733, "loss": 0.3787, "step": 100220 }, { "epoch": 133.64, "grad_norm": 0.41015625, "learning_rate": 0.00029673765086167704, "loss": 0.3914, "step": 100230 }, { "epoch": 133.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002967369989685476, "loss": 0.3999, "step": 100240 }, { "epoch": 133.66666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002967363470110091, "loss": 0.3879, "step": 100250 }, { "epoch": 133.68, "grad_norm": 0.435546875, "learning_rate": 0.00029673569498906186, "loss": 0.3799, "step": 100260 }, { "epoch": 133.69333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029673504290270625, "loss": 0.3886, "step": 100270 }, { "epoch": 133.70666666666668, "grad_norm": 0.376953125, "learning_rate": 0.0002967343907519425, "loss": 0.3815, "step": 100280 }, { "epoch": 133.72, "grad_norm": 0.421875, "learning_rate": 0.00029673373853677094, "loss": 0.4035, "step": 100290 }, { "epoch": 133.73333333333332, "grad_norm": 0.37890625, "learning_rate": 0.0002967330862571918, "loss": 0.3988, "step": 100300 }, { "epoch": 133.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002967324339132054, "loss": 0.4005, "step": 100310 }, { "epoch": 133.76, "grad_norm": 0.400390625, "learning_rate": 0.00029673178150481204, "loss": 0.4139, "step": 100320 }, { "epoch": 133.77333333333334, "grad_norm": 0.458984375, "learning_rate": 0.00029673112903201197, "loss": 0.3998, "step": 100330 }, { "epoch": 133.78666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002967304764948055, "loss": 0.4007, "step": 100340 }, { "epoch": 133.8, "grad_norm": 0.4375, "learning_rate": 0.00029672982389319295, "loss": 0.3984, "step": 100350 }, { "epoch": 133.81333333333333, "grad_norm": 0.484375, "learning_rate": 0.0002967291712271745, "loss": 0.373, "step": 100360 }, { "epoch": 133.82666666666665, "grad_norm": 0.421875, "learning_rate": 0.00029672851849675053, "loss": 0.3826, "step": 100370 }, { "epoch": 133.84, "grad_norm": 0.41015625, "learning_rate": 0.00029672786570192133, "loss": 0.3947, "step": 100380 }, { "epoch": 133.85333333333332, "grad_norm": 0.384765625, "learning_rate": 0.0002967272128426871, "loss": 0.3895, "step": 100390 }, { "epoch": 133.86666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002967265599190482, "loss": 0.3937, "step": 100400 }, { "epoch": 133.88, "grad_norm": 0.33984375, "learning_rate": 0.0002967259069310049, "loss": 0.3759, "step": 100410 }, { "epoch": 133.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.00029672525387855757, "loss": 0.3867, "step": 100420 }, { "epoch": 133.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002967246007617063, "loss": 0.3939, "step": 100430 }, { "epoch": 133.92, "grad_norm": 0.453125, "learning_rate": 0.00029672394758045153, "loss": 0.3954, "step": 100440 }, { "epoch": 133.93333333333334, "grad_norm": 0.455078125, "learning_rate": 0.0002967232943347935, "loss": 0.3887, "step": 100450 }, { "epoch": 133.94666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002967226410247325, "loss": 0.391, "step": 100460 }, { "epoch": 133.96, "grad_norm": 0.3359375, "learning_rate": 0.00029672198765026887, "loss": 0.3879, "step": 100470 }, { "epoch": 133.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0002967213342114028, "loss": 0.4134, "step": 100480 }, { "epoch": 133.98666666666668, "grad_norm": 0.455078125, "learning_rate": 0.0002967206807081346, "loss": 0.3864, "step": 100490 }, { "epoch": 134.0, "grad_norm": 0.373046875, "learning_rate": 0.0002967200271404646, "loss": 0.3811, "step": 100500 }, { "epoch": 134.0, "eval_loss": 0.42712700366973877, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1855, "eval_samples_per_second": 1.571, "eval_steps_per_second": 0.098, "step": 100500 }, { "epoch": 134.01333333333332, "grad_norm": 0.466796875, "learning_rate": 0.00029671937350839314, "loss": 0.3988, "step": 100510 }, { "epoch": 134.02666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002967187198119203, "loss": 0.4126, "step": 100520 }, { "epoch": 134.04, "grad_norm": 0.337890625, "learning_rate": 0.00029671806605104665, "loss": 0.4247, "step": 100530 }, { "epoch": 134.05333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029671741222577223, "loss": 0.4101, "step": 100540 }, { "epoch": 134.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002967167583360974, "loss": 0.3969, "step": 100550 }, { "epoch": 134.08, "grad_norm": 0.447265625, "learning_rate": 0.00029671610438202254, "loss": 0.4006, "step": 100560 }, { "epoch": 134.09333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029671545036354785, "loss": 0.4018, "step": 100570 }, { "epoch": 134.10666666666665, "grad_norm": 0.361328125, "learning_rate": 0.0002967147962806736, "loss": 0.3899, "step": 100580 }, { "epoch": 134.12, "grad_norm": 0.34375, "learning_rate": 0.0002967141421334002, "loss": 0.3956, "step": 100590 }, { "epoch": 134.13333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029671348792172775, "loss": 0.3868, "step": 100600 }, { "epoch": 134.14666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002967128336456567, "loss": 0.4057, "step": 100610 }, { "epoch": 134.16, "grad_norm": 0.35546875, "learning_rate": 0.00029671217930518726, "loss": 0.3992, "step": 100620 }, { "epoch": 134.17333333333335, "grad_norm": 0.458984375, "learning_rate": 0.00029671152490031973, "loss": 0.3939, "step": 100630 }, { "epoch": 134.18666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029671087043105443, "loss": 0.3922, "step": 100640 }, { "epoch": 134.2, "grad_norm": 0.419921875, "learning_rate": 0.00029671021589739154, "loss": 0.3845, "step": 100650 }, { "epoch": 134.21333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002967095612993315, "loss": 0.3866, "step": 100660 }, { "epoch": 134.22666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002967089066368745, "loss": 0.398, "step": 100670 }, { "epoch": 134.24, "grad_norm": 0.41796875, "learning_rate": 0.00029670825191002086, "loss": 0.3819, "step": 100680 }, { "epoch": 134.25333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029670759711877083, "loss": 0.3845, "step": 100690 }, { "epoch": 134.26666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002967069422631247, "loss": 0.387, "step": 100700 }, { "epoch": 134.28, "grad_norm": 0.345703125, "learning_rate": 0.00029670628734308286, "loss": 0.4179, "step": 100710 }, { "epoch": 134.29333333333332, "grad_norm": 0.361328125, "learning_rate": 0.0002967056323586454, "loss": 0.3735, "step": 100720 }, { "epoch": 134.30666666666667, "grad_norm": 0.375, "learning_rate": 0.00029670497730981284, "loss": 0.397, "step": 100730 }, { "epoch": 134.32, "grad_norm": 0.353515625, "learning_rate": 0.0002967043221965853, "loss": 0.3986, "step": 100740 }, { "epoch": 134.33333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029670366701896317, "loss": 0.4019, "step": 100750 }, { "epoch": 134.34666666666666, "grad_norm": 0.43359375, "learning_rate": 0.0002967030117769466, "loss": 0.3926, "step": 100760 }, { "epoch": 134.36, "grad_norm": 0.4609375, "learning_rate": 0.00029670235647053607, "loss": 0.3928, "step": 100770 }, { "epoch": 134.37333333333333, "grad_norm": 0.330078125, "learning_rate": 0.0002967017010997317, "loss": 0.394, "step": 100780 }, { "epoch": 134.38666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002967010456645338, "loss": 0.3854, "step": 100790 }, { "epoch": 134.4, "grad_norm": 0.353515625, "learning_rate": 0.0002967003901649428, "loss": 0.3931, "step": 100800 }, { "epoch": 134.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029669973460095877, "loss": 0.3983, "step": 100810 }, { "epoch": 134.42666666666668, "grad_norm": 0.369140625, "learning_rate": 0.0002966990789725822, "loss": 0.3999, "step": 100820 }, { "epoch": 134.44, "grad_norm": 0.365234375, "learning_rate": 0.00029669842327981324, "loss": 0.411, "step": 100830 }, { "epoch": 134.45333333333335, "grad_norm": 0.44921875, "learning_rate": 0.00029669776752265227, "loss": 0.3998, "step": 100840 }, { "epoch": 134.46666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029669711170109955, "loss": 0.4081, "step": 100850 }, { "epoch": 134.48, "grad_norm": 0.421875, "learning_rate": 0.0002966964558151553, "loss": 0.3902, "step": 100860 }, { "epoch": 134.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002966957998648199, "loss": 0.4024, "step": 100870 }, { "epoch": 134.50666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002966951438500936, "loss": 0.3999, "step": 100880 }, { "epoch": 134.52, "grad_norm": 0.349609375, "learning_rate": 0.00029669448777097673, "loss": 0.3909, "step": 100890 }, { "epoch": 134.53333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029669383162746947, "loss": 0.3932, "step": 100900 }, { "epoch": 134.54666666666665, "grad_norm": 0.392578125, "learning_rate": 0.0002966931754195722, "loss": 0.3957, "step": 100910 }, { "epoch": 134.56, "grad_norm": 0.37109375, "learning_rate": 0.0002966925191472852, "loss": 0.3891, "step": 100920 }, { "epoch": 134.57333333333332, "grad_norm": 0.3984375, "learning_rate": 0.0002966918628106087, "loss": 0.3931, "step": 100930 }, { "epoch": 134.58666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029669120640954307, "loss": 0.383, "step": 100940 }, { "epoch": 134.6, "grad_norm": 0.388671875, "learning_rate": 0.00029669054994408854, "loss": 0.3831, "step": 100950 }, { "epoch": 134.61333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029668989341424546, "loss": 0.3729, "step": 100960 }, { "epoch": 134.62666666666667, "grad_norm": 0.296875, "learning_rate": 0.000296689236820014, "loss": 0.3792, "step": 100970 }, { "epoch": 134.64, "grad_norm": 0.38671875, "learning_rate": 0.0002966885801613946, "loss": 0.3917, "step": 100980 }, { "epoch": 134.65333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002966879234383874, "loss": 0.4004, "step": 100990 }, { "epoch": 134.66666666666666, "grad_norm": 0.375, "learning_rate": 0.00029668726665099275, "loss": 0.3882, "step": 101000 }, { "epoch": 134.68, "grad_norm": 0.396484375, "learning_rate": 0.000296686609799211, "loss": 0.38, "step": 101010 }, { "epoch": 134.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029668595288304236, "loss": 0.3886, "step": 101020 }, { "epoch": 134.70666666666668, "grad_norm": 0.435546875, "learning_rate": 0.0002966852959024872, "loss": 0.3817, "step": 101030 }, { "epoch": 134.72, "grad_norm": 0.423828125, "learning_rate": 0.0002966846388575457, "loss": 0.4039, "step": 101040 }, { "epoch": 134.73333333333332, "grad_norm": 0.392578125, "learning_rate": 0.00029668398174821815, "loss": 0.3978, "step": 101050 }, { "epoch": 134.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.000296683324574505, "loss": 0.4008, "step": 101060 }, { "epoch": 134.76, "grad_norm": 0.41796875, "learning_rate": 0.00029668266733640634, "loss": 0.4133, "step": 101070 }, { "epoch": 134.77333333333334, "grad_norm": 0.435546875, "learning_rate": 0.0002966820100339226, "loss": 0.4011, "step": 101080 }, { "epoch": 134.78666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029668135266705395, "loss": 0.4006, "step": 101090 }, { "epoch": 134.8, "grad_norm": 0.373046875, "learning_rate": 0.0002966806952358008, "loss": 0.3992, "step": 101100 }, { "epoch": 134.81333333333333, "grad_norm": 0.45703125, "learning_rate": 0.0002966800377401634, "loss": 0.3728, "step": 101110 }, { "epoch": 134.82666666666665, "grad_norm": 0.404296875, "learning_rate": 0.000296679380180142, "loss": 0.3822, "step": 101120 }, { "epoch": 134.84, "grad_norm": 0.416015625, "learning_rate": 0.00029667872255573685, "loss": 0.3941, "step": 101130 }, { "epoch": 134.85333333333332, "grad_norm": 0.365234375, "learning_rate": 0.00029667806486694833, "loss": 0.389, "step": 101140 }, { "epoch": 134.86666666666667, "grad_norm": 0.4609375, "learning_rate": 0.00029667740711377674, "loss": 0.3938, "step": 101150 }, { "epoch": 134.88, "grad_norm": 0.388671875, "learning_rate": 0.0002966767492962223, "loss": 0.3741, "step": 101160 }, { "epoch": 134.89333333333335, "grad_norm": 0.373046875, "learning_rate": 0.0002966760914142853, "loss": 0.3865, "step": 101170 }, { "epoch": 134.90666666666667, "grad_norm": 0.375, "learning_rate": 0.0002966754334679661, "loss": 0.3934, "step": 101180 }, { "epoch": 134.92, "grad_norm": 0.384765625, "learning_rate": 0.0002966747754572649, "loss": 0.3944, "step": 101190 }, { "epoch": 134.93333333333334, "grad_norm": 0.357421875, "learning_rate": 0.000296674117382182, "loss": 0.3891, "step": 101200 }, { "epoch": 134.94666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002966734592427178, "loss": 0.3896, "step": 101210 }, { "epoch": 134.96, "grad_norm": 0.37890625, "learning_rate": 0.00029667280103887244, "loss": 0.3881, "step": 101220 }, { "epoch": 134.97333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002966721427706463, "loss": 0.4119, "step": 101230 }, { "epoch": 134.98666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002966714844380397, "loss": 0.3852, "step": 101240 }, { "epoch": 135.0, "grad_norm": 0.3671875, "learning_rate": 0.00029667082604105285, "loss": 0.3817, "step": 101250 }, { "epoch": 135.0, "eval_loss": 0.42783838510513306, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9529, "eval_samples_per_second": 1.608, "eval_steps_per_second": 0.1, "step": 101250 }, { "epoch": 135.01333333333332, "grad_norm": 0.41015625, "learning_rate": 0.000296670167579686, "loss": 0.399, "step": 101260 }, { "epoch": 135.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002966695090539395, "loss": 0.4111, "step": 101270 }, { "epoch": 135.04, "grad_norm": 0.3828125, "learning_rate": 0.0002966688504638137, "loss": 0.4242, "step": 101280 }, { "epoch": 135.05333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002966681918093088, "loss": 0.4099, "step": 101290 }, { "epoch": 135.06666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002966675330904252, "loss": 0.398, "step": 101300 }, { "epoch": 135.08, "grad_norm": 0.427734375, "learning_rate": 0.000296666874307163, "loss": 0.4019, "step": 101310 }, { "epoch": 135.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002966662154595227, "loss": 0.4021, "step": 101320 }, { "epoch": 135.10666666666665, "grad_norm": 0.375, "learning_rate": 0.00029666555654750436, "loss": 0.3903, "step": 101330 }, { "epoch": 135.12, "grad_norm": 0.37890625, "learning_rate": 0.0002966648975711085, "loss": 0.3949, "step": 101340 }, { "epoch": 135.13333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029666423853033527, "loss": 0.3862, "step": 101350 }, { "epoch": 135.14666666666668, "grad_norm": 0.42578125, "learning_rate": 0.000296663579425185, "loss": 0.4044, "step": 101360 }, { "epoch": 135.16, "grad_norm": 0.37109375, "learning_rate": 0.00029666292025565797, "loss": 0.3994, "step": 101370 }, { "epoch": 135.17333333333335, "grad_norm": 0.427734375, "learning_rate": 0.0002966622610217545, "loss": 0.3933, "step": 101380 }, { "epoch": 135.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002966616017234748, "loss": 0.3933, "step": 101390 }, { "epoch": 135.2, "grad_norm": 0.4453125, "learning_rate": 0.00029666094236081923, "loss": 0.3849, "step": 101400 }, { "epoch": 135.21333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002966602829337881, "loss": 0.3853, "step": 101410 }, { "epoch": 135.22666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002966596234423816, "loss": 0.3971, "step": 101420 }, { "epoch": 135.24, "grad_norm": 0.40234375, "learning_rate": 0.00029665896388660014, "loss": 0.3821, "step": 101430 }, { "epoch": 135.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029665830426644395, "loss": 0.3842, "step": 101440 }, { "epoch": 135.26666666666668, "grad_norm": 0.44140625, "learning_rate": 0.0002966576445819133, "loss": 0.3882, "step": 101450 }, { "epoch": 135.28, "grad_norm": 0.419921875, "learning_rate": 0.00029665698483300845, "loss": 0.4162, "step": 101460 }, { "epoch": 135.29333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029665632501972984, "loss": 0.3733, "step": 101470 }, { "epoch": 135.30666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002966556651420776, "loss": 0.3952, "step": 101480 }, { "epoch": 135.32, "grad_norm": 0.3671875, "learning_rate": 0.00029665500520005203, "loss": 0.3986, "step": 101490 }, { "epoch": 135.33333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029665434519365354, "loss": 0.4018, "step": 101500 }, { "epoch": 135.34666666666666, "grad_norm": 0.490234375, "learning_rate": 0.00029665368512288233, "loss": 0.393, "step": 101510 }, { "epoch": 135.36, "grad_norm": 0.52734375, "learning_rate": 0.00029665302498773873, "loss": 0.3938, "step": 101520 }, { "epoch": 135.37333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029665236478822296, "loss": 0.3939, "step": 101530 }, { "epoch": 135.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002966517045243354, "loss": 0.3851, "step": 101540 }, { "epoch": 135.4, "grad_norm": 0.37109375, "learning_rate": 0.00029665104419607626, "loss": 0.3936, "step": 101550 }, { "epoch": 135.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002966503838034459, "loss": 0.3983, "step": 101560 }, { "epoch": 135.42666666666668, "grad_norm": 0.37109375, "learning_rate": 0.00029664972334644455, "loss": 0.3987, "step": 101570 }, { "epoch": 135.44, "grad_norm": 0.3984375, "learning_rate": 0.0002966490628250725, "loss": 0.4101, "step": 101580 }, { "epoch": 135.45333333333335, "grad_norm": 0.49609375, "learning_rate": 0.0002966484022393301, "loss": 0.3997, "step": 101590 }, { "epoch": 135.46666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029664774158921764, "loss": 0.4084, "step": 101600 }, { "epoch": 135.48, "grad_norm": 0.388671875, "learning_rate": 0.0002966470808747354, "loss": 0.3895, "step": 101610 }, { "epoch": 135.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029664642009588355, "loss": 0.4023, "step": 101620 }, { "epoch": 135.50666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029664575925266253, "loss": 0.3992, "step": 101630 }, { "epoch": 135.52, "grad_norm": 0.361328125, "learning_rate": 0.00029664509834507254, "loss": 0.3903, "step": 101640 }, { "epoch": 135.53333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029664443737311395, "loss": 0.394, "step": 101650 }, { "epoch": 135.54666666666665, "grad_norm": 0.392578125, "learning_rate": 0.00029664377633678693, "loss": 0.3955, "step": 101660 }, { "epoch": 135.56, "grad_norm": 0.326171875, "learning_rate": 0.0002966431152360919, "loss": 0.3893, "step": 101670 }, { "epoch": 135.57333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029664245407102916, "loss": 0.3922, "step": 101680 }, { "epoch": 135.58666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029664179284159885, "loss": 0.3825, "step": 101690 }, { "epoch": 135.6, "grad_norm": 0.357421875, "learning_rate": 0.0002966411315478014, "loss": 0.383, "step": 101700 }, { "epoch": 135.61333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029664047018963704, "loss": 0.373, "step": 101710 }, { "epoch": 135.62666666666667, "grad_norm": 0.3125, "learning_rate": 0.00029663980876710604, "loss": 0.3794, "step": 101720 }, { "epoch": 135.64, "grad_norm": 0.396484375, "learning_rate": 0.0002966391472802087, "loss": 0.3918, "step": 101730 }, { "epoch": 135.65333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002966384857289454, "loss": 0.4004, "step": 101740 }, { "epoch": 135.66666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002966378241133163, "loss": 0.3883, "step": 101750 }, { "epoch": 135.68, "grad_norm": 0.4453125, "learning_rate": 0.00029663716243332177, "loss": 0.3801, "step": 101760 }, { "epoch": 135.69333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029663650068896205, "loss": 0.3893, "step": 101770 }, { "epoch": 135.70666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029663583888023753, "loss": 0.3823, "step": 101780 }, { "epoch": 135.72, "grad_norm": 0.388671875, "learning_rate": 0.00029663517700714837, "loss": 0.4035, "step": 101790 }, { "epoch": 135.73333333333332, "grad_norm": 0.40234375, "learning_rate": 0.00029663451506969495, "loss": 0.3979, "step": 101800 }, { "epoch": 135.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002966338530678775, "loss": 0.4005, "step": 101810 }, { "epoch": 135.76, "grad_norm": 0.40234375, "learning_rate": 0.00029663319100169637, "loss": 0.4132, "step": 101820 }, { "epoch": 135.77333333333334, "grad_norm": 0.51171875, "learning_rate": 0.00029663252887115186, "loss": 0.4, "step": 101830 }, { "epoch": 135.78666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029663186667624417, "loss": 0.4006, "step": 101840 }, { "epoch": 135.8, "grad_norm": 0.41015625, "learning_rate": 0.00029663120441697364, "loss": 0.3992, "step": 101850 }, { "epoch": 135.81333333333333, "grad_norm": 0.453125, "learning_rate": 0.0002966305420933406, "loss": 0.3713, "step": 101860 }, { "epoch": 135.82666666666665, "grad_norm": 0.41015625, "learning_rate": 0.00029662987970534527, "loss": 0.3823, "step": 101870 }, { "epoch": 135.84, "grad_norm": 0.419921875, "learning_rate": 0.00029662921725298803, "loss": 0.394, "step": 101880 }, { "epoch": 135.85333333333332, "grad_norm": 0.369140625, "learning_rate": 0.000296628554736269, "loss": 0.3893, "step": 101890 }, { "epoch": 135.86666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002966278921551887, "loss": 0.3942, "step": 101900 }, { "epoch": 135.88, "grad_norm": 0.376953125, "learning_rate": 0.0002966272295097473, "loss": 0.3749, "step": 101910 }, { "epoch": 135.89333333333335, "grad_norm": 0.373046875, "learning_rate": 0.0002966265667999451, "loss": 0.387, "step": 101920 }, { "epoch": 135.90666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029662590402578236, "loss": 0.3925, "step": 101930 }, { "epoch": 135.92, "grad_norm": 0.369140625, "learning_rate": 0.0002966252411872594, "loss": 0.3951, "step": 101940 }, { "epoch": 135.93333333333334, "grad_norm": 0.326171875, "learning_rate": 0.00029662457828437655, "loss": 0.3892, "step": 101950 }, { "epoch": 135.94666666666666, "grad_norm": 0.4296875, "learning_rate": 0.000296623915317134, "loss": 0.3897, "step": 101960 }, { "epoch": 135.96, "grad_norm": 0.34375, "learning_rate": 0.0002966232522855322, "loss": 0.3879, "step": 101970 }, { "epoch": 135.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0002966225891895713, "loss": 0.413, "step": 101980 }, { "epoch": 135.98666666666668, "grad_norm": 0.390625, "learning_rate": 0.00029662192602925155, "loss": 0.3856, "step": 101990 }, { "epoch": 136.0, "grad_norm": 0.373046875, "learning_rate": 0.00029662126280457346, "loss": 0.3824, "step": 102000 }, { "epoch": 136.0, "eval_loss": 0.4271514117717743, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7734, "eval_samples_per_second": 1.637, "eval_steps_per_second": 0.102, "step": 102000 }, { "epoch": 136.01333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002966205995155371, "loss": 0.3992, "step": 102010 }, { "epoch": 136.02666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002966199361621429, "loss": 0.4101, "step": 102020 }, { "epoch": 136.04, "grad_norm": 0.384765625, "learning_rate": 0.00029661927274439106, "loss": 0.4251, "step": 102030 }, { "epoch": 136.05333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029661860926228197, "loss": 0.4108, "step": 102040 }, { "epoch": 136.06666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002966179457158158, "loss": 0.3976, "step": 102050 }, { "epoch": 136.08, "grad_norm": 0.435546875, "learning_rate": 0.00029661728210499295, "loss": 0.4009, "step": 102060 }, { "epoch": 136.09333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0002966166184298137, "loss": 0.4032, "step": 102070 }, { "epoch": 136.10666666666665, "grad_norm": 0.3984375, "learning_rate": 0.0002966159546902782, "loss": 0.39, "step": 102080 }, { "epoch": 136.12, "grad_norm": 0.40625, "learning_rate": 0.00029661529088638694, "loss": 0.3947, "step": 102090 }, { "epoch": 136.13333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029661462701814005, "loss": 0.3861, "step": 102100 }, { "epoch": 136.14666666666668, "grad_norm": 0.37109375, "learning_rate": 0.00029661396308553796, "loss": 0.4046, "step": 102110 }, { "epoch": 136.16, "grad_norm": 0.369140625, "learning_rate": 0.0002966132990885809, "loss": 0.3996, "step": 102120 }, { "epoch": 136.17333333333335, "grad_norm": 0.423828125, "learning_rate": 0.0002966126350272691, "loss": 0.394, "step": 102130 }, { "epoch": 136.18666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002966119709016029, "loss": 0.3911, "step": 102140 }, { "epoch": 136.2, "grad_norm": 0.4296875, "learning_rate": 0.00029661130671158263, "loss": 0.3842, "step": 102150 }, { "epoch": 136.21333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002966106424572085, "loss": 0.3853, "step": 102160 }, { "epoch": 136.22666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029660997813848094, "loss": 0.3966, "step": 102170 }, { "epoch": 136.24, "grad_norm": 0.380859375, "learning_rate": 0.00029660931375540006, "loss": 0.3815, "step": 102180 }, { "epoch": 136.25333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029660864930796635, "loss": 0.3843, "step": 102190 }, { "epoch": 136.26666666666668, "grad_norm": 0.375, "learning_rate": 0.0002966079847961799, "loss": 0.3869, "step": 102200 }, { "epoch": 136.28, "grad_norm": 0.40234375, "learning_rate": 0.00029660732022004113, "loss": 0.4161, "step": 102210 }, { "epoch": 136.29333333333332, "grad_norm": 0.359375, "learning_rate": 0.0002966066555795503, "loss": 0.3732, "step": 102220 }, { "epoch": 136.30666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002966059908747077, "loss": 0.3962, "step": 102230 }, { "epoch": 136.32, "grad_norm": 0.35546875, "learning_rate": 0.00029660532610551366, "loss": 0.3988, "step": 102240 }, { "epoch": 136.33333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029660466127196834, "loss": 0.4014, "step": 102250 }, { "epoch": 136.34666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002966039963740722, "loss": 0.3919, "step": 102260 }, { "epoch": 136.36, "grad_norm": 0.40625, "learning_rate": 0.00029660333141182544, "loss": 0.392, "step": 102270 }, { "epoch": 136.37333333333333, "grad_norm": 0.33984375, "learning_rate": 0.0002966026663852284, "loss": 0.3935, "step": 102280 }, { "epoch": 136.38666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029660200129428134, "loss": 0.3855, "step": 102290 }, { "epoch": 136.4, "grad_norm": 0.40625, "learning_rate": 0.00029660133613898445, "loss": 0.3928, "step": 102300 }, { "epoch": 136.41333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029660067091933826, "loss": 0.3973, "step": 102310 }, { "epoch": 136.42666666666668, "grad_norm": 0.36328125, "learning_rate": 0.0002966000056353429, "loss": 0.3991, "step": 102320 }, { "epoch": 136.44, "grad_norm": 0.40234375, "learning_rate": 0.0002965993402869986, "loss": 0.4113, "step": 102330 }, { "epoch": 136.45333333333335, "grad_norm": 0.431640625, "learning_rate": 0.0002965986748743058, "loss": 0.3997, "step": 102340 }, { "epoch": 136.46666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002965980093972648, "loss": 0.4089, "step": 102350 }, { "epoch": 136.48, "grad_norm": 0.41015625, "learning_rate": 0.0002965973438558757, "loss": 0.3901, "step": 102360 }, { "epoch": 136.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.000296596678250139, "loss": 0.4029, "step": 102370 }, { "epoch": 136.50666666666666, "grad_norm": 0.390625, "learning_rate": 0.0002965960125800549, "loss": 0.4004, "step": 102380 }, { "epoch": 136.52, "grad_norm": 0.4140625, "learning_rate": 0.00029659534684562365, "loss": 0.3895, "step": 102390 }, { "epoch": 136.53333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029659468104684567, "loss": 0.3931, "step": 102400 }, { "epoch": 136.54666666666665, "grad_norm": 0.423828125, "learning_rate": 0.0002965940151837211, "loss": 0.3956, "step": 102410 }, { "epoch": 136.56, "grad_norm": 0.365234375, "learning_rate": 0.0002965933492562504, "loss": 0.3901, "step": 102420 }, { "epoch": 136.57333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029659268326443373, "loss": 0.3939, "step": 102430 }, { "epoch": 136.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002965920172082714, "loss": 0.3818, "step": 102440 }, { "epoch": 136.6, "grad_norm": 0.369140625, "learning_rate": 0.00029659135108776375, "loss": 0.3843, "step": 102450 }, { "epoch": 136.61333333333334, "grad_norm": 0.3046875, "learning_rate": 0.00029659068490291103, "loss": 0.3735, "step": 102460 }, { "epoch": 136.62666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002965900186537136, "loss": 0.379, "step": 102470 }, { "epoch": 136.64, "grad_norm": 0.408203125, "learning_rate": 0.0002965893523401716, "loss": 0.3913, "step": 102480 }, { "epoch": 136.65333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029658868596228554, "loss": 0.4001, "step": 102490 }, { "epoch": 136.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002965880195200555, "loss": 0.3875, "step": 102500 }, { "epoch": 136.68, "grad_norm": 0.4375, "learning_rate": 0.00029658735301348196, "loss": 0.3796, "step": 102510 }, { "epoch": 136.69333333333333, "grad_norm": 0.31640625, "learning_rate": 0.0002965866864425651, "loss": 0.3891, "step": 102520 }, { "epoch": 136.70666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002965860198073052, "loss": 0.3816, "step": 102530 }, { "epoch": 136.72, "grad_norm": 0.416015625, "learning_rate": 0.0002965853531077026, "loss": 0.4042, "step": 102540 }, { "epoch": 136.73333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0002965846863437576, "loss": 0.3984, "step": 102550 }, { "epoch": 136.74666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002965840195154705, "loss": 0.401, "step": 102560 }, { "epoch": 136.76, "grad_norm": 0.392578125, "learning_rate": 0.0002965833526228415, "loss": 0.4135, "step": 102570 }, { "epoch": 136.77333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029658268566587096, "loss": 0.3993, "step": 102580 }, { "epoch": 136.78666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029658201864455925, "loss": 0.4006, "step": 102590 }, { "epoch": 136.8, "grad_norm": 0.419921875, "learning_rate": 0.0002965813515589065, "loss": 0.399, "step": 102600 }, { "epoch": 136.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002965806844089132, "loss": 0.3732, "step": 102610 }, { "epoch": 136.82666666666665, "grad_norm": 0.427734375, "learning_rate": 0.00029658001719457943, "loss": 0.3824, "step": 102620 }, { "epoch": 136.84, "grad_norm": 0.416015625, "learning_rate": 0.0002965793499159056, "loss": 0.3941, "step": 102630 }, { "epoch": 136.85333333333332, "grad_norm": 0.396484375, "learning_rate": 0.000296578682572892, "loss": 0.3906, "step": 102640 }, { "epoch": 136.86666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002965780151655389, "loss": 0.3952, "step": 102650 }, { "epoch": 136.88, "grad_norm": 0.3828125, "learning_rate": 0.0002965773476938466, "loss": 0.3749, "step": 102660 }, { "epoch": 136.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002965766801578154, "loss": 0.385, "step": 102670 }, { "epoch": 136.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002965760125574456, "loss": 0.393, "step": 102680 }, { "epoch": 136.92, "grad_norm": 0.39453125, "learning_rate": 0.0002965753448927375, "loss": 0.3953, "step": 102690 }, { "epoch": 136.93333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002965746771636913, "loss": 0.3882, "step": 102700 }, { "epoch": 136.94666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029657400937030745, "loss": 0.3909, "step": 102710 }, { "epoch": 136.96, "grad_norm": 0.34765625, "learning_rate": 0.0002965733415125861, "loss": 0.3877, "step": 102720 }, { "epoch": 136.97333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029657267359052764, "loss": 0.4128, "step": 102730 }, { "epoch": 136.98666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029657200560413233, "loss": 0.3856, "step": 102740 }, { "epoch": 137.0, "grad_norm": 0.400390625, "learning_rate": 0.0002965713375534004, "loss": 0.3814, "step": 102750 }, { "epoch": 137.0, "eval_loss": 0.42927682399749756, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0256, "eval_samples_per_second": 1.596, "eval_steps_per_second": 0.1, "step": 102750 }, { "epoch": 137.01333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029657066943833226, "loss": 0.3987, "step": 102760 }, { "epoch": 137.02666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029657000125892814, "loss": 0.4125, "step": 102770 }, { "epoch": 137.04, "grad_norm": 0.349609375, "learning_rate": 0.00029656933301518834, "loss": 0.4242, "step": 102780 }, { "epoch": 137.05333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002965686647071132, "loss": 0.4105, "step": 102790 }, { "epoch": 137.06666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029656799633470286, "loss": 0.3981, "step": 102800 }, { "epoch": 137.08, "grad_norm": 0.40234375, "learning_rate": 0.0002965673278979578, "loss": 0.4013, "step": 102810 }, { "epoch": 137.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029656665939687814, "loss": 0.4018, "step": 102820 }, { "epoch": 137.10666666666665, "grad_norm": 0.359375, "learning_rate": 0.0002965659908314644, "loss": 0.3901, "step": 102830 }, { "epoch": 137.12, "grad_norm": 0.384765625, "learning_rate": 0.00029656532220171663, "loss": 0.3957, "step": 102840 }, { "epoch": 137.13333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002965646535076353, "loss": 0.3868, "step": 102850 }, { "epoch": 137.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002965639847492206, "loss": 0.4051, "step": 102860 }, { "epoch": 137.16, "grad_norm": 0.345703125, "learning_rate": 0.0002965633159264729, "loss": 0.3989, "step": 102870 }, { "epoch": 137.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029656264703939244, "loss": 0.3934, "step": 102880 }, { "epoch": 137.18666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002965619780879795, "loss": 0.3925, "step": 102890 }, { "epoch": 137.2, "grad_norm": 0.41015625, "learning_rate": 0.0002965613090722344, "loss": 0.3843, "step": 102900 }, { "epoch": 137.21333333333334, "grad_norm": 0.45703125, "learning_rate": 0.0002965606399921575, "loss": 0.3863, "step": 102910 }, { "epoch": 137.22666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029655997084774893, "loss": 0.3967, "step": 102920 }, { "epoch": 137.24, "grad_norm": 0.427734375, "learning_rate": 0.0002965593016390092, "loss": 0.382, "step": 102930 }, { "epoch": 137.25333333333333, "grad_norm": 0.453125, "learning_rate": 0.0002965586323659384, "loss": 0.3837, "step": 102940 }, { "epoch": 137.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029655796302853693, "loss": 0.3869, "step": 102950 }, { "epoch": 137.28, "grad_norm": 0.40625, "learning_rate": 0.0002965572936268051, "loss": 0.4159, "step": 102960 }, { "epoch": 137.29333333333332, "grad_norm": 0.376953125, "learning_rate": 0.00029655662416074307, "loss": 0.3735, "step": 102970 }, { "epoch": 137.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029655595463035127, "loss": 0.3964, "step": 102980 }, { "epoch": 137.32, "grad_norm": 0.341796875, "learning_rate": 0.00029655528503563, "loss": 0.3985, "step": 102990 }, { "epoch": 137.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002965546153765795, "loss": 0.4012, "step": 103000 }, { "epoch": 137.34666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002965539456532001, "loss": 0.3921, "step": 103010 }, { "epoch": 137.36, "grad_norm": 0.51171875, "learning_rate": 0.00029655327586549204, "loss": 0.3932, "step": 103020 }, { "epoch": 137.37333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029655260601345557, "loss": 0.3935, "step": 103030 }, { "epoch": 137.38666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029655193609709116, "loss": 0.3848, "step": 103040 }, { "epoch": 137.4, "grad_norm": 0.373046875, "learning_rate": 0.0002965512661163989, "loss": 0.3932, "step": 103050 }, { "epoch": 137.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002965505960713793, "loss": 0.3988, "step": 103060 }, { "epoch": 137.42666666666668, "grad_norm": 0.353515625, "learning_rate": 0.0002965499259620325, "loss": 0.3985, "step": 103070 }, { "epoch": 137.44, "grad_norm": 0.3671875, "learning_rate": 0.00029654925578835877, "loss": 0.411, "step": 103080 }, { "epoch": 137.45333333333335, "grad_norm": 0.45703125, "learning_rate": 0.0002965485855503585, "loss": 0.3997, "step": 103090 }, { "epoch": 137.46666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029654791524803196, "loss": 0.4089, "step": 103100 }, { "epoch": 137.48, "grad_norm": 0.400390625, "learning_rate": 0.0002965472448813794, "loss": 0.3901, "step": 103110 }, { "epoch": 137.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002965465744504012, "loss": 0.4024, "step": 103120 }, { "epoch": 137.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029654590395509757, "loss": 0.3991, "step": 103130 }, { "epoch": 137.52, "grad_norm": 0.35546875, "learning_rate": 0.00029654523339546886, "loss": 0.3901, "step": 103140 }, { "epoch": 137.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029654456277151535, "loss": 0.3936, "step": 103150 }, { "epoch": 137.54666666666665, "grad_norm": 0.38671875, "learning_rate": 0.00029654389208323733, "loss": 0.3957, "step": 103160 }, { "epoch": 137.56, "grad_norm": 0.337890625, "learning_rate": 0.00029654322133063505, "loss": 0.3888, "step": 103170 }, { "epoch": 137.57333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029654255051370885, "loss": 0.3937, "step": 103180 }, { "epoch": 137.58666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029654187963245904, "loss": 0.382, "step": 103190 }, { "epoch": 137.6, "grad_norm": 0.37890625, "learning_rate": 0.00029654120868688585, "loss": 0.3842, "step": 103200 }, { "epoch": 137.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002965405376769897, "loss": 0.3734, "step": 103210 }, { "epoch": 137.62666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029653986660277073, "loss": 0.3795, "step": 103220 }, { "epoch": 137.64, "grad_norm": 0.44140625, "learning_rate": 0.00029653919546422934, "loss": 0.3911, "step": 103230 }, { "epoch": 137.65333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002965385242613658, "loss": 0.4001, "step": 103240 }, { "epoch": 137.66666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029653785299418037, "loss": 0.3876, "step": 103250 }, { "epoch": 137.68, "grad_norm": 0.359375, "learning_rate": 0.0002965371816626734, "loss": 0.3794, "step": 103260 }, { "epoch": 137.69333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029653651026684513, "loss": 0.3886, "step": 103270 }, { "epoch": 137.70666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002965358388066959, "loss": 0.3815, "step": 103280 }, { "epoch": 137.72, "grad_norm": 0.427734375, "learning_rate": 0.00029653516728222595, "loss": 0.4039, "step": 103290 }, { "epoch": 137.73333333333332, "grad_norm": 0.373046875, "learning_rate": 0.0002965344956934356, "loss": 0.3982, "step": 103300 }, { "epoch": 137.74666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002965338240403252, "loss": 0.3999, "step": 103310 }, { "epoch": 137.76, "grad_norm": 0.39453125, "learning_rate": 0.000296533152322895, "loss": 0.4129, "step": 103320 }, { "epoch": 137.77333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002965324805411453, "loss": 0.3987, "step": 103330 }, { "epoch": 137.78666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029653180869507634, "loss": 0.4003, "step": 103340 }, { "epoch": 137.8, "grad_norm": 0.380859375, "learning_rate": 0.0002965311367846885, "loss": 0.3986, "step": 103350 }, { "epoch": 137.81333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029653046480998204, "loss": 0.3722, "step": 103360 }, { "epoch": 137.82666666666665, "grad_norm": 0.384765625, "learning_rate": 0.00029652979277095725, "loss": 0.3826, "step": 103370 }, { "epoch": 137.84, "grad_norm": 0.451171875, "learning_rate": 0.00029652912066761443, "loss": 0.3943, "step": 103380 }, { "epoch": 137.85333333333332, "grad_norm": 0.39453125, "learning_rate": 0.00029652844849995387, "loss": 0.3887, "step": 103390 }, { "epoch": 137.86666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029652777626797583, "loss": 0.3935, "step": 103400 }, { "epoch": 137.88, "grad_norm": 0.412109375, "learning_rate": 0.00029652710397168075, "loss": 0.375, "step": 103410 }, { "epoch": 137.89333333333335, "grad_norm": 0.37890625, "learning_rate": 0.0002965264316110687, "loss": 0.3862, "step": 103420 }, { "epoch": 137.90666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002965257591861401, "loss": 0.3926, "step": 103430 }, { "epoch": 137.92, "grad_norm": 0.3828125, "learning_rate": 0.00029652508669689533, "loss": 0.3942, "step": 103440 }, { "epoch": 137.93333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029652441414333453, "loss": 0.3878, "step": 103450 }, { "epoch": 137.94666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002965237415254581, "loss": 0.3882, "step": 103460 }, { "epoch": 137.96, "grad_norm": 0.3515625, "learning_rate": 0.0002965230688432663, "loss": 0.387, "step": 103470 }, { "epoch": 137.97333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002965223960967594, "loss": 0.4118, "step": 103480 }, { "epoch": 137.98666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002965217232859377, "loss": 0.3851, "step": 103490 }, { "epoch": 138.0, "grad_norm": 0.35546875, "learning_rate": 0.0002965210504108015, "loss": 0.3807, "step": 103500 }, { "epoch": 138.0, "eval_loss": 0.4272652268409729, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9025, "eval_samples_per_second": 1.616, "eval_steps_per_second": 0.101, "step": 103500 }, { "epoch": 138.01333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029652037747135115, "loss": 0.399, "step": 103510 }, { "epoch": 138.02666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002965197044675869, "loss": 0.4126, "step": 103520 }, { "epoch": 138.04, "grad_norm": 0.35546875, "learning_rate": 0.000296519031399509, "loss": 0.4245, "step": 103530 }, { "epoch": 138.05333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029651835826711786, "loss": 0.4102, "step": 103540 }, { "epoch": 138.06666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002965176850704137, "loss": 0.3974, "step": 103550 }, { "epoch": 138.08, "grad_norm": 0.4453125, "learning_rate": 0.0002965170118093967, "loss": 0.4008, "step": 103560 }, { "epoch": 138.09333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002965163384840674, "loss": 0.4018, "step": 103570 }, { "epoch": 138.10666666666665, "grad_norm": 0.34765625, "learning_rate": 0.00029651566509442595, "loss": 0.3907, "step": 103580 }, { "epoch": 138.12, "grad_norm": 0.39453125, "learning_rate": 0.0002965149916404727, "loss": 0.3947, "step": 103590 }, { "epoch": 138.13333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002965143181222079, "loss": 0.3863, "step": 103600 }, { "epoch": 138.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029651364453963183, "loss": 0.4047, "step": 103610 }, { "epoch": 138.16, "grad_norm": 0.361328125, "learning_rate": 0.0002965129708927448, "loss": 0.3983, "step": 103620 }, { "epoch": 138.17333333333335, "grad_norm": 0.392578125, "learning_rate": 0.00029651229718154714, "loss": 0.3937, "step": 103630 }, { "epoch": 138.18666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029651162340603915, "loss": 0.3916, "step": 103640 }, { "epoch": 138.2, "grad_norm": 0.412109375, "learning_rate": 0.0002965109495662211, "loss": 0.3852, "step": 103650 }, { "epoch": 138.21333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002965102756620933, "loss": 0.3856, "step": 103660 }, { "epoch": 138.22666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029650960169365603, "loss": 0.3974, "step": 103670 }, { "epoch": 138.24, "grad_norm": 0.41796875, "learning_rate": 0.0002965089276609096, "loss": 0.3824, "step": 103680 }, { "epoch": 138.25333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002965082535638543, "loss": 0.3844, "step": 103690 }, { "epoch": 138.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.0002965075794024904, "loss": 0.3868, "step": 103700 }, { "epoch": 138.28, "grad_norm": 0.373046875, "learning_rate": 0.0002965069051768182, "loss": 0.4167, "step": 103710 }, { "epoch": 138.29333333333332, "grad_norm": 0.357421875, "learning_rate": 0.00029650623088683806, "loss": 0.3723, "step": 103720 }, { "epoch": 138.30666666666667, "grad_norm": 0.375, "learning_rate": 0.00029650555653255015, "loss": 0.3958, "step": 103730 }, { "epoch": 138.32, "grad_norm": 0.3671875, "learning_rate": 0.0002965048821139549, "loss": 0.3989, "step": 103740 }, { "epoch": 138.33333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002965042076310526, "loss": 0.4023, "step": 103750 }, { "epoch": 138.34666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002965035330838435, "loss": 0.3925, "step": 103760 }, { "epoch": 138.36, "grad_norm": 0.447265625, "learning_rate": 0.0002965028584723278, "loss": 0.3927, "step": 103770 }, { "epoch": 138.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.000296502183796506, "loss": 0.3941, "step": 103780 }, { "epoch": 138.38666666666666, "grad_norm": 0.4765625, "learning_rate": 0.0002965015090563782, "loss": 0.3856, "step": 103790 }, { "epoch": 138.4, "grad_norm": 0.42578125, "learning_rate": 0.0002965008342519448, "loss": 0.3937, "step": 103800 }, { "epoch": 138.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002965001593832061, "loss": 0.3986, "step": 103810 }, { "epoch": 138.42666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002964994844501624, "loss": 0.4001, "step": 103820 }, { "epoch": 138.44, "grad_norm": 0.361328125, "learning_rate": 0.000296498809452814, "loss": 0.4098, "step": 103830 }, { "epoch": 138.45333333333335, "grad_norm": 0.4375, "learning_rate": 0.0002964981343911611, "loss": 0.3998, "step": 103840 }, { "epoch": 138.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029649745926520405, "loss": 0.4092, "step": 103850 }, { "epoch": 138.48, "grad_norm": 0.3984375, "learning_rate": 0.00029649678407494325, "loss": 0.3895, "step": 103860 }, { "epoch": 138.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029649610882037886, "loss": 0.4012, "step": 103870 }, { "epoch": 138.50666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002964954335015112, "loss": 0.4, "step": 103880 }, { "epoch": 138.52, "grad_norm": 0.3359375, "learning_rate": 0.0002964947581183406, "loss": 0.3906, "step": 103890 }, { "epoch": 138.53333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029649408267086734, "loss": 0.393, "step": 103900 }, { "epoch": 138.54666666666665, "grad_norm": 0.439453125, "learning_rate": 0.00029649340715909176, "loss": 0.3958, "step": 103910 }, { "epoch": 138.56, "grad_norm": 0.34765625, "learning_rate": 0.0002964927315830141, "loss": 0.389, "step": 103920 }, { "epoch": 138.57333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002964920559426346, "loss": 0.3931, "step": 103930 }, { "epoch": 138.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029649138023795377, "loss": 0.3817, "step": 103940 }, { "epoch": 138.6, "grad_norm": 0.359375, "learning_rate": 0.0002964907044689717, "loss": 0.3826, "step": 103950 }, { "epoch": 138.61333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029649002863568877, "loss": 0.373, "step": 103960 }, { "epoch": 138.62666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029648935273810526, "loss": 0.3792, "step": 103970 }, { "epoch": 138.64, "grad_norm": 0.3828125, "learning_rate": 0.00029648867677622146, "loss": 0.3901, "step": 103980 }, { "epoch": 138.65333333333334, "grad_norm": 0.375, "learning_rate": 0.0002964880007500377, "loss": 0.3994, "step": 103990 }, { "epoch": 138.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029648732465955424, "loss": 0.3867, "step": 104000 }, { "epoch": 138.68, "grad_norm": 0.373046875, "learning_rate": 0.00029648664850477136, "loss": 0.379, "step": 104010 }, { "epoch": 138.69333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029648597228568944, "loss": 0.3881, "step": 104020 }, { "epoch": 138.70666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002964852960023087, "loss": 0.3809, "step": 104030 }, { "epoch": 138.72, "grad_norm": 0.39453125, "learning_rate": 0.00029648461965462944, "loss": 0.4041, "step": 104040 }, { "epoch": 138.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.000296483943242652, "loss": 0.3978, "step": 104050 }, { "epoch": 138.74666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002964832667663767, "loss": 0.4001, "step": 104060 }, { "epoch": 138.76, "grad_norm": 0.376953125, "learning_rate": 0.0002964825902258037, "loss": 0.4125, "step": 104070 }, { "epoch": 138.77333333333334, "grad_norm": 0.423828125, "learning_rate": 0.00029648191362093343, "loss": 0.3992, "step": 104080 }, { "epoch": 138.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002964812369517662, "loss": 0.401, "step": 104090 }, { "epoch": 138.8, "grad_norm": 0.427734375, "learning_rate": 0.0002964805602183022, "loss": 0.3999, "step": 104100 }, { "epoch": 138.81333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029647988342054174, "loss": 0.3727, "step": 104110 }, { "epoch": 138.82666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002964792065584852, "loss": 0.3823, "step": 104120 }, { "epoch": 138.84, "grad_norm": 0.4375, "learning_rate": 0.00029647852963213283, "loss": 0.3946, "step": 104130 }, { "epoch": 138.85333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002964778526414849, "loss": 0.3889, "step": 104140 }, { "epoch": 138.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002964771755865418, "loss": 0.3949, "step": 104150 }, { "epoch": 138.88, "grad_norm": 0.390625, "learning_rate": 0.00029647649846730373, "loss": 0.3747, "step": 104160 }, { "epoch": 138.89333333333335, "grad_norm": 0.384765625, "learning_rate": 0.000296475821283771, "loss": 0.3858, "step": 104170 }, { "epoch": 138.90666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029647514403594396, "loss": 0.3922, "step": 104180 }, { "epoch": 138.92, "grad_norm": 0.439453125, "learning_rate": 0.00029647446672382286, "loss": 0.3956, "step": 104190 }, { "epoch": 138.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.000296473789347408, "loss": 0.3887, "step": 104200 }, { "epoch": 138.94666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029647311190669973, "loss": 0.3894, "step": 104210 }, { "epoch": 138.96, "grad_norm": 0.373046875, "learning_rate": 0.0002964724344016983, "loss": 0.3871, "step": 104220 }, { "epoch": 138.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029647175683240396, "loss": 0.4122, "step": 104230 }, { "epoch": 138.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029647107919881713, "loss": 0.3854, "step": 104240 }, { "epoch": 139.0, "grad_norm": 0.380859375, "learning_rate": 0.0002964704015009381, "loss": 0.3813, "step": 104250 }, { "epoch": 139.0, "eval_loss": 0.425665020942688, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6337, "eval_samples_per_second": 1.661, "eval_steps_per_second": 0.104, "step": 104250 }, { "epoch": 139.01333333333332, "grad_norm": 0.41796875, "learning_rate": 0.000296469723738767, "loss": 0.3987, "step": 104260 }, { "epoch": 139.02666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029646904591230423, "loss": 0.4122, "step": 104270 }, { "epoch": 139.04, "grad_norm": 0.3515625, "learning_rate": 0.0002964683680215501, "loss": 0.424, "step": 104280 }, { "epoch": 139.05333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029646769006650493, "loss": 0.4102, "step": 104290 }, { "epoch": 139.06666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029646701204716905, "loss": 0.3967, "step": 104300 }, { "epoch": 139.08, "grad_norm": 0.40234375, "learning_rate": 0.00029646633396354264, "loss": 0.4009, "step": 104310 }, { "epoch": 139.09333333333333, "grad_norm": 0.4140625, "learning_rate": 0.000296465655815626, "loss": 0.4025, "step": 104320 }, { "epoch": 139.10666666666665, "grad_norm": 0.388671875, "learning_rate": 0.0002964649776034195, "loss": 0.3898, "step": 104330 }, { "epoch": 139.12, "grad_norm": 0.3984375, "learning_rate": 0.0002964642993269235, "loss": 0.3945, "step": 104340 }, { "epoch": 139.13333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002964636209861382, "loss": 0.3858, "step": 104350 }, { "epoch": 139.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029646294258106387, "loss": 0.4046, "step": 104360 }, { "epoch": 139.16, "grad_norm": 0.380859375, "learning_rate": 0.0002964622641117009, "loss": 0.3991, "step": 104370 }, { "epoch": 139.17333333333335, "grad_norm": 0.455078125, "learning_rate": 0.00029646158557804946, "loss": 0.393, "step": 104380 }, { "epoch": 139.18666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029646090698010996, "loss": 0.3923, "step": 104390 }, { "epoch": 139.2, "grad_norm": 0.375, "learning_rate": 0.0002964602283178827, "loss": 0.3848, "step": 104400 }, { "epoch": 139.21333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002964595495913679, "loss": 0.3856, "step": 104410 }, { "epoch": 139.22666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002964588708005659, "loss": 0.3968, "step": 104420 }, { "epoch": 139.24, "grad_norm": 0.390625, "learning_rate": 0.0002964581919454771, "loss": 0.3819, "step": 104430 }, { "epoch": 139.25333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029645751302610155, "loss": 0.3845, "step": 104440 }, { "epoch": 139.26666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002964568340424398, "loss": 0.3869, "step": 104450 }, { "epoch": 139.28, "grad_norm": 0.37109375, "learning_rate": 0.00029645615499449197, "loss": 0.4168, "step": 104460 }, { "epoch": 139.29333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029645547588225845, "loss": 0.3727, "step": 104470 }, { "epoch": 139.30666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029645479670573955, "loss": 0.3958, "step": 104480 }, { "epoch": 139.32, "grad_norm": 0.361328125, "learning_rate": 0.0002964541174649356, "loss": 0.399, "step": 104490 }, { "epoch": 139.33333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029645343815984675, "loss": 0.4007, "step": 104500 }, { "epoch": 139.34666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002964527587904734, "loss": 0.3925, "step": 104510 }, { "epoch": 139.36, "grad_norm": 0.455078125, "learning_rate": 0.0002964520793568158, "loss": 0.3921, "step": 104520 }, { "epoch": 139.37333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002964513998588743, "loss": 0.3937, "step": 104530 }, { "epoch": 139.38666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002964507202966492, "loss": 0.3853, "step": 104540 }, { "epoch": 139.4, "grad_norm": 0.380859375, "learning_rate": 0.0002964500406701408, "loss": 0.3929, "step": 104550 }, { "epoch": 139.41333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002964493609793493, "loss": 0.3974, "step": 104560 }, { "epoch": 139.42666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002964486812242751, "loss": 0.3999, "step": 104570 }, { "epoch": 139.44, "grad_norm": 0.37109375, "learning_rate": 0.00029644800140491854, "loss": 0.4104, "step": 104580 }, { "epoch": 139.45333333333335, "grad_norm": 0.455078125, "learning_rate": 0.0002964473215212798, "loss": 0.4, "step": 104590 }, { "epoch": 139.46666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029644664157335923, "loss": 0.4086, "step": 104600 }, { "epoch": 139.48, "grad_norm": 0.404296875, "learning_rate": 0.0002964459615611571, "loss": 0.3888, "step": 104610 }, { "epoch": 139.49333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002964452814846738, "loss": 0.4012, "step": 104620 }, { "epoch": 139.50666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002964446013439095, "loss": 0.4, "step": 104630 }, { "epoch": 139.52, "grad_norm": 0.341796875, "learning_rate": 0.0002964439211388646, "loss": 0.3903, "step": 104640 }, { "epoch": 139.53333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029644324086953934, "loss": 0.3941, "step": 104650 }, { "epoch": 139.54666666666665, "grad_norm": 0.392578125, "learning_rate": 0.000296442560535934, "loss": 0.3947, "step": 104660 }, { "epoch": 139.56, "grad_norm": 0.361328125, "learning_rate": 0.000296441880138049, "loss": 0.3891, "step": 104670 }, { "epoch": 139.57333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029644119967588454, "loss": 0.3929, "step": 104680 }, { "epoch": 139.58666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002964405191494409, "loss": 0.3817, "step": 104690 }, { "epoch": 139.6, "grad_norm": 0.353515625, "learning_rate": 0.0002964398385587185, "loss": 0.3841, "step": 104700 }, { "epoch": 139.61333333333334, "grad_norm": 0.318359375, "learning_rate": 0.00029643915790371746, "loss": 0.3739, "step": 104710 }, { "epoch": 139.62666666666667, "grad_norm": 0.310546875, "learning_rate": 0.00029643847718443823, "loss": 0.3786, "step": 104720 }, { "epoch": 139.64, "grad_norm": 0.373046875, "learning_rate": 0.00029643779640088104, "loss": 0.3902, "step": 104730 }, { "epoch": 139.65333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029643711555304617, "loss": 0.399, "step": 104740 }, { "epoch": 139.66666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029643643464093394, "loss": 0.3881, "step": 104750 }, { "epoch": 139.68, "grad_norm": 0.369140625, "learning_rate": 0.00029643575366454473, "loss": 0.3793, "step": 104760 }, { "epoch": 139.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002964350726238787, "loss": 0.3893, "step": 104770 }, { "epoch": 139.70666666666668, "grad_norm": 0.435546875, "learning_rate": 0.00029643439151893624, "loss": 0.3811, "step": 104780 }, { "epoch": 139.72, "grad_norm": 0.4453125, "learning_rate": 0.0002964337103497176, "loss": 0.4034, "step": 104790 }, { "epoch": 139.73333333333332, "grad_norm": 0.361328125, "learning_rate": 0.00029643302911622313, "loss": 0.3982, "step": 104800 }, { "epoch": 139.74666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002964323478184531, "loss": 0.4, "step": 104810 }, { "epoch": 139.76, "grad_norm": 0.419921875, "learning_rate": 0.0002964316664564078, "loss": 0.4129, "step": 104820 }, { "epoch": 139.77333333333334, "grad_norm": 0.458984375, "learning_rate": 0.0002964309850300876, "loss": 0.3995, "step": 104830 }, { "epoch": 139.78666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002964303035394926, "loss": 0.4007, "step": 104840 }, { "epoch": 139.8, "grad_norm": 0.3828125, "learning_rate": 0.0002964296219846234, "loss": 0.3991, "step": 104850 }, { "epoch": 139.81333333333333, "grad_norm": 0.474609375, "learning_rate": 0.00029642894036548004, "loss": 0.3727, "step": 104860 }, { "epoch": 139.82666666666665, "grad_norm": 0.39453125, "learning_rate": 0.0002964282586820629, "loss": 0.3822, "step": 104870 }, { "epoch": 139.84, "grad_norm": 0.390625, "learning_rate": 0.0002964275769343724, "loss": 0.3936, "step": 104880 }, { "epoch": 139.85333333333332, "grad_norm": 0.466796875, "learning_rate": 0.0002964268951224087, "loss": 0.3884, "step": 104890 }, { "epoch": 139.86666666666667, "grad_norm": 0.431640625, "learning_rate": 0.00029642621324617205, "loss": 0.3931, "step": 104900 }, { "epoch": 139.88, "grad_norm": 0.408203125, "learning_rate": 0.00029642553130566294, "loss": 0.3743, "step": 104910 }, { "epoch": 139.89333333333335, "grad_norm": 0.427734375, "learning_rate": 0.00029642484930088146, "loss": 0.3864, "step": 104920 }, { "epoch": 139.90666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002964241672318281, "loss": 0.3931, "step": 104930 }, { "epoch": 139.92, "grad_norm": 0.384765625, "learning_rate": 0.00029642348509850307, "loss": 0.3949, "step": 104940 }, { "epoch": 139.93333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029642280290090664, "loss": 0.3887, "step": 104950 }, { "epoch": 139.94666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029642212063903914, "loss": 0.3899, "step": 104960 }, { "epoch": 139.96, "grad_norm": 0.361328125, "learning_rate": 0.0002964214383129009, "loss": 0.3873, "step": 104970 }, { "epoch": 139.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002964207559224922, "loss": 0.4123, "step": 104980 }, { "epoch": 139.98666666666668, "grad_norm": 0.396484375, "learning_rate": 0.00029642007346781325, "loss": 0.385, "step": 104990 }, { "epoch": 140.0, "grad_norm": 0.376953125, "learning_rate": 0.00029641939094886445, "loss": 0.3803, "step": 105000 }, { "epoch": 140.0, "eval_loss": 0.42750272154808044, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1238, "eval_samples_per_second": 1.58, "eval_steps_per_second": 0.099, "step": 105000 }, { "epoch": 140.01333333333332, "grad_norm": 0.42578125, "learning_rate": 0.00029641870836564615, "loss": 0.3979, "step": 105010 }, { "epoch": 140.02666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002964180257181585, "loss": 0.4121, "step": 105020 }, { "epoch": 140.04, "grad_norm": 0.376953125, "learning_rate": 0.0002964173430064019, "loss": 0.4235, "step": 105030 }, { "epoch": 140.05333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002964166602303767, "loss": 0.4095, "step": 105040 }, { "epoch": 140.06666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029641597739008305, "loss": 0.3968, "step": 105050 }, { "epoch": 140.08, "grad_norm": 0.427734375, "learning_rate": 0.0002964152944855213, "loss": 0.4007, "step": 105060 }, { "epoch": 140.09333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002964146115166919, "loss": 0.4025, "step": 105070 }, { "epoch": 140.10666666666665, "grad_norm": 0.365234375, "learning_rate": 0.00029641392848359495, "loss": 0.3897, "step": 105080 }, { "epoch": 140.12, "grad_norm": 0.435546875, "learning_rate": 0.0002964132453862308, "loss": 0.3949, "step": 105090 }, { "epoch": 140.13333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002964125622245998, "loss": 0.3855, "step": 105100 }, { "epoch": 140.14666666666668, "grad_norm": 0.439453125, "learning_rate": 0.0002964118789987022, "loss": 0.405, "step": 105110 }, { "epoch": 140.16, "grad_norm": 0.35546875, "learning_rate": 0.0002964111957085384, "loss": 0.3987, "step": 105120 }, { "epoch": 140.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.00029641051235410856, "loss": 0.3932, "step": 105130 }, { "epoch": 140.18666666666667, "grad_norm": 0.427734375, "learning_rate": 0.00029640982893541307, "loss": 0.3919, "step": 105140 }, { "epoch": 140.2, "grad_norm": 0.4140625, "learning_rate": 0.0002964091454524522, "loss": 0.3842, "step": 105150 }, { "epoch": 140.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029640846190522627, "loss": 0.385, "step": 105160 }, { "epoch": 140.22666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029640777829373555, "loss": 0.3969, "step": 105170 }, { "epoch": 140.24, "grad_norm": 0.404296875, "learning_rate": 0.0002964070946179804, "loss": 0.3816, "step": 105180 }, { "epoch": 140.25333333333333, "grad_norm": 0.416015625, "learning_rate": 0.000296406410877961, "loss": 0.3843, "step": 105190 }, { "epoch": 140.26666666666668, "grad_norm": 0.396484375, "learning_rate": 0.0002964057270736778, "loss": 0.3861, "step": 105200 }, { "epoch": 140.28, "grad_norm": 0.400390625, "learning_rate": 0.00029640504320513095, "loss": 0.4163, "step": 105210 }, { "epoch": 140.29333333333332, "grad_norm": 0.376953125, "learning_rate": 0.0002964043592723209, "loss": 0.3718, "step": 105220 }, { "epoch": 140.30666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002964036752752478, "loss": 0.3964, "step": 105230 }, { "epoch": 140.32, "grad_norm": 0.361328125, "learning_rate": 0.00029640299121391214, "loss": 0.3986, "step": 105240 }, { "epoch": 140.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.000296402307088314, "loss": 0.4015, "step": 105250 }, { "epoch": 140.34666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029640162289845386, "loss": 0.3915, "step": 105260 }, { "epoch": 140.36, "grad_norm": 0.45703125, "learning_rate": 0.0002964009386443319, "loss": 0.3918, "step": 105270 }, { "epoch": 140.37333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002964002543259485, "loss": 0.3936, "step": 105280 }, { "epoch": 140.38666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002963995699433039, "loss": 0.3853, "step": 105290 }, { "epoch": 140.4, "grad_norm": 0.375, "learning_rate": 0.00029639888549639845, "loss": 0.3927, "step": 105300 }, { "epoch": 140.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029639820098523243, "loss": 0.3974, "step": 105310 }, { "epoch": 140.42666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029639751640980614, "loss": 0.3988, "step": 105320 }, { "epoch": 140.44, "grad_norm": 0.375, "learning_rate": 0.00029639683177011983, "loss": 0.411, "step": 105330 }, { "epoch": 140.45333333333335, "grad_norm": 0.453125, "learning_rate": 0.0002963961470661739, "loss": 0.3995, "step": 105340 }, { "epoch": 140.46666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029639546229796865, "loss": 0.4086, "step": 105350 }, { "epoch": 140.48, "grad_norm": 0.384765625, "learning_rate": 0.00029639477746550426, "loss": 0.3888, "step": 105360 }, { "epoch": 140.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002963940925687811, "loss": 0.402, "step": 105370 }, { "epoch": 140.50666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002963934076077995, "loss": 0.3994, "step": 105380 }, { "epoch": 140.52, "grad_norm": 0.333984375, "learning_rate": 0.00029639272258255974, "loss": 0.3896, "step": 105390 }, { "epoch": 140.53333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002963920374930621, "loss": 0.3929, "step": 105400 }, { "epoch": 140.54666666666665, "grad_norm": 0.423828125, "learning_rate": 0.0002963913523393069, "loss": 0.3946, "step": 105410 }, { "epoch": 140.56, "grad_norm": 0.33984375, "learning_rate": 0.00029639066712129446, "loss": 0.3889, "step": 105420 }, { "epoch": 140.57333333333332, "grad_norm": 0.376953125, "learning_rate": 0.000296389981839025, "loss": 0.3919, "step": 105430 }, { "epoch": 140.58666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029638929649249894, "loss": 0.3812, "step": 105440 }, { "epoch": 140.6, "grad_norm": 0.357421875, "learning_rate": 0.0002963886110817165, "loss": 0.3832, "step": 105450 }, { "epoch": 140.61333333333334, "grad_norm": 0.33203125, "learning_rate": 0.000296387925606678, "loss": 0.3727, "step": 105460 }, { "epoch": 140.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029638724006738373, "loss": 0.3797, "step": 105470 }, { "epoch": 140.64, "grad_norm": 0.4140625, "learning_rate": 0.000296386554463834, "loss": 0.3907, "step": 105480 }, { "epoch": 140.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029638586879602907, "loss": 0.4001, "step": 105490 }, { "epoch": 140.66666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029638518306396934, "loss": 0.3875, "step": 105500 }, { "epoch": 140.68, "grad_norm": 0.431640625, "learning_rate": 0.00029638449726765507, "loss": 0.3794, "step": 105510 }, { "epoch": 140.69333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029638381140708654, "loss": 0.3894, "step": 105520 }, { "epoch": 140.70666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029638312548226395, "loss": 0.3817, "step": 105530 }, { "epoch": 140.72, "grad_norm": 0.37890625, "learning_rate": 0.0002963824394931878, "loss": 0.4026, "step": 105540 }, { "epoch": 140.73333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0002963817534398583, "loss": 0.3966, "step": 105550 }, { "epoch": 140.74666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029638106732227576, "loss": 0.4005, "step": 105560 }, { "epoch": 140.76, "grad_norm": 0.435546875, "learning_rate": 0.00029638038114044045, "loss": 0.4131, "step": 105570 }, { "epoch": 140.77333333333334, "grad_norm": 0.435546875, "learning_rate": 0.0002963796948943527, "loss": 0.4001, "step": 105580 }, { "epoch": 140.78666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002963790085840128, "loss": 0.4006, "step": 105590 }, { "epoch": 140.8, "grad_norm": 0.4296875, "learning_rate": 0.00029637832220942106, "loss": 0.3983, "step": 105600 }, { "epoch": 140.81333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029637763577057774, "loss": 0.3722, "step": 105610 }, { "epoch": 140.82666666666665, "grad_norm": 0.451171875, "learning_rate": 0.0002963769492674832, "loss": 0.3822, "step": 105620 }, { "epoch": 140.84, "grad_norm": 0.408203125, "learning_rate": 0.00029637626270013774, "loss": 0.3933, "step": 105630 }, { "epoch": 140.85333333333332, "grad_norm": 0.375, "learning_rate": 0.0002963755760685416, "loss": 0.3894, "step": 105640 }, { "epoch": 140.86666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029637488937269514, "loss": 0.3936, "step": 105650 }, { "epoch": 140.88, "grad_norm": 0.3671875, "learning_rate": 0.00029637420261259865, "loss": 0.3736, "step": 105660 }, { "epoch": 140.89333333333335, "grad_norm": 0.34765625, "learning_rate": 0.0002963735157882524, "loss": 0.3859, "step": 105670 }, { "epoch": 140.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029637282889965675, "loss": 0.3918, "step": 105680 }, { "epoch": 140.92, "grad_norm": 0.380859375, "learning_rate": 0.000296372141946812, "loss": 0.3942, "step": 105690 }, { "epoch": 140.93333333333334, "grad_norm": 0.4375, "learning_rate": 0.0002963714549297183, "loss": 0.3875, "step": 105700 }, { "epoch": 140.94666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029637076784837615, "loss": 0.3886, "step": 105710 }, { "epoch": 140.96, "grad_norm": 0.333984375, "learning_rate": 0.00029637008070278577, "loss": 0.3871, "step": 105720 }, { "epoch": 140.97333333333333, "grad_norm": 0.486328125, "learning_rate": 0.0002963693934929475, "loss": 0.4128, "step": 105730 }, { "epoch": 140.98666666666668, "grad_norm": 0.443359375, "learning_rate": 0.00029636870621886147, "loss": 0.3854, "step": 105740 }, { "epoch": 141.0, "grad_norm": 0.41015625, "learning_rate": 0.00029636801888052825, "loss": 0.3807, "step": 105750 }, { "epoch": 141.0, "eval_loss": 0.4278220534324646, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6231, "eval_samples_per_second": 1.663, "eval_steps_per_second": 0.104, "step": 105750 }, { "epoch": 141.01333333333332, "grad_norm": 0.39453125, "learning_rate": 0.00029636733147794797, "loss": 0.3982, "step": 105760 }, { "epoch": 141.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029636664401112096, "loss": 0.4125, "step": 105770 }, { "epoch": 141.04, "grad_norm": 0.3671875, "learning_rate": 0.0002963659564800475, "loss": 0.4235, "step": 105780 }, { "epoch": 141.05333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029636526888472795, "loss": 0.4102, "step": 105790 }, { "epoch": 141.06666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029636458122516264, "loss": 0.3967, "step": 105800 }, { "epoch": 141.08, "grad_norm": 0.376953125, "learning_rate": 0.00029636389350135175, "loss": 0.402, "step": 105810 }, { "epoch": 141.09333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029636320571329564, "loss": 0.4025, "step": 105820 }, { "epoch": 141.10666666666665, "grad_norm": 0.400390625, "learning_rate": 0.0002963625178609947, "loss": 0.3903, "step": 105830 }, { "epoch": 141.12, "grad_norm": 0.3671875, "learning_rate": 0.0002963618299444491, "loss": 0.3948, "step": 105840 }, { "epoch": 141.13333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029636114196365923, "loss": 0.3867, "step": 105850 }, { "epoch": 141.14666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002963604539186253, "loss": 0.4045, "step": 105860 }, { "epoch": 141.16, "grad_norm": 0.359375, "learning_rate": 0.0002963597658093477, "loss": 0.3987, "step": 105870 }, { "epoch": 141.17333333333335, "grad_norm": 0.41796875, "learning_rate": 0.0002963590776358267, "loss": 0.3936, "step": 105880 }, { "epoch": 141.18666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002963583893980626, "loss": 0.3907, "step": 105890 }, { "epoch": 141.2, "grad_norm": 0.421875, "learning_rate": 0.0002963577010960557, "loss": 0.3839, "step": 105900 }, { "epoch": 141.21333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029635701272980627, "loss": 0.3854, "step": 105910 }, { "epoch": 141.22666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029635632429931473, "loss": 0.396, "step": 105920 }, { "epoch": 141.24, "grad_norm": 0.376953125, "learning_rate": 0.0002963556358045813, "loss": 0.3811, "step": 105930 }, { "epoch": 141.25333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002963549472456062, "loss": 0.3832, "step": 105940 }, { "epoch": 141.26666666666668, "grad_norm": 0.390625, "learning_rate": 0.00029635425862238986, "loss": 0.3865, "step": 105950 }, { "epoch": 141.28, "grad_norm": 0.365234375, "learning_rate": 0.00029635356993493254, "loss": 0.4157, "step": 105960 }, { "epoch": 141.29333333333332, "grad_norm": 0.3984375, "learning_rate": 0.00029635288118323456, "loss": 0.3726, "step": 105970 }, { "epoch": 141.30666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029635219236729614, "loss": 0.3969, "step": 105980 }, { "epoch": 141.32, "grad_norm": 0.353515625, "learning_rate": 0.0002963515034871177, "loss": 0.3982, "step": 105990 }, { "epoch": 141.33333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002963508145426995, "loss": 0.4015, "step": 106000 }, { "epoch": 141.34666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002963501255340418, "loss": 0.3911, "step": 106010 }, { "epoch": 141.36, "grad_norm": 0.453125, "learning_rate": 0.00029634943646114495, "loss": 0.392, "step": 106020 }, { "epoch": 141.37333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029634874732400925, "loss": 0.3934, "step": 106030 }, { "epoch": 141.38666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029634805812263495, "loss": 0.3852, "step": 106040 }, { "epoch": 141.4, "grad_norm": 0.35546875, "learning_rate": 0.0002963473688570224, "loss": 0.3929, "step": 106050 }, { "epoch": 141.41333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002963466795271719, "loss": 0.398, "step": 106060 }, { "epoch": 141.42666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029634599013308375, "loss": 0.399, "step": 106070 }, { "epoch": 141.44, "grad_norm": 0.38671875, "learning_rate": 0.0002963453006747582, "loss": 0.4104, "step": 106080 }, { "epoch": 141.45333333333335, "grad_norm": 0.462890625, "learning_rate": 0.00029634461115219567, "loss": 0.3985, "step": 106090 }, { "epoch": 141.46666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029634392156539633, "loss": 0.4087, "step": 106100 }, { "epoch": 141.48, "grad_norm": 0.3984375, "learning_rate": 0.00029634323191436056, "loss": 0.3896, "step": 106110 }, { "epoch": 141.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002963425421990887, "loss": 0.4021, "step": 106120 }, { "epoch": 141.50666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002963418524195809, "loss": 0.3995, "step": 106130 }, { "epoch": 141.52, "grad_norm": 0.345703125, "learning_rate": 0.00029634116257583765, "loss": 0.3903, "step": 106140 }, { "epoch": 141.53333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029634047266785914, "loss": 0.3934, "step": 106150 }, { "epoch": 141.54666666666665, "grad_norm": 0.404296875, "learning_rate": 0.0002963397826956457, "loss": 0.3945, "step": 106160 }, { "epoch": 141.56, "grad_norm": 0.341796875, "learning_rate": 0.0002963390926591977, "loss": 0.3884, "step": 106170 }, { "epoch": 141.57333333333332, "grad_norm": 0.37890625, "learning_rate": 0.00029633840255851527, "loss": 0.3923, "step": 106180 }, { "epoch": 141.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029633771239359884, "loss": 0.3812, "step": 106190 }, { "epoch": 141.6, "grad_norm": 0.369140625, "learning_rate": 0.00029633702216444875, "loss": 0.3838, "step": 106200 }, { "epoch": 141.61333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002963363318710652, "loss": 0.3729, "step": 106210 }, { "epoch": 141.62666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029633564151344854, "loss": 0.3784, "step": 106220 }, { "epoch": 141.64, "grad_norm": 0.41015625, "learning_rate": 0.00029633495109159907, "loss": 0.3908, "step": 106230 }, { "epoch": 141.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002963342606055171, "loss": 0.3999, "step": 106240 }, { "epoch": 141.66666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0002963335700552029, "loss": 0.3864, "step": 106250 }, { "epoch": 141.68, "grad_norm": 0.361328125, "learning_rate": 0.0002963328794406568, "loss": 0.3792, "step": 106260 }, { "epoch": 141.69333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002963321887618792, "loss": 0.388, "step": 106270 }, { "epoch": 141.70666666666668, "grad_norm": 0.427734375, "learning_rate": 0.0002963314980188702, "loss": 0.382, "step": 106280 }, { "epoch": 141.72, "grad_norm": 0.404296875, "learning_rate": 0.00029633080721163025, "loss": 0.4028, "step": 106290 }, { "epoch": 141.73333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002963301163401596, "loss": 0.3974, "step": 106300 }, { "epoch": 141.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002963294254044586, "loss": 0.3996, "step": 106310 }, { "epoch": 141.76, "grad_norm": 0.40234375, "learning_rate": 0.0002963287344045274, "loss": 0.4135, "step": 106320 }, { "epoch": 141.77333333333334, "grad_norm": 0.48046875, "learning_rate": 0.0002963280433403665, "loss": 0.399, "step": 106330 }, { "epoch": 141.78666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002963273522119762, "loss": 0.4011, "step": 106340 }, { "epoch": 141.8, "grad_norm": 0.41015625, "learning_rate": 0.0002963266610193566, "loss": 0.3985, "step": 106350 }, { "epoch": 141.81333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029632596976250826, "loss": 0.3723, "step": 106360 }, { "epoch": 141.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029632527844143127, "loss": 0.3823, "step": 106370 }, { "epoch": 141.84, "grad_norm": 0.466796875, "learning_rate": 0.00029632458705612603, "loss": 0.393, "step": 106380 }, { "epoch": 141.85333333333332, "grad_norm": 0.39453125, "learning_rate": 0.0002963238956065928, "loss": 0.3891, "step": 106390 }, { "epoch": 141.86666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029632320409283196, "loss": 0.3938, "step": 106400 }, { "epoch": 141.88, "grad_norm": 0.396484375, "learning_rate": 0.0002963225125148438, "loss": 0.3744, "step": 106410 }, { "epoch": 141.89333333333335, "grad_norm": 0.369140625, "learning_rate": 0.00029632182087262855, "loss": 0.3858, "step": 106420 }, { "epoch": 141.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002963211291661866, "loss": 0.3921, "step": 106430 }, { "epoch": 141.92, "grad_norm": 0.41015625, "learning_rate": 0.0002963204373955181, "loss": 0.3949, "step": 106440 }, { "epoch": 141.93333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029631974556062357, "loss": 0.3886, "step": 106450 }, { "epoch": 141.94666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029631905366150316, "loss": 0.3892, "step": 106460 }, { "epoch": 141.96, "grad_norm": 0.3203125, "learning_rate": 0.00029631836169815727, "loss": 0.3868, "step": 106470 }, { "epoch": 141.97333333333333, "grad_norm": 0.482421875, "learning_rate": 0.0002963176696705861, "loss": 0.4117, "step": 106480 }, { "epoch": 141.98666666666668, "grad_norm": 0.396484375, "learning_rate": 0.00029631697757879, "loss": 0.3858, "step": 106490 }, { "epoch": 142.0, "grad_norm": 0.373046875, "learning_rate": 0.0002963162854227694, "loss": 0.381, "step": 106500 }, { "epoch": 142.0, "eval_loss": 0.42625483870506287, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1387, "eval_samples_per_second": 1.578, "eval_steps_per_second": 0.099, "step": 106500 }, { "epoch": 142.01333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029631559320252433, "loss": 0.3988, "step": 106510 }, { "epoch": 142.02666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002963149009180554, "loss": 0.4115, "step": 106520 }, { "epoch": 142.04, "grad_norm": 0.34375, "learning_rate": 0.0002963142085693626, "loss": 0.4245, "step": 106530 }, { "epoch": 142.05333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002963135161564465, "loss": 0.4095, "step": 106540 }, { "epoch": 142.06666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002963128236793073, "loss": 0.3969, "step": 106550 }, { "epoch": 142.08, "grad_norm": 0.400390625, "learning_rate": 0.0002963121311379453, "loss": 0.3998, "step": 106560 }, { "epoch": 142.09333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029631143853236076, "loss": 0.402, "step": 106570 }, { "epoch": 142.10666666666665, "grad_norm": 0.361328125, "learning_rate": 0.0002963107458625541, "loss": 0.3912, "step": 106580 }, { "epoch": 142.12, "grad_norm": 0.419921875, "learning_rate": 0.0002963100531285255, "loss": 0.3944, "step": 106590 }, { "epoch": 142.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002963093603302754, "loss": 0.3858, "step": 106600 }, { "epoch": 142.14666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002963086674678039, "loss": 0.4047, "step": 106610 }, { "epoch": 142.16, "grad_norm": 0.353515625, "learning_rate": 0.0002963079745411116, "loss": 0.3984, "step": 106620 }, { "epoch": 142.17333333333335, "grad_norm": 0.396484375, "learning_rate": 0.0002963072815501985, "loss": 0.3936, "step": 106630 }, { "epoch": 142.18666666666667, "grad_norm": 0.435546875, "learning_rate": 0.0002963065884950651, "loss": 0.3923, "step": 106640 }, { "epoch": 142.2, "grad_norm": 0.349609375, "learning_rate": 0.0002963058953757116, "loss": 0.3841, "step": 106650 }, { "epoch": 142.21333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002963052021921384, "loss": 0.3842, "step": 106660 }, { "epoch": 142.22666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029630450894434565, "loss": 0.3969, "step": 106670 }, { "epoch": 142.24, "grad_norm": 0.388671875, "learning_rate": 0.00029630381563233385, "loss": 0.381, "step": 106680 }, { "epoch": 142.25333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029630312225610323, "loss": 0.3848, "step": 106690 }, { "epoch": 142.26666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029630242881565396, "loss": 0.3862, "step": 106700 }, { "epoch": 142.28, "grad_norm": 0.369140625, "learning_rate": 0.00029630173531098653, "loss": 0.4157, "step": 106710 }, { "epoch": 142.29333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002963010417421012, "loss": 0.3721, "step": 106720 }, { "epoch": 142.30666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002963003481089982, "loss": 0.3959, "step": 106730 }, { "epoch": 142.32, "grad_norm": 0.41796875, "learning_rate": 0.000296299654411678, "loss": 0.3984, "step": 106740 }, { "epoch": 142.33333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002962989606501406, "loss": 0.4014, "step": 106750 }, { "epoch": 142.34666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002962982668243866, "loss": 0.3915, "step": 106760 }, { "epoch": 142.36, "grad_norm": 0.48046875, "learning_rate": 0.00029629757293441616, "loss": 0.3919, "step": 106770 }, { "epoch": 142.37333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002962968789802297, "loss": 0.393, "step": 106780 }, { "epoch": 142.38666666666666, "grad_norm": 0.474609375, "learning_rate": 0.00029629618496182736, "loss": 0.3845, "step": 106790 }, { "epoch": 142.4, "grad_norm": 0.412109375, "learning_rate": 0.0002962954908792095, "loss": 0.3928, "step": 106800 }, { "epoch": 142.41333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029629479673237653, "loss": 0.398, "step": 106810 }, { "epoch": 142.42666666666668, "grad_norm": 0.349609375, "learning_rate": 0.0002962941025213286, "loss": 0.3992, "step": 106820 }, { "epoch": 142.44, "grad_norm": 0.376953125, "learning_rate": 0.0002962934082460662, "loss": 0.4103, "step": 106830 }, { "epoch": 142.45333333333335, "grad_norm": 0.423828125, "learning_rate": 0.0002962927139065894, "loss": 0.3992, "step": 106840 }, { "epoch": 142.46666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002962920195028988, "loss": 0.4074, "step": 106850 }, { "epoch": 142.48, "grad_norm": 0.39453125, "learning_rate": 0.00029629132503499443, "loss": 0.3898, "step": 106860 }, { "epoch": 142.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002962906305028767, "loss": 0.402, "step": 106870 }, { "epoch": 142.50666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029628993590654593, "loss": 0.3994, "step": 106880 }, { "epoch": 142.52, "grad_norm": 0.369140625, "learning_rate": 0.00029628924124600243, "loss": 0.3903, "step": 106890 }, { "epoch": 142.53333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002962885465212464, "loss": 0.3927, "step": 106900 }, { "epoch": 142.54666666666665, "grad_norm": 0.3984375, "learning_rate": 0.00029628785173227835, "loss": 0.3948, "step": 106910 }, { "epoch": 142.56, "grad_norm": 0.39453125, "learning_rate": 0.0002962871568790984, "loss": 0.3884, "step": 106920 }, { "epoch": 142.57333333333332, "grad_norm": 0.4296875, "learning_rate": 0.000296286461961707, "loss": 0.3923, "step": 106930 }, { "epoch": 142.58666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0002962857669801043, "loss": 0.3814, "step": 106940 }, { "epoch": 142.6, "grad_norm": 0.359375, "learning_rate": 0.0002962850719342907, "loss": 0.383, "step": 106950 }, { "epoch": 142.61333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029628437682426646, "loss": 0.3735, "step": 106960 }, { "epoch": 142.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029628368165003193, "loss": 0.378, "step": 106970 }, { "epoch": 142.64, "grad_norm": 0.365234375, "learning_rate": 0.00029628298641158743, "loss": 0.3909, "step": 106980 }, { "epoch": 142.65333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002962822911089332, "loss": 0.4003, "step": 106990 }, { "epoch": 142.66666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002962815957420696, "loss": 0.3869, "step": 107000 }, { "epoch": 142.68, "grad_norm": 0.349609375, "learning_rate": 0.00029628090031099687, "loss": 0.3792, "step": 107010 }, { "epoch": 142.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029628020481571544, "loss": 0.3883, "step": 107020 }, { "epoch": 142.70666666666668, "grad_norm": 0.44140625, "learning_rate": 0.00029627950925622545, "loss": 0.3809, "step": 107030 }, { "epoch": 142.72, "grad_norm": 0.36328125, "learning_rate": 0.0002962788136325273, "loss": 0.4038, "step": 107040 }, { "epoch": 142.73333333333332, "grad_norm": 0.44921875, "learning_rate": 0.0002962781179446213, "loss": 0.3975, "step": 107050 }, { "epoch": 142.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.0002962774221925078, "loss": 0.3995, "step": 107060 }, { "epoch": 142.76, "grad_norm": 0.43359375, "learning_rate": 0.00029627672637618695, "loss": 0.4131, "step": 107070 }, { "epoch": 142.77333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002962760304956592, "loss": 0.4, "step": 107080 }, { "epoch": 142.78666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002962753345509248, "loss": 0.4004, "step": 107090 }, { "epoch": 142.8, "grad_norm": 0.40234375, "learning_rate": 0.00029627463854198406, "loss": 0.3986, "step": 107100 }, { "epoch": 142.81333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002962739424688373, "loss": 0.3718, "step": 107110 }, { "epoch": 142.82666666666665, "grad_norm": 0.474609375, "learning_rate": 0.00029627324633148483, "loss": 0.3821, "step": 107120 }, { "epoch": 142.84, "grad_norm": 0.412109375, "learning_rate": 0.0002962725501299269, "loss": 0.3934, "step": 107130 }, { "epoch": 142.85333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029627185386416386, "loss": 0.3884, "step": 107140 }, { "epoch": 142.86666666666667, "grad_norm": 0.42578125, "learning_rate": 0.000296271157534196, "loss": 0.3946, "step": 107150 }, { "epoch": 142.88, "grad_norm": 0.375, "learning_rate": 0.00029627046114002364, "loss": 0.3744, "step": 107160 }, { "epoch": 142.89333333333335, "grad_norm": 0.408203125, "learning_rate": 0.00029626976468164704, "loss": 0.3862, "step": 107170 }, { "epoch": 142.90666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029626906815906665, "loss": 0.3928, "step": 107180 }, { "epoch": 142.92, "grad_norm": 0.412109375, "learning_rate": 0.0002962683715722826, "loss": 0.3939, "step": 107190 }, { "epoch": 142.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.00029626767492129524, "loss": 0.3886, "step": 107200 }, { "epoch": 142.94666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029626697820610493, "loss": 0.3896, "step": 107210 }, { "epoch": 142.96, "grad_norm": 0.318359375, "learning_rate": 0.000296266281426712, "loss": 0.3871, "step": 107220 }, { "epoch": 142.97333333333333, "grad_norm": 0.5234375, "learning_rate": 0.00029626558458311665, "loss": 0.4129, "step": 107230 }, { "epoch": 142.98666666666668, "grad_norm": 0.43359375, "learning_rate": 0.0002962648876753193, "loss": 0.3853, "step": 107240 }, { "epoch": 143.0, "grad_norm": 0.38671875, "learning_rate": 0.00029626419070332013, "loss": 0.3804, "step": 107250 }, { "epoch": 143.0, "eval_loss": 0.42505913972854614, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.3475, "eval_samples_per_second": 1.712, "eval_steps_per_second": 0.107, "step": 107250 }, { "epoch": 143.01333333333332, "grad_norm": 0.435546875, "learning_rate": 0.0002962634936671195, "loss": 0.398, "step": 107260 }, { "epoch": 143.02666666666667, "grad_norm": 0.341796875, "learning_rate": 0.0002962627965667178, "loss": 0.4111, "step": 107270 }, { "epoch": 143.04, "grad_norm": 0.380859375, "learning_rate": 0.0002962620994021152, "loss": 0.4241, "step": 107280 }, { "epoch": 143.05333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002962614021733121, "loss": 0.4099, "step": 107290 }, { "epoch": 143.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002962607048803088, "loss": 0.3965, "step": 107300 }, { "epoch": 143.08, "grad_norm": 0.4296875, "learning_rate": 0.0002962600075231056, "loss": 0.4006, "step": 107310 }, { "epoch": 143.09333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002962593101017027, "loss": 0.4011, "step": 107320 }, { "epoch": 143.10666666666665, "grad_norm": 0.400390625, "learning_rate": 0.00029625861261610057, "loss": 0.3896, "step": 107330 }, { "epoch": 143.12, "grad_norm": 0.34765625, "learning_rate": 0.00029625791506629945, "loss": 0.3948, "step": 107340 }, { "epoch": 143.13333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029625721745229957, "loss": 0.3858, "step": 107350 }, { "epoch": 143.14666666666668, "grad_norm": 0.375, "learning_rate": 0.0002962565197741013, "loss": 0.4046, "step": 107360 }, { "epoch": 143.16, "grad_norm": 0.375, "learning_rate": 0.000296255822031705, "loss": 0.3982, "step": 107370 }, { "epoch": 143.17333333333335, "grad_norm": 0.4375, "learning_rate": 0.0002962551242251109, "loss": 0.3928, "step": 107380 }, { "epoch": 143.18666666666667, "grad_norm": 0.462890625, "learning_rate": 0.0002962544263543194, "loss": 0.392, "step": 107390 }, { "epoch": 143.2, "grad_norm": 0.431640625, "learning_rate": 0.00029625372841933067, "loss": 0.3833, "step": 107400 }, { "epoch": 143.21333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002962530304201451, "loss": 0.3846, "step": 107410 }, { "epoch": 143.22666666666666, "grad_norm": 0.41796875, "learning_rate": 0.000296252332356763, "loss": 0.397, "step": 107420 }, { "epoch": 143.24, "grad_norm": 0.4765625, "learning_rate": 0.0002962516342291846, "loss": 0.3812, "step": 107430 }, { "epoch": 143.25333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029625093603741036, "loss": 0.3839, "step": 107440 }, { "epoch": 143.26666666666668, "grad_norm": 0.375, "learning_rate": 0.0002962502377814404, "loss": 0.3858, "step": 107450 }, { "epoch": 143.28, "grad_norm": 0.396484375, "learning_rate": 0.0002962495394612752, "loss": 0.4158, "step": 107460 }, { "epoch": 143.29333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002962488410769149, "loss": 0.3725, "step": 107470 }, { "epoch": 143.30666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029624814262835996, "loss": 0.3956, "step": 107480 }, { "epoch": 143.32, "grad_norm": 0.3984375, "learning_rate": 0.0002962474441156106, "loss": 0.3989, "step": 107490 }, { "epoch": 143.33333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002962467455386671, "loss": 0.4017, "step": 107500 }, { "epoch": 143.34666666666666, "grad_norm": 0.474609375, "learning_rate": 0.0002962460468975298, "loss": 0.3921, "step": 107510 }, { "epoch": 143.36, "grad_norm": 0.470703125, "learning_rate": 0.0002962453481921991, "loss": 0.3915, "step": 107520 }, { "epoch": 143.37333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002962446494226752, "loss": 0.3941, "step": 107530 }, { "epoch": 143.38666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029624395058895837, "loss": 0.3857, "step": 107540 }, { "epoch": 143.4, "grad_norm": 0.384765625, "learning_rate": 0.000296243251691049, "loss": 0.393, "step": 107550 }, { "epoch": 143.41333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002962425527289474, "loss": 0.3976, "step": 107560 }, { "epoch": 143.42666666666668, "grad_norm": 0.376953125, "learning_rate": 0.00029624185370265386, "loss": 0.3992, "step": 107570 }, { "epoch": 143.44, "grad_norm": 0.404296875, "learning_rate": 0.00029624115461216865, "loss": 0.4106, "step": 107580 }, { "epoch": 143.45333333333335, "grad_norm": 0.484375, "learning_rate": 0.0002962404554574921, "loss": 0.3991, "step": 107590 }, { "epoch": 143.46666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002962397562386245, "loss": 0.4077, "step": 107600 }, { "epoch": 143.48, "grad_norm": 0.369140625, "learning_rate": 0.00029623905695556625, "loss": 0.3902, "step": 107610 }, { "epoch": 143.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002962383576083175, "loss": 0.4017, "step": 107620 }, { "epoch": 143.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029623765819687876, "loss": 0.4, "step": 107630 }, { "epoch": 143.52, "grad_norm": 0.359375, "learning_rate": 0.00029623695872125014, "loss": 0.3898, "step": 107640 }, { "epoch": 143.53333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029623625918143203, "loss": 0.3935, "step": 107650 }, { "epoch": 143.54666666666665, "grad_norm": 0.41796875, "learning_rate": 0.0002962355595774247, "loss": 0.3948, "step": 107660 }, { "epoch": 143.56, "grad_norm": 0.33203125, "learning_rate": 0.00029623485990922855, "loss": 0.3895, "step": 107670 }, { "epoch": 143.57333333333332, "grad_norm": 0.373046875, "learning_rate": 0.00029623416017684383, "loss": 0.3926, "step": 107680 }, { "epoch": 143.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029623346038027077, "loss": 0.3813, "step": 107690 }, { "epoch": 143.6, "grad_norm": 0.353515625, "learning_rate": 0.00029623276051950984, "loss": 0.3839, "step": 107700 }, { "epoch": 143.61333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002962320605945612, "loss": 0.3729, "step": 107710 }, { "epoch": 143.62666666666667, "grad_norm": 0.3359375, "learning_rate": 0.00029623136060542523, "loss": 0.378, "step": 107720 }, { "epoch": 143.64, "grad_norm": 0.400390625, "learning_rate": 0.00029623066055210225, "loss": 0.3907, "step": 107730 }, { "epoch": 143.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002962299604345925, "loss": 0.4004, "step": 107740 }, { "epoch": 143.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029622926025289634, "loss": 0.3873, "step": 107750 }, { "epoch": 143.68, "grad_norm": 0.396484375, "learning_rate": 0.00029622856000701407, "loss": 0.3784, "step": 107760 }, { "epoch": 143.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.000296227859696946, "loss": 0.3876, "step": 107770 }, { "epoch": 143.70666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002962271593226924, "loss": 0.3806, "step": 107780 }, { "epoch": 143.72, "grad_norm": 0.419921875, "learning_rate": 0.00029622645888425364, "loss": 0.4026, "step": 107790 }, { "epoch": 143.73333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029622575838163, "loss": 0.3975, "step": 107800 }, { "epoch": 143.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002962250578148218, "loss": 0.3998, "step": 107810 }, { "epoch": 143.76, "grad_norm": 0.39453125, "learning_rate": 0.00029622435718382927, "loss": 0.4132, "step": 107820 }, { "epoch": 143.77333333333334, "grad_norm": 0.451171875, "learning_rate": 0.0002962236564886528, "loss": 0.3996, "step": 107830 }, { "epoch": 143.78666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002962229557292927, "loss": 0.4001, "step": 107840 }, { "epoch": 143.8, "grad_norm": 0.408203125, "learning_rate": 0.00029622225490574924, "loss": 0.3984, "step": 107850 }, { "epoch": 143.81333333333333, "grad_norm": 0.50390625, "learning_rate": 0.0002962215540180227, "loss": 0.3723, "step": 107860 }, { "epoch": 143.82666666666665, "grad_norm": 0.447265625, "learning_rate": 0.0002962208530661135, "loss": 0.382, "step": 107870 }, { "epoch": 143.84, "grad_norm": 0.4296875, "learning_rate": 0.0002962201520500218, "loss": 0.3935, "step": 107880 }, { "epoch": 143.85333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029621945096974805, "loss": 0.3887, "step": 107890 }, { "epoch": 143.86666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029621874982529246, "loss": 0.3931, "step": 107900 }, { "epoch": 143.88, "grad_norm": 0.400390625, "learning_rate": 0.00029621804861665535, "loss": 0.3744, "step": 107910 }, { "epoch": 143.89333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002962173473438371, "loss": 0.3856, "step": 107920 }, { "epoch": 143.90666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029621664600683795, "loss": 0.3922, "step": 107930 }, { "epoch": 143.92, "grad_norm": 0.423828125, "learning_rate": 0.0002962159446056582, "loss": 0.394, "step": 107940 }, { "epoch": 143.93333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029621524314029816, "loss": 0.3885, "step": 107950 }, { "epoch": 143.94666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002962145416107582, "loss": 0.3897, "step": 107960 }, { "epoch": 143.96, "grad_norm": 0.375, "learning_rate": 0.00029621384001703854, "loss": 0.3871, "step": 107970 }, { "epoch": 143.97333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002962131383591396, "loss": 0.4124, "step": 107980 }, { "epoch": 143.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002962124366370616, "loss": 0.3838, "step": 107990 }, { "epoch": 144.0, "grad_norm": 0.365234375, "learning_rate": 0.00029621173485080483, "loss": 0.3808, "step": 108000 }, { "epoch": 144.0, "eval_loss": 0.4282083511352539, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6557, "eval_samples_per_second": 1.657, "eval_steps_per_second": 0.104, "step": 108000 }, { "epoch": 144.01333333333332, "grad_norm": 0.384765625, "learning_rate": 0.00029621103300036964, "loss": 0.397, "step": 108010 }, { "epoch": 144.02666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029621033108575634, "loss": 0.4116, "step": 108020 }, { "epoch": 144.04, "grad_norm": 0.34375, "learning_rate": 0.0002962096291069653, "loss": 0.4249, "step": 108030 }, { "epoch": 144.05333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002962089270639967, "loss": 0.4097, "step": 108040 }, { "epoch": 144.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029620822495685095, "loss": 0.3971, "step": 108050 }, { "epoch": 144.08, "grad_norm": 0.37109375, "learning_rate": 0.00029620752278552824, "loss": 0.401, "step": 108060 }, { "epoch": 144.09333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029620682055002905, "loss": 0.4023, "step": 108070 }, { "epoch": 144.10666666666665, "grad_norm": 0.37890625, "learning_rate": 0.00029620611825035355, "loss": 0.3894, "step": 108080 }, { "epoch": 144.12, "grad_norm": 0.4140625, "learning_rate": 0.00029620541588650206, "loss": 0.3951, "step": 108090 }, { "epoch": 144.13333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029620471345847497, "loss": 0.3858, "step": 108100 }, { "epoch": 144.14666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029620401096627254, "loss": 0.4046, "step": 108110 }, { "epoch": 144.16, "grad_norm": 0.33984375, "learning_rate": 0.00029620330840989504, "loss": 0.399, "step": 108120 }, { "epoch": 144.17333333333335, "grad_norm": 0.416015625, "learning_rate": 0.0002962026057893429, "loss": 0.3928, "step": 108130 }, { "epoch": 144.18666666666667, "grad_norm": 0.458984375, "learning_rate": 0.00029620190310461627, "loss": 0.392, "step": 108140 }, { "epoch": 144.2, "grad_norm": 0.412109375, "learning_rate": 0.00029620120035571553, "loss": 0.3844, "step": 108150 }, { "epoch": 144.21333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029620049754264103, "loss": 0.3842, "step": 108160 }, { "epoch": 144.22666666666666, "grad_norm": 0.49609375, "learning_rate": 0.00029619979466539303, "loss": 0.3963, "step": 108170 }, { "epoch": 144.24, "grad_norm": 0.56640625, "learning_rate": 0.0002961990917239718, "loss": 0.3826, "step": 108180 }, { "epoch": 144.25333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002961983887183778, "loss": 0.384, "step": 108190 }, { "epoch": 144.26666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002961976856486112, "loss": 0.3867, "step": 108200 }, { "epoch": 144.28, "grad_norm": 0.384765625, "learning_rate": 0.00029619698251467225, "loss": 0.4155, "step": 108210 }, { "epoch": 144.29333333333332, "grad_norm": 0.4140625, "learning_rate": 0.00029619627931656145, "loss": 0.3728, "step": 108220 }, { "epoch": 144.30666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029619557605427895, "loss": 0.3959, "step": 108230 }, { "epoch": 144.32, "grad_norm": 0.345703125, "learning_rate": 0.0002961948727278252, "loss": 0.3986, "step": 108240 }, { "epoch": 144.33333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002961941693372004, "loss": 0.4013, "step": 108250 }, { "epoch": 144.34666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029619346588240485, "loss": 0.3916, "step": 108260 }, { "epoch": 144.36, "grad_norm": 0.482421875, "learning_rate": 0.0002961927623634389, "loss": 0.3924, "step": 108270 }, { "epoch": 144.37333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002961920587803029, "loss": 0.3934, "step": 108280 }, { "epoch": 144.38666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029619135513299713, "loss": 0.3851, "step": 108290 }, { "epoch": 144.4, "grad_norm": 0.396484375, "learning_rate": 0.0002961906514215218, "loss": 0.3928, "step": 108300 }, { "epoch": 144.41333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029618994764587733, "loss": 0.3977, "step": 108310 }, { "epoch": 144.42666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002961892438060641, "loss": 0.3986, "step": 108320 }, { "epoch": 144.44, "grad_norm": 0.3984375, "learning_rate": 0.0002961885399020822, "loss": 0.41, "step": 108330 }, { "epoch": 144.45333333333335, "grad_norm": 0.48046875, "learning_rate": 0.0002961878359339321, "loss": 0.4002, "step": 108340 }, { "epoch": 144.46666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002961871319016141, "loss": 0.4081, "step": 108350 }, { "epoch": 144.48, "grad_norm": 0.427734375, "learning_rate": 0.00029618642780512844, "loss": 0.3899, "step": 108360 }, { "epoch": 144.49333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002961857236444754, "loss": 0.4014, "step": 108370 }, { "epoch": 144.50666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029618501941965547, "loss": 0.3991, "step": 108380 }, { "epoch": 144.52, "grad_norm": 0.361328125, "learning_rate": 0.0002961843151306688, "loss": 0.3898, "step": 108390 }, { "epoch": 144.53333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002961836107775157, "loss": 0.3928, "step": 108400 }, { "epoch": 144.54666666666665, "grad_norm": 0.451171875, "learning_rate": 0.0002961829063601966, "loss": 0.3949, "step": 108410 }, { "epoch": 144.56, "grad_norm": 0.412109375, "learning_rate": 0.0002961822018787117, "loss": 0.3892, "step": 108420 }, { "epoch": 144.57333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029618149733306136, "loss": 0.3924, "step": 108430 }, { "epoch": 144.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002961807927232458, "loss": 0.382, "step": 108440 }, { "epoch": 144.6, "grad_norm": 0.33984375, "learning_rate": 0.00029618008804926547, "loss": 0.3827, "step": 108450 }, { "epoch": 144.61333333333334, "grad_norm": 0.32421875, "learning_rate": 0.00029617938331112057, "loss": 0.373, "step": 108460 }, { "epoch": 144.62666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0002961786785088115, "loss": 0.3784, "step": 108470 }, { "epoch": 144.64, "grad_norm": 0.36328125, "learning_rate": 0.00029617797364233847, "loss": 0.3906, "step": 108480 }, { "epoch": 144.65333333333334, "grad_norm": 0.443359375, "learning_rate": 0.0002961772687117019, "loss": 0.3995, "step": 108490 }, { "epoch": 144.66666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002961765637169019, "loss": 0.3873, "step": 108500 }, { "epoch": 144.68, "grad_norm": 0.41796875, "learning_rate": 0.00029617585865793905, "loss": 0.3786, "step": 108510 }, { "epoch": 144.69333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002961751535348135, "loss": 0.3882, "step": 108520 }, { "epoch": 144.70666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002961744483475255, "loss": 0.381, "step": 108530 }, { "epoch": 144.72, "grad_norm": 0.3828125, "learning_rate": 0.00029617374309607556, "loss": 0.4033, "step": 108540 }, { "epoch": 144.73333333333332, "grad_norm": 0.376953125, "learning_rate": 0.0002961730377804638, "loss": 0.3968, "step": 108550 }, { "epoch": 144.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029617233240069067, "loss": 0.3999, "step": 108560 }, { "epoch": 144.76, "grad_norm": 0.3984375, "learning_rate": 0.00029617162695675633, "loss": 0.413, "step": 108570 }, { "epoch": 144.77333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029617092144866125, "loss": 0.3996, "step": 108580 }, { "epoch": 144.78666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029617021587640557, "loss": 0.4004, "step": 108590 }, { "epoch": 144.8, "grad_norm": 0.38671875, "learning_rate": 0.0002961695102399898, "loss": 0.3979, "step": 108600 }, { "epoch": 144.81333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029616880453941407, "loss": 0.3718, "step": 108610 }, { "epoch": 144.82666666666665, "grad_norm": 0.4140625, "learning_rate": 0.00029616809877467873, "loss": 0.3812, "step": 108620 }, { "epoch": 144.84, "grad_norm": 0.41796875, "learning_rate": 0.0002961673929457842, "loss": 0.3933, "step": 108630 }, { "epoch": 144.85333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002961666870527307, "loss": 0.3887, "step": 108640 }, { "epoch": 144.86666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002961659810955185, "loss": 0.3935, "step": 108650 }, { "epoch": 144.88, "grad_norm": 0.3515625, "learning_rate": 0.000296165275074148, "loss": 0.375, "step": 108660 }, { "epoch": 144.89333333333335, "grad_norm": 0.40234375, "learning_rate": 0.00029616456898861953, "loss": 0.3856, "step": 108670 }, { "epoch": 144.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002961638628389332, "loss": 0.3923, "step": 108680 }, { "epoch": 144.92, "grad_norm": 0.3828125, "learning_rate": 0.0002961631566250896, "loss": 0.3943, "step": 108690 }, { "epoch": 144.93333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002961624503470888, "loss": 0.3875, "step": 108700 }, { "epoch": 144.94666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029616174400493126, "loss": 0.3883, "step": 108710 }, { "epoch": 144.96, "grad_norm": 0.365234375, "learning_rate": 0.0002961610375986172, "loss": 0.3859, "step": 108720 }, { "epoch": 144.97333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029616033112814705, "loss": 0.4121, "step": 108730 }, { "epoch": 144.98666666666668, "grad_norm": 0.40625, "learning_rate": 0.000296159624593521, "loss": 0.3849, "step": 108740 }, { "epoch": 145.0, "grad_norm": 0.369140625, "learning_rate": 0.0002961589179947394, "loss": 0.3809, "step": 108750 }, { "epoch": 145.0, "eval_loss": 0.4280852973461151, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1454, "eval_samples_per_second": 1.577, "eval_steps_per_second": 0.099, "step": 108750 }, { "epoch": 145.01333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029615821133180257, "loss": 0.3983, "step": 108760 }, { "epoch": 145.02666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029615750460471074, "loss": 0.4111, "step": 108770 }, { "epoch": 145.04, "grad_norm": 0.3515625, "learning_rate": 0.0002961567978134644, "loss": 0.4239, "step": 108780 }, { "epoch": 145.05333333333334, "grad_norm": 0.443359375, "learning_rate": 0.0002961560909580637, "loss": 0.4102, "step": 108790 }, { "epoch": 145.06666666666666, "grad_norm": 0.369140625, "learning_rate": 0.000296155384038509, "loss": 0.3971, "step": 108800 }, { "epoch": 145.08, "grad_norm": 0.369140625, "learning_rate": 0.0002961546770548006, "loss": 0.3998, "step": 108810 }, { "epoch": 145.09333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002961539700069389, "loss": 0.4009, "step": 108820 }, { "epoch": 145.10666666666665, "grad_norm": 0.357421875, "learning_rate": 0.000296153262894924, "loss": 0.3901, "step": 108830 }, { "epoch": 145.12, "grad_norm": 0.396484375, "learning_rate": 0.00029615255571875643, "loss": 0.3954, "step": 108840 }, { "epoch": 145.13333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029615184847843636, "loss": 0.3857, "step": 108850 }, { "epoch": 145.14666666666668, "grad_norm": 0.396484375, "learning_rate": 0.00029615114117396426, "loss": 0.4047, "step": 108860 }, { "epoch": 145.16, "grad_norm": 0.359375, "learning_rate": 0.00029615043380534024, "loss": 0.3982, "step": 108870 }, { "epoch": 145.17333333333335, "grad_norm": 0.421875, "learning_rate": 0.00029614972637256474, "loss": 0.3928, "step": 108880 }, { "epoch": 145.18666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029614901887563803, "loss": 0.3918, "step": 108890 }, { "epoch": 145.2, "grad_norm": 0.4140625, "learning_rate": 0.00029614831131456043, "loss": 0.384, "step": 108900 }, { "epoch": 145.21333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002961476036893322, "loss": 0.385, "step": 108910 }, { "epoch": 145.22666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002961468959999538, "loss": 0.3962, "step": 108920 }, { "epoch": 145.24, "grad_norm": 0.462890625, "learning_rate": 0.00029614618824642534, "loss": 0.3819, "step": 108930 }, { "epoch": 145.25333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002961454804287473, "loss": 0.3841, "step": 108940 }, { "epoch": 145.26666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002961447725469199, "loss": 0.3864, "step": 108950 }, { "epoch": 145.28, "grad_norm": 0.40234375, "learning_rate": 0.00029614406460094344, "loss": 0.4157, "step": 108960 }, { "epoch": 145.29333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002961433565908183, "loss": 0.3715, "step": 108970 }, { "epoch": 145.30666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029614264851654477, "loss": 0.3953, "step": 108980 }, { "epoch": 145.32, "grad_norm": 0.341796875, "learning_rate": 0.00029614194037812306, "loss": 0.3983, "step": 108990 }, { "epoch": 145.33333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002961412321755536, "loss": 0.4024, "step": 109000 }, { "epoch": 145.34666666666666, "grad_norm": 0.5, "learning_rate": 0.0002961405239088367, "loss": 0.3918, "step": 109010 }, { "epoch": 145.36, "grad_norm": 0.48046875, "learning_rate": 0.0002961398155779726, "loss": 0.3918, "step": 109020 }, { "epoch": 145.37333333333333, "grad_norm": 0.375, "learning_rate": 0.0002961391071829617, "loss": 0.3925, "step": 109030 }, { "epoch": 145.38666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002961383987238042, "loss": 0.3852, "step": 109040 }, { "epoch": 145.4, "grad_norm": 0.3671875, "learning_rate": 0.00029613769020050046, "loss": 0.3923, "step": 109050 }, { "epoch": 145.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029613698161305084, "loss": 0.3974, "step": 109060 }, { "epoch": 145.42666666666668, "grad_norm": 0.369140625, "learning_rate": 0.00029613627296145553, "loss": 0.399, "step": 109070 }, { "epoch": 145.44, "grad_norm": 0.384765625, "learning_rate": 0.00029613556424571503, "loss": 0.4099, "step": 109080 }, { "epoch": 145.45333333333335, "grad_norm": 0.484375, "learning_rate": 0.00029613485546582945, "loss": 0.3996, "step": 109090 }, { "epoch": 145.46666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029613414662179926, "loss": 0.4075, "step": 109100 }, { "epoch": 145.48, "grad_norm": 0.392578125, "learning_rate": 0.0002961334377136247, "loss": 0.3888, "step": 109110 }, { "epoch": 145.49333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029613272874130607, "loss": 0.4011, "step": 109120 }, { "epoch": 145.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002961320197048437, "loss": 0.3988, "step": 109130 }, { "epoch": 145.52, "grad_norm": 0.380859375, "learning_rate": 0.00029613131060423785, "loss": 0.39, "step": 109140 }, { "epoch": 145.53333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029613060143948895, "loss": 0.393, "step": 109150 }, { "epoch": 145.54666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002961298922105972, "loss": 0.3944, "step": 109160 }, { "epoch": 145.56, "grad_norm": 0.353515625, "learning_rate": 0.000296129182917563, "loss": 0.3891, "step": 109170 }, { "epoch": 145.57333333333332, "grad_norm": 0.375, "learning_rate": 0.00029612847356038654, "loss": 0.3925, "step": 109180 }, { "epoch": 145.58666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029612776413906824, "loss": 0.3813, "step": 109190 }, { "epoch": 145.6, "grad_norm": 0.369140625, "learning_rate": 0.00029612705465360844, "loss": 0.3839, "step": 109200 }, { "epoch": 145.61333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002961263451040073, "loss": 0.3731, "step": 109210 }, { "epoch": 145.62666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029612563549026523, "loss": 0.3788, "step": 109220 }, { "epoch": 145.64, "grad_norm": 0.412109375, "learning_rate": 0.0002961249258123825, "loss": 0.3903, "step": 109230 }, { "epoch": 145.65333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029612421607035956, "loss": 0.3986, "step": 109240 }, { "epoch": 145.66666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029612350626419655, "loss": 0.3869, "step": 109250 }, { "epoch": 145.68, "grad_norm": 0.3828125, "learning_rate": 0.0002961227963938938, "loss": 0.3782, "step": 109260 }, { "epoch": 145.69333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029612208645945175, "loss": 0.3871, "step": 109270 }, { "epoch": 145.70666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002961213764608706, "loss": 0.3799, "step": 109280 }, { "epoch": 145.72, "grad_norm": 0.396484375, "learning_rate": 0.00029612066639815067, "loss": 0.4048, "step": 109290 }, { "epoch": 145.73333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002961199562712923, "loss": 0.3967, "step": 109300 }, { "epoch": 145.74666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002961192460802958, "loss": 0.3996, "step": 109310 }, { "epoch": 145.76, "grad_norm": 0.4140625, "learning_rate": 0.0002961185358251615, "loss": 0.4126, "step": 109320 }, { "epoch": 145.77333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029611782550588965, "loss": 0.3998, "step": 109330 }, { "epoch": 145.78666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0002961171151224806, "loss": 0.4, "step": 109340 }, { "epoch": 145.8, "grad_norm": 0.3984375, "learning_rate": 0.0002961164046749347, "loss": 0.3981, "step": 109350 }, { "epoch": 145.81333333333333, "grad_norm": 0.482421875, "learning_rate": 0.00029611569416325217, "loss": 0.3726, "step": 109360 }, { "epoch": 145.82666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002961149835874334, "loss": 0.3811, "step": 109370 }, { "epoch": 145.84, "grad_norm": 0.396484375, "learning_rate": 0.00029611427294747863, "loss": 0.393, "step": 109380 }, { "epoch": 145.85333333333332, "grad_norm": 0.359375, "learning_rate": 0.00029611356224338827, "loss": 0.3889, "step": 109390 }, { "epoch": 145.86666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002961128514751626, "loss": 0.393, "step": 109400 }, { "epoch": 145.88, "grad_norm": 0.365234375, "learning_rate": 0.0002961121406428019, "loss": 0.3739, "step": 109410 }, { "epoch": 145.89333333333335, "grad_norm": 0.353515625, "learning_rate": 0.00029611142974630646, "loss": 0.3852, "step": 109420 }, { "epoch": 145.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029611071878567663, "loss": 0.3925, "step": 109430 }, { "epoch": 145.92, "grad_norm": 0.384765625, "learning_rate": 0.0002961100077609127, "loss": 0.3943, "step": 109440 }, { "epoch": 145.93333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029610929667201505, "loss": 0.3879, "step": 109450 }, { "epoch": 145.94666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029610858551898394, "loss": 0.3892, "step": 109460 }, { "epoch": 145.96, "grad_norm": 0.3828125, "learning_rate": 0.0002961078743018197, "loss": 0.3868, "step": 109470 }, { "epoch": 145.97333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002961071630205225, "loss": 0.4114, "step": 109480 }, { "epoch": 145.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002961064516750929, "loss": 0.3841, "step": 109490 }, { "epoch": 146.0, "grad_norm": 0.3828125, "learning_rate": 0.00029610574026553107, "loss": 0.3811, "step": 109500 }, { "epoch": 146.0, "eval_loss": 0.42716825008392334, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8847, "eval_samples_per_second": 1.619, "eval_steps_per_second": 0.101, "step": 109500 }, { "epoch": 146.01333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029610502879183736, "loss": 0.3977, "step": 109510 }, { "epoch": 146.02666666666667, "grad_norm": 0.3984375, "learning_rate": 0.000296104317254012, "loss": 0.4108, "step": 109520 }, { "epoch": 146.04, "grad_norm": 0.388671875, "learning_rate": 0.00029610360565205545, "loss": 0.424, "step": 109530 }, { "epoch": 146.05333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029610289398596785, "loss": 0.4093, "step": 109540 }, { "epoch": 146.06666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002961021822557497, "loss": 0.3971, "step": 109550 }, { "epoch": 146.08, "grad_norm": 0.41015625, "learning_rate": 0.0002961014704614011, "loss": 0.4002, "step": 109560 }, { "epoch": 146.09333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002961007586029226, "loss": 0.4009, "step": 109570 }, { "epoch": 146.10666666666665, "grad_norm": 0.3515625, "learning_rate": 0.00029610004668031433, "loss": 0.3898, "step": 109580 }, { "epoch": 146.12, "grad_norm": 0.400390625, "learning_rate": 0.00029609933469357664, "loss": 0.3943, "step": 109590 }, { "epoch": 146.13333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002960986226427099, "loss": 0.3859, "step": 109600 }, { "epoch": 146.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002960979105277144, "loss": 0.4042, "step": 109610 }, { "epoch": 146.16, "grad_norm": 0.34375, "learning_rate": 0.0002960971983485904, "loss": 0.3983, "step": 109620 }, { "epoch": 146.17333333333335, "grad_norm": 0.3515625, "learning_rate": 0.0002960964861053383, "loss": 0.3934, "step": 109630 }, { "epoch": 146.18666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029609577379795834, "loss": 0.3912, "step": 109640 }, { "epoch": 146.2, "grad_norm": 0.369140625, "learning_rate": 0.00029609506142645086, "loss": 0.3832, "step": 109650 }, { "epoch": 146.21333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002960943489908161, "loss": 0.3857, "step": 109660 }, { "epoch": 146.22666666666666, "grad_norm": 0.45703125, "learning_rate": 0.00029609363649105456, "loss": 0.3961, "step": 109670 }, { "epoch": 146.24, "grad_norm": 0.392578125, "learning_rate": 0.0002960929239271664, "loss": 0.3819, "step": 109680 }, { "epoch": 146.25333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002960922112991519, "loss": 0.383, "step": 109690 }, { "epoch": 146.26666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029609149860701154, "loss": 0.3855, "step": 109700 }, { "epoch": 146.28, "grad_norm": 0.455078125, "learning_rate": 0.00029609078585074547, "loss": 0.4167, "step": 109710 }, { "epoch": 146.29333333333332, "grad_norm": 0.384765625, "learning_rate": 0.0002960900730303541, "loss": 0.372, "step": 109720 }, { "epoch": 146.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029608936014583766, "loss": 0.3954, "step": 109730 }, { "epoch": 146.32, "grad_norm": 0.369140625, "learning_rate": 0.0002960886471971966, "loss": 0.3985, "step": 109740 }, { "epoch": 146.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002960879341844311, "loss": 0.4005, "step": 109750 }, { "epoch": 146.34666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002960872211075415, "loss": 0.3917, "step": 109760 }, { "epoch": 146.36, "grad_norm": 0.451171875, "learning_rate": 0.00029608650796652814, "loss": 0.3917, "step": 109770 }, { "epoch": 146.37333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002960857947613913, "loss": 0.3931, "step": 109780 }, { "epoch": 146.38666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002960850814921314, "loss": 0.3851, "step": 109790 }, { "epoch": 146.4, "grad_norm": 0.3515625, "learning_rate": 0.00029608436815874866, "loss": 0.3919, "step": 109800 }, { "epoch": 146.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002960836547612433, "loss": 0.3973, "step": 109810 }, { "epoch": 146.42666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029608294129961586, "loss": 0.3987, "step": 109820 }, { "epoch": 146.44, "grad_norm": 0.37890625, "learning_rate": 0.0002960822277738665, "loss": 0.4103, "step": 109830 }, { "epoch": 146.45333333333335, "grad_norm": 0.46875, "learning_rate": 0.0002960815141839955, "loss": 0.3988, "step": 109840 }, { "epoch": 146.46666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002960808005300033, "loss": 0.4077, "step": 109850 }, { "epoch": 146.48, "grad_norm": 0.396484375, "learning_rate": 0.00029608008681189014, "loss": 0.3891, "step": 109860 }, { "epoch": 146.49333333333334, "grad_norm": 0.375, "learning_rate": 0.0002960793730296563, "loss": 0.4001, "step": 109870 }, { "epoch": 146.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029607865918330215, "loss": 0.3991, "step": 109880 }, { "epoch": 146.52, "grad_norm": 0.349609375, "learning_rate": 0.000296077945272828, "loss": 0.3905, "step": 109890 }, { "epoch": 146.53333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002960772312982342, "loss": 0.3919, "step": 109900 }, { "epoch": 146.54666666666665, "grad_norm": 0.43359375, "learning_rate": 0.000296076517259521, "loss": 0.3939, "step": 109910 }, { "epoch": 146.56, "grad_norm": 0.33984375, "learning_rate": 0.00029607580315668864, "loss": 0.3878, "step": 109920 }, { "epoch": 146.57333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029607508898973764, "loss": 0.3929, "step": 109930 }, { "epoch": 146.58666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002960743747586681, "loss": 0.3811, "step": 109940 }, { "epoch": 146.6, "grad_norm": 0.345703125, "learning_rate": 0.00029607366046348056, "loss": 0.3825, "step": 109950 }, { "epoch": 146.61333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029607294610417507, "loss": 0.3725, "step": 109960 }, { "epoch": 146.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029607223168075215, "loss": 0.3785, "step": 109970 }, { "epoch": 146.64, "grad_norm": 0.37890625, "learning_rate": 0.00029607151719321205, "loss": 0.3896, "step": 109980 }, { "epoch": 146.65333333333334, "grad_norm": 0.423828125, "learning_rate": 0.00029607080264155506, "loss": 0.3994, "step": 109990 }, { "epoch": 146.66666666666666, "grad_norm": 0.34765625, "learning_rate": 0.0002960700880257815, "loss": 0.3871, "step": 110000 }, { "epoch": 146.68, "grad_norm": 0.392578125, "learning_rate": 0.0002960693733458917, "loss": 0.3798, "step": 110010 }, { "epoch": 146.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029606865860188594, "loss": 0.3882, "step": 110020 }, { "epoch": 146.70666666666668, "grad_norm": 0.41015625, "learning_rate": 0.0002960679437937646, "loss": 0.3806, "step": 110030 }, { "epoch": 146.72, "grad_norm": 0.41015625, "learning_rate": 0.0002960672289215279, "loss": 0.4025, "step": 110040 }, { "epoch": 146.73333333333332, "grad_norm": 0.3828125, "learning_rate": 0.00029606651398517625, "loss": 0.397, "step": 110050 }, { "epoch": 146.74666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002960657989847099, "loss": 0.4003, "step": 110060 }, { "epoch": 146.76, "grad_norm": 0.388671875, "learning_rate": 0.00029606508392012923, "loss": 0.4125, "step": 110070 }, { "epoch": 146.77333333333334, "grad_norm": 0.447265625, "learning_rate": 0.0002960643687914345, "loss": 0.3992, "step": 110080 }, { "epoch": 146.78666666666666, "grad_norm": 0.45703125, "learning_rate": 0.00029606365359862596, "loss": 0.3996, "step": 110090 }, { "epoch": 146.8, "grad_norm": 0.4140625, "learning_rate": 0.0002960629383417041, "loss": 0.3982, "step": 110100 }, { "epoch": 146.81333333333333, "grad_norm": 0.482421875, "learning_rate": 0.00029606222302066903, "loss": 0.3718, "step": 110110 }, { "epoch": 146.82666666666665, "grad_norm": 0.44921875, "learning_rate": 0.0002960615076355212, "loss": 0.3815, "step": 110120 }, { "epoch": 146.84, "grad_norm": 0.455078125, "learning_rate": 0.00029606079218626093, "loss": 0.3935, "step": 110130 }, { "epoch": 146.85333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002960600766728885, "loss": 0.3892, "step": 110140 }, { "epoch": 146.86666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029605936109540417, "loss": 0.3931, "step": 110150 }, { "epoch": 146.88, "grad_norm": 0.361328125, "learning_rate": 0.00029605864545380827, "loss": 0.3744, "step": 110160 }, { "epoch": 146.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002960579297481012, "loss": 0.3861, "step": 110170 }, { "epoch": 146.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029605721397828324, "loss": 0.3919, "step": 110180 }, { "epoch": 146.92, "grad_norm": 0.416015625, "learning_rate": 0.0002960564981443546, "loss": 0.3939, "step": 110190 }, { "epoch": 146.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002960557822463158, "loss": 0.3882, "step": 110200 }, { "epoch": 146.94666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029605506628416694, "loss": 0.3882, "step": 110210 }, { "epoch": 146.96, "grad_norm": 0.322265625, "learning_rate": 0.0002960543502579084, "loss": 0.3875, "step": 110220 }, { "epoch": 146.97333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002960536341675406, "loss": 0.4112, "step": 110230 }, { "epoch": 146.98666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002960529180130637, "loss": 0.3845, "step": 110240 }, { "epoch": 147.0, "grad_norm": 0.359375, "learning_rate": 0.00029605220179447814, "loss": 0.3813, "step": 110250 }, { "epoch": 147.0, "eval_loss": 0.42707309126853943, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.577, "eval_samples_per_second": 1.671, "eval_steps_per_second": 0.104, "step": 110250 }, { "epoch": 147.01333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002960514855117842, "loss": 0.3979, "step": 110260 }, { "epoch": 147.02666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002960507691649822, "loss": 0.4117, "step": 110270 }, { "epoch": 147.04, "grad_norm": 0.337890625, "learning_rate": 0.00029605005275407234, "loss": 0.4243, "step": 110280 }, { "epoch": 147.05333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029604933627905506, "loss": 0.4092, "step": 110290 }, { "epoch": 147.06666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002960486197399307, "loss": 0.3965, "step": 110300 }, { "epoch": 147.08, "grad_norm": 0.37890625, "learning_rate": 0.00029604790313669945, "loss": 0.4001, "step": 110310 }, { "epoch": 147.09333333333333, "grad_norm": 0.421875, "learning_rate": 0.00029604718646936173, "loss": 0.4011, "step": 110320 }, { "epoch": 147.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.00029604646973791773, "loss": 0.3899, "step": 110330 }, { "epoch": 147.12, "grad_norm": 0.408203125, "learning_rate": 0.00029604575294236795, "loss": 0.3945, "step": 110340 }, { "epoch": 147.13333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002960450360827126, "loss": 0.3848, "step": 110350 }, { "epoch": 147.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029604431915895195, "loss": 0.4039, "step": 110360 }, { "epoch": 147.16, "grad_norm": 0.353515625, "learning_rate": 0.00029604360217108634, "loss": 0.3981, "step": 110370 }, { "epoch": 147.17333333333335, "grad_norm": 0.40234375, "learning_rate": 0.0002960428851191162, "loss": 0.3929, "step": 110380 }, { "epoch": 147.18666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002960421680030417, "loss": 0.3907, "step": 110390 }, { "epoch": 147.2, "grad_norm": 0.384765625, "learning_rate": 0.0002960414508228632, "loss": 0.3837, "step": 110400 }, { "epoch": 147.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029604073357858104, "loss": 0.3847, "step": 110410 }, { "epoch": 147.22666666666666, "grad_norm": 0.466796875, "learning_rate": 0.0002960400162701955, "loss": 0.3971, "step": 110420 }, { "epoch": 147.24, "grad_norm": 0.392578125, "learning_rate": 0.00029603929889770694, "loss": 0.3812, "step": 110430 }, { "epoch": 147.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002960385814611156, "loss": 0.3845, "step": 110440 }, { "epoch": 147.26666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002960378639604219, "loss": 0.3855, "step": 110450 }, { "epoch": 147.28, "grad_norm": 0.435546875, "learning_rate": 0.00029603714639562606, "loss": 0.4152, "step": 110460 }, { "epoch": 147.29333333333332, "grad_norm": 0.384765625, "learning_rate": 0.00029603642876672846, "loss": 0.3721, "step": 110470 }, { "epoch": 147.30666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029603571107372935, "loss": 0.3953, "step": 110480 }, { "epoch": 147.32, "grad_norm": 0.36328125, "learning_rate": 0.0002960349933166291, "loss": 0.3976, "step": 110490 }, { "epoch": 147.33333333333334, "grad_norm": 0.421875, "learning_rate": 0.000296034275495428, "loss": 0.4005, "step": 110500 }, { "epoch": 147.34666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002960335576101264, "loss": 0.3915, "step": 110510 }, { "epoch": 147.36, "grad_norm": 0.50390625, "learning_rate": 0.0002960328396607246, "loss": 0.3921, "step": 110520 }, { "epoch": 147.37333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029603212164722284, "loss": 0.3924, "step": 110530 }, { "epoch": 147.38666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029603140356962155, "loss": 0.385, "step": 110540 }, { "epoch": 147.4, "grad_norm": 0.388671875, "learning_rate": 0.00029603068542792093, "loss": 0.3927, "step": 110550 }, { "epoch": 147.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002960299672221214, "loss": 0.3969, "step": 110560 }, { "epoch": 147.42666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029602924895222326, "loss": 0.3991, "step": 110570 }, { "epoch": 147.44, "grad_norm": 0.40625, "learning_rate": 0.00029602853061822676, "loss": 0.4096, "step": 110580 }, { "epoch": 147.45333333333335, "grad_norm": 0.462890625, "learning_rate": 0.0002960278122201322, "loss": 0.3992, "step": 110590 }, { "epoch": 147.46666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002960270937579401, "loss": 0.4076, "step": 110600 }, { "epoch": 147.48, "grad_norm": 0.42578125, "learning_rate": 0.0002960263752316505, "loss": 0.3895, "step": 110610 }, { "epoch": 147.49333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002960256566412639, "loss": 0.4007, "step": 110620 }, { "epoch": 147.50666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029602493798678046, "loss": 0.4001, "step": 110630 }, { "epoch": 147.52, "grad_norm": 0.341796875, "learning_rate": 0.0002960242192682007, "loss": 0.3894, "step": 110640 }, { "epoch": 147.53333333333333, "grad_norm": 0.375, "learning_rate": 0.0002960235004855248, "loss": 0.392, "step": 110650 }, { "epoch": 147.54666666666665, "grad_norm": 0.390625, "learning_rate": 0.0002960227816387531, "loss": 0.3942, "step": 110660 }, { "epoch": 147.56, "grad_norm": 0.380859375, "learning_rate": 0.00029602206272788593, "loss": 0.3876, "step": 110670 }, { "epoch": 147.57333333333332, "grad_norm": 0.43359375, "learning_rate": 0.0002960213437529235, "loss": 0.3917, "step": 110680 }, { "epoch": 147.58666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029602062471386633, "loss": 0.3817, "step": 110690 }, { "epoch": 147.6, "grad_norm": 0.373046875, "learning_rate": 0.0002960199056107146, "loss": 0.382, "step": 110700 }, { "epoch": 147.61333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002960191864434686, "loss": 0.3733, "step": 110710 }, { "epoch": 147.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029601846721212874, "loss": 0.3781, "step": 110720 }, { "epoch": 147.64, "grad_norm": 0.37890625, "learning_rate": 0.0002960177479166953, "loss": 0.3901, "step": 110730 }, { "epoch": 147.65333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029601702855716855, "loss": 0.4, "step": 110740 }, { "epoch": 147.66666666666666, "grad_norm": 0.345703125, "learning_rate": 0.00029601630913354886, "loss": 0.3869, "step": 110750 }, { "epoch": 147.68, "grad_norm": 0.392578125, "learning_rate": 0.00029601558964583656, "loss": 0.3785, "step": 110760 }, { "epoch": 147.69333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002960148700940319, "loss": 0.3884, "step": 110770 }, { "epoch": 147.70666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002960141504781352, "loss": 0.3811, "step": 110780 }, { "epoch": 147.72, "grad_norm": 0.44140625, "learning_rate": 0.00029601343079814686, "loss": 0.4037, "step": 110790 }, { "epoch": 147.73333333333332, "grad_norm": 0.375, "learning_rate": 0.00029601271105406715, "loss": 0.3974, "step": 110800 }, { "epoch": 147.74666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029601199124589634, "loss": 0.3992, "step": 110810 }, { "epoch": 147.76, "grad_norm": 0.3984375, "learning_rate": 0.00029601127137363477, "loss": 0.4126, "step": 110820 }, { "epoch": 147.77333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002960105514372828, "loss": 0.399, "step": 110830 }, { "epoch": 147.78666666666666, "grad_norm": 0.337890625, "learning_rate": 0.0002960098314368407, "loss": 0.3999, "step": 110840 }, { "epoch": 147.8, "grad_norm": 0.35546875, "learning_rate": 0.0002960091113723088, "loss": 0.3986, "step": 110850 }, { "epoch": 147.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.00029600839124368746, "loss": 0.3721, "step": 110860 }, { "epoch": 147.82666666666665, "grad_norm": 0.4140625, "learning_rate": 0.0002960076710509769, "loss": 0.3819, "step": 110870 }, { "epoch": 147.84, "grad_norm": 0.404296875, "learning_rate": 0.0002960069507941775, "loss": 0.3933, "step": 110880 }, { "epoch": 147.85333333333332, "grad_norm": 0.375, "learning_rate": 0.00029600623047328957, "loss": 0.388, "step": 110890 }, { "epoch": 147.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029600551008831345, "loss": 0.3927, "step": 110900 }, { "epoch": 147.88, "grad_norm": 0.3671875, "learning_rate": 0.0002960047896392494, "loss": 0.3735, "step": 110910 }, { "epoch": 147.89333333333335, "grad_norm": 0.353515625, "learning_rate": 0.00029600406912609774, "loss": 0.3851, "step": 110920 }, { "epoch": 147.90666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029600334854885886, "loss": 0.3916, "step": 110930 }, { "epoch": 147.92, "grad_norm": 0.3828125, "learning_rate": 0.000296002627907533, "loss": 0.3939, "step": 110940 }, { "epoch": 147.93333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029600190720212056, "loss": 0.3871, "step": 110950 }, { "epoch": 147.94666666666666, "grad_norm": 0.43359375, "learning_rate": 0.0002960011864326218, "loss": 0.3879, "step": 110960 }, { "epoch": 147.96, "grad_norm": 0.353515625, "learning_rate": 0.00029600046559903696, "loss": 0.3872, "step": 110970 }, { "epoch": 147.97333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029599974470136646, "loss": 0.4119, "step": 110980 }, { "epoch": 147.98666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029599902373961056, "loss": 0.384, "step": 110990 }, { "epoch": 148.0, "grad_norm": 0.357421875, "learning_rate": 0.00029599830271376964, "loss": 0.3805, "step": 111000 }, { "epoch": 148.0, "eval_loss": 0.42561355233192444, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7115, "eval_samples_per_second": 1.648, "eval_steps_per_second": 0.103, "step": 111000 }, { "epoch": 148.01333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029599758162384397, "loss": 0.3978, "step": 111010 }, { "epoch": 148.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002959968604698339, "loss": 0.4109, "step": 111020 }, { "epoch": 148.04, "grad_norm": 0.353515625, "learning_rate": 0.0002959961392517397, "loss": 0.4239, "step": 111030 }, { "epoch": 148.05333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029599541796956175, "loss": 0.4088, "step": 111040 }, { "epoch": 148.06666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002959946966233003, "loss": 0.3965, "step": 111050 }, { "epoch": 148.08, "grad_norm": 0.3984375, "learning_rate": 0.0002959939752129557, "loss": 0.4006, "step": 111060 }, { "epoch": 148.09333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029599325373852827, "loss": 0.4007, "step": 111070 }, { "epoch": 148.10666666666665, "grad_norm": 0.357421875, "learning_rate": 0.0002959925322000183, "loss": 0.3897, "step": 111080 }, { "epoch": 148.12, "grad_norm": 0.41015625, "learning_rate": 0.00029599181059742616, "loss": 0.3939, "step": 111090 }, { "epoch": 148.13333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002959910889307521, "loss": 0.3863, "step": 111100 }, { "epoch": 148.14666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002959903671999965, "loss": 0.4043, "step": 111110 }, { "epoch": 148.16, "grad_norm": 0.384765625, "learning_rate": 0.0002959896454051596, "loss": 0.3981, "step": 111120 }, { "epoch": 148.17333333333335, "grad_norm": 0.400390625, "learning_rate": 0.0002959889235462418, "loss": 0.393, "step": 111130 }, { "epoch": 148.18666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002959882016232433, "loss": 0.3909, "step": 111140 }, { "epoch": 148.2, "grad_norm": 0.38671875, "learning_rate": 0.0002959874796361646, "loss": 0.3834, "step": 111150 }, { "epoch": 148.21333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029598675758500583, "loss": 0.3842, "step": 111160 }, { "epoch": 148.22666666666666, "grad_norm": 0.44140625, "learning_rate": 0.00029598603546976746, "loss": 0.3962, "step": 111170 }, { "epoch": 148.24, "grad_norm": 0.384765625, "learning_rate": 0.0002959853132904497, "loss": 0.3811, "step": 111180 }, { "epoch": 148.25333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002959845910470529, "loss": 0.3833, "step": 111190 }, { "epoch": 148.26666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002959838687395774, "loss": 0.3858, "step": 111200 }, { "epoch": 148.28, "grad_norm": 0.447265625, "learning_rate": 0.0002959831463680235, "loss": 0.4162, "step": 111210 }, { "epoch": 148.29333333333332, "grad_norm": 0.482421875, "learning_rate": 0.0002959824239323915, "loss": 0.3718, "step": 111220 }, { "epoch": 148.30666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029598170143268175, "loss": 0.3955, "step": 111230 }, { "epoch": 148.32, "grad_norm": 0.369140625, "learning_rate": 0.00029598097886889447, "loss": 0.3983, "step": 111240 }, { "epoch": 148.33333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002959802562410301, "loss": 0.3997, "step": 111250 }, { "epoch": 148.34666666666666, "grad_norm": 0.419921875, "learning_rate": 0.000295979533549089, "loss": 0.3912, "step": 111260 }, { "epoch": 148.36, "grad_norm": 0.416015625, "learning_rate": 0.00029597881079307137, "loss": 0.3912, "step": 111270 }, { "epoch": 148.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002959780879729775, "loss": 0.3935, "step": 111280 }, { "epoch": 148.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029597736508880777, "loss": 0.385, "step": 111290 }, { "epoch": 148.4, "grad_norm": 0.37890625, "learning_rate": 0.0002959766421405625, "loss": 0.3928, "step": 111300 }, { "epoch": 148.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.000295975919128242, "loss": 0.3964, "step": 111310 }, { "epoch": 148.42666666666668, "grad_norm": 0.380859375, "learning_rate": 0.0002959751960518466, "loss": 0.397, "step": 111320 }, { "epoch": 148.44, "grad_norm": 0.37890625, "learning_rate": 0.0002959744729113766, "loss": 0.4095, "step": 111330 }, { "epoch": 148.45333333333335, "grad_norm": 0.421875, "learning_rate": 0.00029597374970683236, "loss": 0.3989, "step": 111340 }, { "epoch": 148.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029597302643821413, "loss": 0.4072, "step": 111350 }, { "epoch": 148.48, "grad_norm": 0.4296875, "learning_rate": 0.00029597230310552227, "loss": 0.3884, "step": 111360 }, { "epoch": 148.49333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029597157970875703, "loss": 0.4007, "step": 111370 }, { "epoch": 148.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.0002959708562479188, "loss": 0.3993, "step": 111380 }, { "epoch": 148.52, "grad_norm": 0.34765625, "learning_rate": 0.00029597013272300793, "loss": 0.3881, "step": 111390 }, { "epoch": 148.53333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029596940913402466, "loss": 0.3923, "step": 111400 }, { "epoch": 148.54666666666665, "grad_norm": 0.42578125, "learning_rate": 0.0002959686854809693, "loss": 0.3951, "step": 111410 }, { "epoch": 148.56, "grad_norm": 0.36328125, "learning_rate": 0.00029596796176384224, "loss": 0.3877, "step": 111420 }, { "epoch": 148.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029596723798264374, "loss": 0.3904, "step": 111430 }, { "epoch": 148.58666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029596651413737416, "loss": 0.3805, "step": 111440 }, { "epoch": 148.6, "grad_norm": 0.357421875, "learning_rate": 0.0002959657902280338, "loss": 0.3823, "step": 111450 }, { "epoch": 148.61333333333334, "grad_norm": 0.3359375, "learning_rate": 0.00029596506625462297, "loss": 0.3732, "step": 111460 }, { "epoch": 148.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029596434221714195, "loss": 0.3781, "step": 111470 }, { "epoch": 148.64, "grad_norm": 0.42578125, "learning_rate": 0.00029596361811559115, "loss": 0.3905, "step": 111480 }, { "epoch": 148.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029596289394997083, "loss": 0.3991, "step": 111490 }, { "epoch": 148.66666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029596216972028127, "loss": 0.3867, "step": 111500 }, { "epoch": 148.68, "grad_norm": 0.388671875, "learning_rate": 0.0002959614454265229, "loss": 0.3789, "step": 111510 }, { "epoch": 148.69333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0002959607210686959, "loss": 0.3876, "step": 111520 }, { "epoch": 148.70666666666668, "grad_norm": 0.482421875, "learning_rate": 0.0002959599966468007, "loss": 0.3807, "step": 111530 }, { "epoch": 148.72, "grad_norm": 0.4296875, "learning_rate": 0.00029595927216083753, "loss": 0.4029, "step": 111540 }, { "epoch": 148.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002959585476108068, "loss": 0.3969, "step": 111550 }, { "epoch": 148.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029595782299670877, "loss": 0.3996, "step": 111560 }, { "epoch": 148.76, "grad_norm": 0.35546875, "learning_rate": 0.00029595709831854375, "loss": 0.4121, "step": 111570 }, { "epoch": 148.77333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029595637357631213, "loss": 0.3988, "step": 111580 }, { "epoch": 148.78666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029595564877001415, "loss": 0.3997, "step": 111590 }, { "epoch": 148.8, "grad_norm": 0.423828125, "learning_rate": 0.00029595492389965016, "loss": 0.3978, "step": 111600 }, { "epoch": 148.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029595419896522046, "loss": 0.3718, "step": 111610 }, { "epoch": 148.82666666666665, "grad_norm": 0.373046875, "learning_rate": 0.0002959534739667254, "loss": 0.3812, "step": 111620 }, { "epoch": 148.84, "grad_norm": 0.42578125, "learning_rate": 0.00029595274890416523, "loss": 0.3926, "step": 111630 }, { "epoch": 148.85333333333332, "grad_norm": 0.421875, "learning_rate": 0.0002959520237775404, "loss": 0.3887, "step": 111640 }, { "epoch": 148.86666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002959512985868511, "loss": 0.3933, "step": 111650 }, { "epoch": 148.88, "grad_norm": 0.34375, "learning_rate": 0.0002959505733320977, "loss": 0.3739, "step": 111660 }, { "epoch": 148.89333333333335, "grad_norm": 0.388671875, "learning_rate": 0.00029594984801328047, "loss": 0.3859, "step": 111670 }, { "epoch": 148.90666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029594912263039986, "loss": 0.3921, "step": 111680 }, { "epoch": 148.92, "grad_norm": 0.396484375, "learning_rate": 0.00029594839718345597, "loss": 0.3934, "step": 111690 }, { "epoch": 148.93333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002959476716724494, "loss": 0.388, "step": 111700 }, { "epoch": 148.94666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029594694609738024, "loss": 0.3888, "step": 111710 }, { "epoch": 148.96, "grad_norm": 0.349609375, "learning_rate": 0.0002959462204582488, "loss": 0.3857, "step": 111720 }, { "epoch": 148.97333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029594549475505565, "loss": 0.4115, "step": 111730 }, { "epoch": 148.98666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029594476898780087, "loss": 0.384, "step": 111740 }, { "epoch": 149.0, "grad_norm": 0.384765625, "learning_rate": 0.0002959440431564848, "loss": 0.3799, "step": 111750 }, { "epoch": 149.0, "eval_loss": 0.4255213141441345, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0125, "eval_samples_per_second": 1.598, "eval_steps_per_second": 0.1, "step": 111750 }, { "epoch": 149.01333333333332, "grad_norm": 0.41015625, "learning_rate": 0.00029594331726110786, "loss": 0.3981, "step": 111760 }, { "epoch": 149.02666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002959425913016703, "loss": 0.4112, "step": 111770 }, { "epoch": 149.04, "grad_norm": 0.396484375, "learning_rate": 0.0002959418652781725, "loss": 0.4241, "step": 111780 }, { "epoch": 149.05333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002959411391906147, "loss": 0.4094, "step": 111790 }, { "epoch": 149.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002959404130389972, "loss": 0.3972, "step": 111800 }, { "epoch": 149.08, "grad_norm": 0.423828125, "learning_rate": 0.00029593968682332044, "loss": 0.3997, "step": 111810 }, { "epoch": 149.09333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002959389605435847, "loss": 0.4004, "step": 111820 }, { "epoch": 149.10666666666665, "grad_norm": 0.376953125, "learning_rate": 0.0002959382341997902, "loss": 0.3896, "step": 111830 }, { "epoch": 149.12, "grad_norm": 0.400390625, "learning_rate": 0.0002959375077919374, "loss": 0.3941, "step": 111840 }, { "epoch": 149.13333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002959367813200265, "loss": 0.3848, "step": 111850 }, { "epoch": 149.14666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029593605478405783, "loss": 0.4052, "step": 111860 }, { "epoch": 149.16, "grad_norm": 0.353515625, "learning_rate": 0.00029593532818403175, "loss": 0.3975, "step": 111870 }, { "epoch": 149.17333333333335, "grad_norm": 0.400390625, "learning_rate": 0.0002959346015199486, "loss": 0.3929, "step": 111880 }, { "epoch": 149.18666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002959338747918087, "loss": 0.3917, "step": 111890 }, { "epoch": 149.2, "grad_norm": 0.380859375, "learning_rate": 0.00029593314799961236, "loss": 0.3837, "step": 111900 }, { "epoch": 149.21333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002959324211433598, "loss": 0.384, "step": 111910 }, { "epoch": 149.22666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002959316942230515, "loss": 0.3946, "step": 111920 }, { "epoch": 149.24, "grad_norm": 0.37109375, "learning_rate": 0.00029593096723868766, "loss": 0.3813, "step": 111930 }, { "epoch": 149.25333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029593024019026863, "loss": 0.3838, "step": 111940 }, { "epoch": 149.26666666666668, "grad_norm": 0.365234375, "learning_rate": 0.0002959295130777947, "loss": 0.3856, "step": 111950 }, { "epoch": 149.28, "grad_norm": 0.390625, "learning_rate": 0.00029592878590126636, "loss": 0.4154, "step": 111960 }, { "epoch": 149.29333333333332, "grad_norm": 0.427734375, "learning_rate": 0.00029592805866068367, "loss": 0.3716, "step": 111970 }, { "epoch": 149.30666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002959273313560471, "loss": 0.3954, "step": 111980 }, { "epoch": 149.32, "grad_norm": 0.32421875, "learning_rate": 0.000295926603987357, "loss": 0.3985, "step": 111990 }, { "epoch": 149.33333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002959258765546136, "loss": 0.4009, "step": 112000 }, { "epoch": 149.34666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029592514905781725, "loss": 0.392, "step": 112010 }, { "epoch": 149.36, "grad_norm": 0.455078125, "learning_rate": 0.0002959244214969682, "loss": 0.3913, "step": 112020 }, { "epoch": 149.37333333333333, "grad_norm": 0.396484375, "learning_rate": 0.000295923693872067, "loss": 0.393, "step": 112030 }, { "epoch": 149.38666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029592296618311366, "loss": 0.3841, "step": 112040 }, { "epoch": 149.4, "grad_norm": 0.376953125, "learning_rate": 0.0002959222384301088, "loss": 0.3922, "step": 112050 }, { "epoch": 149.41333333333333, "grad_norm": 0.375, "learning_rate": 0.0002959215106130525, "loss": 0.3972, "step": 112060 }, { "epoch": 149.42666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029592078273194515, "loss": 0.3987, "step": 112070 }, { "epoch": 149.44, "grad_norm": 0.388671875, "learning_rate": 0.0002959200547867871, "loss": 0.4092, "step": 112080 }, { "epoch": 149.45333333333335, "grad_norm": 0.462890625, "learning_rate": 0.0002959193267775787, "loss": 0.3986, "step": 112090 }, { "epoch": 149.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002959185987043202, "loss": 0.4071, "step": 112100 }, { "epoch": 149.48, "grad_norm": 0.3984375, "learning_rate": 0.0002959178705670119, "loss": 0.3889, "step": 112110 }, { "epoch": 149.49333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029591714236565424, "loss": 0.4011, "step": 112120 }, { "epoch": 149.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029591641410024744, "loss": 0.3997, "step": 112130 }, { "epoch": 149.52, "grad_norm": 0.333984375, "learning_rate": 0.0002959156857707918, "loss": 0.389, "step": 112140 }, { "epoch": 149.53333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002959149573772878, "loss": 0.3925, "step": 112150 }, { "epoch": 149.54666666666665, "grad_norm": 0.390625, "learning_rate": 0.00029591422891973553, "loss": 0.3938, "step": 112160 }, { "epoch": 149.56, "grad_norm": 0.359375, "learning_rate": 0.0002959135003981355, "loss": 0.3879, "step": 112170 }, { "epoch": 149.57333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029591277181248795, "loss": 0.3924, "step": 112180 }, { "epoch": 149.58666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029591204316279317, "loss": 0.3809, "step": 112190 }, { "epoch": 149.6, "grad_norm": 0.345703125, "learning_rate": 0.00029591131444905153, "loss": 0.3827, "step": 112200 }, { "epoch": 149.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029591058567126336, "loss": 0.3724, "step": 112210 }, { "epoch": 149.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002959098568294289, "loss": 0.3774, "step": 112220 }, { "epoch": 149.64, "grad_norm": 0.375, "learning_rate": 0.00029590912792354856, "loss": 0.3896, "step": 112230 }, { "epoch": 149.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029590839895362263, "loss": 0.3981, "step": 112240 }, { "epoch": 149.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002959076699196514, "loss": 0.3873, "step": 112250 }, { "epoch": 149.68, "grad_norm": 0.43359375, "learning_rate": 0.00029590694082163525, "loss": 0.3785, "step": 112260 }, { "epoch": 149.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029590621165957444, "loss": 0.3867, "step": 112270 }, { "epoch": 149.70666666666668, "grad_norm": 0.435546875, "learning_rate": 0.0002959054824334693, "loss": 0.3808, "step": 112280 }, { "epoch": 149.72, "grad_norm": 0.37890625, "learning_rate": 0.0002959047531433202, "loss": 0.403, "step": 112290 }, { "epoch": 149.73333333333332, "grad_norm": 0.369140625, "learning_rate": 0.0002959040237891274, "loss": 0.3968, "step": 112300 }, { "epoch": 149.74666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029590329437089125, "loss": 0.3991, "step": 112310 }, { "epoch": 149.76, "grad_norm": 0.421875, "learning_rate": 0.0002959025648886121, "loss": 0.4119, "step": 112320 }, { "epoch": 149.77333333333334, "grad_norm": 0.451171875, "learning_rate": 0.0002959018353422902, "loss": 0.3994, "step": 112330 }, { "epoch": 149.78666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002959011057319259, "loss": 0.3999, "step": 112340 }, { "epoch": 149.8, "grad_norm": 0.42578125, "learning_rate": 0.0002959003760575195, "loss": 0.3987, "step": 112350 }, { "epoch": 149.81333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002958996463190714, "loss": 0.3716, "step": 112360 }, { "epoch": 149.82666666666665, "grad_norm": 0.388671875, "learning_rate": 0.0002958989165165818, "loss": 0.3808, "step": 112370 }, { "epoch": 149.84, "grad_norm": 0.4453125, "learning_rate": 0.0002958981866500512, "loss": 0.3934, "step": 112380 }, { "epoch": 149.85333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0002958974567194797, "loss": 0.3883, "step": 112390 }, { "epoch": 149.86666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002958967267248678, "loss": 0.3934, "step": 112400 }, { "epoch": 149.88, "grad_norm": 0.41015625, "learning_rate": 0.00029589599666621577, "loss": 0.3743, "step": 112410 }, { "epoch": 149.89333333333335, "grad_norm": 0.361328125, "learning_rate": 0.00029589526654352386, "loss": 0.3849, "step": 112420 }, { "epoch": 149.90666666666667, "grad_norm": 0.443359375, "learning_rate": 0.0002958945363567924, "loss": 0.3916, "step": 112430 }, { "epoch": 149.92, "grad_norm": 0.3828125, "learning_rate": 0.00029589380610602176, "loss": 0.3946, "step": 112440 }, { "epoch": 149.93333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029589307579121226, "loss": 0.3875, "step": 112450 }, { "epoch": 149.94666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029589234541236426, "loss": 0.3885, "step": 112460 }, { "epoch": 149.96, "grad_norm": 0.341796875, "learning_rate": 0.000295891614969478, "loss": 0.3866, "step": 112470 }, { "epoch": 149.97333333333333, "grad_norm": 0.546875, "learning_rate": 0.0002958908844625538, "loss": 0.4113, "step": 112480 }, { "epoch": 149.98666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002958901538915921, "loss": 0.3849, "step": 112490 }, { "epoch": 150.0, "grad_norm": 0.4296875, "learning_rate": 0.00029588942325659305, "loss": 0.3798, "step": 112500 }, { "epoch": 150.0, "eval_loss": 0.42573192715644836, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9413, "eval_samples_per_second": 1.609, "eval_steps_per_second": 0.101, "step": 112500 }, { "epoch": 150.01333333333332, "grad_norm": 0.40234375, "learning_rate": 0.0002958886925575571, "loss": 0.398, "step": 112510 }, { "epoch": 150.02666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029588796179448444, "loss": 0.411, "step": 112520 }, { "epoch": 150.04, "grad_norm": 0.373046875, "learning_rate": 0.0002958872309673756, "loss": 0.4238, "step": 112530 }, { "epoch": 150.05333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002958865000762307, "loss": 0.4095, "step": 112540 }, { "epoch": 150.06666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002958857691210502, "loss": 0.3965, "step": 112550 }, { "epoch": 150.08, "grad_norm": 0.4921875, "learning_rate": 0.00029588503810183426, "loss": 0.3999, "step": 112560 }, { "epoch": 150.09333333333333, "grad_norm": 0.375, "learning_rate": 0.00029588430701858336, "loss": 0.4015, "step": 112570 }, { "epoch": 150.10666666666665, "grad_norm": 0.34765625, "learning_rate": 0.00029588357587129774, "loss": 0.3885, "step": 112580 }, { "epoch": 150.12, "grad_norm": 0.380859375, "learning_rate": 0.00029588284465997773, "loss": 0.3936, "step": 112590 }, { "epoch": 150.13333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002958821133846237, "loss": 0.3852, "step": 112600 }, { "epoch": 150.14666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002958813820452359, "loss": 0.4043, "step": 112610 }, { "epoch": 150.16, "grad_norm": 0.345703125, "learning_rate": 0.0002958806506418147, "loss": 0.3983, "step": 112620 }, { "epoch": 150.17333333333335, "grad_norm": 0.41015625, "learning_rate": 0.0002958799191743604, "loss": 0.3919, "step": 112630 }, { "epoch": 150.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029587918764287333, "loss": 0.3904, "step": 112640 }, { "epoch": 150.2, "grad_norm": 0.421875, "learning_rate": 0.0002958784560473538, "loss": 0.3834, "step": 112650 }, { "epoch": 150.21333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029587772438780213, "loss": 0.3849, "step": 112660 }, { "epoch": 150.22666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002958769926642187, "loss": 0.3955, "step": 112670 }, { "epoch": 150.24, "grad_norm": 0.396484375, "learning_rate": 0.0002958762608766037, "loss": 0.3804, "step": 112680 }, { "epoch": 150.25333333333333, "grad_norm": 0.408203125, "learning_rate": 0.00029587552902495754, "loss": 0.382, "step": 112690 }, { "epoch": 150.26666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029587479710928066, "loss": 0.3852, "step": 112700 }, { "epoch": 150.28, "grad_norm": 0.396484375, "learning_rate": 0.00029587406512957313, "loss": 0.416, "step": 112710 }, { "epoch": 150.29333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029587333308583543, "loss": 0.3715, "step": 112720 }, { "epoch": 150.30666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0002958726009780678, "loss": 0.3954, "step": 112730 }, { "epoch": 150.32, "grad_norm": 0.380859375, "learning_rate": 0.00029587186880627065, "loss": 0.3978, "step": 112740 }, { "epoch": 150.33333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029587113657044426, "loss": 0.4011, "step": 112750 }, { "epoch": 150.34666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029587040427058895, "loss": 0.392, "step": 112760 }, { "epoch": 150.36, "grad_norm": 0.51171875, "learning_rate": 0.000295869671906705, "loss": 0.391, "step": 112770 }, { "epoch": 150.37333333333333, "grad_norm": 0.4609375, "learning_rate": 0.00029586893947879285, "loss": 0.393, "step": 112780 }, { "epoch": 150.38666666666666, "grad_norm": 0.447265625, "learning_rate": 0.00029586820698685275, "loss": 0.3846, "step": 112790 }, { "epoch": 150.4, "grad_norm": 0.392578125, "learning_rate": 0.00029586747443088494, "loss": 0.3917, "step": 112800 }, { "epoch": 150.41333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029586674181088983, "loss": 0.3974, "step": 112810 }, { "epoch": 150.42666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002958660091268678, "loss": 0.3986, "step": 112820 }, { "epoch": 150.44, "grad_norm": 0.3984375, "learning_rate": 0.000295865276378819, "loss": 0.4097, "step": 112830 }, { "epoch": 150.45333333333335, "grad_norm": 0.423828125, "learning_rate": 0.00029586454356674393, "loss": 0.3982, "step": 112840 }, { "epoch": 150.46666666666667, "grad_norm": 0.43359375, "learning_rate": 0.0002958638106906428, "loss": 0.4074, "step": 112850 }, { "epoch": 150.48, "grad_norm": 0.412109375, "learning_rate": 0.000295863077750516, "loss": 0.3884, "step": 112860 }, { "epoch": 150.49333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002958623447463638, "loss": 0.4013, "step": 112870 }, { "epoch": 150.50666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029586161167818653, "loss": 0.3993, "step": 112880 }, { "epoch": 150.52, "grad_norm": 0.373046875, "learning_rate": 0.0002958608785459845, "loss": 0.3891, "step": 112890 }, { "epoch": 150.53333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002958601453497581, "loss": 0.3918, "step": 112900 }, { "epoch": 150.54666666666665, "grad_norm": 0.419921875, "learning_rate": 0.00029585941208950763, "loss": 0.3939, "step": 112910 }, { "epoch": 150.56, "grad_norm": 0.3359375, "learning_rate": 0.0002958586787652333, "loss": 0.3878, "step": 112920 }, { "epoch": 150.57333333333332, "grad_norm": 0.376953125, "learning_rate": 0.0002958579453769356, "loss": 0.3917, "step": 112930 }, { "epoch": 150.58666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002958572119246147, "loss": 0.3815, "step": 112940 }, { "epoch": 150.6, "grad_norm": 0.369140625, "learning_rate": 0.00029585647840827105, "loss": 0.3821, "step": 112950 }, { "epoch": 150.61333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002958557448279049, "loss": 0.3725, "step": 112960 }, { "epoch": 150.62666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029585501118351655, "loss": 0.3781, "step": 112970 }, { "epoch": 150.64, "grad_norm": 0.453125, "learning_rate": 0.0002958542774751064, "loss": 0.3903, "step": 112980 }, { "epoch": 150.65333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002958535437026747, "loss": 0.3992, "step": 112990 }, { "epoch": 150.66666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002958528098662218, "loss": 0.3873, "step": 113000 }, { "epoch": 150.68, "grad_norm": 0.416015625, "learning_rate": 0.00029585207596574805, "loss": 0.3787, "step": 113010 }, { "epoch": 150.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029585134200125373, "loss": 0.3882, "step": 113020 }, { "epoch": 150.70666666666668, "grad_norm": 0.458984375, "learning_rate": 0.0002958506079727392, "loss": 0.3806, "step": 113030 }, { "epoch": 150.72, "grad_norm": 0.396484375, "learning_rate": 0.00029584987388020474, "loss": 0.4036, "step": 113040 }, { "epoch": 150.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002958491397236507, "loss": 0.3966, "step": 113050 }, { "epoch": 150.74666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029584840550307744, "loss": 0.3991, "step": 113060 }, { "epoch": 150.76, "grad_norm": 0.380859375, "learning_rate": 0.0002958476712184852, "loss": 0.4121, "step": 113070 }, { "epoch": 150.77333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002958469368698744, "loss": 0.3987, "step": 113080 }, { "epoch": 150.78666666666666, "grad_norm": 0.35546875, "learning_rate": 0.0002958462024572452, "loss": 0.3995, "step": 113090 }, { "epoch": 150.8, "grad_norm": 0.390625, "learning_rate": 0.00029584546798059805, "loss": 0.3984, "step": 113100 }, { "epoch": 150.81333333333333, "grad_norm": 0.48046875, "learning_rate": 0.00029584473343993327, "loss": 0.3709, "step": 113110 }, { "epoch": 150.82666666666665, "grad_norm": 0.3671875, "learning_rate": 0.00029584399883525117, "loss": 0.3811, "step": 113120 }, { "epoch": 150.84, "grad_norm": 0.421875, "learning_rate": 0.00029584326416655203, "loss": 0.3926, "step": 113130 }, { "epoch": 150.85333333333332, "grad_norm": 0.40234375, "learning_rate": 0.0002958425294338362, "loss": 0.3875, "step": 113140 }, { "epoch": 150.86666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029584179463710403, "loss": 0.3931, "step": 113150 }, { "epoch": 150.88, "grad_norm": 0.486328125, "learning_rate": 0.0002958410597763558, "loss": 0.3734, "step": 113160 }, { "epoch": 150.89333333333335, "grad_norm": 0.390625, "learning_rate": 0.00029584032485159193, "loss": 0.386, "step": 113170 }, { "epoch": 150.90666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002958395898628126, "loss": 0.3917, "step": 113180 }, { "epoch": 150.92, "grad_norm": 0.451171875, "learning_rate": 0.0002958388548100182, "loss": 0.3936, "step": 113190 }, { "epoch": 150.93333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002958381196932091, "loss": 0.387, "step": 113200 }, { "epoch": 150.94666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002958373845123855, "loss": 0.3886, "step": 113210 }, { "epoch": 150.96, "grad_norm": 0.369140625, "learning_rate": 0.0002958366492675478, "loss": 0.3858, "step": 113220 }, { "epoch": 150.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029583591395869637, "loss": 0.4116, "step": 113230 }, { "epoch": 150.98666666666668, "grad_norm": 0.447265625, "learning_rate": 0.00029583517858583144, "loss": 0.3844, "step": 113240 }, { "epoch": 151.0, "grad_norm": 0.408203125, "learning_rate": 0.0002958344431489534, "loss": 0.3797, "step": 113250 }, { "epoch": 151.0, "eval_loss": 0.42617669701576233, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9986, "eval_samples_per_second": 1.6, "eval_steps_per_second": 0.1, "step": 113250 }, { "epoch": 151.01333333333332, "grad_norm": 0.4375, "learning_rate": 0.00029583370764806256, "loss": 0.3978, "step": 113260 }, { "epoch": 151.02666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002958329720831592, "loss": 0.4103, "step": 113270 }, { "epoch": 151.04, "grad_norm": 0.34765625, "learning_rate": 0.0002958322364542437, "loss": 0.4232, "step": 113280 }, { "epoch": 151.05333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029583150076131635, "loss": 0.4091, "step": 113290 }, { "epoch": 151.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002958307650043774, "loss": 0.3972, "step": 113300 }, { "epoch": 151.08, "grad_norm": 0.5078125, "learning_rate": 0.00029583002918342734, "loss": 0.4, "step": 113310 }, { "epoch": 151.09333333333333, "grad_norm": 0.447265625, "learning_rate": 0.0002958292932984664, "loss": 0.4008, "step": 113320 }, { "epoch": 151.10666666666665, "grad_norm": 0.3828125, "learning_rate": 0.0002958285573494949, "loss": 0.3892, "step": 113330 }, { "epoch": 151.12, "grad_norm": 0.4375, "learning_rate": 0.00029582782133651315, "loss": 0.3929, "step": 113340 }, { "epoch": 151.13333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002958270852595215, "loss": 0.3849, "step": 113350 }, { "epoch": 151.14666666666668, "grad_norm": 0.404296875, "learning_rate": 0.00029582634911852024, "loss": 0.4031, "step": 113360 }, { "epoch": 151.16, "grad_norm": 0.375, "learning_rate": 0.00029582561291350976, "loss": 0.3973, "step": 113370 }, { "epoch": 151.17333333333335, "grad_norm": 0.404296875, "learning_rate": 0.0002958248766444903, "loss": 0.3922, "step": 113380 }, { "epoch": 151.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002958241403114623, "loss": 0.3911, "step": 113390 }, { "epoch": 151.2, "grad_norm": 0.41015625, "learning_rate": 0.00029582340391442596, "loss": 0.3842, "step": 113400 }, { "epoch": 151.21333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002958226674533817, "loss": 0.3848, "step": 113410 }, { "epoch": 151.22666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029582193092832974, "loss": 0.3963, "step": 113420 }, { "epoch": 151.24, "grad_norm": 0.40234375, "learning_rate": 0.00029582119433927046, "loss": 0.3813, "step": 113430 }, { "epoch": 151.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029582045768620417, "loss": 0.3838, "step": 113440 }, { "epoch": 151.26666666666668, "grad_norm": 0.357421875, "learning_rate": 0.00029581972096913125, "loss": 0.3865, "step": 113450 }, { "epoch": 151.28, "grad_norm": 0.412109375, "learning_rate": 0.00029581898418805196, "loss": 0.4146, "step": 113460 }, { "epoch": 151.29333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029581824734296663, "loss": 0.3713, "step": 113470 }, { "epoch": 151.30666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002958175104338756, "loss": 0.396, "step": 113480 }, { "epoch": 151.32, "grad_norm": 0.3515625, "learning_rate": 0.0002958167734607792, "loss": 0.3971, "step": 113490 }, { "epoch": 151.33333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029581603642367773, "loss": 0.3999, "step": 113500 }, { "epoch": 151.34666666666666, "grad_norm": 0.44921875, "learning_rate": 0.00029581529932257156, "loss": 0.3916, "step": 113510 }, { "epoch": 151.36, "grad_norm": 0.458984375, "learning_rate": 0.000295814562157461, "loss": 0.3913, "step": 113520 }, { "epoch": 151.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002958138249283463, "loss": 0.3924, "step": 113530 }, { "epoch": 151.38666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002958130876352278, "loss": 0.3848, "step": 113540 }, { "epoch": 151.4, "grad_norm": 0.37109375, "learning_rate": 0.00029581235027810595, "loss": 0.3923, "step": 113550 }, { "epoch": 151.41333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002958116128569809, "loss": 0.3967, "step": 113560 }, { "epoch": 151.42666666666668, "grad_norm": 0.408203125, "learning_rate": 0.0002958108753718531, "loss": 0.3981, "step": 113570 }, { "epoch": 151.44, "grad_norm": 0.3984375, "learning_rate": 0.0002958101378227229, "loss": 0.41, "step": 113580 }, { "epoch": 151.45333333333335, "grad_norm": 0.4453125, "learning_rate": 0.0002958094002095904, "loss": 0.3976, "step": 113590 }, { "epoch": 151.46666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002958086625324562, "loss": 0.4081, "step": 113600 }, { "epoch": 151.48, "grad_norm": 0.421875, "learning_rate": 0.0002958079247913205, "loss": 0.3886, "step": 113610 }, { "epoch": 151.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029580718698618357, "loss": 0.4008, "step": 113620 }, { "epoch": 151.50666666666666, "grad_norm": 0.36328125, "learning_rate": 0.0002958064491170458, "loss": 0.3987, "step": 113630 }, { "epoch": 151.52, "grad_norm": 0.388671875, "learning_rate": 0.00029580571118390756, "loss": 0.3891, "step": 113640 }, { "epoch": 151.53333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002958049731867691, "loss": 0.3922, "step": 113650 }, { "epoch": 151.54666666666665, "grad_norm": 0.43359375, "learning_rate": 0.0002958042351256307, "loss": 0.3947, "step": 113660 }, { "epoch": 151.56, "grad_norm": 0.34765625, "learning_rate": 0.0002958034970004928, "loss": 0.3887, "step": 113670 }, { "epoch": 151.57333333333332, "grad_norm": 0.3984375, "learning_rate": 0.00029580275881135567, "loss": 0.3919, "step": 113680 }, { "epoch": 151.58666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029580202055821963, "loss": 0.3816, "step": 113690 }, { "epoch": 151.6, "grad_norm": 0.36328125, "learning_rate": 0.000295801282241085, "loss": 0.3832, "step": 113700 }, { "epoch": 151.61333333333334, "grad_norm": 0.3515625, "learning_rate": 0.0002958005438599521, "loss": 0.3726, "step": 113710 }, { "epoch": 151.62666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00029579980541482134, "loss": 0.3778, "step": 113720 }, { "epoch": 151.64, "grad_norm": 0.388671875, "learning_rate": 0.00029579906690569286, "loss": 0.3903, "step": 113730 }, { "epoch": 151.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002957983283325672, "loss": 0.3994, "step": 113740 }, { "epoch": 151.66666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002957975896954445, "loss": 0.3865, "step": 113750 }, { "epoch": 151.68, "grad_norm": 0.396484375, "learning_rate": 0.0002957968509943252, "loss": 0.3784, "step": 113760 }, { "epoch": 151.69333333333333, "grad_norm": 0.375, "learning_rate": 0.0002957961122292096, "loss": 0.3884, "step": 113770 }, { "epoch": 151.70666666666668, "grad_norm": 0.451171875, "learning_rate": 0.00029579537340009796, "loss": 0.381, "step": 113780 }, { "epoch": 151.72, "grad_norm": 0.462890625, "learning_rate": 0.0002957946345069907, "loss": 0.4022, "step": 113790 }, { "epoch": 151.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029579389554988813, "loss": 0.3968, "step": 113800 }, { "epoch": 151.74666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029579315652879045, "loss": 0.3996, "step": 113810 }, { "epoch": 151.76, "grad_norm": 0.361328125, "learning_rate": 0.00029579241744369817, "loss": 0.4114, "step": 113820 }, { "epoch": 151.77333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029579167829461145, "loss": 0.3992, "step": 113830 }, { "epoch": 151.78666666666666, "grad_norm": 0.333984375, "learning_rate": 0.0002957909390815308, "loss": 0.3988, "step": 113840 }, { "epoch": 151.8, "grad_norm": 0.3828125, "learning_rate": 0.00029579019980445633, "loss": 0.3986, "step": 113850 }, { "epoch": 151.81333333333333, "grad_norm": 0.421875, "learning_rate": 0.00029578946046338847, "loss": 0.3716, "step": 113860 }, { "epoch": 151.82666666666665, "grad_norm": 0.447265625, "learning_rate": 0.0002957887210583276, "loss": 0.3811, "step": 113870 }, { "epoch": 151.84, "grad_norm": 0.404296875, "learning_rate": 0.00029578798158927394, "loss": 0.3929, "step": 113880 }, { "epoch": 151.85333333333332, "grad_norm": 0.4140625, "learning_rate": 0.00029578724205622786, "loss": 0.3878, "step": 113890 }, { "epoch": 151.86666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002957865024591897, "loss": 0.3926, "step": 113900 }, { "epoch": 151.88, "grad_norm": 0.44140625, "learning_rate": 0.0002957857627981598, "loss": 0.3737, "step": 113910 }, { "epoch": 151.89333333333335, "grad_norm": 0.416015625, "learning_rate": 0.0002957850230731384, "loss": 0.3859, "step": 113920 }, { "epoch": 151.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029578428328412587, "loss": 0.3924, "step": 113930 }, { "epoch": 151.92, "grad_norm": 0.4140625, "learning_rate": 0.0002957835434311226, "loss": 0.3939, "step": 113940 }, { "epoch": 151.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029578280351412884, "loss": 0.3876, "step": 113950 }, { "epoch": 151.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002957820635331449, "loss": 0.3879, "step": 113960 }, { "epoch": 151.96, "grad_norm": 0.3515625, "learning_rate": 0.0002957813234881712, "loss": 0.3869, "step": 113970 }, { "epoch": 151.97333333333333, "grad_norm": 0.484375, "learning_rate": 0.000295780583379208, "loss": 0.4109, "step": 113980 }, { "epoch": 151.98666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002957798432062556, "loss": 0.3835, "step": 113990 }, { "epoch": 152.0, "grad_norm": 0.361328125, "learning_rate": 0.00029577910296931436, "loss": 0.3799, "step": 114000 }, { "epoch": 152.0, "eval_loss": 0.4273970425128937, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1, "eval_samples_per_second": 1.584, "eval_steps_per_second": 0.099, "step": 114000 }, { "epoch": 152.01333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029577836266838454, "loss": 0.397, "step": 114010 }, { "epoch": 152.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002957776223034666, "loss": 0.4118, "step": 114020 }, { "epoch": 152.04, "grad_norm": 0.3515625, "learning_rate": 0.00029577688187456077, "loss": 0.423, "step": 114030 }, { "epoch": 152.05333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029577614138166737, "loss": 0.4081, "step": 114040 }, { "epoch": 152.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002957754008247868, "loss": 0.3967, "step": 114050 }, { "epoch": 152.08, "grad_norm": 0.390625, "learning_rate": 0.00029577466020391926, "loss": 0.3995, "step": 114060 }, { "epoch": 152.09333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002957739195190652, "loss": 0.4003, "step": 114070 }, { "epoch": 152.10666666666665, "grad_norm": 0.392578125, "learning_rate": 0.0002957731787702249, "loss": 0.3886, "step": 114080 }, { "epoch": 152.12, "grad_norm": 0.435546875, "learning_rate": 0.00029577243795739867, "loss": 0.3934, "step": 114090 }, { "epoch": 152.13333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002957716970805868, "loss": 0.3847, "step": 114100 }, { "epoch": 152.14666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029577095613978973, "loss": 0.4037, "step": 114110 }, { "epoch": 152.16, "grad_norm": 0.37890625, "learning_rate": 0.0002957702151350076, "loss": 0.3975, "step": 114120 }, { "epoch": 152.17333333333335, "grad_norm": 0.421875, "learning_rate": 0.00029576947406624094, "loss": 0.3924, "step": 114130 }, { "epoch": 152.18666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029576873293349, "loss": 0.3906, "step": 114140 }, { "epoch": 152.2, "grad_norm": 0.408203125, "learning_rate": 0.00029576799173675506, "loss": 0.3833, "step": 114150 }, { "epoch": 152.21333333333334, "grad_norm": 0.421875, "learning_rate": 0.00029576725047603645, "loss": 0.3842, "step": 114160 }, { "epoch": 152.22666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002957665091513346, "loss": 0.3964, "step": 114170 }, { "epoch": 152.24, "grad_norm": 0.451171875, "learning_rate": 0.00029576576776264965, "loss": 0.3815, "step": 114180 }, { "epoch": 152.25333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029576502630998205, "loss": 0.383, "step": 114190 }, { "epoch": 152.26666666666668, "grad_norm": 0.400390625, "learning_rate": 0.0002957642847933322, "loss": 0.3853, "step": 114200 }, { "epoch": 152.28, "grad_norm": 0.40234375, "learning_rate": 0.00029576354321270024, "loss": 0.4154, "step": 114210 }, { "epoch": 152.29333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002957628015680866, "loss": 0.3719, "step": 114220 }, { "epoch": 152.30666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029576205985949164, "loss": 0.3941, "step": 114230 }, { "epoch": 152.32, "grad_norm": 0.365234375, "learning_rate": 0.0002957613180869156, "loss": 0.3971, "step": 114240 }, { "epoch": 152.33333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029576057625035885, "loss": 0.4005, "step": 114250 }, { "epoch": 152.34666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029575983434982175, "loss": 0.3915, "step": 114260 }, { "epoch": 152.36, "grad_norm": 0.43359375, "learning_rate": 0.0002957590923853045, "loss": 0.392, "step": 114270 }, { "epoch": 152.37333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002957583503568076, "loss": 0.3927, "step": 114280 }, { "epoch": 152.38666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029575760826433127, "loss": 0.3839, "step": 114290 }, { "epoch": 152.4, "grad_norm": 0.38671875, "learning_rate": 0.0002957568661078758, "loss": 0.392, "step": 114300 }, { "epoch": 152.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002957561238874416, "loss": 0.3963, "step": 114310 }, { "epoch": 152.42666666666668, "grad_norm": 0.3828125, "learning_rate": 0.000295755381603029, "loss": 0.3977, "step": 114320 }, { "epoch": 152.44, "grad_norm": 0.40234375, "learning_rate": 0.0002957546392546382, "loss": 0.4091, "step": 114330 }, { "epoch": 152.45333333333335, "grad_norm": 0.48828125, "learning_rate": 0.0002957538968422697, "loss": 0.3983, "step": 114340 }, { "epoch": 152.46666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002957531543659237, "loss": 0.407, "step": 114350 }, { "epoch": 152.48, "grad_norm": 0.40625, "learning_rate": 0.0002957524118256006, "loss": 0.3883, "step": 114360 }, { "epoch": 152.49333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002957516692213007, "loss": 0.4004, "step": 114370 }, { "epoch": 152.50666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002957509265530243, "loss": 0.399, "step": 114380 }, { "epoch": 152.52, "grad_norm": 0.33203125, "learning_rate": 0.0002957501838207717, "loss": 0.3898, "step": 114390 }, { "epoch": 152.53333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002957494410245433, "loss": 0.392, "step": 114400 }, { "epoch": 152.54666666666665, "grad_norm": 0.37890625, "learning_rate": 0.0002957486981643394, "loss": 0.3944, "step": 114410 }, { "epoch": 152.56, "grad_norm": 0.453125, "learning_rate": 0.00029574795524016037, "loss": 0.3881, "step": 114420 }, { "epoch": 152.57333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029574721225200646, "loss": 0.3915, "step": 114430 }, { "epoch": 152.58666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029574646919987806, "loss": 0.3816, "step": 114440 }, { "epoch": 152.6, "grad_norm": 0.3984375, "learning_rate": 0.0002957457260837754, "loss": 0.3816, "step": 114450 }, { "epoch": 152.61333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002957449829036989, "loss": 0.372, "step": 114460 }, { "epoch": 152.62666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002957442396596488, "loss": 0.3776, "step": 114470 }, { "epoch": 152.64, "grad_norm": 0.392578125, "learning_rate": 0.00029574349635162555, "loss": 0.389, "step": 114480 }, { "epoch": 152.65333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002957427529796294, "loss": 0.3989, "step": 114490 }, { "epoch": 152.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029574200954366066, "loss": 0.3874, "step": 114500 }, { "epoch": 152.68, "grad_norm": 0.416015625, "learning_rate": 0.0002957412660437197, "loss": 0.3779, "step": 114510 }, { "epoch": 152.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029574052247980677, "loss": 0.3873, "step": 114520 }, { "epoch": 152.70666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029573977885192235, "loss": 0.3799, "step": 114530 }, { "epoch": 152.72, "grad_norm": 0.412109375, "learning_rate": 0.0002957390351600666, "loss": 0.4031, "step": 114540 }, { "epoch": 152.73333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002957382914042399, "loss": 0.3973, "step": 114550 }, { "epoch": 152.74666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029573754758444265, "loss": 0.399, "step": 114560 }, { "epoch": 152.76, "grad_norm": 0.41796875, "learning_rate": 0.0002957368037006751, "loss": 0.412, "step": 114570 }, { "epoch": 152.77333333333334, "grad_norm": 0.455078125, "learning_rate": 0.00029573605975293757, "loss": 0.3989, "step": 114580 }, { "epoch": 152.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029573531574123046, "loss": 0.3994, "step": 114590 }, { "epoch": 152.8, "grad_norm": 0.41015625, "learning_rate": 0.000295734571665554, "loss": 0.398, "step": 114600 }, { "epoch": 152.81333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002957338275259086, "loss": 0.3724, "step": 114610 }, { "epoch": 152.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029573308332229455, "loss": 0.3815, "step": 114620 }, { "epoch": 152.84, "grad_norm": 0.416015625, "learning_rate": 0.00029573233905471214, "loss": 0.3927, "step": 114630 }, { "epoch": 152.85333333333332, "grad_norm": 0.365234375, "learning_rate": 0.00029573159472316175, "loss": 0.3879, "step": 114640 }, { "epoch": 152.86666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029573085032764365, "loss": 0.3932, "step": 114650 }, { "epoch": 152.88, "grad_norm": 0.361328125, "learning_rate": 0.0002957301058681583, "loss": 0.3738, "step": 114660 }, { "epoch": 152.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.0002957293613447059, "loss": 0.3858, "step": 114670 }, { "epoch": 152.90666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029572861675728683, "loss": 0.3917, "step": 114680 }, { "epoch": 152.92, "grad_norm": 0.404296875, "learning_rate": 0.0002957278721059013, "loss": 0.3947, "step": 114690 }, { "epoch": 152.93333333333334, "grad_norm": 0.330078125, "learning_rate": 0.00029572712739054985, "loss": 0.3883, "step": 114700 }, { "epoch": 152.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029572638261123263, "loss": 0.3886, "step": 114710 }, { "epoch": 152.96, "grad_norm": 0.359375, "learning_rate": 0.00029572563776795004, "loss": 0.3858, "step": 114720 }, { "epoch": 152.97333333333333, "grad_norm": 0.515625, "learning_rate": 0.00029572489286070245, "loss": 0.4112, "step": 114730 }, { "epoch": 152.98666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029572414788949007, "loss": 0.3838, "step": 114740 }, { "epoch": 153.0, "grad_norm": 0.36328125, "learning_rate": 0.0002957234028543133, "loss": 0.3797, "step": 114750 }, { "epoch": 153.0, "eval_loss": 0.425544410943985, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7842, "eval_samples_per_second": 1.635, "eval_steps_per_second": 0.102, "step": 114750 }, { "epoch": 153.01333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029572265775517243, "loss": 0.398, "step": 114760 }, { "epoch": 153.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002957219125920679, "loss": 0.4101, "step": 114770 }, { "epoch": 153.04, "grad_norm": 0.38671875, "learning_rate": 0.0002957211673649999, "loss": 0.4233, "step": 114780 }, { "epoch": 153.05333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002957204220739688, "loss": 0.4091, "step": 114790 }, { "epoch": 153.06666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002957196767189749, "loss": 0.3965, "step": 114800 }, { "epoch": 153.08, "grad_norm": 0.44921875, "learning_rate": 0.00029571893130001865, "loss": 0.4002, "step": 114810 }, { "epoch": 153.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029571818581710025, "loss": 0.4008, "step": 114820 }, { "epoch": 153.10666666666665, "grad_norm": 0.37890625, "learning_rate": 0.00029571744027022005, "loss": 0.3887, "step": 114830 }, { "epoch": 153.12, "grad_norm": 0.41015625, "learning_rate": 0.0002957166946593784, "loss": 0.3932, "step": 114840 }, { "epoch": 153.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029571594898457565, "loss": 0.3849, "step": 114850 }, { "epoch": 153.14666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029571520324581205, "loss": 0.4042, "step": 114860 }, { "epoch": 153.16, "grad_norm": 0.365234375, "learning_rate": 0.000295714457443088, "loss": 0.3985, "step": 114870 }, { "epoch": 153.17333333333335, "grad_norm": 0.408203125, "learning_rate": 0.00029571371157640383, "loss": 0.3921, "step": 114880 }, { "epoch": 153.18666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002957129656457598, "loss": 0.3909, "step": 114890 }, { "epoch": 153.2, "grad_norm": 0.4375, "learning_rate": 0.0002957122196511563, "loss": 0.3831, "step": 114900 }, { "epoch": 153.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002957114735925937, "loss": 0.3831, "step": 114910 }, { "epoch": 153.22666666666666, "grad_norm": 0.474609375, "learning_rate": 0.00029571072747007216, "loss": 0.395, "step": 114920 }, { "epoch": 153.24, "grad_norm": 0.412109375, "learning_rate": 0.00029570998128359215, "loss": 0.3812, "step": 114930 }, { "epoch": 153.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002957092350331539, "loss": 0.3825, "step": 114940 }, { "epoch": 153.26666666666668, "grad_norm": 0.40625, "learning_rate": 0.0002957084887187579, "loss": 0.3856, "step": 114950 }, { "epoch": 153.28, "grad_norm": 0.380859375, "learning_rate": 0.0002957077423404043, "loss": 0.4148, "step": 114960 }, { "epoch": 153.29333333333332, "grad_norm": 0.38671875, "learning_rate": 0.00029570699589809356, "loss": 0.3709, "step": 114970 }, { "epoch": 153.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002957062493918259, "loss": 0.395, "step": 114980 }, { "epoch": 153.32, "grad_norm": 0.390625, "learning_rate": 0.0002957055028216017, "loss": 0.3973, "step": 114990 }, { "epoch": 153.33333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002957047561874213, "loss": 0.3997, "step": 115000 }, { "epoch": 153.34666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029570400948928505, "loss": 0.3917, "step": 115010 }, { "epoch": 153.36, "grad_norm": 0.4765625, "learning_rate": 0.00029570326272719316, "loss": 0.3919, "step": 115020 }, { "epoch": 153.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002957025159011461, "loss": 0.3925, "step": 115030 }, { "epoch": 153.38666666666666, "grad_norm": 0.4921875, "learning_rate": 0.0002957017690111441, "loss": 0.3829, "step": 115040 }, { "epoch": 153.4, "grad_norm": 0.416015625, "learning_rate": 0.0002957010220571875, "loss": 0.3925, "step": 115050 }, { "epoch": 153.41333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029570027503927676, "loss": 0.3963, "step": 115060 }, { "epoch": 153.42666666666668, "grad_norm": 0.419921875, "learning_rate": 0.00029569952795741196, "loss": 0.3989, "step": 115070 }, { "epoch": 153.44, "grad_norm": 0.369140625, "learning_rate": 0.00029569878081159366, "loss": 0.4101, "step": 115080 }, { "epoch": 153.45333333333335, "grad_norm": 0.431640625, "learning_rate": 0.00029569803360182206, "loss": 0.3977, "step": 115090 }, { "epoch": 153.46666666666667, "grad_norm": 0.447265625, "learning_rate": 0.0002956972863280975, "loss": 0.4075, "step": 115100 }, { "epoch": 153.48, "grad_norm": 0.42578125, "learning_rate": 0.0002956965389904204, "loss": 0.3885, "step": 115110 }, { "epoch": 153.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.000295695791588791, "loss": 0.4009, "step": 115120 }, { "epoch": 153.50666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002956950441232096, "loss": 0.3992, "step": 115130 }, { "epoch": 153.52, "grad_norm": 0.328125, "learning_rate": 0.0002956942965936766, "loss": 0.3889, "step": 115140 }, { "epoch": 153.53333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002956935490001923, "loss": 0.3924, "step": 115150 }, { "epoch": 153.54666666666665, "grad_norm": 0.431640625, "learning_rate": 0.00029569280134275703, "loss": 0.3942, "step": 115160 }, { "epoch": 153.56, "grad_norm": 0.373046875, "learning_rate": 0.00029569205362137114, "loss": 0.3887, "step": 115170 }, { "epoch": 153.57333333333332, "grad_norm": 0.5078125, "learning_rate": 0.0002956913058360349, "loss": 0.3919, "step": 115180 }, { "epoch": 153.58666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029569055798674875, "loss": 0.381, "step": 115190 }, { "epoch": 153.6, "grad_norm": 0.373046875, "learning_rate": 0.00029568981007351285, "loss": 0.3826, "step": 115200 }, { "epoch": 153.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029568906209632767, "loss": 0.373, "step": 115210 }, { "epoch": 153.62666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002956883140551935, "loss": 0.3776, "step": 115220 }, { "epoch": 153.64, "grad_norm": 0.3828125, "learning_rate": 0.0002956875659501106, "loss": 0.3894, "step": 115230 }, { "epoch": 153.65333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029568681778107943, "loss": 0.3976, "step": 115240 }, { "epoch": 153.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002956860695481002, "loss": 0.3868, "step": 115250 }, { "epoch": 153.68, "grad_norm": 0.43359375, "learning_rate": 0.0002956853212511733, "loss": 0.379, "step": 115260 }, { "epoch": 153.69333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029568457289029905, "loss": 0.3871, "step": 115270 }, { "epoch": 153.70666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029568382446547775, "loss": 0.3801, "step": 115280 }, { "epoch": 153.72, "grad_norm": 0.40234375, "learning_rate": 0.00029568307597670977, "loss": 0.4025, "step": 115290 }, { "epoch": 153.73333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029568232742399543, "loss": 0.3969, "step": 115300 }, { "epoch": 153.74666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029568157880733507, "loss": 0.3993, "step": 115310 }, { "epoch": 153.76, "grad_norm": 0.470703125, "learning_rate": 0.00029568083012672895, "loss": 0.4118, "step": 115320 }, { "epoch": 153.77333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002956800813821774, "loss": 0.3986, "step": 115330 }, { "epoch": 153.78666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029567933257368086, "loss": 0.3994, "step": 115340 }, { "epoch": 153.8, "grad_norm": 0.396484375, "learning_rate": 0.0002956785837012396, "loss": 0.3981, "step": 115350 }, { "epoch": 153.81333333333333, "grad_norm": 0.451171875, "learning_rate": 0.00029567783476485386, "loss": 0.3713, "step": 115360 }, { "epoch": 153.82666666666665, "grad_norm": 0.365234375, "learning_rate": 0.0002956770857645241, "loss": 0.3806, "step": 115370 }, { "epoch": 153.84, "grad_norm": 0.455078125, "learning_rate": 0.0002956763367002506, "loss": 0.3917, "step": 115380 }, { "epoch": 153.85333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002956755875720337, "loss": 0.387, "step": 115390 }, { "epoch": 153.86666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002956748383798737, "loss": 0.3925, "step": 115400 }, { "epoch": 153.88, "grad_norm": 0.3515625, "learning_rate": 0.000295674089123771, "loss": 0.3737, "step": 115410 }, { "epoch": 153.89333333333335, "grad_norm": 0.5, "learning_rate": 0.0002956733398037258, "loss": 0.3844, "step": 115420 }, { "epoch": 153.90666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002956725904197385, "loss": 0.3921, "step": 115430 }, { "epoch": 153.92, "grad_norm": 0.435546875, "learning_rate": 0.00029567184097180945, "loss": 0.3943, "step": 115440 }, { "epoch": 153.93333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029567109145993897, "loss": 0.3875, "step": 115450 }, { "epoch": 153.94666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002956703418841274, "loss": 0.3884, "step": 115460 }, { "epoch": 153.96, "grad_norm": 0.337890625, "learning_rate": 0.000295669592244375, "loss": 0.3861, "step": 115470 }, { "epoch": 153.97333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029566884254068215, "loss": 0.4119, "step": 115480 }, { "epoch": 153.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029566809277304924, "loss": 0.3842, "step": 115490 }, { "epoch": 154.0, "grad_norm": 0.4453125, "learning_rate": 0.00029566734294147643, "loss": 0.3804, "step": 115500 }, { "epoch": 154.0, "eval_loss": 0.4268149435520172, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8534, "eval_samples_per_second": 1.624, "eval_steps_per_second": 0.101, "step": 115500 }, { "epoch": 154.01333333333332, "grad_norm": 0.37109375, "learning_rate": 0.0002956665930459642, "loss": 0.3977, "step": 115510 }, { "epoch": 154.02666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002956658430865129, "loss": 0.4108, "step": 115520 }, { "epoch": 154.04, "grad_norm": 0.416015625, "learning_rate": 0.0002956650930631227, "loss": 0.4244, "step": 115530 }, { "epoch": 154.05333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002956643429757941, "loss": 0.4095, "step": 115540 }, { "epoch": 154.06666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029566359282452725, "loss": 0.3964, "step": 115550 }, { "epoch": 154.08, "grad_norm": 0.443359375, "learning_rate": 0.0002956628426093226, "loss": 0.4001, "step": 115560 }, { "epoch": 154.09333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002956620923301806, "loss": 0.4009, "step": 115570 }, { "epoch": 154.10666666666665, "grad_norm": 0.3671875, "learning_rate": 0.0002956613419871013, "loss": 0.3891, "step": 115580 }, { "epoch": 154.12, "grad_norm": 0.396484375, "learning_rate": 0.0002956605915800852, "loss": 0.3938, "step": 115590 }, { "epoch": 154.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029565984110913263, "loss": 0.3848, "step": 115600 }, { "epoch": 154.14666666666668, "grad_norm": 0.419921875, "learning_rate": 0.00029565909057424383, "loss": 0.4039, "step": 115610 }, { "epoch": 154.16, "grad_norm": 0.35546875, "learning_rate": 0.00029565833997541926, "loss": 0.3986, "step": 115620 }, { "epoch": 154.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.0002956575893126591, "loss": 0.3926, "step": 115630 }, { "epoch": 154.18666666666667, "grad_norm": 0.443359375, "learning_rate": 0.0002956568385859638, "loss": 0.3906, "step": 115640 }, { "epoch": 154.2, "grad_norm": 0.392578125, "learning_rate": 0.00029565608779533366, "loss": 0.3829, "step": 115650 }, { "epoch": 154.21333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029565533694076893, "loss": 0.3846, "step": 115660 }, { "epoch": 154.22666666666666, "grad_norm": 0.451171875, "learning_rate": 0.00029565458602227006, "loss": 0.396, "step": 115670 }, { "epoch": 154.24, "grad_norm": 0.43359375, "learning_rate": 0.0002956538350398373, "loss": 0.381, "step": 115680 }, { "epoch": 154.25333333333333, "grad_norm": 0.421875, "learning_rate": 0.000295653083993471, "loss": 0.3821, "step": 115690 }, { "epoch": 154.26666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002956523328831715, "loss": 0.3857, "step": 115700 }, { "epoch": 154.28, "grad_norm": 0.3984375, "learning_rate": 0.0002956515817089391, "loss": 0.4154, "step": 115710 }, { "epoch": 154.29333333333332, "grad_norm": 0.349609375, "learning_rate": 0.0002956508304707742, "loss": 0.3717, "step": 115720 }, { "epoch": 154.30666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029565007916867704, "loss": 0.3954, "step": 115730 }, { "epoch": 154.32, "grad_norm": 0.33203125, "learning_rate": 0.000295649327802648, "loss": 0.3981, "step": 115740 }, { "epoch": 154.33333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029564857637268745, "loss": 0.4005, "step": 115750 }, { "epoch": 154.34666666666666, "grad_norm": 0.49609375, "learning_rate": 0.00029564782487879565, "loss": 0.3909, "step": 115760 }, { "epoch": 154.36, "grad_norm": 0.53515625, "learning_rate": 0.00029564707332097295, "loss": 0.3918, "step": 115770 }, { "epoch": 154.37333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002956463216992196, "loss": 0.3924, "step": 115780 }, { "epoch": 154.38666666666666, "grad_norm": 0.4921875, "learning_rate": 0.00029564557001353613, "loss": 0.3847, "step": 115790 }, { "epoch": 154.4, "grad_norm": 0.38671875, "learning_rate": 0.0002956448182639227, "loss": 0.3912, "step": 115800 }, { "epoch": 154.41333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029564406645037967, "loss": 0.397, "step": 115810 }, { "epoch": 154.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029564331457290744, "loss": 0.3986, "step": 115820 }, { "epoch": 154.44, "grad_norm": 0.37109375, "learning_rate": 0.00029564256263150626, "loss": 0.4102, "step": 115830 }, { "epoch": 154.45333333333335, "grad_norm": 0.458984375, "learning_rate": 0.0002956418106261765, "loss": 0.3981, "step": 115840 }, { "epoch": 154.46666666666667, "grad_norm": 0.421875, "learning_rate": 0.00029564105855691845, "loss": 0.4069, "step": 115850 }, { "epoch": 154.48, "grad_norm": 0.3828125, "learning_rate": 0.00029564030642373253, "loss": 0.3883, "step": 115860 }, { "epoch": 154.49333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029563955422661896, "loss": 0.4001, "step": 115870 }, { "epoch": 154.50666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002956388019655782, "loss": 0.3986, "step": 115880 }, { "epoch": 154.52, "grad_norm": 0.35546875, "learning_rate": 0.0002956380496406104, "loss": 0.3882, "step": 115890 }, { "epoch": 154.53333333333333, "grad_norm": 0.412109375, "learning_rate": 0.000295637297251716, "loss": 0.3912, "step": 115900 }, { "epoch": 154.54666666666665, "grad_norm": 0.439453125, "learning_rate": 0.0002956365447988954, "loss": 0.3936, "step": 115910 }, { "epoch": 154.56, "grad_norm": 0.3515625, "learning_rate": 0.0002956357922821488, "loss": 0.388, "step": 115920 }, { "epoch": 154.57333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002956350397014766, "loss": 0.3918, "step": 115930 }, { "epoch": 154.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002956342870568791, "loss": 0.381, "step": 115940 }, { "epoch": 154.6, "grad_norm": 0.34375, "learning_rate": 0.00029563353434835664, "loss": 0.3828, "step": 115950 }, { "epoch": 154.61333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002956327815759096, "loss": 0.372, "step": 115960 }, { "epoch": 154.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002956320287395382, "loss": 0.3787, "step": 115970 }, { "epoch": 154.64, "grad_norm": 0.40234375, "learning_rate": 0.00029563127583924286, "loss": 0.3894, "step": 115980 }, { "epoch": 154.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002956305228750239, "loss": 0.3989, "step": 115990 }, { "epoch": 154.66666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002956297698468816, "loss": 0.3873, "step": 116000 }, { "epoch": 154.68, "grad_norm": 0.3984375, "learning_rate": 0.0002956290167548164, "loss": 0.3786, "step": 116010 }, { "epoch": 154.69333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029562826359882846, "loss": 0.3881, "step": 116020 }, { "epoch": 154.70666666666668, "grad_norm": 0.40625, "learning_rate": 0.0002956275103789183, "loss": 0.3798, "step": 116030 }, { "epoch": 154.72, "grad_norm": 0.376953125, "learning_rate": 0.0002956267570950861, "loss": 0.4029, "step": 116040 }, { "epoch": 154.73333333333332, "grad_norm": 0.435546875, "learning_rate": 0.00029562600374733226, "loss": 0.3974, "step": 116050 }, { "epoch": 154.74666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029562525033565714, "loss": 0.3992, "step": 116060 }, { "epoch": 154.76, "grad_norm": 0.44921875, "learning_rate": 0.000295624496860061, "loss": 0.4124, "step": 116070 }, { "epoch": 154.77333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002956237433205442, "loss": 0.3985, "step": 116080 }, { "epoch": 154.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029562298971710704, "loss": 0.3992, "step": 116090 }, { "epoch": 154.8, "grad_norm": 0.419921875, "learning_rate": 0.0002956222360497499, "loss": 0.397, "step": 116100 }, { "epoch": 154.81333333333333, "grad_norm": 0.498046875, "learning_rate": 0.0002956214823184731, "loss": 0.3709, "step": 116110 }, { "epoch": 154.82666666666665, "grad_norm": 0.3828125, "learning_rate": 0.000295620728523277, "loss": 0.3807, "step": 116120 }, { "epoch": 154.84, "grad_norm": 0.41015625, "learning_rate": 0.00029561997466416183, "loss": 0.3928, "step": 116130 }, { "epoch": 154.85333333333332, "grad_norm": 0.4140625, "learning_rate": 0.000295619220741128, "loss": 0.388, "step": 116140 }, { "epoch": 154.86666666666667, "grad_norm": 0.470703125, "learning_rate": 0.0002956184667541759, "loss": 0.3932, "step": 116150 }, { "epoch": 154.88, "grad_norm": 0.37109375, "learning_rate": 0.00029561771270330574, "loss": 0.3752, "step": 116160 }, { "epoch": 154.89333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029561695858851787, "loss": 0.385, "step": 116170 }, { "epoch": 154.90666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002956162044098127, "loss": 0.3908, "step": 116180 }, { "epoch": 154.92, "grad_norm": 0.38671875, "learning_rate": 0.00029561545016719047, "loss": 0.3933, "step": 116190 }, { "epoch": 154.93333333333334, "grad_norm": 0.333984375, "learning_rate": 0.0002956146958606516, "loss": 0.3869, "step": 116200 }, { "epoch": 154.94666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029561394149019626, "loss": 0.3882, "step": 116210 }, { "epoch": 154.96, "grad_norm": 0.361328125, "learning_rate": 0.00029561318705582506, "loss": 0.3853, "step": 116220 }, { "epoch": 154.97333333333333, "grad_norm": 0.474609375, "learning_rate": 0.0002956124325575381, "loss": 0.4112, "step": 116230 }, { "epoch": 154.98666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002956116779953357, "loss": 0.384, "step": 116240 }, { "epoch": 155.0, "grad_norm": 0.3828125, "learning_rate": 0.00029561092336921835, "loss": 0.3806, "step": 116250 }, { "epoch": 155.0, "eval_loss": 0.4250892102718353, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8615, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 116250 }, { "epoch": 155.01333333333332, "grad_norm": 0.42578125, "learning_rate": 0.00029561016867918626, "loss": 0.3974, "step": 116260 }, { "epoch": 155.02666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002956094139252398, "loss": 0.4112, "step": 116270 }, { "epoch": 155.04, "grad_norm": 0.34375, "learning_rate": 0.00029560865910737934, "loss": 0.4235, "step": 116280 }, { "epoch": 155.05333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002956079042256051, "loss": 0.4094, "step": 116290 }, { "epoch": 155.06666666666666, "grad_norm": 0.43359375, "learning_rate": 0.0002956071492799175, "loss": 0.3966, "step": 116300 }, { "epoch": 155.08, "grad_norm": 0.43359375, "learning_rate": 0.000295606394270317, "loss": 0.4004, "step": 116310 }, { "epoch": 155.09333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029560563919680367, "loss": 0.4004, "step": 116320 }, { "epoch": 155.10666666666665, "grad_norm": 0.36328125, "learning_rate": 0.00029560488405937793, "loss": 0.3892, "step": 116330 }, { "epoch": 155.12, "grad_norm": 0.3984375, "learning_rate": 0.00029560412885804016, "loss": 0.3938, "step": 116340 }, { "epoch": 155.13333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002956033735927907, "loss": 0.3847, "step": 116350 }, { "epoch": 155.14666666666668, "grad_norm": 0.361328125, "learning_rate": 0.0002956026182636298, "loss": 0.4037, "step": 116360 }, { "epoch": 155.16, "grad_norm": 0.361328125, "learning_rate": 0.00029560186287055793, "loss": 0.3969, "step": 116370 }, { "epoch": 155.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.00029560110741357526, "loss": 0.3927, "step": 116380 }, { "epoch": 155.18666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029560035189268223, "loss": 0.3901, "step": 116390 }, { "epoch": 155.2, "grad_norm": 0.375, "learning_rate": 0.0002955995963078791, "loss": 0.3832, "step": 116400 }, { "epoch": 155.21333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002955988406591663, "loss": 0.3843, "step": 116410 }, { "epoch": 155.22666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002955980849465441, "loss": 0.3961, "step": 116420 }, { "epoch": 155.24, "grad_norm": 0.40625, "learning_rate": 0.00029559732917001284, "loss": 0.3809, "step": 116430 }, { "epoch": 155.25333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002955965733295728, "loss": 0.3825, "step": 116440 }, { "epoch": 155.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029559581742522436, "loss": 0.3858, "step": 116450 }, { "epoch": 155.28, "grad_norm": 0.435546875, "learning_rate": 0.0002955950614569679, "loss": 0.4159, "step": 116460 }, { "epoch": 155.29333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029559430542480366, "loss": 0.3717, "step": 116470 }, { "epoch": 155.30666666666667, "grad_norm": 0.3671875, "learning_rate": 0.000295593549328732, "loss": 0.3942, "step": 116480 }, { "epoch": 155.32, "grad_norm": 0.35546875, "learning_rate": 0.0002955927931687533, "loss": 0.398, "step": 116490 }, { "epoch": 155.33333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029559203694486786, "loss": 0.4001, "step": 116500 }, { "epoch": 155.34666666666666, "grad_norm": 0.474609375, "learning_rate": 0.00029559128065707597, "loss": 0.3913, "step": 116510 }, { "epoch": 155.36, "grad_norm": 0.466796875, "learning_rate": 0.00029559052430537807, "loss": 0.3916, "step": 116520 }, { "epoch": 155.37333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029558976788977436, "loss": 0.3915, "step": 116530 }, { "epoch": 155.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002955890114102653, "loss": 0.3844, "step": 116540 }, { "epoch": 155.4, "grad_norm": 0.365234375, "learning_rate": 0.0002955882548668511, "loss": 0.3918, "step": 116550 }, { "epoch": 155.41333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002955874982595321, "loss": 0.3962, "step": 116560 }, { "epoch": 155.42666666666668, "grad_norm": 0.380859375, "learning_rate": 0.00029558674158830875, "loss": 0.3982, "step": 116570 }, { "epoch": 155.44, "grad_norm": 0.41796875, "learning_rate": 0.0002955859848531813, "loss": 0.4097, "step": 116580 }, { "epoch": 155.45333333333335, "grad_norm": 0.4375, "learning_rate": 0.0002955852280541501, "loss": 0.3974, "step": 116590 }, { "epoch": 155.46666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002955844711912155, "loss": 0.4064, "step": 116600 }, { "epoch": 155.48, "grad_norm": 0.38671875, "learning_rate": 0.00029558371426437777, "loss": 0.3876, "step": 116610 }, { "epoch": 155.49333333333334, "grad_norm": 0.388671875, "learning_rate": 0.0002955829572736373, "loss": 0.4009, "step": 116620 }, { "epoch": 155.50666666666666, "grad_norm": 0.470703125, "learning_rate": 0.0002955822002189944, "loss": 0.397, "step": 116630 }, { "epoch": 155.52, "grad_norm": 0.359375, "learning_rate": 0.0002955814431004494, "loss": 0.3898, "step": 116640 }, { "epoch": 155.53333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029558068591800267, "loss": 0.3928, "step": 116650 }, { "epoch": 155.54666666666665, "grad_norm": 0.380859375, "learning_rate": 0.0002955799286716545, "loss": 0.3929, "step": 116660 }, { "epoch": 155.56, "grad_norm": 0.345703125, "learning_rate": 0.00029557917136140523, "loss": 0.3877, "step": 116670 }, { "epoch": 155.57333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002955784139872552, "loss": 0.392, "step": 116680 }, { "epoch": 155.58666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002955776565492047, "loss": 0.3811, "step": 116690 }, { "epoch": 155.6, "grad_norm": 0.427734375, "learning_rate": 0.00029557689904725416, "loss": 0.3829, "step": 116700 }, { "epoch": 155.61333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002955761414814038, "loss": 0.3726, "step": 116710 }, { "epoch": 155.62666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029557538385165404, "loss": 0.3775, "step": 116720 }, { "epoch": 155.64, "grad_norm": 0.37890625, "learning_rate": 0.0002955746261580052, "loss": 0.3895, "step": 116730 }, { "epoch": 155.65333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029557386840045754, "loss": 0.399, "step": 116740 }, { "epoch": 155.66666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002955731105790115, "loss": 0.3863, "step": 116750 }, { "epoch": 155.68, "grad_norm": 0.38671875, "learning_rate": 0.00029557235269366726, "loss": 0.3782, "step": 116760 }, { "epoch": 155.69333333333333, "grad_norm": 0.375, "learning_rate": 0.0002955715947444254, "loss": 0.3873, "step": 116770 }, { "epoch": 155.70666666666668, "grad_norm": 0.43359375, "learning_rate": 0.000295570836731286, "loss": 0.3804, "step": 116780 }, { "epoch": 155.72, "grad_norm": 0.38671875, "learning_rate": 0.0002955700786542495, "loss": 0.4025, "step": 116790 }, { "epoch": 155.73333333333332, "grad_norm": 0.384765625, "learning_rate": 0.0002955693205133162, "loss": 0.397, "step": 116800 }, { "epoch": 155.74666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002955685623084865, "loss": 0.398, "step": 116810 }, { "epoch": 155.76, "grad_norm": 0.390625, "learning_rate": 0.0002955678040397607, "loss": 0.4124, "step": 116820 }, { "epoch": 155.77333333333334, "grad_norm": 0.46484375, "learning_rate": 0.00029556704570713913, "loss": 0.3983, "step": 116830 }, { "epoch": 155.78666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002955662873106221, "loss": 0.3987, "step": 116840 }, { "epoch": 155.8, "grad_norm": 0.4375, "learning_rate": 0.00029556552885021, "loss": 0.3978, "step": 116850 }, { "epoch": 155.81333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002955647703259031, "loss": 0.3717, "step": 116860 }, { "epoch": 155.82666666666665, "grad_norm": 0.376953125, "learning_rate": 0.0002955640117377017, "loss": 0.3802, "step": 116870 }, { "epoch": 155.84, "grad_norm": 0.458984375, "learning_rate": 0.0002955632530856063, "loss": 0.3924, "step": 116880 }, { "epoch": 155.85333333333332, "grad_norm": 0.42578125, "learning_rate": 0.000295562494369617, "loss": 0.3878, "step": 116890 }, { "epoch": 155.86666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002955617355897343, "loss": 0.3917, "step": 116900 }, { "epoch": 155.88, "grad_norm": 0.408203125, "learning_rate": 0.0002955609767459586, "loss": 0.3733, "step": 116910 }, { "epoch": 155.89333333333335, "grad_norm": 0.40625, "learning_rate": 0.00029556021783829, "loss": 0.3849, "step": 116920 }, { "epoch": 155.90666666666667, "grad_norm": 0.396484375, "learning_rate": 0.000295559458866729, "loss": 0.3918, "step": 116930 }, { "epoch": 155.92, "grad_norm": 0.443359375, "learning_rate": 0.00029555869983127585, "loss": 0.3935, "step": 116940 }, { "epoch": 155.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029555794073193094, "loss": 0.3872, "step": 116950 }, { "epoch": 155.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002955571815686946, "loss": 0.3883, "step": 116960 }, { "epoch": 155.96, "grad_norm": 0.365234375, "learning_rate": 0.00029555642234156714, "loss": 0.387, "step": 116970 }, { "epoch": 155.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0002955556630505489, "loss": 0.4113, "step": 116980 }, { "epoch": 155.98666666666668, "grad_norm": 0.380859375, "learning_rate": 0.00029555490369564025, "loss": 0.3832, "step": 116990 }, { "epoch": 156.0, "grad_norm": 0.392578125, "learning_rate": 0.0002955541442768414, "loss": 0.3799, "step": 117000 }, { "epoch": 156.0, "eval_loss": 0.42700961232185364, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1555, "eval_samples_per_second": 1.575, "eval_steps_per_second": 0.098, "step": 117000 }, { "epoch": 156.01333333333332, "grad_norm": 0.4453125, "learning_rate": 0.0002955533847941529, "loss": 0.3973, "step": 117010 }, { "epoch": 156.02666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002955526252475749, "loss": 0.4098, "step": 117020 }, { "epoch": 156.04, "grad_norm": 0.376953125, "learning_rate": 0.00029555186563710775, "loss": 0.423, "step": 117030 }, { "epoch": 156.05333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029555110596275183, "loss": 0.4079, "step": 117040 }, { "epoch": 156.06666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002955503462245075, "loss": 0.396, "step": 117050 }, { "epoch": 156.08, "grad_norm": 0.427734375, "learning_rate": 0.00029554958642237505, "loss": 0.3992, "step": 117060 }, { "epoch": 156.09333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002955488265563548, "loss": 0.401, "step": 117070 }, { "epoch": 156.10666666666665, "grad_norm": 0.412109375, "learning_rate": 0.0002955480666264471, "loss": 0.3888, "step": 117080 }, { "epoch": 156.12, "grad_norm": 0.412109375, "learning_rate": 0.00029554730663265233, "loss": 0.3939, "step": 117090 }, { "epoch": 156.13333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029554654657497077, "loss": 0.3855, "step": 117100 }, { "epoch": 156.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029554578645340276, "loss": 0.4038, "step": 117110 }, { "epoch": 156.16, "grad_norm": 0.36328125, "learning_rate": 0.0002955450262679486, "loss": 0.3978, "step": 117120 }, { "epoch": 156.17333333333335, "grad_norm": 0.404296875, "learning_rate": 0.00029554426601860874, "loss": 0.3924, "step": 117130 }, { "epoch": 156.18666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002955435057053834, "loss": 0.3905, "step": 117140 }, { "epoch": 156.2, "grad_norm": 0.435546875, "learning_rate": 0.00029554274532827293, "loss": 0.3822, "step": 117150 }, { "epoch": 156.21333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002955419848872777, "loss": 0.3834, "step": 117160 }, { "epoch": 156.22666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029554122438239805, "loss": 0.3949, "step": 117170 }, { "epoch": 156.24, "grad_norm": 0.4296875, "learning_rate": 0.0002955404638136343, "loss": 0.3808, "step": 117180 }, { "epoch": 156.25333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002955397031809868, "loss": 0.3833, "step": 117190 }, { "epoch": 156.26666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029553894248445574, "loss": 0.3855, "step": 117200 }, { "epoch": 156.28, "grad_norm": 0.421875, "learning_rate": 0.00029553818172404166, "loss": 0.4155, "step": 117210 }, { "epoch": 156.29333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002955374208997448, "loss": 0.3714, "step": 117220 }, { "epoch": 156.30666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0002955366600115655, "loss": 0.3951, "step": 117230 }, { "epoch": 156.32, "grad_norm": 0.349609375, "learning_rate": 0.0002955358990595041, "loss": 0.3976, "step": 117240 }, { "epoch": 156.33333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029553513804356094, "loss": 0.3995, "step": 117250 }, { "epoch": 156.34666666666666, "grad_norm": 0.458984375, "learning_rate": 0.00029553437696373634, "loss": 0.3908, "step": 117260 }, { "epoch": 156.36, "grad_norm": 0.43359375, "learning_rate": 0.00029553361582003066, "loss": 0.3911, "step": 117270 }, { "epoch": 156.37333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029553285461244417, "loss": 0.3918, "step": 117280 }, { "epoch": 156.38666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029553209334097724, "loss": 0.3845, "step": 117290 }, { "epoch": 156.4, "grad_norm": 0.384765625, "learning_rate": 0.00029553133200563026, "loss": 0.3914, "step": 117300 }, { "epoch": 156.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029553057060640345, "loss": 0.3968, "step": 117310 }, { "epoch": 156.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.0002955298091432973, "loss": 0.3981, "step": 117320 }, { "epoch": 156.44, "grad_norm": 0.404296875, "learning_rate": 0.00029552904761631193, "loss": 0.4093, "step": 117330 }, { "epoch": 156.45333333333335, "grad_norm": 0.462890625, "learning_rate": 0.00029552828602544794, "loss": 0.3982, "step": 117340 }, { "epoch": 156.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029552752437070546, "loss": 0.4061, "step": 117350 }, { "epoch": 156.48, "grad_norm": 0.421875, "learning_rate": 0.0002955267626520848, "loss": 0.3886, "step": 117360 }, { "epoch": 156.49333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002955260008695865, "loss": 0.3999, "step": 117370 }, { "epoch": 156.50666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002955252390232107, "loss": 0.3986, "step": 117380 }, { "epoch": 156.52, "grad_norm": 0.375, "learning_rate": 0.0002955244771129579, "loss": 0.3896, "step": 117390 }, { "epoch": 156.53333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029552371513882827, "loss": 0.3925, "step": 117400 }, { "epoch": 156.54666666666665, "grad_norm": 0.439453125, "learning_rate": 0.0002955229531008222, "loss": 0.3939, "step": 117410 }, { "epoch": 156.56, "grad_norm": 0.330078125, "learning_rate": 0.0002955221909989401, "loss": 0.3875, "step": 117420 }, { "epoch": 156.57333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002955214288331822, "loss": 0.3921, "step": 117430 }, { "epoch": 156.58666666666667, "grad_norm": 0.375, "learning_rate": 0.0002955206666035489, "loss": 0.3803, "step": 117440 }, { "epoch": 156.6, "grad_norm": 0.349609375, "learning_rate": 0.00029551990431004053, "loss": 0.382, "step": 117450 }, { "epoch": 156.61333333333334, "grad_norm": 0.322265625, "learning_rate": 0.0002955191419526574, "loss": 0.3716, "step": 117460 }, { "epoch": 156.62666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0002955183795313999, "loss": 0.3779, "step": 117470 }, { "epoch": 156.64, "grad_norm": 0.40234375, "learning_rate": 0.00029551761704626827, "loss": 0.3897, "step": 117480 }, { "epoch": 156.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002955168544972629, "loss": 0.3989, "step": 117490 }, { "epoch": 156.66666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002955160918843841, "loss": 0.3866, "step": 117500 }, { "epoch": 156.68, "grad_norm": 0.416015625, "learning_rate": 0.00029551532920763223, "loss": 0.3773, "step": 117510 }, { "epoch": 156.69333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029551456646700766, "loss": 0.3879, "step": 117520 }, { "epoch": 156.70666666666668, "grad_norm": 0.462890625, "learning_rate": 0.0002955138036625107, "loss": 0.3802, "step": 117530 }, { "epoch": 156.72, "grad_norm": 0.39453125, "learning_rate": 0.0002955130407941416, "loss": 0.4025, "step": 117540 }, { "epoch": 156.73333333333332, "grad_norm": 0.4296875, "learning_rate": 0.0002955122778619008, "loss": 0.3961, "step": 117550 }, { "epoch": 156.74666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002955115148657886, "loss": 0.3985, "step": 117560 }, { "epoch": 156.76, "grad_norm": 0.4140625, "learning_rate": 0.00029551075180580535, "loss": 0.4124, "step": 117570 }, { "epoch": 156.77333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002955099886819513, "loss": 0.3982, "step": 117580 }, { "epoch": 156.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002955092254942269, "loss": 0.3984, "step": 117590 }, { "epoch": 156.8, "grad_norm": 0.39453125, "learning_rate": 0.00029550846224263245, "loss": 0.3969, "step": 117600 }, { "epoch": 156.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.00029550769892716823, "loss": 0.3719, "step": 117610 }, { "epoch": 156.82666666666665, "grad_norm": 0.384765625, "learning_rate": 0.0002955069355478347, "loss": 0.3804, "step": 117620 }, { "epoch": 156.84, "grad_norm": 0.384765625, "learning_rate": 0.00029550617210463205, "loss": 0.3918, "step": 117630 }, { "epoch": 156.85333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002955054085975607, "loss": 0.3872, "step": 117640 }, { "epoch": 156.86666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029550464502662096, "loss": 0.392, "step": 117650 }, { "epoch": 156.88, "grad_norm": 0.380859375, "learning_rate": 0.0002955038813918132, "loss": 0.3721, "step": 117660 }, { "epoch": 156.89333333333335, "grad_norm": 0.3671875, "learning_rate": 0.00029550311769313764, "loss": 0.385, "step": 117670 }, { "epoch": 156.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002955023539305948, "loss": 0.392, "step": 117680 }, { "epoch": 156.92, "grad_norm": 0.400390625, "learning_rate": 0.00029550159010418485, "loss": 0.3942, "step": 117690 }, { "epoch": 156.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002955008262139082, "loss": 0.3873, "step": 117700 }, { "epoch": 156.94666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029550006225976513, "loss": 0.3891, "step": 117710 }, { "epoch": 156.96, "grad_norm": 0.392578125, "learning_rate": 0.00029549929824175606, "loss": 0.3854, "step": 117720 }, { "epoch": 156.97333333333333, "grad_norm": 0.48046875, "learning_rate": 0.00029549853415988136, "loss": 0.4112, "step": 117730 }, { "epoch": 156.98666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029549777001414124, "loss": 0.384, "step": 117740 }, { "epoch": 157.0, "grad_norm": 0.40625, "learning_rate": 0.00029549700580453603, "loss": 0.3811, "step": 117750 }, { "epoch": 157.0, "eval_loss": 0.4260455071926117, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7939, "eval_samples_per_second": 1.634, "eval_steps_per_second": 0.102, "step": 117750 }, { "epoch": 157.01333333333332, "grad_norm": 0.435546875, "learning_rate": 0.0002954962415310662, "loss": 0.398, "step": 117760 }, { "epoch": 157.02666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029549547719373196, "loss": 0.4099, "step": 117770 }, { "epoch": 157.04, "grad_norm": 0.380859375, "learning_rate": 0.0002954947127925337, "loss": 0.4231, "step": 117780 }, { "epoch": 157.05333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029549394832747175, "loss": 0.4087, "step": 117790 }, { "epoch": 157.06666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029549318379854645, "loss": 0.3965, "step": 117800 }, { "epoch": 157.08, "grad_norm": 0.4375, "learning_rate": 0.0002954924192057581, "loss": 0.3997, "step": 117810 }, { "epoch": 157.09333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029549165454910713, "loss": 0.4006, "step": 117820 }, { "epoch": 157.10666666666665, "grad_norm": 0.337890625, "learning_rate": 0.0002954908898285938, "loss": 0.3878, "step": 117830 }, { "epoch": 157.12, "grad_norm": 0.453125, "learning_rate": 0.0002954901250442184, "loss": 0.3933, "step": 117840 }, { "epoch": 157.13333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029548936019598135, "loss": 0.3843, "step": 117850 }, { "epoch": 157.14666666666668, "grad_norm": 0.388671875, "learning_rate": 0.00029548859528388295, "loss": 0.4032, "step": 117860 }, { "epoch": 157.16, "grad_norm": 0.388671875, "learning_rate": 0.0002954878303079236, "loss": 0.3982, "step": 117870 }, { "epoch": 157.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.0002954870652681035, "loss": 0.3913, "step": 117880 }, { "epoch": 157.18666666666667, "grad_norm": 0.431640625, "learning_rate": 0.0002954863001644232, "loss": 0.3906, "step": 117890 }, { "epoch": 157.2, "grad_norm": 0.39453125, "learning_rate": 0.00029548553499688274, "loss": 0.3828, "step": 117900 }, { "epoch": 157.21333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029548476976548274, "loss": 0.3843, "step": 117910 }, { "epoch": 157.22666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002954840044702233, "loss": 0.3955, "step": 117920 }, { "epoch": 157.24, "grad_norm": 0.373046875, "learning_rate": 0.0002954832391111049, "loss": 0.3801, "step": 117930 }, { "epoch": 157.25333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002954824736881279, "loss": 0.3834, "step": 117940 }, { "epoch": 157.26666666666668, "grad_norm": 0.376953125, "learning_rate": 0.00029548170820129253, "loss": 0.3851, "step": 117950 }, { "epoch": 157.28, "grad_norm": 0.43359375, "learning_rate": 0.00029548094265059927, "loss": 0.4145, "step": 117960 }, { "epoch": 157.29333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029548017703604824, "loss": 0.3709, "step": 117970 }, { "epoch": 157.30666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029547941135764, "loss": 0.3941, "step": 117980 }, { "epoch": 157.32, "grad_norm": 0.341796875, "learning_rate": 0.0002954786456153747, "loss": 0.3974, "step": 117990 }, { "epoch": 157.33333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002954778798092528, "loss": 0.4001, "step": 118000 }, { "epoch": 157.34666666666666, "grad_norm": 0.5, "learning_rate": 0.0002954771139392746, "loss": 0.3906, "step": 118010 }, { "epoch": 157.36, "grad_norm": 0.5078125, "learning_rate": 0.0002954763480054404, "loss": 0.3918, "step": 118020 }, { "epoch": 157.37333333333333, "grad_norm": 0.349609375, "learning_rate": 0.00029547558200775065, "loss": 0.3925, "step": 118030 }, { "epoch": 157.38666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002954748159462055, "loss": 0.3832, "step": 118040 }, { "epoch": 157.4, "grad_norm": 0.4296875, "learning_rate": 0.00029547404982080546, "loss": 0.3921, "step": 118050 }, { "epoch": 157.41333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002954732836315508, "loss": 0.3958, "step": 118060 }, { "epoch": 157.42666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029547251737844187, "loss": 0.398, "step": 118070 }, { "epoch": 157.44, "grad_norm": 0.4140625, "learning_rate": 0.0002954717510614789, "loss": 0.4089, "step": 118080 }, { "epoch": 157.45333333333335, "grad_norm": 0.466796875, "learning_rate": 0.0002954709846806624, "loss": 0.3977, "step": 118090 }, { "epoch": 157.46666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029547021823599263, "loss": 0.4065, "step": 118100 }, { "epoch": 157.48, "grad_norm": 0.38671875, "learning_rate": 0.00029546945172746986, "loss": 0.3886, "step": 118110 }, { "epoch": 157.49333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002954686851550945, "loss": 0.4005, "step": 118120 }, { "epoch": 157.50666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029546791851886686, "loss": 0.3987, "step": 118130 }, { "epoch": 157.52, "grad_norm": 0.330078125, "learning_rate": 0.0002954671518187874, "loss": 0.3882, "step": 118140 }, { "epoch": 157.53333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029546638505485625, "loss": 0.3916, "step": 118150 }, { "epoch": 157.54666666666665, "grad_norm": 0.44140625, "learning_rate": 0.00029546561822707383, "loss": 0.3933, "step": 118160 }, { "epoch": 157.56, "grad_norm": 0.392578125, "learning_rate": 0.00029546485133544057, "loss": 0.3877, "step": 118170 }, { "epoch": 157.57333333333332, "grad_norm": 0.40234375, "learning_rate": 0.00029546408437995664, "loss": 0.3919, "step": 118180 }, { "epoch": 157.58666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002954633173606225, "loss": 0.3802, "step": 118190 }, { "epoch": 157.6, "grad_norm": 0.38671875, "learning_rate": 0.0002954625502774385, "loss": 0.3824, "step": 118200 }, { "epoch": 157.61333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002954617831304048, "loss": 0.3721, "step": 118210 }, { "epoch": 157.62666666666667, "grad_norm": 0.400390625, "learning_rate": 0.000295461015919522, "loss": 0.3782, "step": 118220 }, { "epoch": 157.64, "grad_norm": 0.42578125, "learning_rate": 0.00029546024864479024, "loss": 0.39, "step": 118230 }, { "epoch": 157.65333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029545948130620987, "loss": 0.3987, "step": 118240 }, { "epoch": 157.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002954587139037814, "loss": 0.3862, "step": 118250 }, { "epoch": 157.68, "grad_norm": 0.416015625, "learning_rate": 0.00029545794643750487, "loss": 0.3776, "step": 118260 }, { "epoch": 157.69333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002954571789073809, "loss": 0.387, "step": 118270 }, { "epoch": 157.70666666666668, "grad_norm": 0.455078125, "learning_rate": 0.0002954564113134097, "loss": 0.3811, "step": 118280 }, { "epoch": 157.72, "grad_norm": 0.349609375, "learning_rate": 0.0002954556436555916, "loss": 0.4019, "step": 118290 }, { "epoch": 157.73333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029545487593392696, "loss": 0.3963, "step": 118300 }, { "epoch": 157.74666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002954541081484161, "loss": 0.399, "step": 118310 }, { "epoch": 157.76, "grad_norm": 0.458984375, "learning_rate": 0.00029545334029905943, "loss": 0.4115, "step": 118320 }, { "epoch": 157.77333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002954525723858572, "loss": 0.3989, "step": 118330 }, { "epoch": 157.78666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029545180440880976, "loss": 0.3999, "step": 118340 }, { "epoch": 157.8, "grad_norm": 0.4296875, "learning_rate": 0.0002954510363679175, "loss": 0.3975, "step": 118350 }, { "epoch": 157.81333333333333, "grad_norm": 0.4609375, "learning_rate": 0.00029545026826318066, "loss": 0.3712, "step": 118360 }, { "epoch": 157.82666666666665, "grad_norm": 0.453125, "learning_rate": 0.00029544950009459967, "loss": 0.3804, "step": 118370 }, { "epoch": 157.84, "grad_norm": 0.40234375, "learning_rate": 0.00029544873186217483, "loss": 0.3923, "step": 118380 }, { "epoch": 157.85333333333332, "grad_norm": 0.451171875, "learning_rate": 0.00029544796356590654, "loss": 0.3879, "step": 118390 }, { "epoch": 157.86666666666667, "grad_norm": 0.4140625, "learning_rate": 0.000295447195205795, "loss": 0.3913, "step": 118400 }, { "epoch": 157.88, "grad_norm": 0.388671875, "learning_rate": 0.00029544642678184065, "loss": 0.3733, "step": 118410 }, { "epoch": 157.89333333333335, "grad_norm": 0.365234375, "learning_rate": 0.00029544565829404376, "loss": 0.3853, "step": 118420 }, { "epoch": 157.90666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029544488974240477, "loss": 0.391, "step": 118430 }, { "epoch": 157.92, "grad_norm": 0.431640625, "learning_rate": 0.000295444121126924, "loss": 0.3936, "step": 118440 }, { "epoch": 157.93333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029544335244760165, "loss": 0.3866, "step": 118450 }, { "epoch": 157.94666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002954425837044382, "loss": 0.3878, "step": 118460 }, { "epoch": 157.96, "grad_norm": 0.376953125, "learning_rate": 0.00029544181489743395, "loss": 0.3866, "step": 118470 }, { "epoch": 157.97333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002954410460265892, "loss": 0.4104, "step": 118480 }, { "epoch": 157.98666666666668, "grad_norm": 0.427734375, "learning_rate": 0.0002954402770919043, "loss": 0.3834, "step": 118490 }, { "epoch": 158.0, "grad_norm": 0.384765625, "learning_rate": 0.00029543950809337964, "loss": 0.3799, "step": 118500 }, { "epoch": 158.0, "eval_loss": 0.42594558000564575, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0497, "eval_samples_per_second": 1.592, "eval_steps_per_second": 0.1, "step": 118500 }, { "epoch": 158.01333333333332, "grad_norm": 0.423828125, "learning_rate": 0.0002954387390310155, "loss": 0.397, "step": 118510 }, { "epoch": 158.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029543796990481224, "loss": 0.411, "step": 118520 }, { "epoch": 158.04, "grad_norm": 0.380859375, "learning_rate": 0.00029543720071477023, "loss": 0.4234, "step": 118530 }, { "epoch": 158.05333333333334, "grad_norm": 0.435546875, "learning_rate": 0.00029543643146088974, "loss": 0.4088, "step": 118540 }, { "epoch": 158.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002954356621431711, "loss": 0.3963, "step": 118550 }, { "epoch": 158.08, "grad_norm": 0.40625, "learning_rate": 0.0002954348927616148, "loss": 0.3997, "step": 118560 }, { "epoch": 158.09333333333333, "grad_norm": 0.408203125, "learning_rate": 0.000295434123316221, "loss": 0.4004, "step": 118570 }, { "epoch": 158.10666666666665, "grad_norm": 0.40625, "learning_rate": 0.0002954333538069901, "loss": 0.3888, "step": 118580 }, { "epoch": 158.12, "grad_norm": 0.44140625, "learning_rate": 0.00029543258423392246, "loss": 0.3932, "step": 118590 }, { "epoch": 158.13333333333333, "grad_norm": 0.40234375, "learning_rate": 0.0002954318145970184, "loss": 0.3846, "step": 118600 }, { "epoch": 158.14666666666668, "grad_norm": 0.375, "learning_rate": 0.00029543104489627823, "loss": 0.4036, "step": 118610 }, { "epoch": 158.16, "grad_norm": 0.373046875, "learning_rate": 0.0002954302751317023, "loss": 0.3975, "step": 118620 }, { "epoch": 158.17333333333335, "grad_norm": 0.384765625, "learning_rate": 0.000295429505303291, "loss": 0.3924, "step": 118630 }, { "epoch": 158.18666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029542873541104465, "loss": 0.3904, "step": 118640 }, { "epoch": 158.2, "grad_norm": 0.365234375, "learning_rate": 0.0002954279654549635, "loss": 0.3831, "step": 118650 }, { "epoch": 158.21333333333334, "grad_norm": 0.373046875, "learning_rate": 0.000295427195435048, "loss": 0.3835, "step": 118660 }, { "epoch": 158.22666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029542642535129845, "loss": 0.3956, "step": 118670 }, { "epoch": 158.24, "grad_norm": 0.40625, "learning_rate": 0.0002954256552037152, "loss": 0.3801, "step": 118680 }, { "epoch": 158.25333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029542488499229854, "loss": 0.3824, "step": 118690 }, { "epoch": 158.26666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002954241147170488, "loss": 0.3848, "step": 118700 }, { "epoch": 158.28, "grad_norm": 0.462890625, "learning_rate": 0.0002954233443779664, "loss": 0.4154, "step": 118710 }, { "epoch": 158.29333333333332, "grad_norm": 0.416015625, "learning_rate": 0.0002954225739750517, "loss": 0.3716, "step": 118720 }, { "epoch": 158.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002954218035083049, "loss": 0.3945, "step": 118730 }, { "epoch": 158.32, "grad_norm": 0.34375, "learning_rate": 0.00029542103297772643, "loss": 0.3981, "step": 118740 }, { "epoch": 158.33333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029542026238331664, "loss": 0.3997, "step": 118750 }, { "epoch": 158.34666666666666, "grad_norm": 0.52734375, "learning_rate": 0.00029541949172507575, "loss": 0.3905, "step": 118760 }, { "epoch": 158.36, "grad_norm": 0.443359375, "learning_rate": 0.00029541872100300424, "loss": 0.3913, "step": 118770 }, { "epoch": 158.37333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002954179502171024, "loss": 0.3923, "step": 118780 }, { "epoch": 158.38666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029541717936737053, "loss": 0.3839, "step": 118790 }, { "epoch": 158.4, "grad_norm": 0.37890625, "learning_rate": 0.0002954164084538091, "loss": 0.3916, "step": 118800 }, { "epoch": 158.41333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002954156374764182, "loss": 0.3959, "step": 118810 }, { "epoch": 158.42666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002954148664351984, "loss": 0.3976, "step": 118820 }, { "epoch": 158.44, "grad_norm": 0.39453125, "learning_rate": 0.00029541409533015, "loss": 0.4087, "step": 118830 }, { "epoch": 158.45333333333335, "grad_norm": 0.427734375, "learning_rate": 0.00029541332416127325, "loss": 0.3981, "step": 118840 }, { "epoch": 158.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029541255292856854, "loss": 0.4062, "step": 118850 }, { "epoch": 158.48, "grad_norm": 0.392578125, "learning_rate": 0.0002954117816320362, "loss": 0.3886, "step": 118860 }, { "epoch": 158.49333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002954110102716765, "loss": 0.4001, "step": 118870 }, { "epoch": 158.50666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029541023884749, "loss": 0.3984, "step": 118880 }, { "epoch": 158.52, "grad_norm": 0.3515625, "learning_rate": 0.00029540946735947675, "loss": 0.3893, "step": 118890 }, { "epoch": 158.53333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002954086958076373, "loss": 0.3917, "step": 118900 }, { "epoch": 158.54666666666665, "grad_norm": 0.4140625, "learning_rate": 0.0002954079241919719, "loss": 0.3925, "step": 118910 }, { "epoch": 158.56, "grad_norm": 0.41015625, "learning_rate": 0.0002954071525124809, "loss": 0.3884, "step": 118920 }, { "epoch": 158.57333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029540638076916464, "loss": 0.3919, "step": 118930 }, { "epoch": 158.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029540560896202343, "loss": 0.3804, "step": 118940 }, { "epoch": 158.6, "grad_norm": 0.333984375, "learning_rate": 0.0002954048370910577, "loss": 0.3823, "step": 118950 }, { "epoch": 158.61333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002954040651562677, "loss": 0.3719, "step": 118960 }, { "epoch": 158.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029540329315765377, "loss": 0.3785, "step": 118970 }, { "epoch": 158.64, "grad_norm": 0.41015625, "learning_rate": 0.00029540252109521635, "loss": 0.3885, "step": 118980 }, { "epoch": 158.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029540174896895563, "loss": 0.3985, "step": 118990 }, { "epoch": 158.66666666666666, "grad_norm": 0.359375, "learning_rate": 0.00029540097677887206, "loss": 0.3859, "step": 119000 }, { "epoch": 158.68, "grad_norm": 0.400390625, "learning_rate": 0.0002954002045249659, "loss": 0.3778, "step": 119010 }, { "epoch": 158.69333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002953994322072376, "loss": 0.3875, "step": 119020 }, { "epoch": 158.70666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002953986598256874, "loss": 0.3805, "step": 119030 }, { "epoch": 158.72, "grad_norm": 0.423828125, "learning_rate": 0.0002953978873803157, "loss": 0.4022, "step": 119040 }, { "epoch": 158.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029539711487112274, "loss": 0.396, "step": 119050 }, { "epoch": 158.74666666666667, "grad_norm": 0.353515625, "learning_rate": 0.000295396342298109, "loss": 0.3986, "step": 119060 }, { "epoch": 158.76, "grad_norm": 0.462890625, "learning_rate": 0.0002953955696612747, "loss": 0.4117, "step": 119070 }, { "epoch": 158.77333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029539479696062026, "loss": 0.398, "step": 119080 }, { "epoch": 158.78666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029539402419614594, "loss": 0.399, "step": 119090 }, { "epoch": 158.8, "grad_norm": 0.39453125, "learning_rate": 0.0002953932513678522, "loss": 0.3982, "step": 119100 }, { "epoch": 158.81333333333333, "grad_norm": 0.466796875, "learning_rate": 0.00029539247847573923, "loss": 0.3713, "step": 119110 }, { "epoch": 158.82666666666665, "grad_norm": 0.478515625, "learning_rate": 0.00029539170551980744, "loss": 0.3816, "step": 119120 }, { "epoch": 158.84, "grad_norm": 0.4765625, "learning_rate": 0.00029539093250005724, "loss": 0.3929, "step": 119130 }, { "epoch": 158.85333333333332, "grad_norm": 0.44921875, "learning_rate": 0.0002953901594164889, "loss": 0.3869, "step": 119140 }, { "epoch": 158.86666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002953893862691027, "loss": 0.3919, "step": 119150 }, { "epoch": 158.88, "grad_norm": 0.46875, "learning_rate": 0.0002953886130578991, "loss": 0.3733, "step": 119160 }, { "epoch": 158.89333333333335, "grad_norm": 0.359375, "learning_rate": 0.0002953878397828783, "loss": 0.3848, "step": 119170 }, { "epoch": 158.90666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002953870664440408, "loss": 0.3916, "step": 119180 }, { "epoch": 158.92, "grad_norm": 0.408203125, "learning_rate": 0.0002953862930413868, "loss": 0.3937, "step": 119190 }, { "epoch": 158.93333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029538551957491673, "loss": 0.3874, "step": 119200 }, { "epoch": 158.94666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002953847460446309, "loss": 0.3881, "step": 119210 }, { "epoch": 158.96, "grad_norm": 0.359375, "learning_rate": 0.0002953839724505297, "loss": 0.3872, "step": 119220 }, { "epoch": 158.97333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029538319879261337, "loss": 0.411, "step": 119230 }, { "epoch": 158.98666666666668, "grad_norm": 0.388671875, "learning_rate": 0.00029538242507088226, "loss": 0.3834, "step": 119240 }, { "epoch": 159.0, "grad_norm": 0.376953125, "learning_rate": 0.00029538165128533675, "loss": 0.3798, "step": 119250 }, { "epoch": 159.0, "eval_loss": 0.4245608150959015, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9562, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 119250 }, { "epoch": 159.01333333333332, "grad_norm": 0.421875, "learning_rate": 0.0002953808774359772, "loss": 0.3975, "step": 119260 }, { "epoch": 159.02666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029538010352280397, "loss": 0.4111, "step": 119270 }, { "epoch": 159.04, "grad_norm": 0.388671875, "learning_rate": 0.0002953793295458173, "loss": 0.4234, "step": 119280 }, { "epoch": 159.05333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002953785555050176, "loss": 0.4096, "step": 119290 }, { "epoch": 159.06666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002953777814004052, "loss": 0.3955, "step": 119300 }, { "epoch": 159.08, "grad_norm": 0.419921875, "learning_rate": 0.0002953770072319804, "loss": 0.4002, "step": 119310 }, { "epoch": 159.09333333333333, "grad_norm": 0.474609375, "learning_rate": 0.0002953762329997436, "loss": 0.3999, "step": 119320 }, { "epoch": 159.10666666666665, "grad_norm": 0.40234375, "learning_rate": 0.00029537545870369516, "loss": 0.389, "step": 119330 }, { "epoch": 159.12, "grad_norm": 0.3984375, "learning_rate": 0.0002953746843438353, "loss": 0.3942, "step": 119340 }, { "epoch": 159.13333333333333, "grad_norm": 0.455078125, "learning_rate": 0.0002953739099201645, "loss": 0.3847, "step": 119350 }, { "epoch": 159.14666666666668, "grad_norm": 0.419921875, "learning_rate": 0.00029537313543268295, "loss": 0.4038, "step": 119360 }, { "epoch": 159.16, "grad_norm": 0.357421875, "learning_rate": 0.00029537236088139114, "loss": 0.398, "step": 119370 }, { "epoch": 159.17333333333335, "grad_norm": 0.40625, "learning_rate": 0.0002953715862662893, "loss": 0.3922, "step": 119380 }, { "epoch": 159.18666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002953708115873779, "loss": 0.3909, "step": 119390 }, { "epoch": 159.2, "grad_norm": 0.375, "learning_rate": 0.00029537003684465714, "loss": 0.3835, "step": 119400 }, { "epoch": 159.21333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002953692620381274, "loss": 0.3839, "step": 119410 }, { "epoch": 159.22666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029536848716778903, "loss": 0.3949, "step": 119420 }, { "epoch": 159.24, "grad_norm": 0.466796875, "learning_rate": 0.0002953677122336424, "loss": 0.381, "step": 119430 }, { "epoch": 159.25333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002953669372356878, "loss": 0.382, "step": 119440 }, { "epoch": 159.26666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029536616217392563, "loss": 0.3854, "step": 119450 }, { "epoch": 159.28, "grad_norm": 0.40625, "learning_rate": 0.00029536538704835616, "loss": 0.4148, "step": 119460 }, { "epoch": 159.29333333333332, "grad_norm": 0.376953125, "learning_rate": 0.00029536461185897977, "loss": 0.3705, "step": 119470 }, { "epoch": 159.30666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029536383660579683, "loss": 0.3949, "step": 119480 }, { "epoch": 159.32, "grad_norm": 0.353515625, "learning_rate": 0.0002953630612888076, "loss": 0.3972, "step": 119490 }, { "epoch": 159.33333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002953622859080125, "loss": 0.3997, "step": 119500 }, { "epoch": 159.34666666666666, "grad_norm": 0.482421875, "learning_rate": 0.00029536151046341184, "loss": 0.3912, "step": 119510 }, { "epoch": 159.36, "grad_norm": 0.478515625, "learning_rate": 0.0002953607349550059, "loss": 0.3903, "step": 119520 }, { "epoch": 159.37333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029535995938279513, "loss": 0.3925, "step": 119530 }, { "epoch": 159.38666666666666, "grad_norm": 0.466796875, "learning_rate": 0.0002953591837467798, "loss": 0.3843, "step": 119540 }, { "epoch": 159.4, "grad_norm": 0.35546875, "learning_rate": 0.0002953584080469603, "loss": 0.3923, "step": 119550 }, { "epoch": 159.41333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002953576322833369, "loss": 0.3964, "step": 119560 }, { "epoch": 159.42666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029535685645590997, "loss": 0.3981, "step": 119570 }, { "epoch": 159.44, "grad_norm": 0.40625, "learning_rate": 0.0002953560805646799, "loss": 0.4095, "step": 119580 }, { "epoch": 159.45333333333335, "grad_norm": 0.4296875, "learning_rate": 0.00029535530460964693, "loss": 0.3978, "step": 119590 }, { "epoch": 159.46666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029535452859081153, "loss": 0.4068, "step": 119600 }, { "epoch": 159.48, "grad_norm": 0.35546875, "learning_rate": 0.0002953537525081739, "loss": 0.3879, "step": 119610 }, { "epoch": 159.49333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029535297636173454, "loss": 0.4009, "step": 119620 }, { "epoch": 159.50666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029535220015149366, "loss": 0.3985, "step": 119630 }, { "epoch": 159.52, "grad_norm": 0.341796875, "learning_rate": 0.00029535142387745165, "loss": 0.3893, "step": 119640 }, { "epoch": 159.53333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029535064753960884, "loss": 0.3919, "step": 119650 }, { "epoch": 159.54666666666665, "grad_norm": 0.416015625, "learning_rate": 0.00029534987113796556, "loss": 0.3939, "step": 119660 }, { "epoch": 159.56, "grad_norm": 0.37109375, "learning_rate": 0.0002953490946725222, "loss": 0.3877, "step": 119670 }, { "epoch": 159.57333333333332, "grad_norm": 0.369140625, "learning_rate": 0.000295348318143279, "loss": 0.3915, "step": 119680 }, { "epoch": 159.58666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002953475415502364, "loss": 0.38, "step": 119690 }, { "epoch": 159.6, "grad_norm": 0.412109375, "learning_rate": 0.00029534676489339476, "loss": 0.3822, "step": 119700 }, { "epoch": 159.61333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002953459881727543, "loss": 0.3721, "step": 119710 }, { "epoch": 159.62666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029534521138831546, "loss": 0.3785, "step": 119720 }, { "epoch": 159.64, "grad_norm": 0.4296875, "learning_rate": 0.00029534443454007857, "loss": 0.389, "step": 119730 }, { "epoch": 159.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002953436576280439, "loss": 0.3985, "step": 119740 }, { "epoch": 159.66666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002953428806522119, "loss": 0.3867, "step": 119750 }, { "epoch": 159.68, "grad_norm": 0.408203125, "learning_rate": 0.0002953421036125828, "loss": 0.3782, "step": 119760 }, { "epoch": 159.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.000295341326509157, "loss": 0.3874, "step": 119770 }, { "epoch": 159.70666666666668, "grad_norm": 0.421875, "learning_rate": 0.0002953405493419349, "loss": 0.3801, "step": 119780 }, { "epoch": 159.72, "grad_norm": 0.45703125, "learning_rate": 0.00029533977211091675, "loss": 0.4029, "step": 119790 }, { "epoch": 159.73333333333332, "grad_norm": 0.431640625, "learning_rate": 0.0002953389948161029, "loss": 0.396, "step": 119800 }, { "epoch": 159.74666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002953382174574937, "loss": 0.3988, "step": 119810 }, { "epoch": 159.76, "grad_norm": 0.421875, "learning_rate": 0.0002953374400350895, "loss": 0.4118, "step": 119820 }, { "epoch": 159.77333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002953366625488907, "loss": 0.3979, "step": 119830 }, { "epoch": 159.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029533588499889755, "loss": 0.3988, "step": 119840 }, { "epoch": 159.8, "grad_norm": 0.400390625, "learning_rate": 0.0002953351073851104, "loss": 0.3973, "step": 119850 }, { "epoch": 159.81333333333333, "grad_norm": 0.52734375, "learning_rate": 0.00029533432970752963, "loss": 0.3704, "step": 119860 }, { "epoch": 159.82666666666665, "grad_norm": 0.47265625, "learning_rate": 0.00029533355196615556, "loss": 0.3808, "step": 119870 }, { "epoch": 159.84, "grad_norm": 0.3984375, "learning_rate": 0.00029533277416098855, "loss": 0.3922, "step": 119880 }, { "epoch": 159.85333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029533199629202893, "loss": 0.3875, "step": 119890 }, { "epoch": 159.86666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0002953312183592771, "loss": 0.3911, "step": 119900 }, { "epoch": 159.88, "grad_norm": 0.353515625, "learning_rate": 0.0002953304403627332, "loss": 0.3731, "step": 119910 }, { "epoch": 159.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029532966230239787, "loss": 0.3852, "step": 119920 }, { "epoch": 159.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002953288841782712, "loss": 0.3916, "step": 119930 }, { "epoch": 159.92, "grad_norm": 0.4140625, "learning_rate": 0.0002953281059903536, "loss": 0.393, "step": 119940 }, { "epoch": 159.93333333333334, "grad_norm": 0.375, "learning_rate": 0.00029532732773864554, "loss": 0.3872, "step": 119950 }, { "epoch": 159.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002953265494231472, "loss": 0.3888, "step": 119960 }, { "epoch": 159.96, "grad_norm": 0.357421875, "learning_rate": 0.000295325771043859, "loss": 0.386, "step": 119970 }, { "epoch": 159.97333333333333, "grad_norm": 0.50390625, "learning_rate": 0.00029532499260078127, "loss": 0.4107, "step": 119980 }, { "epoch": 159.98666666666668, "grad_norm": 0.369140625, "learning_rate": 0.00029532421409391433, "loss": 0.3835, "step": 119990 }, { "epoch": 160.0, "grad_norm": 0.404296875, "learning_rate": 0.0002953234355232586, "loss": 0.3798, "step": 120000 }, { "epoch": 160.0, "eval_loss": 0.425727903842926, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2961, "eval_samples_per_second": 1.554, "eval_steps_per_second": 0.097, "step": 120000 }, { "epoch": 160.01333333333332, "grad_norm": 0.4453125, "learning_rate": 0.0002953226568888142, "loss": 0.3974, "step": 120010 }, { "epoch": 160.02666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002953218781905818, "loss": 0.4107, "step": 120020 }, { "epoch": 160.04, "grad_norm": 0.404296875, "learning_rate": 0.0002953210994285615, "loss": 0.4235, "step": 120030 }, { "epoch": 160.05333333333334, "grad_norm": 0.443359375, "learning_rate": 0.0002953203206027537, "loss": 0.4086, "step": 120040 }, { "epoch": 160.06666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002953195417131588, "loss": 0.3958, "step": 120050 }, { "epoch": 160.08, "grad_norm": 0.466796875, "learning_rate": 0.0002953187627597771, "loss": 0.3987, "step": 120060 }, { "epoch": 160.09333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029531798374260893, "loss": 0.4007, "step": 120070 }, { "epoch": 160.10666666666665, "grad_norm": 0.421875, "learning_rate": 0.0002953172046616546, "loss": 0.3883, "step": 120080 }, { "epoch": 160.12, "grad_norm": 0.37890625, "learning_rate": 0.0002953164255169145, "loss": 0.3934, "step": 120090 }, { "epoch": 160.13333333333333, "grad_norm": 0.3828125, "learning_rate": 0.000295315646308389, "loss": 0.3845, "step": 120100 }, { "epoch": 160.14666666666668, "grad_norm": 0.44140625, "learning_rate": 0.00029531486703607843, "loss": 0.4041, "step": 120110 }, { "epoch": 160.16, "grad_norm": 0.359375, "learning_rate": 0.0002953140876999831, "loss": 0.3977, "step": 120120 }, { "epoch": 160.17333333333335, "grad_norm": 0.419921875, "learning_rate": 0.00029531330830010334, "loss": 0.3913, "step": 120130 }, { "epoch": 160.18666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029531252883643953, "loss": 0.3909, "step": 120140 }, { "epoch": 160.2, "grad_norm": 0.404296875, "learning_rate": 0.00029531174930899195, "loss": 0.3824, "step": 120150 }, { "epoch": 160.21333333333334, "grad_norm": 0.466796875, "learning_rate": 0.000295310969717761, "loss": 0.3833, "step": 120160 }, { "epoch": 160.22666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002953101900627471, "loss": 0.3946, "step": 120170 }, { "epoch": 160.24, "grad_norm": 0.40234375, "learning_rate": 0.00029530941034395044, "loss": 0.3808, "step": 120180 }, { "epoch": 160.25333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002953086305613714, "loss": 0.3824, "step": 120190 }, { "epoch": 160.26666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002953078507150104, "loss": 0.3857, "step": 120200 }, { "epoch": 160.28, "grad_norm": 0.478515625, "learning_rate": 0.0002953070708048677, "loss": 0.4143, "step": 120210 }, { "epoch": 160.29333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029530629083094365, "loss": 0.3711, "step": 120220 }, { "epoch": 160.30666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029530551079323864, "loss": 0.3943, "step": 120230 }, { "epoch": 160.32, "grad_norm": 0.408203125, "learning_rate": 0.000295304730691753, "loss": 0.3976, "step": 120240 }, { "epoch": 160.33333333333334, "grad_norm": 0.40234375, "learning_rate": 0.000295303950526487, "loss": 0.3998, "step": 120250 }, { "epoch": 160.34666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029530317029744115, "loss": 0.3903, "step": 120260 }, { "epoch": 160.36, "grad_norm": 0.47265625, "learning_rate": 0.0002953023900046156, "loss": 0.3908, "step": 120270 }, { "epoch": 160.37333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002953016096480108, "loss": 0.3927, "step": 120280 }, { "epoch": 160.38666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029530082922762707, "loss": 0.3839, "step": 120290 }, { "epoch": 160.4, "grad_norm": 0.396484375, "learning_rate": 0.0002953000487434648, "loss": 0.3917, "step": 120300 }, { "epoch": 160.41333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002952992681955242, "loss": 0.3964, "step": 120310 }, { "epoch": 160.42666666666668, "grad_norm": 0.35546875, "learning_rate": 0.00029529848758380573, "loss": 0.3973, "step": 120320 }, { "epoch": 160.44, "grad_norm": 0.392578125, "learning_rate": 0.00029529770690830975, "loss": 0.4099, "step": 120330 }, { "epoch": 160.45333333333335, "grad_norm": 0.49609375, "learning_rate": 0.0002952969261690365, "loss": 0.3964, "step": 120340 }, { "epoch": 160.46666666666667, "grad_norm": 0.431640625, "learning_rate": 0.0002952961453659864, "loss": 0.4064, "step": 120350 }, { "epoch": 160.48, "grad_norm": 0.455078125, "learning_rate": 0.00029529536449915975, "loss": 0.3886, "step": 120360 }, { "epoch": 160.49333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002952945835685569, "loss": 0.4002, "step": 120370 }, { "epoch": 160.50666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029529380257417825, "loss": 0.3985, "step": 120380 }, { "epoch": 160.52, "grad_norm": 0.3515625, "learning_rate": 0.00029529302151602406, "loss": 0.3886, "step": 120390 }, { "epoch": 160.53333333333333, "grad_norm": 0.375, "learning_rate": 0.0002952922403940947, "loss": 0.391, "step": 120400 }, { "epoch": 160.54666666666665, "grad_norm": 0.37890625, "learning_rate": 0.00029529145920839054, "loss": 0.393, "step": 120410 }, { "epoch": 160.56, "grad_norm": 0.408203125, "learning_rate": 0.0002952906779589119, "loss": 0.3874, "step": 120420 }, { "epoch": 160.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029528989664565915, "loss": 0.3911, "step": 120430 }, { "epoch": 160.58666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002952891152686326, "loss": 0.3801, "step": 120440 }, { "epoch": 160.6, "grad_norm": 0.37109375, "learning_rate": 0.0002952883338278326, "loss": 0.3826, "step": 120450 }, { "epoch": 160.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002952875523232595, "loss": 0.3722, "step": 120460 }, { "epoch": 160.62666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002952867707549136, "loss": 0.3771, "step": 120470 }, { "epoch": 160.64, "grad_norm": 0.3984375, "learning_rate": 0.00029528598912279534, "loss": 0.3887, "step": 120480 }, { "epoch": 160.65333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0002952852074269049, "loss": 0.3993, "step": 120490 }, { "epoch": 160.66666666666666, "grad_norm": 0.375, "learning_rate": 0.0002952844256672428, "loss": 0.3868, "step": 120500 }, { "epoch": 160.68, "grad_norm": 0.380859375, "learning_rate": 0.0002952836438438094, "loss": 0.3775, "step": 120510 }, { "epoch": 160.69333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029528286195660484, "loss": 0.3874, "step": 120520 }, { "epoch": 160.70666666666668, "grad_norm": 0.443359375, "learning_rate": 0.0002952820800056296, "loss": 0.3795, "step": 120530 }, { "epoch": 160.72, "grad_norm": 0.41796875, "learning_rate": 0.0002952812979908841, "loss": 0.4021, "step": 120540 }, { "epoch": 160.73333333333332, "grad_norm": 0.466796875, "learning_rate": 0.00029528051591236847, "loss": 0.3971, "step": 120550 }, { "epoch": 160.74666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029527973377008323, "loss": 0.3993, "step": 120560 }, { "epoch": 160.76, "grad_norm": 0.4140625, "learning_rate": 0.00029527895156402864, "loss": 0.4114, "step": 120570 }, { "epoch": 160.77333333333334, "grad_norm": 0.41796875, "learning_rate": 0.000295278169294205, "loss": 0.3971, "step": 120580 }, { "epoch": 160.78666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029527738696061284, "loss": 0.3988, "step": 120590 }, { "epoch": 160.8, "grad_norm": 0.392578125, "learning_rate": 0.00029527660456325235, "loss": 0.397, "step": 120600 }, { "epoch": 160.81333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029527582210212385, "loss": 0.3711, "step": 120610 }, { "epoch": 160.82666666666665, "grad_norm": 0.380859375, "learning_rate": 0.00029527503957722773, "loss": 0.3801, "step": 120620 }, { "epoch": 160.84, "grad_norm": 0.451171875, "learning_rate": 0.0002952742569885644, "loss": 0.3925, "step": 120630 }, { "epoch": 160.85333333333332, "grad_norm": 0.40625, "learning_rate": 0.00029527347433613415, "loss": 0.3871, "step": 120640 }, { "epoch": 160.86666666666667, "grad_norm": 0.4375, "learning_rate": 0.0002952726916199373, "loss": 0.3925, "step": 120650 }, { "epoch": 160.88, "grad_norm": 0.400390625, "learning_rate": 0.0002952719088399742, "loss": 0.3727, "step": 120660 }, { "epoch": 160.89333333333335, "grad_norm": 0.380859375, "learning_rate": 0.00029527112599624523, "loss": 0.3854, "step": 120670 }, { "epoch": 160.90666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002952703430887507, "loss": 0.3917, "step": 120680 }, { "epoch": 160.92, "grad_norm": 0.404296875, "learning_rate": 0.00029526956011749093, "loss": 0.3933, "step": 120690 }, { "epoch": 160.93333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002952687770824663, "loss": 0.3871, "step": 120700 }, { "epoch": 160.94666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002952679939836772, "loss": 0.3875, "step": 120710 }, { "epoch": 160.96, "grad_norm": 0.369140625, "learning_rate": 0.0002952672108211239, "loss": 0.3856, "step": 120720 }, { "epoch": 160.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029526642759480676, "loss": 0.4103, "step": 120730 }, { "epoch": 160.98666666666668, "grad_norm": 0.47265625, "learning_rate": 0.0002952656443047262, "loss": 0.3837, "step": 120740 }, { "epoch": 161.0, "grad_norm": 0.439453125, "learning_rate": 0.0002952648609508824, "loss": 0.3795, "step": 120750 }, { "epoch": 161.0, "eval_loss": 0.42638805508613586, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0133, "eval_samples_per_second": 1.598, "eval_steps_per_second": 0.1, "step": 120750 }, { "epoch": 161.01333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029526407753327586, "loss": 0.396, "step": 120760 }, { "epoch": 161.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029526329405190683, "loss": 0.4104, "step": 120770 }, { "epoch": 161.04, "grad_norm": 0.388671875, "learning_rate": 0.0002952625105067757, "loss": 0.423, "step": 120780 }, { "epoch": 161.05333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002952617268978828, "loss": 0.4078, "step": 120790 }, { "epoch": 161.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002952609432252285, "loss": 0.3952, "step": 120800 }, { "epoch": 161.08, "grad_norm": 0.376953125, "learning_rate": 0.0002952601594888131, "loss": 0.3994, "step": 120810 }, { "epoch": 161.09333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029525937568863697, "loss": 0.3994, "step": 120820 }, { "epoch": 161.10666666666665, "grad_norm": 0.3515625, "learning_rate": 0.0002952585918247005, "loss": 0.3893, "step": 120830 }, { "epoch": 161.12, "grad_norm": 0.390625, "learning_rate": 0.00029525780789700385, "loss": 0.3939, "step": 120840 }, { "epoch": 161.13333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002952570239055476, "loss": 0.3838, "step": 120850 }, { "epoch": 161.14666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029525623985033196, "loss": 0.4034, "step": 120860 }, { "epoch": 161.16, "grad_norm": 0.365234375, "learning_rate": 0.0002952554557313573, "loss": 0.3969, "step": 120870 }, { "epoch": 161.17333333333335, "grad_norm": 0.423828125, "learning_rate": 0.00029525467154862395, "loss": 0.3914, "step": 120880 }, { "epoch": 161.18666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029525388730213236, "loss": 0.3907, "step": 120890 }, { "epoch": 161.2, "grad_norm": 0.369140625, "learning_rate": 0.0002952531029918827, "loss": 0.3834, "step": 120900 }, { "epoch": 161.21333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029525231861787544, "loss": 0.3842, "step": 120910 }, { "epoch": 161.22666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029525153418011085, "loss": 0.395, "step": 120920 }, { "epoch": 161.24, "grad_norm": 0.3671875, "learning_rate": 0.00029525074967858933, "loss": 0.3807, "step": 120930 }, { "epoch": 161.25333333333333, "grad_norm": 0.416015625, "learning_rate": 0.00029524996511331124, "loss": 0.3825, "step": 120940 }, { "epoch": 161.26666666666668, "grad_norm": 0.451171875, "learning_rate": 0.0002952491804842768, "loss": 0.3853, "step": 120950 }, { "epoch": 161.28, "grad_norm": 0.390625, "learning_rate": 0.0002952483957914865, "loss": 0.4159, "step": 120960 }, { "epoch": 161.29333333333332, "grad_norm": 0.365234375, "learning_rate": 0.00029524761103494064, "loss": 0.3715, "step": 120970 }, { "epoch": 161.30666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029524682621463955, "loss": 0.3947, "step": 120980 }, { "epoch": 161.32, "grad_norm": 0.349609375, "learning_rate": 0.0002952460413305836, "loss": 0.3967, "step": 120990 }, { "epoch": 161.33333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029524525638277305, "loss": 0.4001, "step": 121000 }, { "epoch": 161.34666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029524447137120835, "loss": 0.3908, "step": 121010 }, { "epoch": 161.36, "grad_norm": 0.4453125, "learning_rate": 0.0002952436862958898, "loss": 0.39, "step": 121020 }, { "epoch": 161.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.00029524290115681766, "loss": 0.3923, "step": 121030 }, { "epoch": 161.38666666666666, "grad_norm": 0.51171875, "learning_rate": 0.0002952421159539925, "loss": 0.3848, "step": 121040 }, { "epoch": 161.4, "grad_norm": 0.408203125, "learning_rate": 0.0002952413306874144, "loss": 0.3915, "step": 121050 }, { "epoch": 161.41333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029524054535708387, "loss": 0.396, "step": 121060 }, { "epoch": 161.42666666666668, "grad_norm": 0.419921875, "learning_rate": 0.0002952397599630012, "loss": 0.3979, "step": 121070 }, { "epoch": 161.44, "grad_norm": 0.41015625, "learning_rate": 0.0002952389745051668, "loss": 0.4098, "step": 121080 }, { "epoch": 161.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002952381889835809, "loss": 0.3976, "step": 121090 }, { "epoch": 161.46666666666667, "grad_norm": 0.427734375, "learning_rate": 0.00029523740339824396, "loss": 0.4062, "step": 121100 }, { "epoch": 161.48, "grad_norm": 0.44921875, "learning_rate": 0.0002952366177491563, "loss": 0.3883, "step": 121110 }, { "epoch": 161.49333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002952358320363182, "loss": 0.4001, "step": 121120 }, { "epoch": 161.50666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029523504625972996, "loss": 0.3987, "step": 121130 }, { "epoch": 161.52, "grad_norm": 0.349609375, "learning_rate": 0.0002952342604193921, "loss": 0.3879, "step": 121140 }, { "epoch": 161.53333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029523347451530487, "loss": 0.3916, "step": 121150 }, { "epoch": 161.54666666666665, "grad_norm": 0.3984375, "learning_rate": 0.00029523268854746864, "loss": 0.3935, "step": 121160 }, { "epoch": 161.56, "grad_norm": 0.341796875, "learning_rate": 0.00029523190251588366, "loss": 0.3871, "step": 121170 }, { "epoch": 161.57333333333332, "grad_norm": 0.384765625, "learning_rate": 0.00029523111642055036, "loss": 0.3914, "step": 121180 }, { "epoch": 161.58666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029523033026146906, "loss": 0.3805, "step": 121190 }, { "epoch": 161.6, "grad_norm": 0.38671875, "learning_rate": 0.0002952295440386402, "loss": 0.3825, "step": 121200 }, { "epoch": 161.61333333333334, "grad_norm": 0.3515625, "learning_rate": 0.000295228757752064, "loss": 0.3725, "step": 121210 }, { "epoch": 161.62666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002952279714017408, "loss": 0.3771, "step": 121220 }, { "epoch": 161.64, "grad_norm": 0.408203125, "learning_rate": 0.0002952271849876711, "loss": 0.389, "step": 121230 }, { "epoch": 161.65333333333334, "grad_norm": 0.357421875, "learning_rate": 0.000295226398509855, "loss": 0.3976, "step": 121240 }, { "epoch": 161.66666666666666, "grad_norm": 0.349609375, "learning_rate": 0.000295225611968293, "loss": 0.3866, "step": 121250 }, { "epoch": 161.68, "grad_norm": 0.380859375, "learning_rate": 0.00029522482536298555, "loss": 0.3768, "step": 121260 }, { "epoch": 161.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002952240386939328, "loss": 0.3875, "step": 121270 }, { "epoch": 161.70666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029522325196113517, "loss": 0.3794, "step": 121280 }, { "epoch": 161.72, "grad_norm": 0.369140625, "learning_rate": 0.00029522246516459303, "loss": 0.4022, "step": 121290 }, { "epoch": 161.73333333333332, "grad_norm": 0.392578125, "learning_rate": 0.00029522167830430663, "loss": 0.3951, "step": 121300 }, { "epoch": 161.74666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029522089138027646, "loss": 0.3982, "step": 121310 }, { "epoch": 161.76, "grad_norm": 0.357421875, "learning_rate": 0.00029522010439250274, "loss": 0.4113, "step": 121320 }, { "epoch": 161.77333333333334, "grad_norm": 0.455078125, "learning_rate": 0.0002952193173409859, "loss": 0.3983, "step": 121330 }, { "epoch": 161.78666666666666, "grad_norm": 0.3671875, "learning_rate": 0.0002952185302257262, "loss": 0.3996, "step": 121340 }, { "epoch": 161.8, "grad_norm": 0.3828125, "learning_rate": 0.0002952177430467241, "loss": 0.3972, "step": 121350 }, { "epoch": 161.81333333333333, "grad_norm": 0.4765625, "learning_rate": 0.00029521695580397985, "loss": 0.3701, "step": 121360 }, { "epoch": 161.82666666666665, "grad_norm": 0.421875, "learning_rate": 0.00029521616849749384, "loss": 0.3804, "step": 121370 }, { "epoch": 161.84, "grad_norm": 0.44921875, "learning_rate": 0.0002952153811272664, "loss": 0.3917, "step": 121380 }, { "epoch": 161.85333333333332, "grad_norm": 0.46875, "learning_rate": 0.0002952145936932979, "loss": 0.3882, "step": 121390 }, { "epoch": 161.86666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029521380619558865, "loss": 0.393, "step": 121400 }, { "epoch": 161.88, "grad_norm": 0.3515625, "learning_rate": 0.000295213018634139, "loss": 0.3743, "step": 121410 }, { "epoch": 161.89333333333335, "grad_norm": 0.408203125, "learning_rate": 0.00029521223100894927, "loss": 0.3853, "step": 121420 }, { "epoch": 161.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002952114433200199, "loss": 0.3909, "step": 121430 }, { "epoch": 161.92, "grad_norm": 0.396484375, "learning_rate": 0.0002952106555673512, "loss": 0.3931, "step": 121440 }, { "epoch": 161.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002952098677509434, "loss": 0.3865, "step": 121450 }, { "epoch": 161.94666666666666, "grad_norm": 0.3828125, "learning_rate": 0.000295209079870797, "loss": 0.3873, "step": 121460 }, { "epoch": 161.96, "grad_norm": 0.349609375, "learning_rate": 0.00029520829192691226, "loss": 0.3858, "step": 121470 }, { "epoch": 161.97333333333333, "grad_norm": 0.5, "learning_rate": 0.00029520750391928956, "loss": 0.41, "step": 121480 }, { "epoch": 161.98666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002952067158479293, "loss": 0.3837, "step": 121490 }, { "epoch": 162.0, "grad_norm": 0.375, "learning_rate": 0.0002952059277128317, "loss": 0.3798, "step": 121500 }, { "epoch": 162.0, "eval_loss": 0.4264082610607147, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0681, "eval_samples_per_second": 1.589, "eval_steps_per_second": 0.099, "step": 121500 }, { "epoch": 162.01333333333332, "grad_norm": 0.5546875, "learning_rate": 0.00029520513951399713, "loss": 0.3959, "step": 121510 }, { "epoch": 162.02666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029520435125142603, "loss": 0.4105, "step": 121520 }, { "epoch": 162.04, "grad_norm": 0.392578125, "learning_rate": 0.0002952035629251187, "loss": 0.4233, "step": 121530 }, { "epoch": 162.05333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029520277453507545, "loss": 0.4091, "step": 121540 }, { "epoch": 162.06666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002952019860812967, "loss": 0.3963, "step": 121550 }, { "epoch": 162.08, "grad_norm": 0.4296875, "learning_rate": 0.00029520119756378264, "loss": 0.3993, "step": 121560 }, { "epoch": 162.09333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002952004089825338, "loss": 0.3997, "step": 121570 }, { "epoch": 162.10666666666665, "grad_norm": 0.3828125, "learning_rate": 0.0002951996203375505, "loss": 0.3884, "step": 121580 }, { "epoch": 162.12, "grad_norm": 0.408203125, "learning_rate": 0.00029519883162883295, "loss": 0.3939, "step": 121590 }, { "epoch": 162.13333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002951980428563816, "loss": 0.3857, "step": 121600 }, { "epoch": 162.14666666666668, "grad_norm": 0.4453125, "learning_rate": 0.0002951972540201968, "loss": 0.4032, "step": 121610 }, { "epoch": 162.16, "grad_norm": 0.380859375, "learning_rate": 0.00029519646512027884, "loss": 0.3978, "step": 121620 }, { "epoch": 162.17333333333335, "grad_norm": 0.40625, "learning_rate": 0.00029519567615662813, "loss": 0.3931, "step": 121630 }, { "epoch": 162.18666666666667, "grad_norm": 0.3828125, "learning_rate": 0.000295194887129245, "loss": 0.3903, "step": 121640 }, { "epoch": 162.2, "grad_norm": 0.40625, "learning_rate": 0.0002951940980381298, "loss": 0.383, "step": 121650 }, { "epoch": 162.21333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002951933088832828, "loss": 0.3834, "step": 121660 }, { "epoch": 162.22666666666666, "grad_norm": 0.478515625, "learning_rate": 0.00029519251966470445, "loss": 0.3946, "step": 121670 }, { "epoch": 162.24, "grad_norm": 0.431640625, "learning_rate": 0.00029519173038239507, "loss": 0.3805, "step": 121680 }, { "epoch": 162.25333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029519094103635493, "loss": 0.3833, "step": 121690 }, { "epoch": 162.26666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029519015162658447, "loss": 0.3848, "step": 121700 }, { "epoch": 162.28, "grad_norm": 0.39453125, "learning_rate": 0.000295189362153084, "loss": 0.4148, "step": 121710 }, { "epoch": 162.29333333333332, "grad_norm": 0.392578125, "learning_rate": 0.00029518857261585387, "loss": 0.3711, "step": 121720 }, { "epoch": 162.30666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002951877830148945, "loss": 0.3947, "step": 121730 }, { "epoch": 162.32, "grad_norm": 0.357421875, "learning_rate": 0.0002951869933502061, "loss": 0.3973, "step": 121740 }, { "epoch": 162.33333333333334, "grad_norm": 0.4375, "learning_rate": 0.00029518620362178904, "loss": 0.3991, "step": 121750 }, { "epoch": 162.34666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002951854138296438, "loss": 0.3907, "step": 121760 }, { "epoch": 162.36, "grad_norm": 0.515625, "learning_rate": 0.00029518462397377053, "loss": 0.3903, "step": 121770 }, { "epoch": 162.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002951838340541697, "loss": 0.3914, "step": 121780 }, { "epoch": 162.38666666666666, "grad_norm": 0.45703125, "learning_rate": 0.00029518304407084167, "loss": 0.3834, "step": 121790 }, { "epoch": 162.4, "grad_norm": 0.3984375, "learning_rate": 0.0002951822540237867, "loss": 0.3922, "step": 121800 }, { "epoch": 162.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002951814639130053, "loss": 0.3958, "step": 121810 }, { "epoch": 162.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029518067373849764, "loss": 0.3974, "step": 121820 }, { "epoch": 162.44, "grad_norm": 0.435546875, "learning_rate": 0.0002951798835002641, "loss": 0.4092, "step": 121830 }, { "epoch": 162.45333333333335, "grad_norm": 0.4140625, "learning_rate": 0.0002951790931983051, "loss": 0.3975, "step": 121840 }, { "epoch": 162.46666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029517830283262096, "loss": 0.4065, "step": 121850 }, { "epoch": 162.48, "grad_norm": 0.384765625, "learning_rate": 0.00029517751240321197, "loss": 0.3868, "step": 121860 }, { "epoch": 162.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029517672191007856, "loss": 0.3994, "step": 121870 }, { "epoch": 162.50666666666666, "grad_norm": 0.4140625, "learning_rate": 0.000295175931353221, "loss": 0.3983, "step": 121880 }, { "epoch": 162.52, "grad_norm": 0.4140625, "learning_rate": 0.00029517514073263974, "loss": 0.3879, "step": 121890 }, { "epoch": 162.53333333333333, "grad_norm": 0.451171875, "learning_rate": 0.000295174350048335, "loss": 0.3926, "step": 121900 }, { "epoch": 162.54666666666665, "grad_norm": 0.431640625, "learning_rate": 0.0002951735593003072, "loss": 0.3936, "step": 121910 }, { "epoch": 162.56, "grad_norm": 0.37109375, "learning_rate": 0.0002951727684885567, "loss": 0.3871, "step": 121920 }, { "epoch": 162.57333333333332, "grad_norm": 0.458984375, "learning_rate": 0.0002951719776130838, "loss": 0.3909, "step": 121930 }, { "epoch": 162.58666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002951711866738889, "loss": 0.38, "step": 121940 }, { "epoch": 162.6, "grad_norm": 0.37109375, "learning_rate": 0.0002951703956709723, "loss": 0.3815, "step": 121950 }, { "epoch": 162.61333333333334, "grad_norm": 0.34375, "learning_rate": 0.0002951696046043344, "loss": 0.3722, "step": 121960 }, { "epoch": 162.62666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029516881347397547, "loss": 0.3781, "step": 121970 }, { "epoch": 162.64, "grad_norm": 0.392578125, "learning_rate": 0.00029516802227989587, "loss": 0.3885, "step": 121980 }, { "epoch": 162.65333333333334, "grad_norm": 0.375, "learning_rate": 0.000295167231022096, "loss": 0.3987, "step": 121990 }, { "epoch": 162.66666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002951664397005762, "loss": 0.3865, "step": 122000 }, { "epoch": 162.68, "grad_norm": 0.4140625, "learning_rate": 0.0002951656483153368, "loss": 0.378, "step": 122010 }, { "epoch": 162.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002951648568663782, "loss": 0.3874, "step": 122020 }, { "epoch": 162.70666666666668, "grad_norm": 0.427734375, "learning_rate": 0.00029516406535370064, "loss": 0.3797, "step": 122030 }, { "epoch": 162.72, "grad_norm": 0.392578125, "learning_rate": 0.00029516327377730446, "loss": 0.4019, "step": 122040 }, { "epoch": 162.73333333333332, "grad_norm": 0.39453125, "learning_rate": 0.0002951624821371902, "loss": 0.396, "step": 122050 }, { "epoch": 162.74666666666667, "grad_norm": 0.408203125, "learning_rate": 0.000295161690433358, "loss": 0.399, "step": 122060 }, { "epoch": 162.76, "grad_norm": 0.392578125, "learning_rate": 0.0002951608986658083, "loss": 0.4119, "step": 122070 }, { "epoch": 162.77333333333334, "grad_norm": 0.4765625, "learning_rate": 0.00029516010683454147, "loss": 0.3977, "step": 122080 }, { "epoch": 162.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.00029515931493955775, "loss": 0.3981, "step": 122090 }, { "epoch": 162.8, "grad_norm": 0.41796875, "learning_rate": 0.00029515852298085763, "loss": 0.397, "step": 122100 }, { "epoch": 162.81333333333333, "grad_norm": 0.474609375, "learning_rate": 0.00029515773095844134, "loss": 0.3708, "step": 122110 }, { "epoch": 162.82666666666665, "grad_norm": 0.421875, "learning_rate": 0.0002951569388723093, "loss": 0.3799, "step": 122120 }, { "epoch": 162.84, "grad_norm": 0.40234375, "learning_rate": 0.0002951561467224618, "loss": 0.3921, "step": 122130 }, { "epoch": 162.85333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029515535450889925, "loss": 0.3869, "step": 122140 }, { "epoch": 162.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029515456223162194, "loss": 0.392, "step": 122150 }, { "epoch": 162.88, "grad_norm": 0.45703125, "learning_rate": 0.0002951537698906303, "loss": 0.3729, "step": 122160 }, { "epoch": 162.89333333333335, "grad_norm": 0.37890625, "learning_rate": 0.0002951529774859246, "loss": 0.3842, "step": 122170 }, { "epoch": 162.90666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002951521850175052, "loss": 0.3907, "step": 122180 }, { "epoch": 162.92, "grad_norm": 0.4296875, "learning_rate": 0.00029515139248537244, "loss": 0.3938, "step": 122190 }, { "epoch": 162.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002951505998895267, "loss": 0.386, "step": 122200 }, { "epoch": 162.94666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002951498072299683, "loss": 0.3875, "step": 122210 }, { "epoch": 162.96, "grad_norm": 0.3671875, "learning_rate": 0.00029514901450669763, "loss": 0.3867, "step": 122220 }, { "epoch": 162.97333333333333, "grad_norm": 0.455078125, "learning_rate": 0.000295148221719715, "loss": 0.4095, "step": 122230 }, { "epoch": 162.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002951474288690207, "loss": 0.3829, "step": 122240 }, { "epoch": 163.0, "grad_norm": 0.375, "learning_rate": 0.00029514663595461523, "loss": 0.3788, "step": 122250 }, { "epoch": 163.0, "eval_loss": 0.4261762499809265, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5546, "eval_samples_per_second": 1.675, "eval_steps_per_second": 0.105, "step": 122250 }, { "epoch": 163.01333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029514584297649885, "loss": 0.3971, "step": 122260 }, { "epoch": 163.02666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002951450499346719, "loss": 0.4102, "step": 122270 }, { "epoch": 163.04, "grad_norm": 0.3671875, "learning_rate": 0.0002951442568291348, "loss": 0.4222, "step": 122280 }, { "epoch": 163.05333333333334, "grad_norm": 0.44921875, "learning_rate": 0.0002951434636598877, "loss": 0.4084, "step": 122290 }, { "epoch": 163.06666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002951426704269312, "loss": 0.3963, "step": 122300 }, { "epoch": 163.08, "grad_norm": 0.388671875, "learning_rate": 0.00029514187713026546, "loss": 0.3987, "step": 122310 }, { "epoch": 163.09333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029514108376989094, "loss": 0.4009, "step": 122320 }, { "epoch": 163.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.000295140290345808, "loss": 0.3882, "step": 122330 }, { "epoch": 163.12, "grad_norm": 0.390625, "learning_rate": 0.00029513949685801684, "loss": 0.3922, "step": 122340 }, { "epoch": 163.13333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029513870330651797, "loss": 0.385, "step": 122350 }, { "epoch": 163.14666666666668, "grad_norm": 0.3828125, "learning_rate": 0.00029513790969131165, "loss": 0.4024, "step": 122360 }, { "epoch": 163.16, "grad_norm": 0.396484375, "learning_rate": 0.0002951371160123983, "loss": 0.3972, "step": 122370 }, { "epoch": 163.17333333333335, "grad_norm": 0.392578125, "learning_rate": 0.0002951363222697782, "loss": 0.3914, "step": 122380 }, { "epoch": 163.18666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002951355284634517, "loss": 0.3899, "step": 122390 }, { "epoch": 163.2, "grad_norm": 0.419921875, "learning_rate": 0.00029513473459341914, "loss": 0.3828, "step": 122400 }, { "epoch": 163.21333333333334, "grad_norm": 0.384765625, "learning_rate": 0.000295133940659681, "loss": 0.3839, "step": 122410 }, { "epoch": 163.22666666666666, "grad_norm": 0.462890625, "learning_rate": 0.00029513314666223747, "loss": 0.3951, "step": 122420 }, { "epoch": 163.24, "grad_norm": 0.427734375, "learning_rate": 0.00029513235260108893, "loss": 0.3802, "step": 122430 }, { "epoch": 163.25333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029513155847623576, "loss": 0.3823, "step": 122440 }, { "epoch": 163.26666666666668, "grad_norm": 0.4296875, "learning_rate": 0.00029513076428767834, "loss": 0.3852, "step": 122450 }, { "epoch": 163.28, "grad_norm": 0.41015625, "learning_rate": 0.00029512997003541694, "loss": 0.4144, "step": 122460 }, { "epoch": 163.29333333333332, "grad_norm": 0.373046875, "learning_rate": 0.000295129175719452, "loss": 0.3705, "step": 122470 }, { "epoch": 163.30666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002951283813397838, "loss": 0.3949, "step": 122480 }, { "epoch": 163.32, "grad_norm": 0.369140625, "learning_rate": 0.0002951275868964127, "loss": 0.3957, "step": 122490 }, { "epoch": 163.33333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029512679238933903, "loss": 0.3997, "step": 122500 }, { "epoch": 163.34666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002951259978185632, "loss": 0.3902, "step": 122510 }, { "epoch": 163.36, "grad_norm": 0.43359375, "learning_rate": 0.00029512520318408553, "loss": 0.3902, "step": 122520 }, { "epoch": 163.37333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002951244084859063, "loss": 0.3912, "step": 122530 }, { "epoch": 163.38666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029512361372402597, "loss": 0.3835, "step": 122540 }, { "epoch": 163.4, "grad_norm": 0.40625, "learning_rate": 0.00029512281889844486, "loss": 0.3906, "step": 122550 }, { "epoch": 163.41333333333333, "grad_norm": 0.361328125, "learning_rate": 0.00029512202400916324, "loss": 0.3964, "step": 122560 }, { "epoch": 163.42666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029512122905618154, "loss": 0.3975, "step": 122570 }, { "epoch": 163.44, "grad_norm": 0.384765625, "learning_rate": 0.0002951204340395001, "loss": 0.4084, "step": 122580 }, { "epoch": 163.45333333333335, "grad_norm": 0.5, "learning_rate": 0.0002951196389591193, "loss": 0.3978, "step": 122590 }, { "epoch": 163.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029511884381503936, "loss": 0.4064, "step": 122600 }, { "epoch": 163.48, "grad_norm": 0.390625, "learning_rate": 0.0002951180486072607, "loss": 0.3872, "step": 122610 }, { "epoch": 163.49333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029511725333578373, "loss": 0.4003, "step": 122620 }, { "epoch": 163.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.00029511645800060874, "loss": 0.3976, "step": 122630 }, { "epoch": 163.52, "grad_norm": 0.373046875, "learning_rate": 0.0002951156626017361, "loss": 0.3885, "step": 122640 }, { "epoch": 163.53333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029511486713916616, "loss": 0.39, "step": 122650 }, { "epoch": 163.54666666666665, "grad_norm": 0.455078125, "learning_rate": 0.0002951140716128993, "loss": 0.3936, "step": 122660 }, { "epoch": 163.56, "grad_norm": 0.37890625, "learning_rate": 0.00029511327602293574, "loss": 0.3872, "step": 122670 }, { "epoch": 163.57333333333332, "grad_norm": 0.41796875, "learning_rate": 0.000295112480369276, "loss": 0.3905, "step": 122680 }, { "epoch": 163.58666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029511168465192025, "loss": 0.38, "step": 122690 }, { "epoch": 163.6, "grad_norm": 0.38671875, "learning_rate": 0.000295110888870869, "loss": 0.3818, "step": 122700 }, { "epoch": 163.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0002951100930261225, "loss": 0.3725, "step": 122710 }, { "epoch": 163.62666666666667, "grad_norm": 0.3515625, "learning_rate": 0.00029510929711768115, "loss": 0.3776, "step": 122720 }, { "epoch": 163.64, "grad_norm": 0.40234375, "learning_rate": 0.0002951085011455453, "loss": 0.3888, "step": 122730 }, { "epoch": 163.65333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029510770510971526, "loss": 0.3985, "step": 122740 }, { "epoch": 163.66666666666666, "grad_norm": 0.359375, "learning_rate": 0.0002951069090101914, "loss": 0.3861, "step": 122750 }, { "epoch": 163.68, "grad_norm": 0.396484375, "learning_rate": 0.0002951061128469741, "loss": 0.3772, "step": 122760 }, { "epoch": 163.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002951053166200637, "loss": 0.3868, "step": 122770 }, { "epoch": 163.70666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002951045203294605, "loss": 0.3798, "step": 122780 }, { "epoch": 163.72, "grad_norm": 0.45703125, "learning_rate": 0.0002951037239751649, "loss": 0.4022, "step": 122790 }, { "epoch": 163.73333333333332, "grad_norm": 0.419921875, "learning_rate": 0.00029510292755717717, "loss": 0.3968, "step": 122800 }, { "epoch": 163.74666666666667, "grad_norm": 0.4296875, "learning_rate": 0.0002951021310754977, "loss": 0.3983, "step": 122810 }, { "epoch": 163.76, "grad_norm": 0.427734375, "learning_rate": 0.000295101334530127, "loss": 0.4118, "step": 122820 }, { "epoch": 163.77333333333334, "grad_norm": 0.46484375, "learning_rate": 0.0002951005379210652, "loss": 0.3981, "step": 122830 }, { "epoch": 163.78666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002950997412483127, "loss": 0.3986, "step": 122840 }, { "epoch": 163.8, "grad_norm": 0.388671875, "learning_rate": 0.0002950989445118699, "loss": 0.3969, "step": 122850 }, { "epoch": 163.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.00029509814771173714, "loss": 0.3703, "step": 122860 }, { "epoch": 163.82666666666665, "grad_norm": 0.408203125, "learning_rate": 0.00029509735084791476, "loss": 0.3797, "step": 122870 }, { "epoch": 163.84, "grad_norm": 0.43359375, "learning_rate": 0.0002950965539204031, "loss": 0.3919, "step": 122880 }, { "epoch": 163.85333333333332, "grad_norm": 0.404296875, "learning_rate": 0.0002950957569292025, "loss": 0.3876, "step": 122890 }, { "epoch": 163.86666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029509495987431337, "loss": 0.3924, "step": 122900 }, { "epoch": 163.88, "grad_norm": 0.419921875, "learning_rate": 0.00029509416275573595, "loss": 0.3733, "step": 122910 }, { "epoch": 163.89333333333335, "grad_norm": 0.431640625, "learning_rate": 0.0002950933655734707, "loss": 0.3852, "step": 122920 }, { "epoch": 163.90666666666667, "grad_norm": 0.4609375, "learning_rate": 0.0002950925683275179, "loss": 0.3909, "step": 122930 }, { "epoch": 163.92, "grad_norm": 0.3984375, "learning_rate": 0.00029509177101787794, "loss": 0.3933, "step": 122940 }, { "epoch": 163.93333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002950909736445512, "loss": 0.3868, "step": 122950 }, { "epoch": 163.94666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029509017620753795, "loss": 0.3874, "step": 122960 }, { "epoch": 163.96, "grad_norm": 0.359375, "learning_rate": 0.0002950893787068386, "loss": 0.3859, "step": 122970 }, { "epoch": 163.97333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029508858114245343, "loss": 0.4105, "step": 122980 }, { "epoch": 163.98666666666668, "grad_norm": 0.419921875, "learning_rate": 0.00029508778351438285, "loss": 0.383, "step": 122990 }, { "epoch": 164.0, "grad_norm": 0.400390625, "learning_rate": 0.0002950869858226272, "loss": 0.3796, "step": 123000 }, { "epoch": 164.0, "eval_loss": 0.4265204668045044, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7332, "eval_samples_per_second": 1.644, "eval_steps_per_second": 0.103, "step": 123000 }, { "epoch": 164.01333333333332, "grad_norm": 0.51171875, "learning_rate": 0.00029508618806718684, "loss": 0.3966, "step": 123010 }, { "epoch": 164.02666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002950853902480621, "loss": 0.4106, "step": 123020 }, { "epoch": 164.04, "grad_norm": 0.435546875, "learning_rate": 0.00029508459236525335, "loss": 0.4234, "step": 123030 }, { "epoch": 164.05333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002950837944187609, "loss": 0.4086, "step": 123040 }, { "epoch": 164.06666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029508299640858515, "loss": 0.3965, "step": 123050 }, { "epoch": 164.08, "grad_norm": 0.408203125, "learning_rate": 0.0002950821983347264, "loss": 0.4, "step": 123060 }, { "epoch": 164.09333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002950814001971851, "loss": 0.4004, "step": 123070 }, { "epoch": 164.10666666666665, "grad_norm": 0.404296875, "learning_rate": 0.00029508060199596146, "loss": 0.3882, "step": 123080 }, { "epoch": 164.12, "grad_norm": 0.373046875, "learning_rate": 0.00029507980373105595, "loss": 0.3925, "step": 123090 }, { "epoch": 164.13333333333333, "grad_norm": 0.375, "learning_rate": 0.00029507900540246885, "loss": 0.3842, "step": 123100 }, { "epoch": 164.14666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002950782070102005, "loss": 0.4033, "step": 123110 }, { "epoch": 164.16, "grad_norm": 0.369140625, "learning_rate": 0.00029507740855425134, "loss": 0.397, "step": 123120 }, { "epoch": 164.17333333333335, "grad_norm": 0.4375, "learning_rate": 0.0002950766100346216, "loss": 0.3918, "step": 123130 }, { "epoch": 164.18666666666667, "grad_norm": 0.44921875, "learning_rate": 0.0002950758114513117, "loss": 0.3898, "step": 123140 }, { "epoch": 164.2, "grad_norm": 0.4296875, "learning_rate": 0.000295075012804322, "loss": 0.3826, "step": 123150 }, { "epoch": 164.21333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029507421409365284, "loss": 0.3833, "step": 123160 }, { "epoch": 164.22666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002950734153193045, "loss": 0.3957, "step": 123170 }, { "epoch": 164.24, "grad_norm": 0.427734375, "learning_rate": 0.0002950726164812775, "loss": 0.3807, "step": 123180 }, { "epoch": 164.25333333333333, "grad_norm": 0.396484375, "learning_rate": 0.000295071817579572, "loss": 0.3815, "step": 123190 }, { "epoch": 164.26666666666668, "grad_norm": 0.421875, "learning_rate": 0.00029507101861418847, "loss": 0.384, "step": 123200 }, { "epoch": 164.28, "grad_norm": 0.41015625, "learning_rate": 0.00029507021958512724, "loss": 0.4148, "step": 123210 }, { "epoch": 164.29333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002950694204923886, "loss": 0.3705, "step": 123220 }, { "epoch": 164.30666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029506862133597296, "loss": 0.3946, "step": 123230 }, { "epoch": 164.32, "grad_norm": 0.333984375, "learning_rate": 0.00029506782211588073, "loss": 0.3967, "step": 123240 }, { "epoch": 164.33333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002950670228321121, "loss": 0.3989, "step": 123250 }, { "epoch": 164.34666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029506622348466754, "loss": 0.3901, "step": 123260 }, { "epoch": 164.36, "grad_norm": 0.5078125, "learning_rate": 0.00029506542407354734, "loss": 0.3911, "step": 123270 }, { "epoch": 164.37333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029506462459875194, "loss": 0.3918, "step": 123280 }, { "epoch": 164.38666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029506382506028163, "loss": 0.3837, "step": 123290 }, { "epoch": 164.4, "grad_norm": 0.3671875, "learning_rate": 0.0002950630254581367, "loss": 0.3911, "step": 123300 }, { "epoch": 164.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029506222579231764, "loss": 0.3952, "step": 123310 }, { "epoch": 164.42666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029506142606282467, "loss": 0.3968, "step": 123320 }, { "epoch": 164.44, "grad_norm": 0.412109375, "learning_rate": 0.00029506062626965824, "loss": 0.4093, "step": 123330 }, { "epoch": 164.45333333333335, "grad_norm": 0.447265625, "learning_rate": 0.0002950598264128186, "loss": 0.3979, "step": 123340 }, { "epoch": 164.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002950590264923062, "loss": 0.4065, "step": 123350 }, { "epoch": 164.48, "grad_norm": 0.39453125, "learning_rate": 0.00029505822650812135, "loss": 0.3874, "step": 123360 }, { "epoch": 164.49333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002950574264602644, "loss": 0.3994, "step": 123370 }, { "epoch": 164.50666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029505662634873566, "loss": 0.3979, "step": 123380 }, { "epoch": 164.52, "grad_norm": 0.353515625, "learning_rate": 0.0002950558261735356, "loss": 0.3889, "step": 123390 }, { "epoch": 164.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002950550259346644, "loss": 0.3918, "step": 123400 }, { "epoch": 164.54666666666665, "grad_norm": 0.400390625, "learning_rate": 0.0002950542256321226, "loss": 0.3933, "step": 123410 }, { "epoch": 164.56, "grad_norm": 0.396484375, "learning_rate": 0.0002950534252659104, "loss": 0.3881, "step": 123420 }, { "epoch": 164.57333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002950526248360282, "loss": 0.3913, "step": 123430 }, { "epoch": 164.58666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002950518243424764, "loss": 0.3799, "step": 123440 }, { "epoch": 164.6, "grad_norm": 0.359375, "learning_rate": 0.0002950510237852553, "loss": 0.382, "step": 123450 }, { "epoch": 164.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029505022316436523, "loss": 0.3719, "step": 123460 }, { "epoch": 164.62666666666667, "grad_norm": 0.328125, "learning_rate": 0.0002950494224798066, "loss": 0.3767, "step": 123470 }, { "epoch": 164.64, "grad_norm": 0.38671875, "learning_rate": 0.00029504862173157975, "loss": 0.3881, "step": 123480 }, { "epoch": 164.65333333333334, "grad_norm": 0.375, "learning_rate": 0.000295047820919685, "loss": 0.3979, "step": 123490 }, { "epoch": 164.66666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002950470200441227, "loss": 0.3862, "step": 123500 }, { "epoch": 164.68, "grad_norm": 0.380859375, "learning_rate": 0.0002950462191048933, "loss": 0.3781, "step": 123510 }, { "epoch": 164.69333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029504541810199694, "loss": 0.3866, "step": 123520 }, { "epoch": 164.70666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029504461703543414, "loss": 0.3803, "step": 123530 }, { "epoch": 164.72, "grad_norm": 0.396484375, "learning_rate": 0.00029504381590520526, "loss": 0.4012, "step": 123540 }, { "epoch": 164.73333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002950430147113106, "loss": 0.3956, "step": 123550 }, { "epoch": 164.74666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0002950422134537505, "loss": 0.3991, "step": 123560 }, { "epoch": 164.76, "grad_norm": 0.41015625, "learning_rate": 0.0002950414121325254, "loss": 0.4111, "step": 123570 }, { "epoch": 164.77333333333334, "grad_norm": 0.498046875, "learning_rate": 0.0002950406107476355, "loss": 0.3978, "step": 123580 }, { "epoch": 164.78666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029503980929908123, "loss": 0.3988, "step": 123590 }, { "epoch": 164.8, "grad_norm": 0.40625, "learning_rate": 0.000295039007786863, "loss": 0.397, "step": 123600 }, { "epoch": 164.81333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002950382062109811, "loss": 0.3709, "step": 123610 }, { "epoch": 164.82666666666665, "grad_norm": 0.388671875, "learning_rate": 0.0002950374045714358, "loss": 0.3799, "step": 123620 }, { "epoch": 164.84, "grad_norm": 0.41015625, "learning_rate": 0.00029503660286822766, "loss": 0.3919, "step": 123630 }, { "epoch": 164.85333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002950358011013568, "loss": 0.3877, "step": 123640 }, { "epoch": 164.86666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029503499927082376, "loss": 0.3919, "step": 123650 }, { "epoch": 164.88, "grad_norm": 0.390625, "learning_rate": 0.0002950341973766288, "loss": 0.3723, "step": 123660 }, { "epoch": 164.89333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029503339541877226, "loss": 0.3842, "step": 123670 }, { "epoch": 164.90666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002950325933972546, "loss": 0.3907, "step": 123680 }, { "epoch": 164.92, "grad_norm": 0.431640625, "learning_rate": 0.000295031791312076, "loss": 0.3931, "step": 123690 }, { "epoch": 164.93333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029503098916323694, "loss": 0.3865, "step": 123700 }, { "epoch": 164.94666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029503018695073777, "loss": 0.3875, "step": 123710 }, { "epoch": 164.96, "grad_norm": 0.35546875, "learning_rate": 0.00029502938467457874, "loss": 0.3855, "step": 123720 }, { "epoch": 164.97333333333333, "grad_norm": 0.482421875, "learning_rate": 0.0002950285823347603, "loss": 0.4101, "step": 123730 }, { "epoch": 164.98666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002950277799312828, "loss": 0.383, "step": 123740 }, { "epoch": 165.0, "grad_norm": 0.392578125, "learning_rate": 0.0002950269774641465, "loss": 0.3795, "step": 123750 }, { "epoch": 165.0, "eval_loss": 0.42592698335647583, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6847, "eval_samples_per_second": 1.652, "eval_steps_per_second": 0.103, "step": 123750 }, { "epoch": 165.01333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002950261749333519, "loss": 0.3968, "step": 123760 }, { "epoch": 165.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002950253723388992, "loss": 0.4106, "step": 123770 }, { "epoch": 165.04, "grad_norm": 0.369140625, "learning_rate": 0.0002950245696807889, "loss": 0.4225, "step": 123780 }, { "epoch": 165.05333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029502376695902125, "loss": 0.4084, "step": 123790 }, { "epoch": 165.06666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002950229641735966, "loss": 0.3959, "step": 123800 }, { "epoch": 165.08, "grad_norm": 0.44140625, "learning_rate": 0.0002950221613245153, "loss": 0.3994, "step": 123810 }, { "epoch": 165.09333333333333, "grad_norm": 0.435546875, "learning_rate": 0.00029502135841177776, "loss": 0.4, "step": 123820 }, { "epoch": 165.10666666666665, "grad_norm": 0.357421875, "learning_rate": 0.0002950205554353843, "loss": 0.3886, "step": 123830 }, { "epoch": 165.12, "grad_norm": 0.390625, "learning_rate": 0.00029501975239533526, "loss": 0.3931, "step": 123840 }, { "epoch": 165.13333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029501894929163106, "loss": 0.384, "step": 123850 }, { "epoch": 165.14666666666668, "grad_norm": 0.396484375, "learning_rate": 0.000295018146124272, "loss": 0.4029, "step": 123860 }, { "epoch": 165.16, "grad_norm": 0.375, "learning_rate": 0.0002950173428932584, "loss": 0.3973, "step": 123870 }, { "epoch": 165.17333333333335, "grad_norm": 0.416015625, "learning_rate": 0.00029501653959859063, "loss": 0.3916, "step": 123880 }, { "epoch": 165.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002950157362402691, "loss": 0.3903, "step": 123890 }, { "epoch": 165.2, "grad_norm": 0.38671875, "learning_rate": 0.0002950149328182941, "loss": 0.382, "step": 123900 }, { "epoch": 165.21333333333334, "grad_norm": 0.376953125, "learning_rate": 0.000295014129332666, "loss": 0.383, "step": 123910 }, { "epoch": 165.22666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002950133257833852, "loss": 0.3961, "step": 123920 }, { "epoch": 165.24, "grad_norm": 0.4453125, "learning_rate": 0.00029501252217045194, "loss": 0.3808, "step": 123930 }, { "epoch": 165.25333333333333, "grad_norm": 0.45703125, "learning_rate": 0.00029501171849386664, "loss": 0.3823, "step": 123940 }, { "epoch": 165.26666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029501091475362973, "loss": 0.3849, "step": 123950 }, { "epoch": 165.28, "grad_norm": 0.431640625, "learning_rate": 0.00029501011094974143, "loss": 0.4158, "step": 123960 }, { "epoch": 165.29333333333332, "grad_norm": 0.380859375, "learning_rate": 0.00029500930708220216, "loss": 0.37, "step": 123970 }, { "epoch": 165.30666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002950085031510123, "loss": 0.3949, "step": 123980 }, { "epoch": 165.32, "grad_norm": 0.330078125, "learning_rate": 0.00029500769915617216, "loss": 0.3963, "step": 123990 }, { "epoch": 165.33333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029500689509768206, "loss": 0.3998, "step": 124000 }, { "epoch": 165.34666666666666, "grad_norm": 0.447265625, "learning_rate": 0.0002950060909755424, "loss": 0.39, "step": 124010 }, { "epoch": 165.36, "grad_norm": 0.439453125, "learning_rate": 0.00029500528678975355, "loss": 0.3901, "step": 124020 }, { "epoch": 165.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029500448254031583, "loss": 0.3919, "step": 124030 }, { "epoch": 165.38666666666666, "grad_norm": 0.44921875, "learning_rate": 0.0002950036782272296, "loss": 0.3841, "step": 124040 }, { "epoch": 165.4, "grad_norm": 0.388671875, "learning_rate": 0.0002950028738504952, "loss": 0.3912, "step": 124050 }, { "epoch": 165.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.000295002069410113, "loss": 0.3959, "step": 124060 }, { "epoch": 165.42666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029500126490608343, "loss": 0.3974, "step": 124070 }, { "epoch": 165.44, "grad_norm": 0.423828125, "learning_rate": 0.0002950004603384067, "loss": 0.4089, "step": 124080 }, { "epoch": 165.45333333333335, "grad_norm": 0.490234375, "learning_rate": 0.00029499965570708314, "loss": 0.3966, "step": 124090 }, { "epoch": 165.46666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002949988510121133, "loss": 0.4062, "step": 124100 }, { "epoch": 165.48, "grad_norm": 0.423828125, "learning_rate": 0.00029499804625349743, "loss": 0.3883, "step": 124110 }, { "epoch": 165.49333333333334, "grad_norm": 0.423828125, "learning_rate": 0.00029499724143123576, "loss": 0.3998, "step": 124120 }, { "epoch": 165.50666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029499643654532886, "loss": 0.3992, "step": 124130 }, { "epoch": 165.52, "grad_norm": 0.396484375, "learning_rate": 0.00029499563159577697, "loss": 0.3893, "step": 124140 }, { "epoch": 165.53333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029499482658258046, "loss": 0.3906, "step": 124150 }, { "epoch": 165.54666666666665, "grad_norm": 0.396484375, "learning_rate": 0.00029499402150573965, "loss": 0.3936, "step": 124160 }, { "epoch": 165.56, "grad_norm": 0.361328125, "learning_rate": 0.00029499321636525494, "loss": 0.388, "step": 124170 }, { "epoch": 165.57333333333332, "grad_norm": 0.4375, "learning_rate": 0.0002949924111611267, "loss": 0.3909, "step": 124180 }, { "epoch": 165.58666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029499160589335516, "loss": 0.38, "step": 124190 }, { "epoch": 165.6, "grad_norm": 0.375, "learning_rate": 0.00029499080056194087, "loss": 0.3821, "step": 124200 }, { "epoch": 165.61333333333334, "grad_norm": 0.40625, "learning_rate": 0.000294989995166884, "loss": 0.3716, "step": 124210 }, { "epoch": 165.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029498918970818504, "loss": 0.3772, "step": 124220 }, { "epoch": 165.64, "grad_norm": 0.396484375, "learning_rate": 0.00029498838418584426, "loss": 0.389, "step": 124230 }, { "epoch": 165.65333333333334, "grad_norm": 0.38671875, "learning_rate": 0.000294987578599862, "loss": 0.3985, "step": 124240 }, { "epoch": 165.66666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029498677295023866, "loss": 0.386, "step": 124250 }, { "epoch": 165.68, "grad_norm": 0.4140625, "learning_rate": 0.0002949859672369746, "loss": 0.3778, "step": 124260 }, { "epoch": 165.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002949851614600702, "loss": 0.386, "step": 124270 }, { "epoch": 165.70666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002949843556195257, "loss": 0.3798, "step": 124280 }, { "epoch": 165.72, "grad_norm": 0.3671875, "learning_rate": 0.00029498354971534157, "loss": 0.4018, "step": 124290 }, { "epoch": 165.73333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002949827437475181, "loss": 0.3956, "step": 124300 }, { "epoch": 165.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029498193771605567, "loss": 0.3985, "step": 124310 }, { "epoch": 165.76, "grad_norm": 0.43359375, "learning_rate": 0.0002949811316209547, "loss": 0.4113, "step": 124320 }, { "epoch": 165.77333333333334, "grad_norm": 0.44140625, "learning_rate": 0.00029498032546221536, "loss": 0.3991, "step": 124330 }, { "epoch": 165.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029497951923983815, "loss": 0.3985, "step": 124340 }, { "epoch": 165.8, "grad_norm": 0.416015625, "learning_rate": 0.0002949787129538234, "loss": 0.3969, "step": 124350 }, { "epoch": 165.81333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029497790660417143, "loss": 0.3703, "step": 124360 }, { "epoch": 165.82666666666665, "grad_norm": 0.4140625, "learning_rate": 0.00029497710019088264, "loss": 0.3799, "step": 124370 }, { "epoch": 165.84, "grad_norm": 0.384765625, "learning_rate": 0.00029497629371395736, "loss": 0.3924, "step": 124380 }, { "epoch": 165.85333333333332, "grad_norm": 0.41796875, "learning_rate": 0.0002949754871733959, "loss": 0.3865, "step": 124390 }, { "epoch": 165.86666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029497468056919875, "loss": 0.3917, "step": 124400 }, { "epoch": 165.88, "grad_norm": 0.43359375, "learning_rate": 0.00029497387390136606, "loss": 0.3721, "step": 124410 }, { "epoch": 165.89333333333335, "grad_norm": 0.388671875, "learning_rate": 0.0002949730671698984, "loss": 0.3849, "step": 124420 }, { "epoch": 165.90666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029497226037479595, "loss": 0.392, "step": 124430 }, { "epoch": 165.92, "grad_norm": 0.38671875, "learning_rate": 0.00029497145351605917, "loss": 0.3931, "step": 124440 }, { "epoch": 165.93333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002949706465936884, "loss": 0.3869, "step": 124450 }, { "epoch": 165.94666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029496983960768396, "loss": 0.3877, "step": 124460 }, { "epoch": 165.96, "grad_norm": 0.384765625, "learning_rate": 0.00029496903255804617, "loss": 0.3857, "step": 124470 }, { "epoch": 165.97333333333333, "grad_norm": 0.5078125, "learning_rate": 0.0002949682254447755, "loss": 0.4105, "step": 124480 }, { "epoch": 165.98666666666668, "grad_norm": 0.373046875, "learning_rate": 0.0002949674182678722, "loss": 0.3831, "step": 124490 }, { "epoch": 166.0, "grad_norm": 0.412109375, "learning_rate": 0.0002949666110273366, "loss": 0.3793, "step": 124500 }, { "epoch": 166.0, "eval_loss": 0.42683181166648865, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.743, "eval_samples_per_second": 1.642, "eval_steps_per_second": 0.103, "step": 124500 }, { "epoch": 166.01333333333332, "grad_norm": 0.478515625, "learning_rate": 0.0002949658037231692, "loss": 0.3972, "step": 124510 }, { "epoch": 166.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002949649963553702, "loss": 0.4102, "step": 124520 }, { "epoch": 166.04, "grad_norm": 0.35546875, "learning_rate": 0.0002949641889239401, "loss": 0.4235, "step": 124530 }, { "epoch": 166.05333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002949633814288792, "loss": 0.4082, "step": 124540 }, { "epoch": 166.06666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002949625738701877, "loss": 0.3954, "step": 124550 }, { "epoch": 166.08, "grad_norm": 0.369140625, "learning_rate": 0.0002949617662478662, "loss": 0.3985, "step": 124560 }, { "epoch": 166.09333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002949609585619149, "loss": 0.3994, "step": 124570 }, { "epoch": 166.10666666666665, "grad_norm": 0.373046875, "learning_rate": 0.0002949601508123342, "loss": 0.3888, "step": 124580 }, { "epoch": 166.12, "grad_norm": 0.419921875, "learning_rate": 0.0002949593429991244, "loss": 0.3926, "step": 124590 }, { "epoch": 166.13333333333333, "grad_norm": 0.447265625, "learning_rate": 0.000294958535122286, "loss": 0.3846, "step": 124600 }, { "epoch": 166.14666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002949577271818192, "loss": 0.404, "step": 124610 }, { "epoch": 166.16, "grad_norm": 0.34765625, "learning_rate": 0.0002949569191777244, "loss": 0.3971, "step": 124620 }, { "epoch": 166.17333333333335, "grad_norm": 0.4453125, "learning_rate": 0.00029495611111000203, "loss": 0.3914, "step": 124630 }, { "epoch": 166.18666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002949553029786523, "loss": 0.3901, "step": 124640 }, { "epoch": 166.2, "grad_norm": 0.392578125, "learning_rate": 0.0002949544947836758, "loss": 0.3825, "step": 124650 }, { "epoch": 166.21333333333334, "grad_norm": 0.3984375, "learning_rate": 0.0002949536865250726, "loss": 0.3837, "step": 124660 }, { "epoch": 166.22666666666666, "grad_norm": 0.4453125, "learning_rate": 0.0002949528782028432, "loss": 0.3948, "step": 124670 }, { "epoch": 166.24, "grad_norm": 0.4296875, "learning_rate": 0.000294952069816988, "loss": 0.3807, "step": 124680 }, { "epoch": 166.25333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029495126136750723, "loss": 0.3822, "step": 124690 }, { "epoch": 166.26666666666668, "grad_norm": 0.41015625, "learning_rate": 0.0002949504528544013, "loss": 0.3847, "step": 124700 }, { "epoch": 166.28, "grad_norm": 0.44921875, "learning_rate": 0.0002949496442776707, "loss": 0.4143, "step": 124710 }, { "epoch": 166.29333333333332, "grad_norm": 0.40625, "learning_rate": 0.00029494883563731554, "loss": 0.37, "step": 124720 }, { "epoch": 166.30666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002949480269333363, "loss": 0.3945, "step": 124730 }, { "epoch": 166.32, "grad_norm": 0.34765625, "learning_rate": 0.0002949472181657334, "loss": 0.3963, "step": 124740 }, { "epoch": 166.33333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002949464093345071, "loss": 0.3986, "step": 124750 }, { "epoch": 166.34666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029494560043965775, "loss": 0.3899, "step": 124760 }, { "epoch": 166.36, "grad_norm": 0.443359375, "learning_rate": 0.0002949447914811858, "loss": 0.39, "step": 124770 }, { "epoch": 166.37333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0002949439824590915, "loss": 0.3913, "step": 124780 }, { "epoch": 166.38666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029494317337337527, "loss": 0.3839, "step": 124790 }, { "epoch": 166.4, "grad_norm": 0.41015625, "learning_rate": 0.0002949423642240374, "loss": 0.3909, "step": 124800 }, { "epoch": 166.41333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029494155501107834, "loss": 0.3952, "step": 124810 }, { "epoch": 166.42666666666668, "grad_norm": 0.37890625, "learning_rate": 0.00029494074573449834, "loss": 0.3971, "step": 124820 }, { "epoch": 166.44, "grad_norm": 0.419921875, "learning_rate": 0.00029493993639429785, "loss": 0.4082, "step": 124830 }, { "epoch": 166.45333333333335, "grad_norm": 0.462890625, "learning_rate": 0.0002949391269904772, "loss": 0.3969, "step": 124840 }, { "epoch": 166.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029493831752303663, "loss": 0.4061, "step": 124850 }, { "epoch": 166.48, "grad_norm": 0.400390625, "learning_rate": 0.0002949375079919767, "loss": 0.3882, "step": 124860 }, { "epoch": 166.49333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029493669839729766, "loss": 0.3998, "step": 124870 }, { "epoch": 166.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002949358887389998, "loss": 0.3981, "step": 124880 }, { "epoch": 166.52, "grad_norm": 0.37890625, "learning_rate": 0.00029493507901708353, "loss": 0.3887, "step": 124890 }, { "epoch": 166.53333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002949342692315493, "loss": 0.3907, "step": 124900 }, { "epoch": 166.54666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002949334593823973, "loss": 0.3926, "step": 124910 }, { "epoch": 166.56, "grad_norm": 0.375, "learning_rate": 0.000294932649469628, "loss": 0.387, "step": 124920 }, { "epoch": 166.57333333333332, "grad_norm": 0.3828125, "learning_rate": 0.00029493183949324175, "loss": 0.3911, "step": 124930 }, { "epoch": 166.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002949310294532388, "loss": 0.3798, "step": 124940 }, { "epoch": 166.6, "grad_norm": 0.419921875, "learning_rate": 0.00029493021934961963, "loss": 0.3818, "step": 124950 }, { "epoch": 166.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029492940918238457, "loss": 0.3717, "step": 124960 }, { "epoch": 166.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002949285989515339, "loss": 0.3765, "step": 124970 }, { "epoch": 166.64, "grad_norm": 0.40234375, "learning_rate": 0.0002949277886570681, "loss": 0.3878, "step": 124980 }, { "epoch": 166.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002949269782989874, "loss": 0.3984, "step": 124990 }, { "epoch": 166.66666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029492616787729224, "loss": 0.3854, "step": 125000 }, { "epoch": 166.68, "grad_norm": 0.421875, "learning_rate": 0.0002949253573919829, "loss": 0.3777, "step": 125010 }, { "epoch": 166.69333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029492454684305983, "loss": 0.3868, "step": 125020 }, { "epoch": 166.70666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002949237362305233, "loss": 0.3796, "step": 125030 }, { "epoch": 166.72, "grad_norm": 0.396484375, "learning_rate": 0.00029492292555437374, "loss": 0.4023, "step": 125040 }, { "epoch": 166.73333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002949221148146115, "loss": 0.3955, "step": 125050 }, { "epoch": 166.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002949213040112369, "loss": 0.3988, "step": 125060 }, { "epoch": 166.76, "grad_norm": 0.40234375, "learning_rate": 0.0002949204931442502, "loss": 0.4115, "step": 125070 }, { "epoch": 166.77333333333334, "grad_norm": 0.443359375, "learning_rate": 0.00029491968221365193, "loss": 0.397, "step": 125080 }, { "epoch": 166.78666666666666, "grad_norm": 0.31640625, "learning_rate": 0.00029491887121944237, "loss": 0.3985, "step": 125090 }, { "epoch": 166.8, "grad_norm": 0.421875, "learning_rate": 0.00029491806016162186, "loss": 0.3972, "step": 125100 }, { "epoch": 166.81333333333333, "grad_norm": 0.5234375, "learning_rate": 0.0002949172490401908, "loss": 0.3704, "step": 125110 }, { "epoch": 166.82666666666665, "grad_norm": 0.40625, "learning_rate": 0.00029491643785514954, "loss": 0.3797, "step": 125120 }, { "epoch": 166.84, "grad_norm": 0.404296875, "learning_rate": 0.0002949156266064984, "loss": 0.3923, "step": 125130 }, { "epoch": 166.85333333333332, "grad_norm": 0.4296875, "learning_rate": 0.00029491481529423774, "loss": 0.3866, "step": 125140 }, { "epoch": 166.86666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002949140039183679, "loss": 0.3919, "step": 125150 }, { "epoch": 166.88, "grad_norm": 0.384765625, "learning_rate": 0.0002949131924788893, "loss": 0.3727, "step": 125160 }, { "epoch": 166.89333333333335, "grad_norm": 0.390625, "learning_rate": 0.00029491238097580227, "loss": 0.3844, "step": 125170 }, { "epoch": 166.90666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002949115694091072, "loss": 0.3901, "step": 125180 }, { "epoch": 166.92, "grad_norm": 0.412109375, "learning_rate": 0.0002949107577788043, "loss": 0.3931, "step": 125190 }, { "epoch": 166.93333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002949099460848941, "loss": 0.3872, "step": 125200 }, { "epoch": 166.94666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002949091343273769, "loss": 0.3878, "step": 125210 }, { "epoch": 166.96, "grad_norm": 0.369140625, "learning_rate": 0.000294908322506253, "loss": 0.3853, "step": 125220 }, { "epoch": 166.97333333333333, "grad_norm": 0.48828125, "learning_rate": 0.00029490751062152283, "loss": 0.4102, "step": 125230 }, { "epoch": 166.98666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029490669867318674, "loss": 0.3831, "step": 125240 }, { "epoch": 167.0, "grad_norm": 0.37890625, "learning_rate": 0.000294905886661245, "loss": 0.3793, "step": 125250 }, { "epoch": 167.0, "eval_loss": 0.42693260312080383, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8575, "eval_samples_per_second": 1.623, "eval_steps_per_second": 0.101, "step": 125250 }, { "epoch": 167.01333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029490507458569806, "loss": 0.396, "step": 125260 }, { "epoch": 167.02666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029490426244654623, "loss": 0.4085, "step": 125270 }, { "epoch": 167.04, "grad_norm": 0.37109375, "learning_rate": 0.0002949034502437899, "loss": 0.4234, "step": 125280 }, { "epoch": 167.05333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002949026379774294, "loss": 0.408, "step": 125290 }, { "epoch": 167.06666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002949018256474651, "loss": 0.3955, "step": 125300 }, { "epoch": 167.08, "grad_norm": 0.390625, "learning_rate": 0.00029490101325389736, "loss": 0.3981, "step": 125310 }, { "epoch": 167.09333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029490020079672653, "loss": 0.401, "step": 125320 }, { "epoch": 167.10666666666665, "grad_norm": 0.408203125, "learning_rate": 0.00029489938827595294, "loss": 0.3883, "step": 125330 }, { "epoch": 167.12, "grad_norm": 0.376953125, "learning_rate": 0.000294898575691577, "loss": 0.3922, "step": 125340 }, { "epoch": 167.13333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029489776304359903, "loss": 0.3835, "step": 125350 }, { "epoch": 167.14666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029489695033201935, "loss": 0.4031, "step": 125360 }, { "epoch": 167.16, "grad_norm": 0.359375, "learning_rate": 0.0002948961375568384, "loss": 0.3969, "step": 125370 }, { "epoch": 167.17333333333335, "grad_norm": 0.41015625, "learning_rate": 0.00029489532471805647, "loss": 0.3914, "step": 125380 }, { "epoch": 167.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.000294894511815674, "loss": 0.3907, "step": 125390 }, { "epoch": 167.2, "grad_norm": 0.376953125, "learning_rate": 0.0002948936988496913, "loss": 0.3828, "step": 125400 }, { "epoch": 167.21333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029489288582010867, "loss": 0.3825, "step": 125410 }, { "epoch": 167.22666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029489207272692647, "loss": 0.3953, "step": 125420 }, { "epoch": 167.24, "grad_norm": 0.4140625, "learning_rate": 0.0002948912595701452, "loss": 0.3809, "step": 125430 }, { "epoch": 167.25333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002948904463497651, "loss": 0.3818, "step": 125440 }, { "epoch": 167.26666666666668, "grad_norm": 0.4296875, "learning_rate": 0.00029488963306578654, "loss": 0.3839, "step": 125450 }, { "epoch": 167.28, "grad_norm": 0.396484375, "learning_rate": 0.00029488881971820985, "loss": 0.4146, "step": 125460 }, { "epoch": 167.29333333333332, "grad_norm": 0.37109375, "learning_rate": 0.0002948880063070354, "loss": 0.3714, "step": 125470 }, { "epoch": 167.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029488719283226364, "loss": 0.3945, "step": 125480 }, { "epoch": 167.32, "grad_norm": 0.361328125, "learning_rate": 0.0002948863792938948, "loss": 0.3966, "step": 125490 }, { "epoch": 167.33333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029488556569192933, "loss": 0.3986, "step": 125500 }, { "epoch": 167.34666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029488475202636753, "loss": 0.3901, "step": 125510 }, { "epoch": 167.36, "grad_norm": 0.458984375, "learning_rate": 0.0002948839382972098, "loss": 0.3907, "step": 125520 }, { "epoch": 167.37333333333333, "grad_norm": 0.353515625, "learning_rate": 0.00029488312450445646, "loss": 0.3911, "step": 125530 }, { "epoch": 167.38666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002948823106481079, "loss": 0.3832, "step": 125540 }, { "epoch": 167.4, "grad_norm": 0.400390625, "learning_rate": 0.0002948814967281644, "loss": 0.3915, "step": 125550 }, { "epoch": 167.41333333333333, "grad_norm": 0.36328125, "learning_rate": 0.0002948806827446264, "loss": 0.3955, "step": 125560 }, { "epoch": 167.42666666666668, "grad_norm": 0.421875, "learning_rate": 0.0002948798686974942, "loss": 0.3966, "step": 125570 }, { "epoch": 167.44, "grad_norm": 0.38671875, "learning_rate": 0.0002948790545867682, "loss": 0.4084, "step": 125580 }, { "epoch": 167.45333333333335, "grad_norm": 0.453125, "learning_rate": 0.0002948782404124488, "loss": 0.3974, "step": 125590 }, { "epoch": 167.46666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029487742617453634, "loss": 0.4055, "step": 125600 }, { "epoch": 167.48, "grad_norm": 0.416015625, "learning_rate": 0.00029487661187303104, "loss": 0.3879, "step": 125610 }, { "epoch": 167.49333333333334, "grad_norm": 0.447265625, "learning_rate": 0.0002948757975079334, "loss": 0.3996, "step": 125620 }, { "epoch": 167.50666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029487498307924375, "loss": 0.3976, "step": 125630 }, { "epoch": 167.52, "grad_norm": 0.349609375, "learning_rate": 0.0002948741685869624, "loss": 0.3883, "step": 125640 }, { "epoch": 167.53333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002948733540310898, "loss": 0.3915, "step": 125650 }, { "epoch": 167.54666666666665, "grad_norm": 0.46484375, "learning_rate": 0.0002948725394116262, "loss": 0.3933, "step": 125660 }, { "epoch": 167.56, "grad_norm": 0.36328125, "learning_rate": 0.000294871724728572, "loss": 0.3867, "step": 125670 }, { "epoch": 167.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029487090998192757, "loss": 0.3907, "step": 125680 }, { "epoch": 167.58666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029487009517169325, "loss": 0.381, "step": 125690 }, { "epoch": 167.6, "grad_norm": 0.376953125, "learning_rate": 0.00029486928029786945, "loss": 0.3812, "step": 125700 }, { "epoch": 167.61333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002948684653604565, "loss": 0.372, "step": 125710 }, { "epoch": 167.62666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002948676503594547, "loss": 0.3766, "step": 125720 }, { "epoch": 167.64, "grad_norm": 0.3984375, "learning_rate": 0.00029486683529486444, "loss": 0.3895, "step": 125730 }, { "epoch": 167.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029486602016668616, "loss": 0.3984, "step": 125740 }, { "epoch": 167.66666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029486520497492007, "loss": 0.386, "step": 125750 }, { "epoch": 167.68, "grad_norm": 0.462890625, "learning_rate": 0.00029486438971956666, "loss": 0.3785, "step": 125760 }, { "epoch": 167.69333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002948635744006262, "loss": 0.388, "step": 125770 }, { "epoch": 167.70666666666668, "grad_norm": 0.427734375, "learning_rate": 0.0002948627590180991, "loss": 0.3791, "step": 125780 }, { "epoch": 167.72, "grad_norm": 0.439453125, "learning_rate": 0.0002948619435719857, "loss": 0.4028, "step": 125790 }, { "epoch": 167.73333333333332, "grad_norm": 0.375, "learning_rate": 0.0002948611280622863, "loss": 0.3948, "step": 125800 }, { "epoch": 167.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002948603124890014, "loss": 0.3979, "step": 125810 }, { "epoch": 167.76, "grad_norm": 0.380859375, "learning_rate": 0.00029485949685213123, "loss": 0.4115, "step": 125820 }, { "epoch": 167.77333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029485868115167624, "loss": 0.3984, "step": 125830 }, { "epoch": 167.78666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029485786538763664, "loss": 0.3982, "step": 125840 }, { "epoch": 167.8, "grad_norm": 0.486328125, "learning_rate": 0.00029485704956001303, "loss": 0.3964, "step": 125850 }, { "epoch": 167.81333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002948562336688055, "loss": 0.3707, "step": 125860 }, { "epoch": 167.82666666666665, "grad_norm": 0.44921875, "learning_rate": 0.0002948554177140146, "loss": 0.3803, "step": 125870 }, { "epoch": 167.84, "grad_norm": 0.484375, "learning_rate": 0.0002948546016956406, "loss": 0.3916, "step": 125880 }, { "epoch": 167.85333333333332, "grad_norm": 0.421875, "learning_rate": 0.0002948537856136839, "loss": 0.3871, "step": 125890 }, { "epoch": 167.86666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002948529694681448, "loss": 0.3925, "step": 125900 }, { "epoch": 167.88, "grad_norm": 0.3828125, "learning_rate": 0.0002948521532590237, "loss": 0.3735, "step": 125910 }, { "epoch": 167.89333333333335, "grad_norm": 0.388671875, "learning_rate": 0.000294851336986321, "loss": 0.3845, "step": 125920 }, { "epoch": 167.90666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029485052065003696, "loss": 0.3899, "step": 125930 }, { "epoch": 167.92, "grad_norm": 0.431640625, "learning_rate": 0.00029484970425017204, "loss": 0.393, "step": 125940 }, { "epoch": 167.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.0002948488877867265, "loss": 0.3862, "step": 125950 }, { "epoch": 167.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002948480712597008, "loss": 0.3889, "step": 125960 }, { "epoch": 167.96, "grad_norm": 0.427734375, "learning_rate": 0.0002948472546690952, "loss": 0.3859, "step": 125970 }, { "epoch": 167.97333333333333, "grad_norm": 0.494140625, "learning_rate": 0.0002948464380149101, "loss": 0.4097, "step": 125980 }, { "epoch": 167.98666666666668, "grad_norm": 0.51171875, "learning_rate": 0.0002948456212971459, "loss": 0.383, "step": 125990 }, { "epoch": 168.0, "grad_norm": 0.392578125, "learning_rate": 0.00029484480451580293, "loss": 0.3791, "step": 126000 }, { "epoch": 168.0, "eval_loss": 0.42691129446029663, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6775, "eval_samples_per_second": 1.653, "eval_steps_per_second": 0.103, "step": 126000 }, { "epoch": 168.01333333333332, "grad_norm": 0.42578125, "learning_rate": 0.00029484398767088153, "loss": 0.3973, "step": 126010 }, { "epoch": 168.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002948431707623821, "loss": 0.4097, "step": 126020 }, { "epoch": 168.04, "grad_norm": 0.373046875, "learning_rate": 0.00029484235379030485, "loss": 0.4229, "step": 126030 }, { "epoch": 168.05333333333334, "grad_norm": 0.470703125, "learning_rate": 0.0002948415367546504, "loss": 0.4078, "step": 126040 }, { "epoch": 168.06666666666666, "grad_norm": 0.427734375, "learning_rate": 0.00029484071965541885, "loss": 0.396, "step": 126050 }, { "epoch": 168.08, "grad_norm": 0.3984375, "learning_rate": 0.00029483990249261073, "loss": 0.399, "step": 126060 }, { "epoch": 168.09333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029483908526622634, "loss": 0.3997, "step": 126070 }, { "epoch": 168.10666666666665, "grad_norm": 0.396484375, "learning_rate": 0.000294838267976266, "loss": 0.3882, "step": 126080 }, { "epoch": 168.12, "grad_norm": 0.40234375, "learning_rate": 0.0002948374506227302, "loss": 0.3926, "step": 126090 }, { "epoch": 168.13333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029483663320561916, "loss": 0.3854, "step": 126100 }, { "epoch": 168.14666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029483581572493326, "loss": 0.4031, "step": 126110 }, { "epoch": 168.16, "grad_norm": 0.353515625, "learning_rate": 0.00029483499818067294, "loss": 0.3973, "step": 126120 }, { "epoch": 168.17333333333335, "grad_norm": 0.455078125, "learning_rate": 0.0002948341805728385, "loss": 0.392, "step": 126130 }, { "epoch": 168.18666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029483336290143025, "loss": 0.3895, "step": 126140 }, { "epoch": 168.2, "grad_norm": 0.384765625, "learning_rate": 0.00029483254516644863, "loss": 0.3822, "step": 126150 }, { "epoch": 168.21333333333334, "grad_norm": 0.43359375, "learning_rate": 0.00029483172736789395, "loss": 0.3834, "step": 126160 }, { "epoch": 168.22666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029483090950576665, "loss": 0.3948, "step": 126170 }, { "epoch": 168.24, "grad_norm": 0.455078125, "learning_rate": 0.000294830091580067, "loss": 0.3806, "step": 126180 }, { "epoch": 168.25333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029482927359079534, "loss": 0.3821, "step": 126190 }, { "epoch": 168.26666666666668, "grad_norm": 0.41015625, "learning_rate": 0.0002948284555379521, "loss": 0.3838, "step": 126200 }, { "epoch": 168.28, "grad_norm": 0.453125, "learning_rate": 0.0002948276374215377, "loss": 0.413, "step": 126210 }, { "epoch": 168.29333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002948268192415523, "loss": 0.3711, "step": 126220 }, { "epoch": 168.30666666666667, "grad_norm": 0.345703125, "learning_rate": 0.00029482600099799643, "loss": 0.3941, "step": 126230 }, { "epoch": 168.32, "grad_norm": 0.38671875, "learning_rate": 0.00029482518269087043, "loss": 0.3965, "step": 126240 }, { "epoch": 168.33333333333334, "grad_norm": 0.4375, "learning_rate": 0.0002948243643201745, "loss": 0.3999, "step": 126250 }, { "epoch": 168.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.0002948235458859092, "loss": 0.3908, "step": 126260 }, { "epoch": 168.36, "grad_norm": 0.412109375, "learning_rate": 0.0002948227273880749, "loss": 0.3895, "step": 126270 }, { "epoch": 168.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.00029482190882667176, "loss": 0.3922, "step": 126280 }, { "epoch": 168.38666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002948210902017003, "loss": 0.384, "step": 126290 }, { "epoch": 168.4, "grad_norm": 0.388671875, "learning_rate": 0.0002948202715131608, "loss": 0.3912, "step": 126300 }, { "epoch": 168.41333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002948194527610537, "loss": 0.3961, "step": 126310 }, { "epoch": 168.42666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029481863394537923, "loss": 0.398, "step": 126320 }, { "epoch": 168.44, "grad_norm": 0.412109375, "learning_rate": 0.00029481781506613785, "loss": 0.4092, "step": 126330 }, { "epoch": 168.45333333333335, "grad_norm": 0.474609375, "learning_rate": 0.0002948169961233299, "loss": 0.3983, "step": 126340 }, { "epoch": 168.46666666666667, "grad_norm": 0.45703125, "learning_rate": 0.00029481617711695575, "loss": 0.4059, "step": 126350 }, { "epoch": 168.48, "grad_norm": 0.43359375, "learning_rate": 0.00029481535804701573, "loss": 0.3878, "step": 126360 }, { "epoch": 168.49333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029481453891351024, "loss": 0.3996, "step": 126370 }, { "epoch": 168.50666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029481371971643966, "loss": 0.398, "step": 126380 }, { "epoch": 168.52, "grad_norm": 0.333984375, "learning_rate": 0.0002948129004558042, "loss": 0.3878, "step": 126390 }, { "epoch": 168.53333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002948120811316044, "loss": 0.3912, "step": 126400 }, { "epoch": 168.54666666666665, "grad_norm": 0.390625, "learning_rate": 0.00029481126174384054, "loss": 0.3936, "step": 126410 }, { "epoch": 168.56, "grad_norm": 0.412109375, "learning_rate": 0.00029481044229251295, "loss": 0.3874, "step": 126420 }, { "epoch": 168.57333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029480962277762205, "loss": 0.3911, "step": 126430 }, { "epoch": 168.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002948088031991682, "loss": 0.3804, "step": 126440 }, { "epoch": 168.6, "grad_norm": 0.376953125, "learning_rate": 0.00029480798355715164, "loss": 0.3814, "step": 126450 }, { "epoch": 168.61333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002948071638515729, "loss": 0.3714, "step": 126460 }, { "epoch": 168.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.00029480634408243225, "loss": 0.3776, "step": 126470 }, { "epoch": 168.64, "grad_norm": 0.37109375, "learning_rate": 0.00029480552424973003, "loss": 0.3892, "step": 126480 }, { "epoch": 168.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002948047043534667, "loss": 0.3966, "step": 126490 }, { "epoch": 168.66666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029480388439364247, "loss": 0.3857, "step": 126500 }, { "epoch": 168.68, "grad_norm": 0.41015625, "learning_rate": 0.0002948030643702578, "loss": 0.377, "step": 126510 }, { "epoch": 168.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002948022442833131, "loss": 0.3862, "step": 126520 }, { "epoch": 168.70666666666668, "grad_norm": 0.41015625, "learning_rate": 0.00029480142413280854, "loss": 0.3801, "step": 126530 }, { "epoch": 168.72, "grad_norm": 0.43359375, "learning_rate": 0.00029480060391874467, "loss": 0.4015, "step": 126540 }, { "epoch": 168.73333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002947997836411218, "loss": 0.396, "step": 126550 }, { "epoch": 168.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002947989632999403, "loss": 0.3978, "step": 126560 }, { "epoch": 168.76, "grad_norm": 0.44921875, "learning_rate": 0.0002947981428952005, "loss": 0.4116, "step": 126570 }, { "epoch": 168.77333333333334, "grad_norm": 0.443359375, "learning_rate": 0.0002947973224269027, "loss": 0.3977, "step": 126580 }, { "epoch": 168.78666666666666, "grad_norm": 0.36328125, "learning_rate": 0.00029479650189504733, "loss": 0.3986, "step": 126590 }, { "epoch": 168.8, "grad_norm": 0.3984375, "learning_rate": 0.00029479568129963475, "loss": 0.3963, "step": 126600 }, { "epoch": 168.81333333333333, "grad_norm": 0.4609375, "learning_rate": 0.0002947948606406653, "loss": 0.3703, "step": 126610 }, { "epoch": 168.82666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002947940399181394, "loss": 0.3796, "step": 126620 }, { "epoch": 168.84, "grad_norm": 0.435546875, "learning_rate": 0.00029479321913205734, "loss": 0.3916, "step": 126630 }, { "epoch": 168.85333333333332, "grad_norm": 0.3828125, "learning_rate": 0.00029479239828241946, "loss": 0.3876, "step": 126640 }, { "epoch": 168.86666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029479157736922624, "loss": 0.3908, "step": 126650 }, { "epoch": 168.88, "grad_norm": 0.435546875, "learning_rate": 0.0002947907563924779, "loss": 0.3726, "step": 126660 }, { "epoch": 168.89333333333335, "grad_norm": 0.384765625, "learning_rate": 0.00029478993535217494, "loss": 0.3847, "step": 126670 }, { "epoch": 168.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029478911424831757, "loss": 0.3912, "step": 126680 }, { "epoch": 168.92, "grad_norm": 0.396484375, "learning_rate": 0.00029478829308090626, "loss": 0.3931, "step": 126690 }, { "epoch": 168.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002947874718499413, "loss": 0.3862, "step": 126700 }, { "epoch": 168.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002947866505554232, "loss": 0.3873, "step": 126710 }, { "epoch": 168.96, "grad_norm": 0.345703125, "learning_rate": 0.0002947858291973521, "loss": 0.385, "step": 126720 }, { "epoch": 168.97333333333333, "grad_norm": 0.498046875, "learning_rate": 0.00029478500777572846, "loss": 0.4101, "step": 126730 }, { "epoch": 168.98666666666668, "grad_norm": 0.41796875, "learning_rate": 0.0002947841862905527, "loss": 0.3839, "step": 126740 }, { "epoch": 169.0, "grad_norm": 0.388671875, "learning_rate": 0.00029478336474182514, "loss": 0.3803, "step": 126750 }, { "epoch": 169.0, "eval_loss": 0.4274819791316986, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9632, "eval_samples_per_second": 1.606, "eval_steps_per_second": 0.1, "step": 126750 }, { "epoch": 169.01333333333332, "grad_norm": 0.3984375, "learning_rate": 0.00029478254312954606, "loss": 0.3964, "step": 126760 }, { "epoch": 169.02666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002947817214537159, "loss": 0.4094, "step": 126770 }, { "epoch": 169.04, "grad_norm": 0.365234375, "learning_rate": 0.00029478089971433506, "loss": 0.423, "step": 126780 }, { "epoch": 169.05333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002947800779114038, "loss": 0.4087, "step": 126790 }, { "epoch": 169.06666666666666, "grad_norm": 0.40234375, "learning_rate": 0.0002947792560449226, "loss": 0.3951, "step": 126800 }, { "epoch": 169.08, "grad_norm": 0.380859375, "learning_rate": 0.0002947784341148917, "loss": 0.3992, "step": 126810 }, { "epoch": 169.09333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002947776121213115, "loss": 0.3992, "step": 126820 }, { "epoch": 169.10666666666665, "grad_norm": 0.3671875, "learning_rate": 0.0002947767900641824, "loss": 0.3882, "step": 126830 }, { "epoch": 169.12, "grad_norm": 0.392578125, "learning_rate": 0.00029477596794350475, "loss": 0.3937, "step": 126840 }, { "epoch": 169.13333333333333, "grad_norm": 0.447265625, "learning_rate": 0.0002947751457592789, "loss": 0.3837, "step": 126850 }, { "epoch": 169.14666666666668, "grad_norm": 0.435546875, "learning_rate": 0.00029477432351150516, "loss": 0.4032, "step": 126860 }, { "epoch": 169.16, "grad_norm": 0.36328125, "learning_rate": 0.00029477350120018397, "loss": 0.3971, "step": 126870 }, { "epoch": 169.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.0002947726788253157, "loss": 0.3914, "step": 126880 }, { "epoch": 169.18666666666667, "grad_norm": 0.46484375, "learning_rate": 0.00029477185638690056, "loss": 0.3897, "step": 126890 }, { "epoch": 169.2, "grad_norm": 0.39453125, "learning_rate": 0.00029477103388493906, "loss": 0.3824, "step": 126900 }, { "epoch": 169.21333333333334, "grad_norm": 0.40625, "learning_rate": 0.0002947702113194316, "loss": 0.3833, "step": 126910 }, { "epoch": 169.22666666666666, "grad_norm": 0.447265625, "learning_rate": 0.00029476938869037834, "loss": 0.3948, "step": 126920 }, { "epoch": 169.24, "grad_norm": 0.447265625, "learning_rate": 0.00029476856599777983, "loss": 0.3806, "step": 126930 }, { "epoch": 169.25333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002947677432416364, "loss": 0.3811, "step": 126940 }, { "epoch": 169.26666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029476692042194836, "loss": 0.3838, "step": 126950 }, { "epoch": 169.28, "grad_norm": 0.41796875, "learning_rate": 0.00029476609753871605, "loss": 0.4141, "step": 126960 }, { "epoch": 169.29333333333332, "grad_norm": 0.3984375, "learning_rate": 0.0002947652745919399, "loss": 0.3703, "step": 126970 }, { "epoch": 169.30666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029476445158162023, "loss": 0.3938, "step": 126980 }, { "epoch": 169.32, "grad_norm": 0.3671875, "learning_rate": 0.0002947636285077574, "loss": 0.3965, "step": 126990 }, { "epoch": 169.33333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002947628053703518, "loss": 0.3987, "step": 127000 }, { "epoch": 169.34666666666666, "grad_norm": 0.447265625, "learning_rate": 0.00029476198216940374, "loss": 0.3902, "step": 127010 }, { "epoch": 169.36, "grad_norm": 0.53515625, "learning_rate": 0.00029476115890491363, "loss": 0.3902, "step": 127020 }, { "epoch": 169.37333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029476033557688185, "loss": 0.3917, "step": 127030 }, { "epoch": 169.38666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029475951218530867, "loss": 0.3831, "step": 127040 }, { "epoch": 169.4, "grad_norm": 0.37890625, "learning_rate": 0.00029475868873019457, "loss": 0.3914, "step": 127050 }, { "epoch": 169.41333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002947578652115398, "loss": 0.3958, "step": 127060 }, { "epoch": 169.42666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002947570416293448, "loss": 0.3979, "step": 127070 }, { "epoch": 169.44, "grad_norm": 0.439453125, "learning_rate": 0.00029475621798360986, "loss": 0.4085, "step": 127080 }, { "epoch": 169.45333333333335, "grad_norm": 0.47265625, "learning_rate": 0.0002947553942743354, "loss": 0.3972, "step": 127090 }, { "epoch": 169.46666666666667, "grad_norm": 0.427734375, "learning_rate": 0.00029475457050152183, "loss": 0.4054, "step": 127100 }, { "epoch": 169.48, "grad_norm": 0.404296875, "learning_rate": 0.0002947537466651694, "loss": 0.3878, "step": 127110 }, { "epoch": 169.49333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029475292276527854, "loss": 0.4001, "step": 127120 }, { "epoch": 169.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002947520988018496, "loss": 0.3982, "step": 127130 }, { "epoch": 169.52, "grad_norm": 0.38671875, "learning_rate": 0.00029475127477488286, "loss": 0.3889, "step": 127140 }, { "epoch": 169.53333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029475045068437885, "loss": 0.3916, "step": 127150 }, { "epoch": 169.54666666666665, "grad_norm": 0.423828125, "learning_rate": 0.0002947496265303378, "loss": 0.3934, "step": 127160 }, { "epoch": 169.56, "grad_norm": 0.421875, "learning_rate": 0.00029474880231276, "loss": 0.3871, "step": 127170 }, { "epoch": 169.57333333333332, "grad_norm": 0.458984375, "learning_rate": 0.00029474797803164606, "loss": 0.3909, "step": 127180 }, { "epoch": 169.58666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029474715368699617, "loss": 0.3791, "step": 127190 }, { "epoch": 169.6, "grad_norm": 0.3671875, "learning_rate": 0.00029474632927881073, "loss": 0.3812, "step": 127200 }, { "epoch": 169.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002947455048070901, "loss": 0.3718, "step": 127210 }, { "epoch": 169.62666666666667, "grad_norm": 0.349609375, "learning_rate": 0.00029474468027183457, "loss": 0.377, "step": 127220 }, { "epoch": 169.64, "grad_norm": 0.42578125, "learning_rate": 0.0002947438556730446, "loss": 0.3889, "step": 127230 }, { "epoch": 169.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029474303101072056, "loss": 0.3982, "step": 127240 }, { "epoch": 169.66666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029474220628486275, "loss": 0.3867, "step": 127250 }, { "epoch": 169.68, "grad_norm": 0.408203125, "learning_rate": 0.00029474138149547155, "loss": 0.3774, "step": 127260 }, { "epoch": 169.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029474055664254736, "loss": 0.3861, "step": 127270 }, { "epoch": 169.70666666666668, "grad_norm": 0.453125, "learning_rate": 0.00029473973172609044, "loss": 0.3795, "step": 127280 }, { "epoch": 169.72, "grad_norm": 0.40625, "learning_rate": 0.0002947389067461013, "loss": 0.4008, "step": 127290 }, { "epoch": 169.73333333333332, "grad_norm": 0.427734375, "learning_rate": 0.00029473808170258015, "loss": 0.3955, "step": 127300 }, { "epoch": 169.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002947372565955275, "loss": 0.3986, "step": 127310 }, { "epoch": 169.76, "grad_norm": 0.416015625, "learning_rate": 0.00029473643142494355, "loss": 0.4121, "step": 127320 }, { "epoch": 169.77333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029473560619082883, "loss": 0.3975, "step": 127330 }, { "epoch": 169.78666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029473478089318356, "loss": 0.3983, "step": 127340 }, { "epoch": 169.8, "grad_norm": 0.42578125, "learning_rate": 0.0002947339555320082, "loss": 0.3969, "step": 127350 }, { "epoch": 169.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002947331301073031, "loss": 0.3712, "step": 127360 }, { "epoch": 169.82666666666665, "grad_norm": 0.37890625, "learning_rate": 0.00029473230461906855, "loss": 0.3797, "step": 127370 }, { "epoch": 169.84, "grad_norm": 0.46484375, "learning_rate": 0.000294731479067305, "loss": 0.3915, "step": 127380 }, { "epoch": 169.85333333333332, "grad_norm": 0.451171875, "learning_rate": 0.00029473065345201276, "loss": 0.3874, "step": 127390 }, { "epoch": 169.86666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002947298277731922, "loss": 0.3921, "step": 127400 }, { "epoch": 169.88, "grad_norm": 0.388671875, "learning_rate": 0.00029472900203084373, "loss": 0.3722, "step": 127410 }, { "epoch": 169.89333333333335, "grad_norm": 0.412109375, "learning_rate": 0.0002947281762249676, "loss": 0.3852, "step": 127420 }, { "epoch": 169.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002947273503555643, "loss": 0.3914, "step": 127430 }, { "epoch": 169.92, "grad_norm": 0.45703125, "learning_rate": 0.0002947265244226341, "loss": 0.3919, "step": 127440 }, { "epoch": 169.93333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029472569842617743, "loss": 0.3863, "step": 127450 }, { "epoch": 169.94666666666666, "grad_norm": 0.412109375, "learning_rate": 0.0002947248723661946, "loss": 0.3872, "step": 127460 }, { "epoch": 169.96, "grad_norm": 0.38671875, "learning_rate": 0.00029472404624268596, "loss": 0.3857, "step": 127470 }, { "epoch": 169.97333333333333, "grad_norm": 0.4609375, "learning_rate": 0.00029472322005565197, "loss": 0.4104, "step": 127480 }, { "epoch": 169.98666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002947223938050929, "loss": 0.3824, "step": 127490 }, { "epoch": 170.0, "grad_norm": 0.37890625, "learning_rate": 0.0002947215674910091, "loss": 0.3796, "step": 127500 }, { "epoch": 170.0, "eval_loss": 0.42618387937545776, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0708, "eval_samples_per_second": 1.589, "eval_steps_per_second": 0.099, "step": 127500 }, { "epoch": 170.01333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029472074111340106, "loss": 0.3959, "step": 127510 }, { "epoch": 170.02666666666667, "grad_norm": 0.41015625, "learning_rate": 0.000294719914672269, "loss": 0.4101, "step": 127520 }, { "epoch": 170.04, "grad_norm": 0.34375, "learning_rate": 0.0002947190881676134, "loss": 0.4229, "step": 127530 }, { "epoch": 170.05333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029471826159943446, "loss": 0.408, "step": 127540 }, { "epoch": 170.06666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002947174349677327, "loss": 0.3953, "step": 127550 }, { "epoch": 170.08, "grad_norm": 0.373046875, "learning_rate": 0.0002947166082725084, "loss": 0.3986, "step": 127560 }, { "epoch": 170.09333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029471578151376204, "loss": 0.3997, "step": 127570 }, { "epoch": 170.10666666666665, "grad_norm": 0.357421875, "learning_rate": 0.00029471495469149384, "loss": 0.3877, "step": 127580 }, { "epoch": 170.12, "grad_norm": 0.388671875, "learning_rate": 0.0002947141278057042, "loss": 0.3926, "step": 127590 }, { "epoch": 170.13333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002947133008563935, "loss": 0.3839, "step": 127600 }, { "epoch": 170.14666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029471247384356213, "loss": 0.4034, "step": 127610 }, { "epoch": 170.16, "grad_norm": 0.349609375, "learning_rate": 0.00029471164676721044, "loss": 0.3966, "step": 127620 }, { "epoch": 170.17333333333335, "grad_norm": 0.4453125, "learning_rate": 0.0002947108196273387, "loss": 0.3913, "step": 127630 }, { "epoch": 170.18666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002947099924239474, "loss": 0.3894, "step": 127640 }, { "epoch": 170.2, "grad_norm": 0.41015625, "learning_rate": 0.00029470916515703685, "loss": 0.3831, "step": 127650 }, { "epoch": 170.21333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002947083378266075, "loss": 0.3839, "step": 127660 }, { "epoch": 170.22666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029470751043265953, "loss": 0.3948, "step": 127670 }, { "epoch": 170.24, "grad_norm": 0.37109375, "learning_rate": 0.00029470668297519343, "loss": 0.3798, "step": 127680 }, { "epoch": 170.25333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002947058554542095, "loss": 0.3815, "step": 127690 }, { "epoch": 170.26666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002947050278697082, "loss": 0.3837, "step": 127700 }, { "epoch": 170.28, "grad_norm": 0.42578125, "learning_rate": 0.00029470420022168983, "loss": 0.4138, "step": 127710 }, { "epoch": 170.29333333333332, "grad_norm": 0.443359375, "learning_rate": 0.0002947033725101548, "loss": 0.37, "step": 127720 }, { "epoch": 170.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002947025447351033, "loss": 0.3932, "step": 127730 }, { "epoch": 170.32, "grad_norm": 0.3828125, "learning_rate": 0.0002947017168965359, "loss": 0.3965, "step": 127740 }, { "epoch": 170.33333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029470088899445293, "loss": 0.3986, "step": 127750 }, { "epoch": 170.34666666666666, "grad_norm": 0.4921875, "learning_rate": 0.00029470006102885467, "loss": 0.3895, "step": 127760 }, { "epoch": 170.36, "grad_norm": 0.478515625, "learning_rate": 0.0002946992329997415, "loss": 0.3904, "step": 127770 }, { "epoch": 170.37333333333333, "grad_norm": 0.337890625, "learning_rate": 0.00029469840490711384, "loss": 0.3915, "step": 127780 }, { "epoch": 170.38666666666666, "grad_norm": 0.4296875, "learning_rate": 0.000294697576750972, "loss": 0.384, "step": 127790 }, { "epoch": 170.4, "grad_norm": 0.404296875, "learning_rate": 0.0002946967485313164, "loss": 0.3913, "step": 127800 }, { "epoch": 170.41333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029469592024814736, "loss": 0.3953, "step": 127810 }, { "epoch": 170.42666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002946950919014652, "loss": 0.3963, "step": 127820 }, { "epoch": 170.44, "grad_norm": 0.421875, "learning_rate": 0.0002946942634912704, "loss": 0.4085, "step": 127830 }, { "epoch": 170.45333333333335, "grad_norm": 0.44921875, "learning_rate": 0.0002946934350175632, "loss": 0.3973, "step": 127840 }, { "epoch": 170.46666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029469260648034407, "loss": 0.4061, "step": 127850 }, { "epoch": 170.48, "grad_norm": 0.43359375, "learning_rate": 0.00029469177787961334, "loss": 0.3872, "step": 127860 }, { "epoch": 170.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029469094921537136, "loss": 0.3996, "step": 127870 }, { "epoch": 170.50666666666666, "grad_norm": 0.384765625, "learning_rate": 0.00029469012048761843, "loss": 0.3982, "step": 127880 }, { "epoch": 170.52, "grad_norm": 0.361328125, "learning_rate": 0.000294689291696355, "loss": 0.3881, "step": 127890 }, { "epoch": 170.53333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002946884628415814, "loss": 0.3913, "step": 127900 }, { "epoch": 170.54666666666665, "grad_norm": 0.4375, "learning_rate": 0.00029468763392329804, "loss": 0.393, "step": 127910 }, { "epoch": 170.56, "grad_norm": 0.396484375, "learning_rate": 0.00029468680494150527, "loss": 0.3876, "step": 127920 }, { "epoch": 170.57333333333332, "grad_norm": 0.359375, "learning_rate": 0.00029468597589620335, "loss": 0.3905, "step": 127930 }, { "epoch": 170.58666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029468514678739283, "loss": 0.3793, "step": 127940 }, { "epoch": 170.6, "grad_norm": 0.42578125, "learning_rate": 0.0002946843176150739, "loss": 0.3817, "step": 127950 }, { "epoch": 170.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029468348837924705, "loss": 0.3727, "step": 127960 }, { "epoch": 170.62666666666667, "grad_norm": 0.330078125, "learning_rate": 0.00029468265907991255, "loss": 0.3775, "step": 127970 }, { "epoch": 170.64, "grad_norm": 0.390625, "learning_rate": 0.0002946818297170708, "loss": 0.3889, "step": 127980 }, { "epoch": 170.65333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002946810002907222, "loss": 0.397, "step": 127990 }, { "epoch": 170.66666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029468017080086707, "loss": 0.3866, "step": 128000 }, { "epoch": 170.68, "grad_norm": 0.4765625, "learning_rate": 0.00029467934124750573, "loss": 0.377, "step": 128010 }, { "epoch": 170.69333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029467851163063867, "loss": 0.3865, "step": 128020 }, { "epoch": 170.70666666666668, "grad_norm": 0.427734375, "learning_rate": 0.00029467768195026614, "loss": 0.3788, "step": 128030 }, { "epoch": 170.72, "grad_norm": 0.46875, "learning_rate": 0.0002946768522063886, "loss": 0.4004, "step": 128040 }, { "epoch": 170.73333333333332, "grad_norm": 0.435546875, "learning_rate": 0.00029467602239900627, "loss": 0.3951, "step": 128050 }, { "epoch": 170.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002946751925281197, "loss": 0.3984, "step": 128060 }, { "epoch": 170.76, "grad_norm": 0.44921875, "learning_rate": 0.0002946743625937291, "loss": 0.4109, "step": 128070 }, { "epoch": 170.77333333333334, "grad_norm": 0.4375, "learning_rate": 0.0002946735325958349, "loss": 0.3978, "step": 128080 }, { "epoch": 170.78666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029467270253443747, "loss": 0.3984, "step": 128090 }, { "epoch": 170.8, "grad_norm": 0.37890625, "learning_rate": 0.0002946718724095372, "loss": 0.3976, "step": 128100 }, { "epoch": 170.81333333333333, "grad_norm": 0.486328125, "learning_rate": 0.00029467104222113434, "loss": 0.3705, "step": 128110 }, { "epoch": 170.82666666666665, "grad_norm": 0.474609375, "learning_rate": 0.0002946702119692294, "loss": 0.3793, "step": 128120 }, { "epoch": 170.84, "grad_norm": 0.427734375, "learning_rate": 0.00029466938165382265, "loss": 0.3918, "step": 128130 }, { "epoch": 170.85333333333332, "grad_norm": 0.3984375, "learning_rate": 0.0002946685512749145, "loss": 0.3871, "step": 128140 }, { "epoch": 170.86666666666667, "grad_norm": 0.451171875, "learning_rate": 0.0002946677208325053, "loss": 0.3912, "step": 128150 }, { "epoch": 170.88, "grad_norm": 0.3984375, "learning_rate": 0.0002946668903265954, "loss": 0.3714, "step": 128160 }, { "epoch": 170.89333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002946660597571851, "loss": 0.3846, "step": 128170 }, { "epoch": 170.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029466522912427494, "loss": 0.3905, "step": 128180 }, { "epoch": 170.92, "grad_norm": 0.39453125, "learning_rate": 0.0002946643984278652, "loss": 0.3926, "step": 128190 }, { "epoch": 170.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002946635676679561, "loss": 0.386, "step": 128200 }, { "epoch": 170.94666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002946627368445482, "loss": 0.3877, "step": 128210 }, { "epoch": 170.96, "grad_norm": 0.380859375, "learning_rate": 0.00029466190595764185, "loss": 0.3854, "step": 128220 }, { "epoch": 170.97333333333333, "grad_norm": 0.498046875, "learning_rate": 0.00029466107500723734, "loss": 0.4107, "step": 128230 }, { "epoch": 170.98666666666668, "grad_norm": 0.3671875, "learning_rate": 0.000294660243993335, "loss": 0.3819, "step": 128240 }, { "epoch": 171.0, "grad_norm": 0.41015625, "learning_rate": 0.0002946594129159353, "loss": 0.38, "step": 128250 }, { "epoch": 171.0, "eval_loss": 0.42594289779663086, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2429, "eval_samples_per_second": 1.562, "eval_steps_per_second": 0.098, "step": 128250 }, { "epoch": 171.01333333333332, "grad_norm": 0.46875, "learning_rate": 0.0002946585817750385, "loss": 0.3959, "step": 128260 }, { "epoch": 171.02666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002946577505706451, "loss": 0.4097, "step": 128270 }, { "epoch": 171.04, "grad_norm": 0.375, "learning_rate": 0.00029465691930275536, "loss": 0.4231, "step": 128280 }, { "epoch": 171.05333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002946560879713697, "loss": 0.4077, "step": 128290 }, { "epoch": 171.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002946552565764884, "loss": 0.3963, "step": 128300 }, { "epoch": 171.08, "grad_norm": 0.4140625, "learning_rate": 0.00029465442511811187, "loss": 0.3989, "step": 128310 }, { "epoch": 171.09333333333333, "grad_norm": 0.474609375, "learning_rate": 0.00029465359359624055, "loss": 0.3996, "step": 128320 }, { "epoch": 171.10666666666665, "grad_norm": 0.43359375, "learning_rate": 0.00029465276201087466, "loss": 0.3876, "step": 128330 }, { "epoch": 171.12, "grad_norm": 0.3828125, "learning_rate": 0.00029465193036201475, "loss": 0.392, "step": 128340 }, { "epoch": 171.13333333333333, "grad_norm": 0.376953125, "learning_rate": 0.000294651098649661, "loss": 0.3839, "step": 128350 }, { "epoch": 171.14666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002946502668738139, "loss": 0.4036, "step": 128360 }, { "epoch": 171.16, "grad_norm": 0.388671875, "learning_rate": 0.00029464943503447374, "loss": 0.397, "step": 128370 }, { "epoch": 171.17333333333335, "grad_norm": 0.427734375, "learning_rate": 0.00029464860313164093, "loss": 0.3908, "step": 128380 }, { "epoch": 171.18666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029464777116531584, "loss": 0.3904, "step": 128390 }, { "epoch": 171.2, "grad_norm": 0.37890625, "learning_rate": 0.0002946469391354988, "loss": 0.3825, "step": 128400 }, { "epoch": 171.21333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029464610704219013, "loss": 0.3835, "step": 128410 }, { "epoch": 171.22666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029464527488539034, "loss": 0.3945, "step": 128420 }, { "epoch": 171.24, "grad_norm": 0.470703125, "learning_rate": 0.0002946444426650997, "loss": 0.3801, "step": 128430 }, { "epoch": 171.25333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029464361038131855, "loss": 0.3818, "step": 128440 }, { "epoch": 171.26666666666668, "grad_norm": 0.390625, "learning_rate": 0.0002946427780340473, "loss": 0.3839, "step": 128450 }, { "epoch": 171.28, "grad_norm": 0.41015625, "learning_rate": 0.0002946419456232863, "loss": 0.4145, "step": 128460 }, { "epoch": 171.29333333333332, "grad_norm": 0.41015625, "learning_rate": 0.000294641113149036, "loss": 0.3707, "step": 128470 }, { "epoch": 171.30666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002946402806112966, "loss": 0.3935, "step": 128480 }, { "epoch": 171.32, "grad_norm": 0.330078125, "learning_rate": 0.00029463944801006863, "loss": 0.3968, "step": 128490 }, { "epoch": 171.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029463861534535237, "loss": 0.3987, "step": 128500 }, { "epoch": 171.34666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029463778261714816, "loss": 0.3898, "step": 128510 }, { "epoch": 171.36, "grad_norm": 0.55078125, "learning_rate": 0.00029463694982545643, "loss": 0.3901, "step": 128520 }, { "epoch": 171.37333333333333, "grad_norm": 0.3359375, "learning_rate": 0.00029463611697027746, "loss": 0.392, "step": 128530 }, { "epoch": 171.38666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029463528405161173, "loss": 0.3838, "step": 128540 }, { "epoch": 171.4, "grad_norm": 0.419921875, "learning_rate": 0.0002946344510694595, "loss": 0.3921, "step": 128550 }, { "epoch": 171.41333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029463361802382123, "loss": 0.3953, "step": 128560 }, { "epoch": 171.42666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002946327849146972, "loss": 0.3969, "step": 128570 }, { "epoch": 171.44, "grad_norm": 0.404296875, "learning_rate": 0.00029463195174208787, "loss": 0.4097, "step": 128580 }, { "epoch": 171.45333333333335, "grad_norm": 0.435546875, "learning_rate": 0.00029463111850599354, "loss": 0.3963, "step": 128590 }, { "epoch": 171.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002946302852064145, "loss": 0.4065, "step": 128600 }, { "epoch": 171.48, "grad_norm": 0.423828125, "learning_rate": 0.0002946294518433513, "loss": 0.3867, "step": 128610 }, { "epoch": 171.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029462861841680416, "loss": 0.3994, "step": 128620 }, { "epoch": 171.50666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029462778492677353, "loss": 0.3975, "step": 128630 }, { "epoch": 171.52, "grad_norm": 0.345703125, "learning_rate": 0.0002946269513732597, "loss": 0.3878, "step": 128640 }, { "epoch": 171.53333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029462611775626305, "loss": 0.3909, "step": 128650 }, { "epoch": 171.54666666666665, "grad_norm": 0.478515625, "learning_rate": 0.0002946252840757841, "loss": 0.3929, "step": 128660 }, { "epoch": 171.56, "grad_norm": 0.361328125, "learning_rate": 0.00029462445033182294, "loss": 0.3876, "step": 128670 }, { "epoch": 171.57333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029462361652438015, "loss": 0.3911, "step": 128680 }, { "epoch": 171.58666666666667, "grad_norm": 0.3828125, "learning_rate": 0.000294622782653456, "loss": 0.38, "step": 128690 }, { "epoch": 171.6, "grad_norm": 0.37890625, "learning_rate": 0.000294621948719051, "loss": 0.3815, "step": 128700 }, { "epoch": 171.61333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029462111472116525, "loss": 0.3716, "step": 128710 }, { "epoch": 171.62666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002946202806597993, "loss": 0.3775, "step": 128720 }, { "epoch": 171.64, "grad_norm": 0.396484375, "learning_rate": 0.0002946194465349535, "loss": 0.3891, "step": 128730 }, { "epoch": 171.65333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029461861234662823, "loss": 0.3974, "step": 128740 }, { "epoch": 171.66666666666666, "grad_norm": 0.349609375, "learning_rate": 0.0002946177780948238, "loss": 0.3857, "step": 128750 }, { "epoch": 171.68, "grad_norm": 0.373046875, "learning_rate": 0.0002946169437795406, "loss": 0.3774, "step": 128760 }, { "epoch": 171.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029461610940077906, "loss": 0.3868, "step": 128770 }, { "epoch": 171.70666666666668, "grad_norm": 0.419921875, "learning_rate": 0.0002946152749585394, "loss": 0.379, "step": 128780 }, { "epoch": 171.72, "grad_norm": 0.423828125, "learning_rate": 0.00029461444045282206, "loss": 0.4009, "step": 128790 }, { "epoch": 171.73333333333332, "grad_norm": 0.353515625, "learning_rate": 0.0002946136058836275, "loss": 0.3949, "step": 128800 }, { "epoch": 171.74666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002946127712509559, "loss": 0.3987, "step": 128810 }, { "epoch": 171.76, "grad_norm": 0.4375, "learning_rate": 0.0002946119365548078, "loss": 0.4117, "step": 128820 }, { "epoch": 171.77333333333334, "grad_norm": 0.45703125, "learning_rate": 0.0002946111017951835, "loss": 0.3974, "step": 128830 }, { "epoch": 171.78666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002946102669720834, "loss": 0.3994, "step": 128840 }, { "epoch": 171.8, "grad_norm": 0.412109375, "learning_rate": 0.0002946094320855077, "loss": 0.3968, "step": 128850 }, { "epoch": 171.81333333333333, "grad_norm": 0.484375, "learning_rate": 0.00029460859713545704, "loss": 0.3709, "step": 128860 }, { "epoch": 171.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029460776212193154, "loss": 0.3799, "step": 128870 }, { "epoch": 171.84, "grad_norm": 0.404296875, "learning_rate": 0.0002946069270449317, "loss": 0.3905, "step": 128880 }, { "epoch": 171.85333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029460609190445783, "loss": 0.3871, "step": 128890 }, { "epoch": 171.86666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002946052567005104, "loss": 0.3911, "step": 128900 }, { "epoch": 171.88, "grad_norm": 0.423828125, "learning_rate": 0.0002946044214330896, "loss": 0.3729, "step": 128910 }, { "epoch": 171.89333333333335, "grad_norm": 0.384765625, "learning_rate": 0.00029460358610219596, "loss": 0.3843, "step": 128920 }, { "epoch": 171.90666666666667, "grad_norm": 0.439453125, "learning_rate": 0.00029460275070782976, "loss": 0.3902, "step": 128930 }, { "epoch": 171.92, "grad_norm": 0.46484375, "learning_rate": 0.00029460191524999143, "loss": 0.3931, "step": 128940 }, { "epoch": 171.93333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029460107972868125, "loss": 0.3862, "step": 128950 }, { "epoch": 171.94666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002946002441438996, "loss": 0.3872, "step": 128960 }, { "epoch": 171.96, "grad_norm": 0.357421875, "learning_rate": 0.0002945994084956469, "loss": 0.3843, "step": 128970 }, { "epoch": 171.97333333333333, "grad_norm": 0.4765625, "learning_rate": 0.00029459857278392356, "loss": 0.4101, "step": 128980 }, { "epoch": 171.98666666666668, "grad_norm": 0.4765625, "learning_rate": 0.00029459773700872983, "loss": 0.383, "step": 128990 }, { "epoch": 172.0, "grad_norm": 0.404296875, "learning_rate": 0.00029459690117006614, "loss": 0.3789, "step": 129000 }, { "epoch": 172.0, "eval_loss": 0.4271913170814514, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9853, "eval_samples_per_second": 1.602, "eval_steps_per_second": 0.1, "step": 129000 }, { "epoch": 172.01333333333332, "grad_norm": 0.484375, "learning_rate": 0.0002945960652679328, "loss": 0.3971, "step": 129010 }, { "epoch": 172.02666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029459522930233025, "loss": 0.4094, "step": 129020 }, { "epoch": 172.04, "grad_norm": 0.380859375, "learning_rate": 0.00029459439327325887, "loss": 0.4227, "step": 129030 }, { "epoch": 172.05333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029459355718071894, "loss": 0.4079, "step": 129040 }, { "epoch": 172.06666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002945927210247109, "loss": 0.3957, "step": 129050 }, { "epoch": 172.08, "grad_norm": 0.384765625, "learning_rate": 0.0002945918848052351, "loss": 0.399, "step": 129060 }, { "epoch": 172.09333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029459104852229184, "loss": 0.3991, "step": 129070 }, { "epoch": 172.10666666666665, "grad_norm": 0.380859375, "learning_rate": 0.0002945902121758816, "loss": 0.3875, "step": 129080 }, { "epoch": 172.12, "grad_norm": 0.375, "learning_rate": 0.0002945893757660047, "loss": 0.3921, "step": 129090 }, { "epoch": 172.13333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029458853929266145, "loss": 0.3835, "step": 129100 }, { "epoch": 172.14666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002945877027558523, "loss": 0.4021, "step": 129110 }, { "epoch": 172.16, "grad_norm": 0.35546875, "learning_rate": 0.00029458686615557755, "loss": 0.3972, "step": 129120 }, { "epoch": 172.17333333333335, "grad_norm": 0.421875, "learning_rate": 0.00029458602949183763, "loss": 0.3914, "step": 129130 }, { "epoch": 172.18666666666667, "grad_norm": 0.482421875, "learning_rate": 0.00029458519276463285, "loss": 0.3895, "step": 129140 }, { "epoch": 172.2, "grad_norm": 0.4296875, "learning_rate": 0.00029458435597396365, "loss": 0.3821, "step": 129150 }, { "epoch": 172.21333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002945835191198303, "loss": 0.3831, "step": 129160 }, { "epoch": 172.22666666666666, "grad_norm": 0.466796875, "learning_rate": 0.0002945826822022333, "loss": 0.3951, "step": 129170 }, { "epoch": 172.24, "grad_norm": 0.498046875, "learning_rate": 0.0002945818452211728, "loss": 0.3792, "step": 129180 }, { "epoch": 172.25333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029458100817664944, "loss": 0.3815, "step": 129190 }, { "epoch": 172.26666666666668, "grad_norm": 0.44921875, "learning_rate": 0.00029458017106866343, "loss": 0.3836, "step": 129200 }, { "epoch": 172.28, "grad_norm": 0.404296875, "learning_rate": 0.0002945793338972151, "loss": 0.4136, "step": 129210 }, { "epoch": 172.29333333333332, "grad_norm": 0.41015625, "learning_rate": 0.0002945784966623049, "loss": 0.3705, "step": 129220 }, { "epoch": 172.30666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029457765936393316, "loss": 0.3936, "step": 129230 }, { "epoch": 172.32, "grad_norm": 0.380859375, "learning_rate": 0.0002945768220021003, "loss": 0.3971, "step": 129240 }, { "epoch": 172.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029457598457680663, "loss": 0.3995, "step": 129250 }, { "epoch": 172.34666666666666, "grad_norm": 0.435546875, "learning_rate": 0.00029457514708805256, "loss": 0.3905, "step": 129260 }, { "epoch": 172.36, "grad_norm": 0.447265625, "learning_rate": 0.0002945743095358384, "loss": 0.3894, "step": 129270 }, { "epoch": 172.37333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002945734719201645, "loss": 0.3911, "step": 129280 }, { "epoch": 172.38666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029457263424103144, "loss": 0.3834, "step": 129290 }, { "epoch": 172.4, "grad_norm": 0.392578125, "learning_rate": 0.0002945717964984393, "loss": 0.3899, "step": 129300 }, { "epoch": 172.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029457095869238857, "loss": 0.3952, "step": 129310 }, { "epoch": 172.42666666666668, "grad_norm": 0.421875, "learning_rate": 0.00029457012082287966, "loss": 0.3972, "step": 129320 }, { "epoch": 172.44, "grad_norm": 0.41015625, "learning_rate": 0.00029456928288991294, "loss": 0.4088, "step": 129330 }, { "epoch": 172.45333333333335, "grad_norm": 0.453125, "learning_rate": 0.0002945684448934887, "loss": 0.3968, "step": 129340 }, { "epoch": 172.46666666666667, "grad_norm": 0.43359375, "learning_rate": 0.0002945676068336073, "loss": 0.4056, "step": 129350 }, { "epoch": 172.48, "grad_norm": 0.38671875, "learning_rate": 0.0002945667687102692, "loss": 0.3867, "step": 129360 }, { "epoch": 172.49333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029456593052347473, "loss": 0.3993, "step": 129370 }, { "epoch": 172.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029456509227322427, "loss": 0.3978, "step": 129380 }, { "epoch": 172.52, "grad_norm": 0.396484375, "learning_rate": 0.00029456425395951816, "loss": 0.3876, "step": 129390 }, { "epoch": 172.53333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029456341558235674, "loss": 0.3911, "step": 129400 }, { "epoch": 172.54666666666665, "grad_norm": 0.43359375, "learning_rate": 0.0002945625771417404, "loss": 0.3929, "step": 129410 }, { "epoch": 172.56, "grad_norm": 0.392578125, "learning_rate": 0.0002945617386376695, "loss": 0.3867, "step": 129420 }, { "epoch": 172.57333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002945609000701445, "loss": 0.39, "step": 129430 }, { "epoch": 172.58666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029456006143916574, "loss": 0.3804, "step": 129440 }, { "epoch": 172.6, "grad_norm": 0.33203125, "learning_rate": 0.0002945592227447335, "loss": 0.3805, "step": 129450 }, { "epoch": 172.61333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029455838398684817, "loss": 0.3716, "step": 129460 }, { "epoch": 172.62666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002945575451655101, "loss": 0.3772, "step": 129470 }, { "epoch": 172.64, "grad_norm": 0.3984375, "learning_rate": 0.0002945567062807198, "loss": 0.3882, "step": 129480 }, { "epoch": 172.65333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029455586733247743, "loss": 0.3974, "step": 129490 }, { "epoch": 172.66666666666666, "grad_norm": 0.375, "learning_rate": 0.00029455502832078355, "loss": 0.3853, "step": 129500 }, { "epoch": 172.68, "grad_norm": 0.400390625, "learning_rate": 0.0002945541892456384, "loss": 0.3772, "step": 129510 }, { "epoch": 172.69333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029455335010704245, "loss": 0.3866, "step": 129520 }, { "epoch": 172.70666666666668, "grad_norm": 0.404296875, "learning_rate": 0.00029455251090499594, "loss": 0.3787, "step": 129530 }, { "epoch": 172.72, "grad_norm": 0.42578125, "learning_rate": 0.0002945516716394994, "loss": 0.4019, "step": 129540 }, { "epoch": 172.73333333333332, "grad_norm": 0.39453125, "learning_rate": 0.00029455083231055303, "loss": 0.3956, "step": 129550 }, { "epoch": 172.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002945499929181573, "loss": 0.3979, "step": 129560 }, { "epoch": 172.76, "grad_norm": 0.38671875, "learning_rate": 0.00029454915346231253, "loss": 0.4107, "step": 129570 }, { "epoch": 172.77333333333334, "grad_norm": 0.484375, "learning_rate": 0.0002945483139430192, "loss": 0.398, "step": 129580 }, { "epoch": 172.78666666666666, "grad_norm": 0.365234375, "learning_rate": 0.00029454747436027755, "loss": 0.3985, "step": 129590 }, { "epoch": 172.8, "grad_norm": 0.44921875, "learning_rate": 0.00029454663471408795, "loss": 0.3972, "step": 129600 }, { "epoch": 172.81333333333333, "grad_norm": 0.4765625, "learning_rate": 0.0002945457950044509, "loss": 0.3711, "step": 129610 }, { "epoch": 172.82666666666665, "grad_norm": 0.423828125, "learning_rate": 0.0002945449552313666, "loss": 0.3798, "step": 129620 }, { "epoch": 172.84, "grad_norm": 0.39453125, "learning_rate": 0.0002945441153948355, "loss": 0.3907, "step": 129630 }, { "epoch": 172.85333333333332, "grad_norm": 0.4140625, "learning_rate": 0.00029454327549485797, "loss": 0.3859, "step": 129640 }, { "epoch": 172.86666666666667, "grad_norm": 0.443359375, "learning_rate": 0.0002945424355314344, "loss": 0.3909, "step": 129650 }, { "epoch": 172.88, "grad_norm": 0.3828125, "learning_rate": 0.0002945415955045651, "loss": 0.3723, "step": 129660 }, { "epoch": 172.89333333333335, "grad_norm": 0.44140625, "learning_rate": 0.00029454075541425045, "loss": 0.3846, "step": 129670 }, { "epoch": 172.90666666666667, "grad_norm": 0.4296875, "learning_rate": 0.0002945399152604909, "loss": 0.391, "step": 129680 }, { "epoch": 172.92, "grad_norm": 0.400390625, "learning_rate": 0.00029453907504328676, "loss": 0.3929, "step": 129690 }, { "epoch": 172.93333333333334, "grad_norm": 0.361328125, "learning_rate": 0.00029453823476263837, "loss": 0.3865, "step": 129700 }, { "epoch": 172.94666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002945373944185461, "loss": 0.3866, "step": 129710 }, { "epoch": 172.96, "grad_norm": 0.42578125, "learning_rate": 0.00029453655401101043, "loss": 0.3844, "step": 129720 }, { "epoch": 172.97333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002945357135400316, "loss": 0.4102, "step": 129730 }, { "epoch": 172.98666666666668, "grad_norm": 0.423828125, "learning_rate": 0.00029453487300561, "loss": 0.3819, "step": 129740 }, { "epoch": 173.0, "grad_norm": 0.37890625, "learning_rate": 0.000294534032407746, "loss": 0.3787, "step": 129750 }, { "epoch": 173.0, "eval_loss": 0.42602506279945374, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6824, "eval_samples_per_second": 1.652, "eval_steps_per_second": 0.103, "step": 129750 }, { "epoch": 173.01333333333332, "grad_norm": 0.3984375, "learning_rate": 0.00029453319174644005, "loss": 0.3956, "step": 129760 }, { "epoch": 173.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002945323510216924, "loss": 0.4092, "step": 129770 }, { "epoch": 173.04, "grad_norm": 0.365234375, "learning_rate": 0.00029453151023350356, "loss": 0.4224, "step": 129780 }, { "epoch": 173.05333333333334, "grad_norm": 0.4140625, "learning_rate": 0.00029453066938187376, "loss": 0.4088, "step": 129790 }, { "epoch": 173.06666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002945298284668035, "loss": 0.3961, "step": 129800 }, { "epoch": 173.08, "grad_norm": 0.44921875, "learning_rate": 0.000294528987488293, "loss": 0.3993, "step": 129810 }, { "epoch": 173.09333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002945281464463427, "loss": 0.3995, "step": 129820 }, { "epoch": 173.10666666666665, "grad_norm": 0.373046875, "learning_rate": 0.00029452730534095304, "loss": 0.388, "step": 129830 }, { "epoch": 173.12, "grad_norm": 0.38671875, "learning_rate": 0.00029452646417212427, "loss": 0.3921, "step": 129840 }, { "epoch": 173.13333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029452562293985683, "loss": 0.384, "step": 129850 }, { "epoch": 173.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002945247816441511, "loss": 0.4032, "step": 129860 }, { "epoch": 173.16, "grad_norm": 0.365234375, "learning_rate": 0.0002945239402850074, "loss": 0.3981, "step": 129870 }, { "epoch": 173.17333333333335, "grad_norm": 0.412109375, "learning_rate": 0.0002945230988624261, "loss": 0.3914, "step": 129880 }, { "epoch": 173.18666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002945222573764076, "loss": 0.3905, "step": 129890 }, { "epoch": 173.2, "grad_norm": 0.40625, "learning_rate": 0.00029452141582695225, "loss": 0.3818, "step": 129900 }, { "epoch": 173.21333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029452057421406046, "loss": 0.3828, "step": 129910 }, { "epoch": 173.22666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002945197325377326, "loss": 0.3945, "step": 129920 }, { "epoch": 173.24, "grad_norm": 0.466796875, "learning_rate": 0.00029451889079796893, "loss": 0.3797, "step": 129930 }, { "epoch": 173.25333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029451804899476995, "loss": 0.3821, "step": 129940 }, { "epoch": 173.26666666666668, "grad_norm": 0.41796875, "learning_rate": 0.00029451720712813593, "loss": 0.384, "step": 129950 }, { "epoch": 173.28, "grad_norm": 0.4453125, "learning_rate": 0.0002945163651980673, "loss": 0.4137, "step": 129960 }, { "epoch": 173.29333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029451552320456444, "loss": 0.3701, "step": 129970 }, { "epoch": 173.30666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029451468114762773, "loss": 0.3935, "step": 129980 }, { "epoch": 173.32, "grad_norm": 0.380859375, "learning_rate": 0.0002945138390272574, "loss": 0.396, "step": 129990 }, { "epoch": 173.33333333333334, "grad_norm": 0.390625, "learning_rate": 0.000294512996843454, "loss": 0.3988, "step": 130000 }, { "epoch": 173.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.0002945121545962178, "loss": 0.3902, "step": 130010 }, { "epoch": 173.36, "grad_norm": 0.431640625, "learning_rate": 0.0002945113122855492, "loss": 0.3896, "step": 130020 }, { "epoch": 173.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002945104699114486, "loss": 0.3915, "step": 130030 }, { "epoch": 173.38666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002945096274739163, "loss": 0.3834, "step": 130040 }, { "epoch": 173.4, "grad_norm": 0.3828125, "learning_rate": 0.00029450878497295276, "loss": 0.3914, "step": 130050 }, { "epoch": 173.41333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002945079424085582, "loss": 0.3958, "step": 130060 }, { "epoch": 173.42666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002945070997807331, "loss": 0.3972, "step": 130070 }, { "epoch": 173.44, "grad_norm": 0.435546875, "learning_rate": 0.00029450625708947784, "loss": 0.4082, "step": 130080 }, { "epoch": 173.45333333333335, "grad_norm": 0.50390625, "learning_rate": 0.0002945054143347928, "loss": 0.3969, "step": 130090 }, { "epoch": 173.46666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029450457151667823, "loss": 0.4063, "step": 130100 }, { "epoch": 173.48, "grad_norm": 0.3984375, "learning_rate": 0.00029450372863513465, "loss": 0.3878, "step": 130110 }, { "epoch": 173.49333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029450288569016236, "loss": 0.3995, "step": 130120 }, { "epoch": 173.50666666666666, "grad_norm": 0.400390625, "learning_rate": 0.0002945020426817617, "loss": 0.3986, "step": 130130 }, { "epoch": 173.52, "grad_norm": 0.4140625, "learning_rate": 0.0002945011996099331, "loss": 0.3887, "step": 130140 }, { "epoch": 173.53333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002945003564746769, "loss": 0.391, "step": 130150 }, { "epoch": 173.54666666666665, "grad_norm": 0.41796875, "learning_rate": 0.00029449951327599347, "loss": 0.3929, "step": 130160 }, { "epoch": 173.56, "grad_norm": 0.39453125, "learning_rate": 0.00029449867001388316, "loss": 0.3865, "step": 130170 }, { "epoch": 173.57333333333332, "grad_norm": 0.4140625, "learning_rate": 0.00029449782668834637, "loss": 0.3905, "step": 130180 }, { "epoch": 173.58666666666667, "grad_norm": 0.375, "learning_rate": 0.0002944969832993835, "loss": 0.379, "step": 130190 }, { "epoch": 173.6, "grad_norm": 0.35546875, "learning_rate": 0.0002944961398469948, "loss": 0.3818, "step": 130200 }, { "epoch": 173.61333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002944952963311808, "loss": 0.3721, "step": 130210 }, { "epoch": 173.62666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002944944527519418, "loss": 0.3763, "step": 130220 }, { "epoch": 173.64, "grad_norm": 0.42578125, "learning_rate": 0.00029449360910927815, "loss": 0.3894, "step": 130230 }, { "epoch": 173.65333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029449276540319025, "loss": 0.3973, "step": 130240 }, { "epoch": 173.66666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029449192163367836, "loss": 0.3851, "step": 130250 }, { "epoch": 173.68, "grad_norm": 0.419921875, "learning_rate": 0.00029449107780074303, "loss": 0.3774, "step": 130260 }, { "epoch": 173.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029449023390438453, "loss": 0.387, "step": 130270 }, { "epoch": 173.70666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029448938994460324, "loss": 0.3798, "step": 130280 }, { "epoch": 173.72, "grad_norm": 0.435546875, "learning_rate": 0.0002944885459213996, "loss": 0.4015, "step": 130290 }, { "epoch": 173.73333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029448770183477385, "loss": 0.3947, "step": 130300 }, { "epoch": 173.74666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002944868576847264, "loss": 0.3982, "step": 130310 }, { "epoch": 173.76, "grad_norm": 0.419921875, "learning_rate": 0.0002944860134712577, "loss": 0.4105, "step": 130320 }, { "epoch": 173.77333333333334, "grad_norm": 0.45703125, "learning_rate": 0.0002944851691943681, "loss": 0.3974, "step": 130330 }, { "epoch": 173.78666666666666, "grad_norm": 0.341796875, "learning_rate": 0.00029448432485405785, "loss": 0.3981, "step": 130340 }, { "epoch": 173.8, "grad_norm": 0.427734375, "learning_rate": 0.0002944834804503275, "loss": 0.3969, "step": 130350 }, { "epoch": 173.81333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029448263598317724, "loss": 0.3703, "step": 130360 }, { "epoch": 173.82666666666665, "grad_norm": 0.369140625, "learning_rate": 0.0002944817914526076, "loss": 0.3798, "step": 130370 }, { "epoch": 173.84, "grad_norm": 0.39453125, "learning_rate": 0.0002944809468586188, "loss": 0.3912, "step": 130380 }, { "epoch": 173.85333333333332, "grad_norm": 0.421875, "learning_rate": 0.00029448010220121143, "loss": 0.386, "step": 130390 }, { "epoch": 173.86666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029447925748038564, "loss": 0.3918, "step": 130400 }, { "epoch": 173.88, "grad_norm": 0.41796875, "learning_rate": 0.0002944784126961419, "loss": 0.3736, "step": 130410 }, { "epoch": 173.89333333333335, "grad_norm": 0.404296875, "learning_rate": 0.00029447756784848055, "loss": 0.3839, "step": 130420 }, { "epoch": 173.90666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029447672293740195, "loss": 0.3905, "step": 130430 }, { "epoch": 173.92, "grad_norm": 0.384765625, "learning_rate": 0.0002944758779629065, "loss": 0.3927, "step": 130440 }, { "epoch": 173.93333333333334, "grad_norm": 0.3515625, "learning_rate": 0.00029447503292499464, "loss": 0.3864, "step": 130450 }, { "epoch": 173.94666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029447418782366664, "loss": 0.3871, "step": 130460 }, { "epoch": 173.96, "grad_norm": 0.337890625, "learning_rate": 0.0002944733426589229, "loss": 0.3849, "step": 130470 }, { "epoch": 173.97333333333333, "grad_norm": 0.5234375, "learning_rate": 0.0002944724974307638, "loss": 0.4096, "step": 130480 }, { "epoch": 173.98666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029447165213918963, "loss": 0.3819, "step": 130490 }, { "epoch": 174.0, "grad_norm": 0.408203125, "learning_rate": 0.0002944708067842009, "loss": 0.379, "step": 130500 }, { "epoch": 174.0, "eval_loss": 0.42759260535240173, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1279, "eval_samples_per_second": 1.58, "eval_steps_per_second": 0.099, "step": 130500 }, { "epoch": 174.01333333333332, "grad_norm": 0.43359375, "learning_rate": 0.0002944699613657979, "loss": 0.3964, "step": 130510 }, { "epoch": 174.02666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029446911588398096, "loss": 0.4098, "step": 130520 }, { "epoch": 174.04, "grad_norm": 0.40234375, "learning_rate": 0.0002944682703387506, "loss": 0.4218, "step": 130530 }, { "epoch": 174.05333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029446742473010707, "loss": 0.4078, "step": 130540 }, { "epoch": 174.06666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029446657905805076, "loss": 0.3958, "step": 130550 }, { "epoch": 174.08, "grad_norm": 0.41796875, "learning_rate": 0.000294465733322582, "loss": 0.399, "step": 130560 }, { "epoch": 174.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029446488752370127, "loss": 0.3995, "step": 130570 }, { "epoch": 174.10666666666665, "grad_norm": 0.39453125, "learning_rate": 0.00029446404166140884, "loss": 0.3884, "step": 130580 }, { "epoch": 174.12, "grad_norm": 0.408203125, "learning_rate": 0.00029446319573570517, "loss": 0.3929, "step": 130590 }, { "epoch": 174.13333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002944623497465906, "loss": 0.3834, "step": 130600 }, { "epoch": 174.14666666666668, "grad_norm": 0.400390625, "learning_rate": 0.0002944615036940654, "loss": 0.4027, "step": 130610 }, { "epoch": 174.16, "grad_norm": 0.3984375, "learning_rate": 0.00029446065757813005, "loss": 0.397, "step": 130620 }, { "epoch": 174.17333333333335, "grad_norm": 0.439453125, "learning_rate": 0.0002944598113987849, "loss": 0.3915, "step": 130630 }, { "epoch": 174.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002944589651560304, "loss": 0.3895, "step": 130640 }, { "epoch": 174.2, "grad_norm": 0.390625, "learning_rate": 0.00029445811884986673, "loss": 0.3812, "step": 130650 }, { "epoch": 174.21333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029445727248029443, "loss": 0.3828, "step": 130660 }, { "epoch": 174.22666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029445642604731387, "loss": 0.3945, "step": 130670 }, { "epoch": 174.24, "grad_norm": 0.4375, "learning_rate": 0.00029445557955092526, "loss": 0.3792, "step": 130680 }, { "epoch": 174.25333333333333, "grad_norm": 0.466796875, "learning_rate": 0.00029445473299112915, "loss": 0.3821, "step": 130690 }, { "epoch": 174.26666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002944538863679258, "loss": 0.3838, "step": 130700 }, { "epoch": 174.28, "grad_norm": 0.404296875, "learning_rate": 0.00029445303968131566, "loss": 0.4139, "step": 130710 }, { "epoch": 174.29333333333332, "grad_norm": 0.373046875, "learning_rate": 0.000294452192931299, "loss": 0.3706, "step": 130720 }, { "epoch": 174.30666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002944513461178763, "loss": 0.3941, "step": 130730 }, { "epoch": 174.32, "grad_norm": 0.35546875, "learning_rate": 0.0002944504992410479, "loss": 0.3963, "step": 130740 }, { "epoch": 174.33333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002944496523008141, "loss": 0.3986, "step": 130750 }, { "epoch": 174.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.0002944488052971754, "loss": 0.3898, "step": 130760 }, { "epoch": 174.36, "grad_norm": 0.4375, "learning_rate": 0.00029444795823013205, "loss": 0.3896, "step": 130770 }, { "epoch": 174.37333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002944471110996845, "loss": 0.3916, "step": 130780 }, { "epoch": 174.38666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002944462639058331, "loss": 0.3822, "step": 130790 }, { "epoch": 174.4, "grad_norm": 0.4375, "learning_rate": 0.0002944454166485782, "loss": 0.3913, "step": 130800 }, { "epoch": 174.41333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029444456932792014, "loss": 0.3952, "step": 130810 }, { "epoch": 174.42666666666668, "grad_norm": 0.36328125, "learning_rate": 0.00029444372194385943, "loss": 0.3964, "step": 130820 }, { "epoch": 174.44, "grad_norm": 0.4140625, "learning_rate": 0.0002944428744963963, "loss": 0.408, "step": 130830 }, { "epoch": 174.45333333333335, "grad_norm": 0.5078125, "learning_rate": 0.0002944420269855312, "loss": 0.3972, "step": 130840 }, { "epoch": 174.46666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029444117941126443, "loss": 0.4051, "step": 130850 }, { "epoch": 174.48, "grad_norm": 0.37890625, "learning_rate": 0.0002944403317735964, "loss": 0.3864, "step": 130860 }, { "epoch": 174.49333333333334, "grad_norm": 0.435546875, "learning_rate": 0.0002944394840725276, "loss": 0.3991, "step": 130870 }, { "epoch": 174.50666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002944386363080582, "loss": 0.3984, "step": 130880 }, { "epoch": 174.52, "grad_norm": 0.35546875, "learning_rate": 0.00029443778848018873, "loss": 0.3877, "step": 130890 }, { "epoch": 174.53333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029443694058891944, "loss": 0.3909, "step": 130900 }, { "epoch": 174.54666666666665, "grad_norm": 0.4453125, "learning_rate": 0.00029443609263425077, "loss": 0.3925, "step": 130910 }, { "epoch": 174.56, "grad_norm": 0.369140625, "learning_rate": 0.00029443524461618306, "loss": 0.3866, "step": 130920 }, { "epoch": 174.57333333333332, "grad_norm": 0.4296875, "learning_rate": 0.00029443439653471673, "loss": 0.3894, "step": 130930 }, { "epoch": 174.58666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002944335483898521, "loss": 0.3797, "step": 130940 }, { "epoch": 174.6, "grad_norm": 0.45703125, "learning_rate": 0.00029443270018158964, "loss": 0.3806, "step": 130950 }, { "epoch": 174.61333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002944318519099296, "loss": 0.372, "step": 130960 }, { "epoch": 174.62666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0002944310035748724, "loss": 0.3768, "step": 130970 }, { "epoch": 174.64, "grad_norm": 0.41796875, "learning_rate": 0.0002944301551764184, "loss": 0.3887, "step": 130980 }, { "epoch": 174.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029442930671456805, "loss": 0.3968, "step": 130990 }, { "epoch": 174.66666666666666, "grad_norm": 0.341796875, "learning_rate": 0.0002944284581893216, "loss": 0.3847, "step": 131000 }, { "epoch": 174.68, "grad_norm": 0.41015625, "learning_rate": 0.0002944276096006795, "loss": 0.3772, "step": 131010 }, { "epoch": 174.69333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029442676094864213, "loss": 0.3864, "step": 131020 }, { "epoch": 174.70666666666668, "grad_norm": 0.419921875, "learning_rate": 0.0002944259122332098, "loss": 0.379, "step": 131030 }, { "epoch": 174.72, "grad_norm": 0.4765625, "learning_rate": 0.00029442506345438293, "loss": 0.4021, "step": 131040 }, { "epoch": 174.73333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002944242146121619, "loss": 0.395, "step": 131050 }, { "epoch": 174.74666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029442336570654706, "loss": 0.397, "step": 131060 }, { "epoch": 174.76, "grad_norm": 0.43359375, "learning_rate": 0.00029442251673753874, "loss": 0.4105, "step": 131070 }, { "epoch": 174.77333333333334, "grad_norm": 0.4375, "learning_rate": 0.0002944216677051374, "loss": 0.398, "step": 131080 }, { "epoch": 174.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002944208186093434, "loss": 0.3985, "step": 131090 }, { "epoch": 174.8, "grad_norm": 0.443359375, "learning_rate": 0.000294419969450157, "loss": 0.3971, "step": 131100 }, { "epoch": 174.81333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029441912022757873, "loss": 0.37, "step": 131110 }, { "epoch": 174.82666666666665, "grad_norm": 0.447265625, "learning_rate": 0.00029441827094160895, "loss": 0.3795, "step": 131120 }, { "epoch": 174.84, "grad_norm": 0.44921875, "learning_rate": 0.00029441742159224787, "loss": 0.3919, "step": 131130 }, { "epoch": 174.85333333333332, "grad_norm": 0.39453125, "learning_rate": 0.000294416572179496, "loss": 0.3864, "step": 131140 }, { "epoch": 174.86666666666667, "grad_norm": 0.431640625, "learning_rate": 0.00029441572270335367, "loss": 0.3912, "step": 131150 }, { "epoch": 174.88, "grad_norm": 0.37890625, "learning_rate": 0.00029441487316382125, "loss": 0.3728, "step": 131160 }, { "epoch": 174.89333333333335, "grad_norm": 0.412109375, "learning_rate": 0.00029441402356089917, "loss": 0.3833, "step": 131170 }, { "epoch": 174.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002944131738945877, "loss": 0.3907, "step": 131180 }, { "epoch": 174.92, "grad_norm": 0.376953125, "learning_rate": 0.00029441232416488734, "loss": 0.3925, "step": 131190 }, { "epoch": 174.93333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029441147437179836, "loss": 0.3856, "step": 131200 }, { "epoch": 174.94666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002944106245153211, "loss": 0.3872, "step": 131210 }, { "epoch": 174.96, "grad_norm": 0.3671875, "learning_rate": 0.0002944097745954561, "loss": 0.3845, "step": 131220 }, { "epoch": 174.97333333333333, "grad_norm": 0.4921875, "learning_rate": 0.0002944089246122036, "loss": 0.4097, "step": 131230 }, { "epoch": 174.98666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029440807456556403, "loss": 0.3827, "step": 131240 }, { "epoch": 175.0, "grad_norm": 0.396484375, "learning_rate": 0.0002944072244555377, "loss": 0.3797, "step": 131250 }, { "epoch": 175.0, "eval_loss": 0.42538198828697205, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5401, "eval_samples_per_second": 1.677, "eval_steps_per_second": 0.105, "step": 131250 }, { "epoch": 175.01333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029440637428212503, "loss": 0.3962, "step": 131260 }, { "epoch": 175.02666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029440552404532636, "loss": 0.4093, "step": 131270 }, { "epoch": 175.04, "grad_norm": 0.373046875, "learning_rate": 0.00029440467374514215, "loss": 0.4221, "step": 131280 }, { "epoch": 175.05333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029440382338157266, "loss": 0.4079, "step": 131290 }, { "epoch": 175.06666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002944029729546183, "loss": 0.3945, "step": 131300 }, { "epoch": 175.08, "grad_norm": 0.408203125, "learning_rate": 0.0002944021224642796, "loss": 0.3991, "step": 131310 }, { "epoch": 175.09333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002944012719105567, "loss": 0.3997, "step": 131320 }, { "epoch": 175.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.00029440042129345, "loss": 0.3873, "step": 131330 }, { "epoch": 175.12, "grad_norm": 0.40625, "learning_rate": 0.00029439957061296, "loss": 0.3921, "step": 131340 }, { "epoch": 175.13333333333333, "grad_norm": 0.400390625, "learning_rate": 0.000294398719869087, "loss": 0.3834, "step": 131350 }, { "epoch": 175.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002943978690618314, "loss": 0.4023, "step": 131360 }, { "epoch": 175.16, "grad_norm": 0.349609375, "learning_rate": 0.00029439701819119357, "loss": 0.3966, "step": 131370 }, { "epoch": 175.17333333333335, "grad_norm": 0.435546875, "learning_rate": 0.00029439616725717387, "loss": 0.3909, "step": 131380 }, { "epoch": 175.18666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029439531625977263, "loss": 0.3894, "step": 131390 }, { "epoch": 175.2, "grad_norm": 0.455078125, "learning_rate": 0.0002943944651989903, "loss": 0.3818, "step": 131400 }, { "epoch": 175.21333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029439361407482723, "loss": 0.383, "step": 131410 }, { "epoch": 175.22666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029439276288728376, "loss": 0.3945, "step": 131420 }, { "epoch": 175.24, "grad_norm": 0.3828125, "learning_rate": 0.00029439191163636034, "loss": 0.3797, "step": 131430 }, { "epoch": 175.25333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029439106032205727, "loss": 0.3823, "step": 131440 }, { "epoch": 175.26666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029439020894437494, "loss": 0.3838, "step": 131450 }, { "epoch": 175.28, "grad_norm": 0.400390625, "learning_rate": 0.0002943893575033137, "loss": 0.4137, "step": 131460 }, { "epoch": 175.29333333333332, "grad_norm": 0.419921875, "learning_rate": 0.000294388505998874, "loss": 0.3703, "step": 131470 }, { "epoch": 175.30666666666667, "grad_norm": 0.375, "learning_rate": 0.0002943876544310562, "loss": 0.3936, "step": 131480 }, { "epoch": 175.32, "grad_norm": 0.365234375, "learning_rate": 0.00029438680279986055, "loss": 0.3964, "step": 131490 }, { "epoch": 175.33333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002943859511052876, "loss": 0.3989, "step": 131500 }, { "epoch": 175.34666666666666, "grad_norm": 0.478515625, "learning_rate": 0.0002943850993473376, "loss": 0.3905, "step": 131510 }, { "epoch": 175.36, "grad_norm": 0.419921875, "learning_rate": 0.000294384247526011, "loss": 0.3891, "step": 131520 }, { "epoch": 175.37333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002943833956413081, "loss": 0.3918, "step": 131530 }, { "epoch": 175.38666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002943825436932293, "loss": 0.3827, "step": 131540 }, { "epoch": 175.4, "grad_norm": 0.4609375, "learning_rate": 0.00029438169168177503, "loss": 0.3904, "step": 131550 }, { "epoch": 175.41333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002943808396069456, "loss": 0.396, "step": 131560 }, { "epoch": 175.42666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002943799874687414, "loss": 0.3969, "step": 131570 }, { "epoch": 175.44, "grad_norm": 0.42578125, "learning_rate": 0.0002943791352671628, "loss": 0.4091, "step": 131580 }, { "epoch": 175.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002943782830022102, "loss": 0.397, "step": 131590 }, { "epoch": 175.46666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029437743067388394, "loss": 0.4058, "step": 131600 }, { "epoch": 175.48, "grad_norm": 0.41015625, "learning_rate": 0.00029437657828218446, "loss": 0.387, "step": 131610 }, { "epoch": 175.49333333333334, "grad_norm": 0.44921875, "learning_rate": 0.00029437572582711205, "loss": 0.3995, "step": 131620 }, { "epoch": 175.50666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029437487330866705, "loss": 0.3975, "step": 131630 }, { "epoch": 175.52, "grad_norm": 0.35546875, "learning_rate": 0.00029437402072685, "loss": 0.3883, "step": 131640 }, { "epoch": 175.53333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002943731680816611, "loss": 0.3909, "step": 131650 }, { "epoch": 175.54666666666665, "grad_norm": 0.396484375, "learning_rate": 0.0002943723153731009, "loss": 0.3924, "step": 131660 }, { "epoch": 175.56, "grad_norm": 0.34765625, "learning_rate": 0.0002943714626011696, "loss": 0.3866, "step": 131670 }, { "epoch": 175.57333333333332, "grad_norm": 0.3828125, "learning_rate": 0.00029437060976586764, "loss": 0.39, "step": 131680 }, { "epoch": 175.58666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002943697568671955, "loss": 0.3796, "step": 131690 }, { "epoch": 175.6, "grad_norm": 0.384765625, "learning_rate": 0.0002943689039051534, "loss": 0.3809, "step": 131700 }, { "epoch": 175.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029436805087974176, "loss": 0.3712, "step": 131710 }, { "epoch": 175.62666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029436719779096093, "loss": 0.3761, "step": 131720 }, { "epoch": 175.64, "grad_norm": 0.43359375, "learning_rate": 0.00029436634463881137, "loss": 0.3884, "step": 131730 }, { "epoch": 175.65333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029436549142329343, "loss": 0.3967, "step": 131740 }, { "epoch": 175.66666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029436463814440746, "loss": 0.3849, "step": 131750 }, { "epoch": 175.68, "grad_norm": 0.419921875, "learning_rate": 0.0002943637848021538, "loss": 0.3776, "step": 131760 }, { "epoch": 175.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029436293139653287, "loss": 0.3867, "step": 131770 }, { "epoch": 175.70666666666668, "grad_norm": 0.453125, "learning_rate": 0.000294362077927545, "loss": 0.3786, "step": 131780 }, { "epoch": 175.72, "grad_norm": 0.390625, "learning_rate": 0.0002943612243951906, "loss": 0.4014, "step": 131790 }, { "epoch": 175.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029436037079947014, "loss": 0.3954, "step": 131800 }, { "epoch": 175.74666666666667, "grad_norm": 0.375, "learning_rate": 0.00029435951714038385, "loss": 0.3976, "step": 131810 }, { "epoch": 175.76, "grad_norm": 0.3828125, "learning_rate": 0.0002943586634179321, "loss": 0.4113, "step": 131820 }, { "epoch": 175.77333333333334, "grad_norm": 0.44921875, "learning_rate": 0.0002943578096321154, "loss": 0.3964, "step": 131830 }, { "epoch": 175.78666666666666, "grad_norm": 0.36328125, "learning_rate": 0.000294356955782934, "loss": 0.3982, "step": 131840 }, { "epoch": 175.8, "grad_norm": 0.408203125, "learning_rate": 0.0002943561018703883, "loss": 0.397, "step": 131850 }, { "epoch": 175.81333333333333, "grad_norm": 0.466796875, "learning_rate": 0.0002943552478944787, "loss": 0.3702, "step": 131860 }, { "epoch": 175.82666666666665, "grad_norm": 0.462890625, "learning_rate": 0.0002943543938552056, "loss": 0.3789, "step": 131870 }, { "epoch": 175.84, "grad_norm": 0.380859375, "learning_rate": 0.0002943535397525693, "loss": 0.391, "step": 131880 }, { "epoch": 175.85333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029435268558657027, "loss": 0.3863, "step": 131890 }, { "epoch": 175.86666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029435183135720876, "loss": 0.3914, "step": 131900 }, { "epoch": 175.88, "grad_norm": 0.365234375, "learning_rate": 0.0002943509770644853, "loss": 0.3728, "step": 131910 }, { "epoch": 175.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002943501227084001, "loss": 0.3845, "step": 131920 }, { "epoch": 175.90666666666667, "grad_norm": 0.439453125, "learning_rate": 0.00029434926828895367, "loss": 0.3902, "step": 131930 }, { "epoch": 175.92, "grad_norm": 0.46875, "learning_rate": 0.00029434841380614635, "loss": 0.3906, "step": 131940 }, { "epoch": 175.93333333333334, "grad_norm": 0.365234375, "learning_rate": 0.0002943475592599784, "loss": 0.3862, "step": 131950 }, { "epoch": 175.94666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002943467046504504, "loss": 0.3872, "step": 131960 }, { "epoch": 175.96, "grad_norm": 0.349609375, "learning_rate": 0.00029434584997756256, "loss": 0.3856, "step": 131970 }, { "epoch": 175.97333333333333, "grad_norm": 0.5, "learning_rate": 0.00029434499524131534, "loss": 0.4102, "step": 131980 }, { "epoch": 175.98666666666668, "grad_norm": 0.392578125, "learning_rate": 0.0002943441404417091, "loss": 0.3826, "step": 131990 }, { "epoch": 176.0, "grad_norm": 0.38671875, "learning_rate": 0.00029434328557874416, "loss": 0.3788, "step": 132000 }, { "epoch": 176.0, "eval_loss": 0.42565304040908813, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9854, "eval_samples_per_second": 1.602, "eval_steps_per_second": 0.1, "step": 132000 }, { "epoch": 176.01333333333332, "grad_norm": 0.44921875, "learning_rate": 0.00029434243065242096, "loss": 0.3959, "step": 132010 }, { "epoch": 176.02666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029434157566273985, "loss": 0.4098, "step": 132020 }, { "epoch": 176.04, "grad_norm": 0.3984375, "learning_rate": 0.00029434072060970123, "loss": 0.4222, "step": 132030 }, { "epoch": 176.05333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002943398654933054, "loss": 0.4079, "step": 132040 }, { "epoch": 176.06666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002943390103135528, "loss": 0.3957, "step": 132050 }, { "epoch": 176.08, "grad_norm": 0.41796875, "learning_rate": 0.00029433815507044384, "loss": 0.3987, "step": 132060 }, { "epoch": 176.09333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002943372997639788, "loss": 0.3999, "step": 132070 }, { "epoch": 176.10666666666665, "grad_norm": 0.36328125, "learning_rate": 0.00029433644439415816, "loss": 0.3878, "step": 132080 }, { "epoch": 176.12, "grad_norm": 0.42578125, "learning_rate": 0.0002943355889609822, "loss": 0.3915, "step": 132090 }, { "epoch": 176.13333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002943347334644514, "loss": 0.3835, "step": 132100 }, { "epoch": 176.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.000294333877904566, "loss": 0.4032, "step": 132110 }, { "epoch": 176.16, "grad_norm": 0.3671875, "learning_rate": 0.00029433302228132644, "loss": 0.3973, "step": 132120 }, { "epoch": 176.17333333333335, "grad_norm": 0.41796875, "learning_rate": 0.00029433216659473314, "loss": 0.391, "step": 132130 }, { "epoch": 176.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029433131084478643, "loss": 0.3897, "step": 132140 }, { "epoch": 176.2, "grad_norm": 0.357421875, "learning_rate": 0.0002943304550314867, "loss": 0.3817, "step": 132150 }, { "epoch": 176.21333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029432959915483433, "loss": 0.3826, "step": 132160 }, { "epoch": 176.22666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002943287432148297, "loss": 0.3947, "step": 132170 }, { "epoch": 176.24, "grad_norm": 0.41796875, "learning_rate": 0.0002943278872114731, "loss": 0.3791, "step": 132180 }, { "epoch": 176.25333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029432703114476503, "loss": 0.3821, "step": 132190 }, { "epoch": 176.26666666666668, "grad_norm": 0.359375, "learning_rate": 0.0002943261750147058, "loss": 0.3837, "step": 132200 }, { "epoch": 176.28, "grad_norm": 0.396484375, "learning_rate": 0.0002943253188212958, "loss": 0.4147, "step": 132210 }, { "epoch": 176.29333333333332, "grad_norm": 0.388671875, "learning_rate": 0.00029432446256453545, "loss": 0.3695, "step": 132220 }, { "epoch": 176.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029432360624442503, "loss": 0.3939, "step": 132230 }, { "epoch": 176.32, "grad_norm": 0.365234375, "learning_rate": 0.00029432274986096495, "loss": 0.3967, "step": 132240 }, { "epoch": 176.33333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002943218934141556, "loss": 0.3989, "step": 132250 }, { "epoch": 176.34666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002943210369039974, "loss": 0.3892, "step": 132260 }, { "epoch": 176.36, "grad_norm": 0.48046875, "learning_rate": 0.00029432018033049065, "loss": 0.39, "step": 132270 }, { "epoch": 176.37333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002943193236936358, "loss": 0.3907, "step": 132280 }, { "epoch": 176.38666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002943184669934332, "loss": 0.3831, "step": 132290 }, { "epoch": 176.4, "grad_norm": 0.384765625, "learning_rate": 0.0002943176102298831, "loss": 0.3909, "step": 132300 }, { "epoch": 176.41333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002943167534029861, "loss": 0.3953, "step": 132310 }, { "epoch": 176.42666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002943158965127424, "loss": 0.3976, "step": 132320 }, { "epoch": 176.44, "grad_norm": 0.412109375, "learning_rate": 0.00029431503955915247, "loss": 0.4088, "step": 132330 }, { "epoch": 176.45333333333335, "grad_norm": 0.4921875, "learning_rate": 0.0002943141825422167, "loss": 0.3967, "step": 132340 }, { "epoch": 176.46666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0002943133254619354, "loss": 0.4058, "step": 132350 }, { "epoch": 176.48, "grad_norm": 0.427734375, "learning_rate": 0.0002943124683183089, "loss": 0.3872, "step": 132360 }, { "epoch": 176.49333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029431161111133765, "loss": 0.3997, "step": 132370 }, { "epoch": 176.50666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002943107538410221, "loss": 0.3974, "step": 132380 }, { "epoch": 176.52, "grad_norm": 0.353515625, "learning_rate": 0.0002943098965073625, "loss": 0.388, "step": 132390 }, { "epoch": 176.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002943090391103593, "loss": 0.3906, "step": 132400 }, { "epoch": 176.54666666666665, "grad_norm": 0.423828125, "learning_rate": 0.0002943081816500128, "loss": 0.3923, "step": 132410 }, { "epoch": 176.56, "grad_norm": 0.35546875, "learning_rate": 0.0002943073241263235, "loss": 0.3874, "step": 132420 }, { "epoch": 176.57333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029430646653929167, "loss": 0.3902, "step": 132430 }, { "epoch": 176.58666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029430560888891766, "loss": 0.3788, "step": 132440 }, { "epoch": 176.6, "grad_norm": 0.376953125, "learning_rate": 0.000294304751175202, "loss": 0.3817, "step": 132450 }, { "epoch": 176.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.0002943038933981449, "loss": 0.3716, "step": 132460 }, { "epoch": 176.62666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029430303555774684, "loss": 0.3767, "step": 132470 }, { "epoch": 176.64, "grad_norm": 0.41796875, "learning_rate": 0.0002943021776540082, "loss": 0.3885, "step": 132480 }, { "epoch": 176.65333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002943013196869293, "loss": 0.3977, "step": 132490 }, { "epoch": 176.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002943004616565105, "loss": 0.3855, "step": 132500 }, { "epoch": 176.68, "grad_norm": 0.419921875, "learning_rate": 0.0002942996035627522, "loss": 0.3773, "step": 132510 }, { "epoch": 176.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.00029429874540565486, "loss": 0.3863, "step": 132520 }, { "epoch": 176.70666666666668, "grad_norm": 0.455078125, "learning_rate": 0.0002942978871852188, "loss": 0.3786, "step": 132530 }, { "epoch": 176.72, "grad_norm": 0.390625, "learning_rate": 0.00029429702890144434, "loss": 0.4015, "step": 132540 }, { "epoch": 176.73333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002942961705543319, "loss": 0.3942, "step": 132550 }, { "epoch": 176.74666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029429531214388184, "loss": 0.3979, "step": 132560 }, { "epoch": 176.76, "grad_norm": 0.404296875, "learning_rate": 0.0002942944536700946, "loss": 0.4111, "step": 132570 }, { "epoch": 176.77333333333334, "grad_norm": 0.45703125, "learning_rate": 0.0002942935951329705, "loss": 0.3974, "step": 132580 }, { "epoch": 176.78666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029429273653250993, "loss": 0.3979, "step": 132590 }, { "epoch": 176.8, "grad_norm": 0.40234375, "learning_rate": 0.0002942918778687133, "loss": 0.396, "step": 132600 }, { "epoch": 176.81333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029429101914158086, "loss": 0.3702, "step": 132610 }, { "epoch": 176.82666666666665, "grad_norm": 0.4296875, "learning_rate": 0.00029429016035111314, "loss": 0.3791, "step": 132620 }, { "epoch": 176.84, "grad_norm": 0.41015625, "learning_rate": 0.00029428930149731045, "loss": 0.391, "step": 132630 }, { "epoch": 176.85333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029428844258017317, "loss": 0.3861, "step": 132640 }, { "epoch": 176.86666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002942875835997017, "loss": 0.3912, "step": 132650 }, { "epoch": 176.88, "grad_norm": 0.365234375, "learning_rate": 0.0002942867245558964, "loss": 0.3713, "step": 132660 }, { "epoch": 176.89333333333335, "grad_norm": 0.373046875, "learning_rate": 0.0002942858654487576, "loss": 0.3843, "step": 132670 }, { "epoch": 176.90666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002942850062782858, "loss": 0.3899, "step": 132680 }, { "epoch": 176.92, "grad_norm": 0.384765625, "learning_rate": 0.0002942841470444812, "loss": 0.3917, "step": 132690 }, { "epoch": 176.93333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002942832877473444, "loss": 0.3861, "step": 132700 }, { "epoch": 176.94666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029428242838687555, "loss": 0.387, "step": 132710 }, { "epoch": 176.96, "grad_norm": 0.37890625, "learning_rate": 0.00029428156896307514, "loss": 0.3838, "step": 132720 }, { "epoch": 176.97333333333333, "grad_norm": 0.51171875, "learning_rate": 0.0002942807094759436, "loss": 0.41, "step": 132730 }, { "epoch": 176.98666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029427984992548117, "loss": 0.3825, "step": 132740 }, { "epoch": 177.0, "grad_norm": 0.421875, "learning_rate": 0.00029427899031168837, "loss": 0.3788, "step": 132750 }, { "epoch": 177.0, "eval_loss": 0.4268683195114136, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8269, "eval_samples_per_second": 1.628, "eval_steps_per_second": 0.102, "step": 132750 }, { "epoch": 177.01333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002942781306345655, "loss": 0.3962, "step": 132760 }, { "epoch": 177.02666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002942772708941129, "loss": 0.4086, "step": 132770 }, { "epoch": 177.04, "grad_norm": 0.349609375, "learning_rate": 0.00029427641109033105, "loss": 0.4216, "step": 132780 }, { "epoch": 177.05333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002942755512232202, "loss": 0.4083, "step": 132790 }, { "epoch": 177.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029427469129278085, "loss": 0.3955, "step": 132800 }, { "epoch": 177.08, "grad_norm": 0.41796875, "learning_rate": 0.0002942738312990133, "loss": 0.3992, "step": 132810 }, { "epoch": 177.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.000294272971241918, "loss": 0.3985, "step": 132820 }, { "epoch": 177.10666666666665, "grad_norm": 0.36328125, "learning_rate": 0.00029427211112149524, "loss": 0.3884, "step": 132830 }, { "epoch": 177.12, "grad_norm": 0.392578125, "learning_rate": 0.00029427125093774544, "loss": 0.3918, "step": 132840 }, { "epoch": 177.13333333333333, "grad_norm": 0.400390625, "learning_rate": 0.000294270390690669, "loss": 0.3839, "step": 132850 }, { "epoch": 177.14666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002942695303802663, "loss": 0.402, "step": 132860 }, { "epoch": 177.16, "grad_norm": 0.359375, "learning_rate": 0.00029426867000653765, "loss": 0.3962, "step": 132870 }, { "epoch": 177.17333333333335, "grad_norm": 0.462890625, "learning_rate": 0.00029426780956948347, "loss": 0.3912, "step": 132880 }, { "epoch": 177.18666666666667, "grad_norm": 0.4375, "learning_rate": 0.0002942669490691041, "loss": 0.3893, "step": 132890 }, { "epoch": 177.2, "grad_norm": 0.43359375, "learning_rate": 0.00029426608850540006, "loss": 0.3818, "step": 132900 }, { "epoch": 177.21333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029426522787837154, "loss": 0.3827, "step": 132910 }, { "epoch": 177.22666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029426436718801906, "loss": 0.3942, "step": 132920 }, { "epoch": 177.24, "grad_norm": 0.43359375, "learning_rate": 0.0002942635064343429, "loss": 0.3793, "step": 132930 }, { "epoch": 177.25333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002942626456173435, "loss": 0.381, "step": 132940 }, { "epoch": 177.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029426178473702117, "loss": 0.3844, "step": 132950 }, { "epoch": 177.28, "grad_norm": 0.447265625, "learning_rate": 0.0002942609237933764, "loss": 0.414, "step": 132960 }, { "epoch": 177.29333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002942600627864094, "loss": 0.3691, "step": 132970 }, { "epoch": 177.30666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029425920171612075, "loss": 0.3937, "step": 132980 }, { "epoch": 177.32, "grad_norm": 0.37890625, "learning_rate": 0.00029425834058251064, "loss": 0.3961, "step": 132990 }, { "epoch": 177.33333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002942574793855796, "loss": 0.3991, "step": 133000 }, { "epoch": 177.34666666666666, "grad_norm": 0.48046875, "learning_rate": 0.0002942566181253279, "loss": 0.3891, "step": 133010 }, { "epoch": 177.36, "grad_norm": 0.482421875, "learning_rate": 0.000294255756801756, "loss": 0.3906, "step": 133020 }, { "epoch": 177.37333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029425489541486425, "loss": 0.3913, "step": 133030 }, { "epoch": 177.38666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029425403396465295, "loss": 0.3835, "step": 133040 }, { "epoch": 177.4, "grad_norm": 0.427734375, "learning_rate": 0.00029425317245112257, "loss": 0.3914, "step": 133050 }, { "epoch": 177.41333333333333, "grad_norm": 0.365234375, "learning_rate": 0.0002942523108742735, "loss": 0.3948, "step": 133060 }, { "epoch": 177.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.000294251449234106, "loss": 0.3967, "step": 133070 }, { "epoch": 177.44, "grad_norm": 0.396484375, "learning_rate": 0.00029425058753062064, "loss": 0.4077, "step": 133080 }, { "epoch": 177.45333333333335, "grad_norm": 0.447265625, "learning_rate": 0.0002942497257638176, "loss": 0.3965, "step": 133090 }, { "epoch": 177.46666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029424886393369736, "loss": 0.4058, "step": 133100 }, { "epoch": 177.48, "grad_norm": 0.40625, "learning_rate": 0.0002942480020402603, "loss": 0.3862, "step": 133110 }, { "epoch": 177.49333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002942471400835068, "loss": 0.3991, "step": 133120 }, { "epoch": 177.50666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002942462780634372, "loss": 0.3971, "step": 133130 }, { "epoch": 177.52, "grad_norm": 0.3359375, "learning_rate": 0.0002942454159800519, "loss": 0.3879, "step": 133140 }, { "epoch": 177.53333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002942445538333513, "loss": 0.39, "step": 133150 }, { "epoch": 177.54666666666665, "grad_norm": 0.46875, "learning_rate": 0.0002942436916233357, "loss": 0.3931, "step": 133160 }, { "epoch": 177.56, "grad_norm": 0.349609375, "learning_rate": 0.00029424282935000556, "loss": 0.3865, "step": 133170 }, { "epoch": 177.57333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029424196701336125, "loss": 0.3912, "step": 133180 }, { "epoch": 177.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002942411046134031, "loss": 0.3792, "step": 133190 }, { "epoch": 177.6, "grad_norm": 0.396484375, "learning_rate": 0.00029424024215013157, "loss": 0.3819, "step": 133200 }, { "epoch": 177.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002942393796235469, "loss": 0.3711, "step": 133210 }, { "epoch": 177.62666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002942385170336496, "loss": 0.3766, "step": 133220 }, { "epoch": 177.64, "grad_norm": 0.400390625, "learning_rate": 0.00029423765438044006, "loss": 0.3885, "step": 133230 }, { "epoch": 177.65333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002942367916639186, "loss": 0.3966, "step": 133240 }, { "epoch": 177.66666666666666, "grad_norm": 0.361328125, "learning_rate": 0.00029423592888408554, "loss": 0.385, "step": 133250 }, { "epoch": 177.68, "grad_norm": 0.42578125, "learning_rate": 0.00029423506604094133, "loss": 0.3763, "step": 133260 }, { "epoch": 177.69333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002942342031344863, "loss": 0.3857, "step": 133270 }, { "epoch": 177.70666666666668, "grad_norm": 0.462890625, "learning_rate": 0.00029423334016472096, "loss": 0.3786, "step": 133280 }, { "epoch": 177.72, "grad_norm": 0.392578125, "learning_rate": 0.00029423247713164557, "loss": 0.4013, "step": 133290 }, { "epoch": 177.73333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029423161403526057, "loss": 0.3957, "step": 133300 }, { "epoch": 177.74666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002942307508755663, "loss": 0.3977, "step": 133310 }, { "epoch": 177.76, "grad_norm": 0.388671875, "learning_rate": 0.00029422988765256307, "loss": 0.4111, "step": 133320 }, { "epoch": 177.77333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029422902436625133, "loss": 0.3973, "step": 133330 }, { "epoch": 177.78666666666666, "grad_norm": 0.373046875, "learning_rate": 0.0002942281610166315, "loss": 0.3972, "step": 133340 }, { "epoch": 177.8, "grad_norm": 0.3828125, "learning_rate": 0.00029422729760370393, "loss": 0.397, "step": 133350 }, { "epoch": 177.81333333333333, "grad_norm": 0.419921875, "learning_rate": 0.000294226434127469, "loss": 0.3698, "step": 133360 }, { "epoch": 177.82666666666665, "grad_norm": 0.40625, "learning_rate": 0.00029422557058792707, "loss": 0.3784, "step": 133370 }, { "epoch": 177.84, "grad_norm": 0.451171875, "learning_rate": 0.0002942247069850785, "loss": 0.3911, "step": 133380 }, { "epoch": 177.85333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029422384331892373, "loss": 0.3859, "step": 133390 }, { "epoch": 177.86666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002942229795894631, "loss": 0.3902, "step": 133400 }, { "epoch": 177.88, "grad_norm": 0.37890625, "learning_rate": 0.000294222115796697, "loss": 0.3729, "step": 133410 }, { "epoch": 177.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002942212519406258, "loss": 0.3842, "step": 133420 }, { "epoch": 177.90666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002942203880212499, "loss": 0.3897, "step": 133430 }, { "epoch": 177.92, "grad_norm": 0.435546875, "learning_rate": 0.0002942195240385696, "loss": 0.3916, "step": 133440 }, { "epoch": 177.93333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029421865999258544, "loss": 0.3865, "step": 133450 }, { "epoch": 177.94666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002942177958832976, "loss": 0.3876, "step": 133460 }, { "epoch": 177.96, "grad_norm": 0.365234375, "learning_rate": 0.00029421693171070666, "loss": 0.3849, "step": 133470 }, { "epoch": 177.97333333333333, "grad_norm": 0.51953125, "learning_rate": 0.0002942160674748128, "loss": 0.4104, "step": 133480 }, { "epoch": 177.98666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002942152031756166, "loss": 0.3823, "step": 133490 }, { "epoch": 178.0, "grad_norm": 0.408203125, "learning_rate": 0.00029421433881311824, "loss": 0.3794, "step": 133500 }, { "epoch": 178.0, "eval_loss": 0.4251432716846466, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5776, "eval_samples_per_second": 1.671, "eval_steps_per_second": 0.104, "step": 133500 }, { "epoch": 178.01333333333332, "grad_norm": 0.447265625, "learning_rate": 0.00029421347438731826, "loss": 0.3969, "step": 133510 }, { "epoch": 178.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029421260989821697, "loss": 0.4095, "step": 133520 }, { "epoch": 178.04, "grad_norm": 0.380859375, "learning_rate": 0.00029421174534581475, "loss": 0.4223, "step": 133530 }, { "epoch": 178.05333333333334, "grad_norm": 0.48828125, "learning_rate": 0.000294210880730112, "loss": 0.4079, "step": 133540 }, { "epoch": 178.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029421001605110905, "loss": 0.3952, "step": 133550 }, { "epoch": 178.08, "grad_norm": 0.421875, "learning_rate": 0.00029420915130880633, "loss": 0.3982, "step": 133560 }, { "epoch": 178.09333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0002942082865032042, "loss": 0.3996, "step": 133570 }, { "epoch": 178.10666666666665, "grad_norm": 0.419921875, "learning_rate": 0.00029420742163430304, "loss": 0.3879, "step": 133580 }, { "epoch": 178.12, "grad_norm": 0.388671875, "learning_rate": 0.0002942065567021033, "loss": 0.3927, "step": 133590 }, { "epoch": 178.13333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029420569170660526, "loss": 0.3831, "step": 133600 }, { "epoch": 178.14666666666668, "grad_norm": 0.419921875, "learning_rate": 0.0002942048266478093, "loss": 0.4018, "step": 133610 }, { "epoch": 178.16, "grad_norm": 0.359375, "learning_rate": 0.00029420396152571586, "loss": 0.396, "step": 133620 }, { "epoch": 178.17333333333335, "grad_norm": 0.44140625, "learning_rate": 0.0002942030963403253, "loss": 0.3907, "step": 133630 }, { "epoch": 178.18666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029420223109163793, "loss": 0.3899, "step": 133640 }, { "epoch": 178.2, "grad_norm": 0.43359375, "learning_rate": 0.00029420136577965424, "loss": 0.3816, "step": 133650 }, { "epoch": 178.21333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029420050040437456, "loss": 0.3833, "step": 133660 }, { "epoch": 178.22666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002941996349657993, "loss": 0.3941, "step": 133670 }, { "epoch": 178.24, "grad_norm": 0.447265625, "learning_rate": 0.0002941987694639288, "loss": 0.379, "step": 133680 }, { "epoch": 178.25333333333333, "grad_norm": 0.44140625, "learning_rate": 0.00029419790389876346, "loss": 0.3815, "step": 133690 }, { "epoch": 178.26666666666668, "grad_norm": 0.365234375, "learning_rate": 0.0002941970382703036, "loss": 0.3836, "step": 133700 }, { "epoch": 178.28, "grad_norm": 0.42578125, "learning_rate": 0.0002941961725785497, "loss": 0.4139, "step": 133710 }, { "epoch": 178.29333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029419530682350207, "loss": 0.3695, "step": 133720 }, { "epoch": 178.30666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002941944410051611, "loss": 0.3935, "step": 133730 }, { "epoch": 178.32, "grad_norm": 0.357421875, "learning_rate": 0.00029419357512352725, "loss": 0.3959, "step": 133740 }, { "epoch": 178.33333333333334, "grad_norm": 0.40234375, "learning_rate": 0.00029419270917860075, "loss": 0.3988, "step": 133750 }, { "epoch": 178.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.0002941918431703821, "loss": 0.3893, "step": 133760 }, { "epoch": 178.36, "grad_norm": 0.51953125, "learning_rate": 0.00029419097709887165, "loss": 0.3896, "step": 133770 }, { "epoch": 178.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002941901109640698, "loss": 0.3906, "step": 133780 }, { "epoch": 178.38666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029418924476597684, "loss": 0.3829, "step": 133790 }, { "epoch": 178.4, "grad_norm": 0.38671875, "learning_rate": 0.00029418837850459325, "loss": 0.3896, "step": 133800 }, { "epoch": 178.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029418751217991936, "loss": 0.3948, "step": 133810 }, { "epoch": 178.42666666666668, "grad_norm": 0.380859375, "learning_rate": 0.00029418664579195555, "loss": 0.3968, "step": 133820 }, { "epoch": 178.44, "grad_norm": 0.404296875, "learning_rate": 0.00029418577934070225, "loss": 0.409, "step": 133830 }, { "epoch": 178.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002941849128261598, "loss": 0.3968, "step": 133840 }, { "epoch": 178.46666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029418404624832853, "loss": 0.4058, "step": 133850 }, { "epoch": 178.48, "grad_norm": 0.392578125, "learning_rate": 0.00029418317960720893, "loss": 0.3869, "step": 133860 }, { "epoch": 178.49333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002941823129028013, "loss": 0.3991, "step": 133870 }, { "epoch": 178.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.00029418144613510604, "loss": 0.3971, "step": 133880 }, { "epoch": 178.52, "grad_norm": 0.388671875, "learning_rate": 0.00029418057930412356, "loss": 0.3881, "step": 133890 }, { "epoch": 178.53333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029417971240985424, "loss": 0.3904, "step": 133900 }, { "epoch": 178.54666666666665, "grad_norm": 0.4296875, "learning_rate": 0.00029417884545229837, "loss": 0.392, "step": 133910 }, { "epoch": 178.56, "grad_norm": 0.369140625, "learning_rate": 0.0002941779784314565, "loss": 0.3865, "step": 133920 }, { "epoch": 178.57333333333332, "grad_norm": 0.46875, "learning_rate": 0.0002941771113473288, "loss": 0.389, "step": 133930 }, { "epoch": 178.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029417624419991577, "loss": 0.3797, "step": 133940 }, { "epoch": 178.6, "grad_norm": 0.365234375, "learning_rate": 0.0002941753769892178, "loss": 0.3819, "step": 133950 }, { "epoch": 178.61333333333334, "grad_norm": 0.31640625, "learning_rate": 0.00029417450971523526, "loss": 0.3717, "step": 133960 }, { "epoch": 178.62666666666667, "grad_norm": 0.33203125, "learning_rate": 0.00029417364237796853, "loss": 0.3775, "step": 133970 }, { "epoch": 178.64, "grad_norm": 0.423828125, "learning_rate": 0.00029417277497741795, "loss": 0.3887, "step": 133980 }, { "epoch": 178.65333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029417190751358395, "loss": 0.3985, "step": 133990 }, { "epoch": 178.66666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0002941710399864669, "loss": 0.3859, "step": 134000 }, { "epoch": 178.68, "grad_norm": 0.40625, "learning_rate": 0.0002941701723960672, "loss": 0.3773, "step": 134010 }, { "epoch": 178.69333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0002941693047423852, "loss": 0.386, "step": 134020 }, { "epoch": 178.70666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029416843702542126, "loss": 0.3788, "step": 134030 }, { "epoch": 178.72, "grad_norm": 0.419921875, "learning_rate": 0.00029416756924517575, "loss": 0.4006, "step": 134040 }, { "epoch": 178.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029416670140164917, "loss": 0.3949, "step": 134050 }, { "epoch": 178.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002941658334948417, "loss": 0.3978, "step": 134060 }, { "epoch": 178.76, "grad_norm": 0.40234375, "learning_rate": 0.000294164965524754, "loss": 0.4104, "step": 134070 }, { "epoch": 178.77333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029416409749138614, "loss": 0.3969, "step": 134080 }, { "epoch": 178.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.00029416322939473873, "loss": 0.3988, "step": 134090 }, { "epoch": 178.8, "grad_norm": 0.404296875, "learning_rate": 0.0002941623612348121, "loss": 0.3958, "step": 134100 }, { "epoch": 178.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002941614930116065, "loss": 0.3699, "step": 134110 }, { "epoch": 178.82666666666665, "grad_norm": 0.416015625, "learning_rate": 0.0002941606247251225, "loss": 0.3788, "step": 134120 }, { "epoch": 178.84, "grad_norm": 0.421875, "learning_rate": 0.00029415975637536035, "loss": 0.3905, "step": 134130 }, { "epoch": 178.85333333333332, "grad_norm": 0.447265625, "learning_rate": 0.0002941588879623205, "loss": 0.3867, "step": 134140 }, { "epoch": 178.86666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002941580194860033, "loss": 0.3912, "step": 134150 }, { "epoch": 178.88, "grad_norm": 0.369140625, "learning_rate": 0.00029415715094640915, "loss": 0.3719, "step": 134160 }, { "epoch": 178.89333333333335, "grad_norm": 0.38671875, "learning_rate": 0.0002941562823435384, "loss": 0.383, "step": 134170 }, { "epoch": 178.90666666666667, "grad_norm": 0.455078125, "learning_rate": 0.0002941554136773915, "loss": 0.3902, "step": 134180 }, { "epoch": 178.92, "grad_norm": 0.3671875, "learning_rate": 0.0002941545449479687, "loss": 0.3926, "step": 134190 }, { "epoch": 178.93333333333334, "grad_norm": 0.4375, "learning_rate": 0.00029415367615527057, "loss": 0.386, "step": 134200 }, { "epoch": 178.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002941528072992973, "loss": 0.3867, "step": 134210 }, { "epoch": 178.96, "grad_norm": 0.337890625, "learning_rate": 0.0002941519383800494, "loss": 0.3844, "step": 134220 }, { "epoch": 178.97333333333333, "grad_norm": 0.494140625, "learning_rate": 0.00029415106939752715, "loss": 0.4096, "step": 134230 }, { "epoch": 178.98666666666668, "grad_norm": 0.421875, "learning_rate": 0.00029415020035173105, "loss": 0.382, "step": 134240 }, { "epoch": 179.0, "grad_norm": 0.3984375, "learning_rate": 0.0002941493312426614, "loss": 0.3796, "step": 134250 }, { "epoch": 179.0, "eval_loss": 0.4248909056186676, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8234, "eval_samples_per_second": 1.629, "eval_steps_per_second": 0.102, "step": 134250 }, { "epoch": 179.01333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029414846207031863, "loss": 0.3962, "step": 134260 }, { "epoch": 179.02666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029414759283470307, "loss": 0.4085, "step": 134270 }, { "epoch": 179.04, "grad_norm": 0.400390625, "learning_rate": 0.0002941467235358151, "loss": 0.4212, "step": 134280 }, { "epoch": 179.05333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002941458541736552, "loss": 0.4079, "step": 134290 }, { "epoch": 179.06666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002941449847482236, "loss": 0.3955, "step": 134300 }, { "epoch": 179.08, "grad_norm": 0.40234375, "learning_rate": 0.00029414411525952077, "loss": 0.3989, "step": 134310 }, { "epoch": 179.09333333333333, "grad_norm": 0.392578125, "learning_rate": 0.00029414324570754716, "loss": 0.3996, "step": 134320 }, { "epoch": 179.10666666666665, "grad_norm": 0.37109375, "learning_rate": 0.000294142376092303, "loss": 0.388, "step": 134330 }, { "epoch": 179.12, "grad_norm": 0.421875, "learning_rate": 0.00029414150641378877, "loss": 0.3911, "step": 134340 }, { "epoch": 179.13333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002941406366720048, "loss": 0.3829, "step": 134350 }, { "epoch": 179.14666666666668, "grad_norm": 0.44140625, "learning_rate": 0.00029413976686695157, "loss": 0.4024, "step": 134360 }, { "epoch": 179.16, "grad_norm": 0.373046875, "learning_rate": 0.00029413889699862934, "loss": 0.3964, "step": 134370 }, { "epoch": 179.17333333333335, "grad_norm": 0.41796875, "learning_rate": 0.0002941380270670385, "loss": 0.3916, "step": 134380 }, { "epoch": 179.18666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002941371570721795, "loss": 0.3894, "step": 134390 }, { "epoch": 179.2, "grad_norm": 0.423828125, "learning_rate": 0.00029413628701405273, "loss": 0.3817, "step": 134400 }, { "epoch": 179.21333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002941354168926585, "loss": 0.383, "step": 134410 }, { "epoch": 179.22666666666666, "grad_norm": 0.41796875, "learning_rate": 0.00029413454670799733, "loss": 0.3936, "step": 134420 }, { "epoch": 179.24, "grad_norm": 0.484375, "learning_rate": 0.0002941336764600694, "loss": 0.3799, "step": 134430 }, { "epoch": 179.25333333333333, "grad_norm": 0.4765625, "learning_rate": 0.0002941328061488752, "loss": 0.3815, "step": 134440 }, { "epoch": 179.26666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029413193577441514, "loss": 0.3844, "step": 134450 }, { "epoch": 179.28, "grad_norm": 0.41015625, "learning_rate": 0.00029413106533668956, "loss": 0.4138, "step": 134460 }, { "epoch": 179.29333333333332, "grad_norm": 0.44140625, "learning_rate": 0.0002941301948356989, "loss": 0.3697, "step": 134470 }, { "epoch": 179.30666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002941293242714434, "loss": 0.3937, "step": 134480 }, { "epoch": 179.32, "grad_norm": 0.375, "learning_rate": 0.0002941284536439236, "loss": 0.3959, "step": 134490 }, { "epoch": 179.33333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029412758295313974, "loss": 0.3988, "step": 134500 }, { "epoch": 179.34666666666666, "grad_norm": 0.466796875, "learning_rate": 0.00029412671219909237, "loss": 0.3895, "step": 134510 }, { "epoch": 179.36, "grad_norm": 0.51953125, "learning_rate": 0.00029412584138178174, "loss": 0.3894, "step": 134520 }, { "epoch": 179.37333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029412497050120825, "loss": 0.3914, "step": 134530 }, { "epoch": 179.38666666666666, "grad_norm": 0.470703125, "learning_rate": 0.0002941240995573723, "loss": 0.3823, "step": 134540 }, { "epoch": 179.4, "grad_norm": 0.44140625, "learning_rate": 0.00029412322855027433, "loss": 0.3902, "step": 134550 }, { "epoch": 179.41333333333333, "grad_norm": 0.380859375, "learning_rate": 0.00029412235747991466, "loss": 0.396, "step": 134560 }, { "epoch": 179.42666666666668, "grad_norm": 0.41796875, "learning_rate": 0.00029412148634629364, "loss": 0.3972, "step": 134570 }, { "epoch": 179.44, "grad_norm": 0.4296875, "learning_rate": 0.00029412061514941175, "loss": 0.4076, "step": 134580 }, { "epoch": 179.45333333333335, "grad_norm": 0.5, "learning_rate": 0.0002941197438892693, "loss": 0.3969, "step": 134590 }, { "epoch": 179.46666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002941188725658667, "loss": 0.4061, "step": 134600 }, { "epoch": 179.48, "grad_norm": 0.421875, "learning_rate": 0.0002941180011792043, "loss": 0.3873, "step": 134610 }, { "epoch": 179.49333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029411712972928254, "loss": 0.3998, "step": 134620 }, { "epoch": 179.50666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002941162582161017, "loss": 0.3973, "step": 134630 }, { "epoch": 179.52, "grad_norm": 0.3359375, "learning_rate": 0.0002941153866396623, "loss": 0.388, "step": 134640 }, { "epoch": 179.53333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002941145149999646, "loss": 0.3906, "step": 134650 }, { "epoch": 179.54666666666665, "grad_norm": 0.41796875, "learning_rate": 0.00029411364329700907, "loss": 0.3921, "step": 134660 }, { "epoch": 179.56, "grad_norm": 0.373046875, "learning_rate": 0.00029411277153079603, "loss": 0.387, "step": 134670 }, { "epoch": 179.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.0002941118997013259, "loss": 0.3912, "step": 134680 }, { "epoch": 179.58666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029411102780859907, "loss": 0.3789, "step": 134690 }, { "epoch": 179.6, "grad_norm": 0.40625, "learning_rate": 0.0002941101558526159, "loss": 0.3815, "step": 134700 }, { "epoch": 179.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029410928383337675, "loss": 0.3708, "step": 134710 }, { "epoch": 179.62666666666667, "grad_norm": 0.34375, "learning_rate": 0.00029410841175088204, "loss": 0.3767, "step": 134720 }, { "epoch": 179.64, "grad_norm": 0.40234375, "learning_rate": 0.00029410753960513216, "loss": 0.3877, "step": 134730 }, { "epoch": 179.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002941066673961275, "loss": 0.3975, "step": 134740 }, { "epoch": 179.66666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002941057951238684, "loss": 0.3869, "step": 134750 }, { "epoch": 179.68, "grad_norm": 0.412109375, "learning_rate": 0.0002941049227883552, "loss": 0.3767, "step": 134760 }, { "epoch": 179.69333333333333, "grad_norm": 0.34765625, "learning_rate": 0.00029410405038958845, "loss": 0.3862, "step": 134770 }, { "epoch": 179.70666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002941031779275684, "loss": 0.3781, "step": 134780 }, { "epoch": 179.72, "grad_norm": 0.462890625, "learning_rate": 0.00029410230540229544, "loss": 0.401, "step": 134790 }, { "epoch": 179.73333333333332, "grad_norm": 0.40234375, "learning_rate": 0.00029410143281376997, "loss": 0.3951, "step": 134800 }, { "epoch": 179.74666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029410056016199236, "loss": 0.3965, "step": 134810 }, { "epoch": 179.76, "grad_norm": 0.515625, "learning_rate": 0.00029409968744696305, "loss": 0.411, "step": 134820 }, { "epoch": 179.77333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029409881466868236, "loss": 0.3968, "step": 134830 }, { "epoch": 179.78666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0002940979418271507, "loss": 0.3981, "step": 134840 }, { "epoch": 179.8, "grad_norm": 0.388671875, "learning_rate": 0.00029409706892236846, "loss": 0.3965, "step": 134850 }, { "epoch": 179.81333333333333, "grad_norm": 0.51953125, "learning_rate": 0.000294096195954336, "loss": 0.369, "step": 134860 }, { "epoch": 179.82666666666665, "grad_norm": 0.470703125, "learning_rate": 0.0002940953229230537, "loss": 0.3794, "step": 134870 }, { "epoch": 179.84, "grad_norm": 0.416015625, "learning_rate": 0.00029409444982852204, "loss": 0.391, "step": 134880 }, { "epoch": 179.85333333333332, "grad_norm": 0.400390625, "learning_rate": 0.00029409357667074126, "loss": 0.3859, "step": 134890 }, { "epoch": 179.86666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029409270344971176, "loss": 0.3912, "step": 134900 }, { "epoch": 179.88, "grad_norm": 0.40234375, "learning_rate": 0.000294091830165434, "loss": 0.3719, "step": 134910 }, { "epoch": 179.89333333333335, "grad_norm": 0.390625, "learning_rate": 0.0002940909568179084, "loss": 0.3834, "step": 134920 }, { "epoch": 179.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002940900834071352, "loss": 0.3905, "step": 134930 }, { "epoch": 179.92, "grad_norm": 0.39453125, "learning_rate": 0.00029408920993311493, "loss": 0.3916, "step": 134940 }, { "epoch": 179.93333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029408833639584783, "loss": 0.386, "step": 134950 }, { "epoch": 179.94666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002940874627953344, "loss": 0.3868, "step": 134960 }, { "epoch": 179.96, "grad_norm": 0.3671875, "learning_rate": 0.00029408658913157495, "loss": 0.3842, "step": 134970 }, { "epoch": 179.97333333333333, "grad_norm": 0.515625, "learning_rate": 0.0002940857154045699, "loss": 0.4099, "step": 134980 }, { "epoch": 179.98666666666668, "grad_norm": 0.453125, "learning_rate": 0.00029408484161431964, "loss": 0.3819, "step": 134990 }, { "epoch": 180.0, "grad_norm": 0.40234375, "learning_rate": 0.00029408396776082454, "loss": 0.3785, "step": 135000 }, { "epoch": 180.0, "eval_loss": 0.4270727038383484, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0157, "eval_samples_per_second": 1.597, "eval_steps_per_second": 0.1, "step": 135000 }, { "epoch": 180.01333333333332, "grad_norm": 0.458984375, "learning_rate": 0.00029408309384408495, "loss": 0.3953, "step": 135010 }, { "epoch": 180.02666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029408221986410135, "loss": 0.4099, "step": 135020 }, { "epoch": 180.04, "grad_norm": 0.341796875, "learning_rate": 0.000294081345820874, "loss": 0.4214, "step": 135030 }, { "epoch": 180.05333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002940804717144034, "loss": 0.407, "step": 135040 }, { "epoch": 180.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002940795975446898, "loss": 0.3943, "step": 135050 }, { "epoch": 180.08, "grad_norm": 0.431640625, "learning_rate": 0.0002940787233117337, "loss": 0.3987, "step": 135060 }, { "epoch": 180.09333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029407784901553546, "loss": 0.3999, "step": 135070 }, { "epoch": 180.10666666666665, "grad_norm": 0.353515625, "learning_rate": 0.00029407697465609546, "loss": 0.3878, "step": 135080 }, { "epoch": 180.12, "grad_norm": 0.396484375, "learning_rate": 0.00029407610023341407, "loss": 0.392, "step": 135090 }, { "epoch": 180.13333333333333, "grad_norm": 0.388671875, "learning_rate": 0.00029407522574749164, "loss": 0.3832, "step": 135100 }, { "epoch": 180.14666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029407435119832863, "loss": 0.4024, "step": 135110 }, { "epoch": 180.16, "grad_norm": 0.357421875, "learning_rate": 0.00029407347658592535, "loss": 0.3958, "step": 135120 }, { "epoch": 180.17333333333335, "grad_norm": 0.4609375, "learning_rate": 0.00029407260191028224, "loss": 0.3913, "step": 135130 }, { "epoch": 180.18666666666667, "grad_norm": 0.4609375, "learning_rate": 0.00029407172717139967, "loss": 0.3901, "step": 135140 }, { "epoch": 180.2, "grad_norm": 0.43359375, "learning_rate": 0.00029407085236927803, "loss": 0.3822, "step": 135150 }, { "epoch": 180.21333333333334, "grad_norm": 0.4296875, "learning_rate": 0.00029406997750391765, "loss": 0.3823, "step": 135160 }, { "epoch": 180.22666666666666, "grad_norm": 0.439453125, "learning_rate": 0.000294069102575319, "loss": 0.3937, "step": 135170 }, { "epoch": 180.24, "grad_norm": 0.408203125, "learning_rate": 0.00029406822758348236, "loss": 0.3798, "step": 135180 }, { "epoch": 180.25333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029406735252840823, "loss": 0.3812, "step": 135190 }, { "epoch": 180.26666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029406647741009686, "loss": 0.3835, "step": 135200 }, { "epoch": 180.28, "grad_norm": 0.421875, "learning_rate": 0.00029406560222854875, "loss": 0.4141, "step": 135210 }, { "epoch": 180.29333333333332, "grad_norm": 0.44140625, "learning_rate": 0.0002940647269837643, "loss": 0.3699, "step": 135220 }, { "epoch": 180.30666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029406385167574377, "loss": 0.3936, "step": 135230 }, { "epoch": 180.32, "grad_norm": 0.37109375, "learning_rate": 0.0002940629763044876, "loss": 0.3954, "step": 135240 }, { "epoch": 180.33333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029406210086999627, "loss": 0.3993, "step": 135250 }, { "epoch": 180.34666666666666, "grad_norm": 0.44921875, "learning_rate": 0.00029406122537227003, "loss": 0.3897, "step": 135260 }, { "epoch": 180.36, "grad_norm": 0.42578125, "learning_rate": 0.00029406034981130933, "loss": 0.3896, "step": 135270 }, { "epoch": 180.37333333333333, "grad_norm": 0.373046875, "learning_rate": 0.00029405947418711454, "loss": 0.3923, "step": 135280 }, { "epoch": 180.38666666666666, "grad_norm": 0.4609375, "learning_rate": 0.00029405859849968605, "loss": 0.3829, "step": 135290 }, { "epoch": 180.4, "grad_norm": 0.400390625, "learning_rate": 0.0002940577227490242, "loss": 0.3904, "step": 135300 }, { "epoch": 180.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029405684693512945, "loss": 0.3948, "step": 135310 }, { "epoch": 180.42666666666668, "grad_norm": 0.365234375, "learning_rate": 0.0002940559710580021, "loss": 0.3968, "step": 135320 }, { "epoch": 180.44, "grad_norm": 0.376953125, "learning_rate": 0.00029405509511764265, "loss": 0.408, "step": 135330 }, { "epoch": 180.45333333333335, "grad_norm": 0.44921875, "learning_rate": 0.00029405421911405137, "loss": 0.3969, "step": 135340 }, { "epoch": 180.46666666666667, "grad_norm": 0.439453125, "learning_rate": 0.00029405334304722876, "loss": 0.4066, "step": 135350 }, { "epoch": 180.48, "grad_norm": 0.408203125, "learning_rate": 0.00029405246691717506, "loss": 0.3869, "step": 135360 }, { "epoch": 180.49333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029405159072389074, "loss": 0.3985, "step": 135370 }, { "epoch": 180.50666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0002940507144673762, "loss": 0.397, "step": 135380 }, { "epoch": 180.52, "grad_norm": 0.369140625, "learning_rate": 0.0002940498381476318, "loss": 0.3874, "step": 135390 }, { "epoch": 180.53333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002940489617646579, "loss": 0.3903, "step": 135400 }, { "epoch": 180.54666666666665, "grad_norm": 0.44140625, "learning_rate": 0.0002940480853184549, "loss": 0.3936, "step": 135410 }, { "epoch": 180.56, "grad_norm": 0.3515625, "learning_rate": 0.0002940472088090232, "loss": 0.3864, "step": 135420 }, { "epoch": 180.57333333333332, "grad_norm": 0.40234375, "learning_rate": 0.0002940463322363632, "loss": 0.3904, "step": 135430 }, { "epoch": 180.58666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029404545560047526, "loss": 0.3802, "step": 135440 }, { "epoch": 180.6, "grad_norm": 0.359375, "learning_rate": 0.00029404457890135977, "loss": 0.3815, "step": 135450 }, { "epoch": 180.61333333333334, "grad_norm": 0.333984375, "learning_rate": 0.00029404370213901714, "loss": 0.3718, "step": 135460 }, { "epoch": 180.62666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002940428253134477, "loss": 0.3774, "step": 135470 }, { "epoch": 180.64, "grad_norm": 0.396484375, "learning_rate": 0.00029404194842465184, "loss": 0.3877, "step": 135480 }, { "epoch": 180.65333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029404107147263, "loss": 0.3966, "step": 135490 }, { "epoch": 180.66666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002940401944573825, "loss": 0.3849, "step": 135500 }, { "epoch": 180.68, "grad_norm": 0.408203125, "learning_rate": 0.0002940393173789098, "loss": 0.3774, "step": 135510 }, { "epoch": 180.69333333333333, "grad_norm": 0.375, "learning_rate": 0.00029403844023721224, "loss": 0.3865, "step": 135520 }, { "epoch": 180.70666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029403756303229015, "loss": 0.3787, "step": 135530 }, { "epoch": 180.72, "grad_norm": 0.41796875, "learning_rate": 0.000294036685764144, "loss": 0.401, "step": 135540 }, { "epoch": 180.73333333333332, "grad_norm": 0.419921875, "learning_rate": 0.0002940358084327742, "loss": 0.3949, "step": 135550 }, { "epoch": 180.74666666666667, "grad_norm": 0.375, "learning_rate": 0.000294034931038181, "loss": 0.3984, "step": 135560 }, { "epoch": 180.76, "grad_norm": 0.3984375, "learning_rate": 0.00029403405358036495, "loss": 0.4103, "step": 135570 }, { "epoch": 180.77333333333334, "grad_norm": 0.458984375, "learning_rate": 0.0002940331760593263, "loss": 0.3974, "step": 135580 }, { "epoch": 180.78666666666666, "grad_norm": 0.353515625, "learning_rate": 0.0002940322984750655, "loss": 0.3974, "step": 135590 }, { "epoch": 180.8, "grad_norm": 0.427734375, "learning_rate": 0.0002940314208275829, "loss": 0.3968, "step": 135600 }, { "epoch": 180.81333333333333, "grad_norm": 0.44140625, "learning_rate": 0.000294030543116879, "loss": 0.3701, "step": 135610 }, { "epoch": 180.82666666666665, "grad_norm": 0.455078125, "learning_rate": 0.000294029665342954, "loss": 0.3785, "step": 135620 }, { "epoch": 180.84, "grad_norm": 0.4921875, "learning_rate": 0.0002940287875058084, "loss": 0.391, "step": 135630 }, { "epoch": 180.85333333333332, "grad_norm": 0.44140625, "learning_rate": 0.00029402790960544254, "loss": 0.3858, "step": 135640 }, { "epoch": 180.86666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029402703164185687, "loss": 0.3905, "step": 135650 }, { "epoch": 180.88, "grad_norm": 0.384765625, "learning_rate": 0.00029402615361505174, "loss": 0.372, "step": 135660 }, { "epoch": 180.89333333333335, "grad_norm": 0.388671875, "learning_rate": 0.0002940252755250275, "loss": 0.3834, "step": 135670 }, { "epoch": 180.90666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029402439737178455, "loss": 0.3905, "step": 135680 }, { "epoch": 180.92, "grad_norm": 0.392578125, "learning_rate": 0.00029402351915532336, "loss": 0.3919, "step": 135690 }, { "epoch": 180.93333333333334, "grad_norm": 0.380859375, "learning_rate": 0.0002940226408756442, "loss": 0.3858, "step": 135700 }, { "epoch": 180.94666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002940217625327475, "loss": 0.3871, "step": 135710 }, { "epoch": 180.96, "grad_norm": 0.375, "learning_rate": 0.00029402088412663365, "loss": 0.3844, "step": 135720 }, { "epoch": 180.97333333333333, "grad_norm": 0.54296875, "learning_rate": 0.00029402000565730306, "loss": 0.409, "step": 135730 }, { "epoch": 180.98666666666668, "grad_norm": 0.4296875, "learning_rate": 0.0002940191271247561, "loss": 0.3822, "step": 135740 }, { "epoch": 181.0, "grad_norm": 0.404296875, "learning_rate": 0.00029401824852899307, "loss": 0.3793, "step": 135750 }, { "epoch": 181.0, "eval_loss": 0.4258576035499573, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.5497, "eval_samples_per_second": 1.517, "eval_steps_per_second": 0.095, "step": 135750 }, { "epoch": 181.01333333333332, "grad_norm": 0.4765625, "learning_rate": 0.0002940173698700145, "loss": 0.3963, "step": 135760 }, { "epoch": 181.02666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002940164911478207, "loss": 0.4095, "step": 135770 }, { "epoch": 181.04, "grad_norm": 0.478515625, "learning_rate": 0.00029401561236241204, "loss": 0.4221, "step": 135780 }, { "epoch": 181.05333333333334, "grad_norm": 0.412109375, "learning_rate": 0.00029401473351378893, "loss": 0.4075, "step": 135790 }, { "epoch": 181.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029401385460195174, "loss": 0.395, "step": 135800 }, { "epoch": 181.08, "grad_norm": 0.373046875, "learning_rate": 0.0002940129756269009, "loss": 0.3991, "step": 135810 }, { "epoch": 181.09333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029401209658863674, "loss": 0.3993, "step": 135820 }, { "epoch": 181.10666666666665, "grad_norm": 0.400390625, "learning_rate": 0.00029401121748715963, "loss": 0.3871, "step": 135830 }, { "epoch": 181.12, "grad_norm": 0.4453125, "learning_rate": 0.00029401033832247007, "loss": 0.3921, "step": 135840 }, { "epoch": 181.13333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002940094590945684, "loss": 0.3836, "step": 135850 }, { "epoch": 181.14666666666668, "grad_norm": 0.423828125, "learning_rate": 0.0002940085798034549, "loss": 0.4031, "step": 135860 }, { "epoch": 181.16, "grad_norm": 0.40234375, "learning_rate": 0.00029400770044913006, "loss": 0.3962, "step": 135870 }, { "epoch": 181.17333333333335, "grad_norm": 0.388671875, "learning_rate": 0.00029400682103159425, "loss": 0.3917, "step": 135880 }, { "epoch": 181.18666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029400594155084783, "loss": 0.3897, "step": 135890 }, { "epoch": 181.2, "grad_norm": 0.40625, "learning_rate": 0.00029400506200689123, "loss": 0.3816, "step": 135900 }, { "epoch": 181.21333333333334, "grad_norm": 0.4375, "learning_rate": 0.00029400418239972477, "loss": 0.3832, "step": 135910 }, { "epoch": 181.22666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002940033027293489, "loss": 0.3937, "step": 135920 }, { "epoch": 181.24, "grad_norm": 0.4296875, "learning_rate": 0.000294002422995764, "loss": 0.3788, "step": 135930 }, { "epoch": 181.25333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002940015431989704, "loss": 0.3817, "step": 135940 }, { "epoch": 181.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029400066333896854, "loss": 0.3832, "step": 135950 }, { "epoch": 181.28, "grad_norm": 0.451171875, "learning_rate": 0.0002939997834157588, "loss": 0.4136, "step": 135960 }, { "epoch": 181.29333333333332, "grad_norm": 0.462890625, "learning_rate": 0.0002939989034293415, "loss": 0.3705, "step": 135970 }, { "epoch": 181.30666666666667, "grad_norm": 0.359375, "learning_rate": 0.0002939980233797171, "loss": 0.3943, "step": 135980 }, { "epoch": 181.32, "grad_norm": 0.34375, "learning_rate": 0.000293997143266886, "loss": 0.397, "step": 135990 }, { "epoch": 181.33333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029399626309084857, "loss": 0.3991, "step": 136000 }, { "epoch": 181.34666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029399538285160515, "loss": 0.3894, "step": 136010 }, { "epoch": 181.36, "grad_norm": 0.416015625, "learning_rate": 0.00029399450254915616, "loss": 0.3884, "step": 136020 }, { "epoch": 181.37333333333333, "grad_norm": 0.416015625, "learning_rate": 0.000293993622183502, "loss": 0.3903, "step": 136030 }, { "epoch": 181.38666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029399274175464303, "loss": 0.3827, "step": 136040 }, { "epoch": 181.4, "grad_norm": 0.404296875, "learning_rate": 0.00029399186126257966, "loss": 0.3907, "step": 136050 }, { "epoch": 181.41333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002939909807073122, "loss": 0.3943, "step": 136060 }, { "epoch": 181.42666666666668, "grad_norm": 0.416015625, "learning_rate": 0.00029399010008884113, "loss": 0.3963, "step": 136070 }, { "epoch": 181.44, "grad_norm": 0.388671875, "learning_rate": 0.00029398921940716684, "loss": 0.4073, "step": 136080 }, { "epoch": 181.45333333333335, "grad_norm": 0.54296875, "learning_rate": 0.00029398833866228964, "loss": 0.396, "step": 136090 }, { "epoch": 181.46666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029398745785421, "loss": 0.4054, "step": 136100 }, { "epoch": 181.48, "grad_norm": 0.408203125, "learning_rate": 0.0002939865769829282, "loss": 0.3873, "step": 136110 }, { "epoch": 181.49333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029398569604844476, "loss": 0.3982, "step": 136120 }, { "epoch": 181.50666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029398481505076, "loss": 0.3975, "step": 136130 }, { "epoch": 181.52, "grad_norm": 0.400390625, "learning_rate": 0.0002939839339898743, "loss": 0.3875, "step": 136140 }, { "epoch": 181.53333333333333, "grad_norm": 0.435546875, "learning_rate": 0.000293983052865788, "loss": 0.3903, "step": 136150 }, { "epoch": 181.54666666666665, "grad_norm": 0.400390625, "learning_rate": 0.0002939821716785016, "loss": 0.3927, "step": 136160 }, { "epoch": 181.56, "grad_norm": 0.412109375, "learning_rate": 0.0002939812904280154, "loss": 0.3866, "step": 136170 }, { "epoch": 181.57333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002939804091143298, "loss": 0.3898, "step": 136180 }, { "epoch": 181.58666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029397952773744525, "loss": 0.3795, "step": 136190 }, { "epoch": 181.6, "grad_norm": 0.41015625, "learning_rate": 0.00029397864629736206, "loss": 0.3811, "step": 136200 }, { "epoch": 181.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0002939777647940806, "loss": 0.371, "step": 136210 }, { "epoch": 181.62666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029397688322760135, "loss": 0.3766, "step": 136220 }, { "epoch": 181.64, "grad_norm": 0.474609375, "learning_rate": 0.00029397600159792464, "loss": 0.388, "step": 136230 }, { "epoch": 181.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002939751199050508, "loss": 0.3968, "step": 136240 }, { "epoch": 181.66666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002939742381489804, "loss": 0.385, "step": 136250 }, { "epoch": 181.68, "grad_norm": 0.43359375, "learning_rate": 0.0002939733563297137, "loss": 0.3765, "step": 136260 }, { "epoch": 181.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.000293972474447251, "loss": 0.3869, "step": 136270 }, { "epoch": 181.70666666666668, "grad_norm": 0.51953125, "learning_rate": 0.0002939715925015928, "loss": 0.3785, "step": 136280 }, { "epoch": 181.72, "grad_norm": 0.390625, "learning_rate": 0.00029397071049273946, "loss": 0.4002, "step": 136290 }, { "epoch": 181.73333333333332, "grad_norm": 0.470703125, "learning_rate": 0.00029396982842069147, "loss": 0.3956, "step": 136300 }, { "epoch": 181.74666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029396894628544906, "loss": 0.3973, "step": 136310 }, { "epoch": 181.76, "grad_norm": 0.42578125, "learning_rate": 0.00029396806408701264, "loss": 0.4109, "step": 136320 }, { "epoch": 181.77333333333334, "grad_norm": 0.4921875, "learning_rate": 0.0002939671818253827, "loss": 0.3971, "step": 136330 }, { "epoch": 181.78666666666666, "grad_norm": 0.37109375, "learning_rate": 0.00029396629950055955, "loss": 0.3977, "step": 136340 }, { "epoch": 181.8, "grad_norm": 0.4296875, "learning_rate": 0.00029396541711254365, "loss": 0.3967, "step": 136350 }, { "epoch": 181.81333333333333, "grad_norm": 0.48046875, "learning_rate": 0.00029396453466133524, "loss": 0.3698, "step": 136360 }, { "epoch": 181.82666666666665, "grad_norm": 0.4140625, "learning_rate": 0.0002939636521469349, "loss": 0.379, "step": 136370 }, { "epoch": 181.84, "grad_norm": 0.470703125, "learning_rate": 0.00029396276956934276, "loss": 0.3906, "step": 136380 }, { "epoch": 181.85333333333332, "grad_norm": 0.423828125, "learning_rate": 0.0002939618869285595, "loss": 0.386, "step": 136390 }, { "epoch": 181.86666666666667, "grad_norm": 0.455078125, "learning_rate": 0.0002939610042245853, "loss": 0.391, "step": 136400 }, { "epoch": 181.88, "grad_norm": 0.412109375, "learning_rate": 0.00029396012145742063, "loss": 0.3719, "step": 136410 }, { "epoch": 181.89333333333335, "grad_norm": 0.388671875, "learning_rate": 0.00029395923862706586, "loss": 0.3829, "step": 136420 }, { "epoch": 181.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002939583557335214, "loss": 0.3898, "step": 136430 }, { "epoch": 181.92, "grad_norm": 0.4453125, "learning_rate": 0.0002939574727767876, "loss": 0.3911, "step": 136440 }, { "epoch": 181.93333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002939565897568649, "loss": 0.3861, "step": 136450 }, { "epoch": 181.94666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002939557066737537, "loss": 0.3869, "step": 136460 }, { "epoch": 181.96, "grad_norm": 0.3515625, "learning_rate": 0.0002939548235274542, "loss": 0.3857, "step": 136470 }, { "epoch": 181.97333333333333, "grad_norm": 0.494140625, "learning_rate": 0.000293953940317967, "loss": 0.4093, "step": 136480 }, { "epoch": 181.98666666666668, "grad_norm": 0.4296875, "learning_rate": 0.00029395305704529244, "loss": 0.3816, "step": 136490 }, { "epoch": 182.0, "grad_norm": 0.361328125, "learning_rate": 0.0002939521737094309, "loss": 0.3788, "step": 136500 }, { "epoch": 182.0, "eval_loss": 0.4246582090854645, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8537, "eval_samples_per_second": 1.624, "eval_steps_per_second": 0.101, "step": 136500 }, { "epoch": 182.01333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002939512903103827, "loss": 0.3955, "step": 136510 }, { "epoch": 182.02666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029395040684814834, "loss": 0.4085, "step": 136520 }, { "epoch": 182.04, "grad_norm": 0.369140625, "learning_rate": 0.00029394952332272814, "loss": 0.4215, "step": 136530 }, { "epoch": 182.05333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029394863973412243, "loss": 0.4069, "step": 136540 }, { "epoch": 182.06666666666666, "grad_norm": 0.44921875, "learning_rate": 0.0002939477560823317, "loss": 0.3946, "step": 136550 }, { "epoch": 182.08, "grad_norm": 0.416015625, "learning_rate": 0.0002939468723673563, "loss": 0.3975, "step": 136560 }, { "epoch": 182.09333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029394598858919666, "loss": 0.3992, "step": 136570 }, { "epoch": 182.10666666666665, "grad_norm": 0.349609375, "learning_rate": 0.0002939451047478531, "loss": 0.3865, "step": 136580 }, { "epoch": 182.12, "grad_norm": 0.39453125, "learning_rate": 0.000293944220843326, "loss": 0.3921, "step": 136590 }, { "epoch": 182.13333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029394333687561585, "loss": 0.383, "step": 136600 }, { "epoch": 182.14666666666668, "grad_norm": 0.392578125, "learning_rate": 0.00029394245284472293, "loss": 0.4018, "step": 136610 }, { "epoch": 182.16, "grad_norm": 0.412109375, "learning_rate": 0.0002939415687506477, "loss": 0.3969, "step": 136620 }, { "epoch": 182.17333333333335, "grad_norm": 0.416015625, "learning_rate": 0.00029394068459339046, "loss": 0.3901, "step": 136630 }, { "epoch": 182.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029393980037295173, "loss": 0.3899, "step": 136640 }, { "epoch": 182.2, "grad_norm": 0.41796875, "learning_rate": 0.00029393891608933177, "loss": 0.3819, "step": 136650 }, { "epoch": 182.21333333333334, "grad_norm": 0.435546875, "learning_rate": 0.00029393803174253107, "loss": 0.3822, "step": 136660 }, { "epoch": 182.22666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029393714733254994, "loss": 0.395, "step": 136670 }, { "epoch": 182.24, "grad_norm": 0.44921875, "learning_rate": 0.0002939362628593888, "loss": 0.3793, "step": 136680 }, { "epoch": 182.25333333333333, "grad_norm": 0.421875, "learning_rate": 0.000293935378323048, "loss": 0.3806, "step": 136690 }, { "epoch": 182.26666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002939344937235281, "loss": 0.3836, "step": 136700 }, { "epoch": 182.28, "grad_norm": 0.435546875, "learning_rate": 0.00029393360906082924, "loss": 0.413, "step": 136710 }, { "epoch": 182.29333333333332, "grad_norm": 0.435546875, "learning_rate": 0.00029393272433495194, "loss": 0.3707, "step": 136720 }, { "epoch": 182.30666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029393183954589655, "loss": 0.3926, "step": 136730 }, { "epoch": 182.32, "grad_norm": 0.392578125, "learning_rate": 0.0002939309546936635, "loss": 0.3955, "step": 136740 }, { "epoch": 182.33333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029393006977825314, "loss": 0.3987, "step": 136750 }, { "epoch": 182.34666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002939291847996659, "loss": 0.3889, "step": 136760 }, { "epoch": 182.36, "grad_norm": 0.45703125, "learning_rate": 0.00029392829975790214, "loss": 0.3888, "step": 136770 }, { "epoch": 182.37333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002939274146529623, "loss": 0.3914, "step": 136780 }, { "epoch": 182.38666666666666, "grad_norm": 0.44921875, "learning_rate": 0.00029392652948484666, "loss": 0.3818, "step": 136790 }, { "epoch": 182.4, "grad_norm": 0.400390625, "learning_rate": 0.00029392564425355567, "loss": 0.3901, "step": 136800 }, { "epoch": 182.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029392475895908973, "loss": 0.3957, "step": 136810 }, { "epoch": 182.42666666666668, "grad_norm": 0.427734375, "learning_rate": 0.00029392387360144924, "loss": 0.3966, "step": 136820 }, { "epoch": 182.44, "grad_norm": 0.416015625, "learning_rate": 0.0002939229881806345, "loss": 0.4074, "step": 136830 }, { "epoch": 182.45333333333335, "grad_norm": 0.478515625, "learning_rate": 0.00029392210269664606, "loss": 0.3962, "step": 136840 }, { "epoch": 182.46666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029392121714948415, "loss": 0.4061, "step": 136850 }, { "epoch": 182.48, "grad_norm": 0.39453125, "learning_rate": 0.00029392033153914925, "loss": 0.3866, "step": 136860 }, { "epoch": 182.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002939194458656417, "loss": 0.3991, "step": 136870 }, { "epoch": 182.50666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029391856012896193, "loss": 0.3968, "step": 136880 }, { "epoch": 182.52, "grad_norm": 0.353515625, "learning_rate": 0.0002939176743291102, "loss": 0.3875, "step": 136890 }, { "epoch": 182.53333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029391678846608715, "loss": 0.39, "step": 136900 }, { "epoch": 182.54666666666665, "grad_norm": 0.451171875, "learning_rate": 0.000293915902539893, "loss": 0.3924, "step": 136910 }, { "epoch": 182.56, "grad_norm": 0.408203125, "learning_rate": 0.0002939150165505281, "loss": 0.3861, "step": 136920 }, { "epoch": 182.57333333333332, "grad_norm": 0.4296875, "learning_rate": 0.00029391413049799294, "loss": 0.3898, "step": 136930 }, { "epoch": 182.58666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002939132443822879, "loss": 0.3792, "step": 136940 }, { "epoch": 182.6, "grad_norm": 0.4140625, "learning_rate": 0.0002939123582034133, "loss": 0.381, "step": 136950 }, { "epoch": 182.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029391147196136956, "loss": 0.3712, "step": 136960 }, { "epoch": 182.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.0002939105856561571, "loss": 0.3773, "step": 136970 }, { "epoch": 182.64, "grad_norm": 0.3984375, "learning_rate": 0.0002939096992877763, "loss": 0.3874, "step": 136980 }, { "epoch": 182.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029390881285622754, "loss": 0.3965, "step": 136990 }, { "epoch": 182.66666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002939079263615112, "loss": 0.3856, "step": 137000 }, { "epoch": 182.68, "grad_norm": 0.384765625, "learning_rate": 0.00029390703980362767, "loss": 0.3767, "step": 137010 }, { "epoch": 182.69333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029390615318257733, "loss": 0.3867, "step": 137020 }, { "epoch": 182.70666666666668, "grad_norm": 0.4765625, "learning_rate": 0.0002939052664983606, "loss": 0.3784, "step": 137030 }, { "epoch": 182.72, "grad_norm": 0.421875, "learning_rate": 0.0002939043797509779, "loss": 0.4003, "step": 137040 }, { "epoch": 182.73333333333332, "grad_norm": 0.380859375, "learning_rate": 0.00029390349294042945, "loss": 0.3952, "step": 137050 }, { "epoch": 182.74666666666667, "grad_norm": 0.439453125, "learning_rate": 0.0002939026060667159, "loss": 0.3972, "step": 137060 }, { "epoch": 182.76, "grad_norm": 0.400390625, "learning_rate": 0.0002939017191298374, "loss": 0.41, "step": 137070 }, { "epoch": 182.77333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002939008321297945, "loss": 0.3967, "step": 137080 }, { "epoch": 182.78666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002938999450665875, "loss": 0.398, "step": 137090 }, { "epoch": 182.8, "grad_norm": 0.439453125, "learning_rate": 0.0002938990579402168, "loss": 0.3968, "step": 137100 }, { "epoch": 182.81333333333333, "grad_norm": 0.46875, "learning_rate": 0.0002938981707506828, "loss": 0.3691, "step": 137110 }, { "epoch": 182.82666666666665, "grad_norm": 0.4609375, "learning_rate": 0.00029389728349798593, "loss": 0.3788, "step": 137120 }, { "epoch": 182.84, "grad_norm": 0.40234375, "learning_rate": 0.0002938963961821266, "loss": 0.3902, "step": 137130 }, { "epoch": 182.85333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002938955088031051, "loss": 0.385, "step": 137140 }, { "epoch": 182.86666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002938946213609218, "loss": 0.39, "step": 137150 }, { "epoch": 182.88, "grad_norm": 0.388671875, "learning_rate": 0.00029389373385557726, "loss": 0.3729, "step": 137160 }, { "epoch": 182.89333333333335, "grad_norm": 0.380859375, "learning_rate": 0.0002938928462870717, "loss": 0.3838, "step": 137170 }, { "epoch": 182.90666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029389195865540556, "loss": 0.3893, "step": 137180 }, { "epoch": 182.92, "grad_norm": 0.40625, "learning_rate": 0.0002938910709605793, "loss": 0.3917, "step": 137190 }, { "epoch": 182.93333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002938901832025932, "loss": 0.3863, "step": 137200 }, { "epoch": 182.94666666666666, "grad_norm": 0.44140625, "learning_rate": 0.0002938892953814478, "loss": 0.3859, "step": 137210 }, { "epoch": 182.96, "grad_norm": 0.34375, "learning_rate": 0.0002938884074971433, "loss": 0.3851, "step": 137220 }, { "epoch": 182.97333333333333, "grad_norm": 0.49609375, "learning_rate": 0.0002938875195496802, "loss": 0.4097, "step": 137230 }, { "epoch": 182.98666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002938866315390589, "loss": 0.3816, "step": 137240 }, { "epoch": 183.0, "grad_norm": 0.384765625, "learning_rate": 0.00029388574346527976, "loss": 0.3786, "step": 137250 }, { "epoch": 183.0, "eval_loss": 0.42526087164878845, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.107, "eval_samples_per_second": 1.583, "eval_steps_per_second": 0.099, "step": 137250 }, { "epoch": 183.01333333333332, "grad_norm": 0.478515625, "learning_rate": 0.00029388485532834315, "loss": 0.3947, "step": 137260 }, { "epoch": 183.02666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002938839671282495, "loss": 0.4084, "step": 137270 }, { "epoch": 183.04, "grad_norm": 0.427734375, "learning_rate": 0.00029388307886499916, "loss": 0.4215, "step": 137280 }, { "epoch": 183.05333333333334, "grad_norm": 0.44921875, "learning_rate": 0.0002938821905385926, "loss": 0.407, "step": 137290 }, { "epoch": 183.06666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029388130214903004, "loss": 0.3946, "step": 137300 }, { "epoch": 183.08, "grad_norm": 0.50390625, "learning_rate": 0.00029388041369631207, "loss": 0.3991, "step": 137310 }, { "epoch": 183.09333333333333, "grad_norm": 0.427734375, "learning_rate": 0.000293879525180439, "loss": 0.3987, "step": 137320 }, { "epoch": 183.10666666666665, "grad_norm": 0.349609375, "learning_rate": 0.00029387863660141115, "loss": 0.3872, "step": 137330 }, { "epoch": 183.12, "grad_norm": 0.4296875, "learning_rate": 0.000293877747959229, "loss": 0.3917, "step": 137340 }, { "epoch": 183.13333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002938768592538929, "loss": 0.3828, "step": 137350 }, { "epoch": 183.14666666666668, "grad_norm": 0.380859375, "learning_rate": 0.00029387597048540333, "loss": 0.4024, "step": 137360 }, { "epoch": 183.16, "grad_norm": 0.373046875, "learning_rate": 0.0002938750816537605, "loss": 0.3966, "step": 137370 }, { "epoch": 183.17333333333335, "grad_norm": 0.4765625, "learning_rate": 0.00029387419275896494, "loss": 0.3908, "step": 137380 }, { "epoch": 183.18666666666667, "grad_norm": 0.447265625, "learning_rate": 0.000293873303801017, "loss": 0.3894, "step": 137390 }, { "epoch": 183.2, "grad_norm": 0.39453125, "learning_rate": 0.0002938724147799171, "loss": 0.3821, "step": 137400 }, { "epoch": 183.21333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029387152569566557, "loss": 0.3825, "step": 137410 }, { "epoch": 183.22666666666666, "grad_norm": 0.451171875, "learning_rate": 0.0002938706365482629, "loss": 0.3941, "step": 137420 }, { "epoch": 183.24, "grad_norm": 0.431640625, "learning_rate": 0.00029386974733770934, "loss": 0.3792, "step": 137430 }, { "epoch": 183.25333333333333, "grad_norm": 0.453125, "learning_rate": 0.00029386885806400535, "loss": 0.3817, "step": 137440 }, { "epoch": 183.26666666666668, "grad_norm": 0.3828125, "learning_rate": 0.00029386796872715135, "loss": 0.3834, "step": 137450 }, { "epoch": 183.28, "grad_norm": 0.392578125, "learning_rate": 0.00029386707932714767, "loss": 0.4134, "step": 137460 }, { "epoch": 183.29333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002938661898639948, "loss": 0.3699, "step": 137470 }, { "epoch": 183.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.000293865300337693, "loss": 0.3932, "step": 137480 }, { "epoch": 183.32, "grad_norm": 0.35546875, "learning_rate": 0.0002938644107482428, "loss": 0.3963, "step": 137490 }, { "epoch": 183.33333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029386352109564445, "loss": 0.3988, "step": 137500 }, { "epoch": 183.34666666666666, "grad_norm": 0.451171875, "learning_rate": 0.00029386263137989844, "loss": 0.3886, "step": 137510 }, { "epoch": 183.36, "grad_norm": 0.46875, "learning_rate": 0.00029386174160100513, "loss": 0.3897, "step": 137520 }, { "epoch": 183.37333333333333, "grad_norm": 0.357421875, "learning_rate": 0.00029386085175896485, "loss": 0.3914, "step": 137530 }, { "epoch": 183.38666666666666, "grad_norm": 0.51171875, "learning_rate": 0.00029385996185377815, "loss": 0.3827, "step": 137540 }, { "epoch": 183.4, "grad_norm": 0.4140625, "learning_rate": 0.00029385907188544523, "loss": 0.3905, "step": 137550 }, { "epoch": 183.41333333333333, "grad_norm": 0.42578125, "learning_rate": 0.0002938581818539666, "loss": 0.3949, "step": 137560 }, { "epoch": 183.42666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029385729175934267, "loss": 0.396, "step": 137570 }, { "epoch": 183.44, "grad_norm": 0.421875, "learning_rate": 0.00029385640160157367, "loss": 0.4078, "step": 137580 }, { "epoch": 183.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002938555113806602, "loss": 0.3967, "step": 137590 }, { "epoch": 183.46666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002938546210966025, "loss": 0.4063, "step": 137600 }, { "epoch": 183.48, "grad_norm": 0.388671875, "learning_rate": 0.00029385373074940105, "loss": 0.3879, "step": 137610 }, { "epoch": 183.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002938528403390562, "loss": 0.3985, "step": 137620 }, { "epoch": 183.50666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029385194986556834, "loss": 0.3978, "step": 137630 }, { "epoch": 183.52, "grad_norm": 0.373046875, "learning_rate": 0.00029385105932893784, "loss": 0.3879, "step": 137640 }, { "epoch": 183.53333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029385016872916515, "loss": 0.3905, "step": 137650 }, { "epoch": 183.54666666666665, "grad_norm": 0.431640625, "learning_rate": 0.0002938492780662506, "loss": 0.3917, "step": 137660 }, { "epoch": 183.56, "grad_norm": 0.349609375, "learning_rate": 0.00029384838734019457, "loss": 0.3868, "step": 137670 }, { "epoch": 183.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029384749655099755, "loss": 0.3904, "step": 137680 }, { "epoch": 183.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029384660569865985, "loss": 0.3798, "step": 137690 }, { "epoch": 183.6, "grad_norm": 0.375, "learning_rate": 0.0002938457147831819, "loss": 0.3804, "step": 137700 }, { "epoch": 183.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002938448238045641, "loss": 0.372, "step": 137710 }, { "epoch": 183.62666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002938439327628068, "loss": 0.3769, "step": 137720 }, { "epoch": 183.64, "grad_norm": 0.421875, "learning_rate": 0.0002938430416579103, "loss": 0.3882, "step": 137730 }, { "epoch": 183.65333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002938421504898752, "loss": 0.3975, "step": 137740 }, { "epoch": 183.66666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002938412592587018, "loss": 0.3858, "step": 137750 }, { "epoch": 183.68, "grad_norm": 0.41015625, "learning_rate": 0.0002938403679643904, "loss": 0.3766, "step": 137760 }, { "epoch": 183.69333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002938394766069416, "loss": 0.3852, "step": 137770 }, { "epoch": 183.70666666666668, "grad_norm": 0.484375, "learning_rate": 0.0002938385851863555, "loss": 0.3787, "step": 137780 }, { "epoch": 183.72, "grad_norm": 0.41015625, "learning_rate": 0.00029383769370263274, "loss": 0.4001, "step": 137790 }, { "epoch": 183.73333333333332, "grad_norm": 0.4296875, "learning_rate": 0.0002938368021557736, "loss": 0.3953, "step": 137800 }, { "epoch": 183.74666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029383591054577853, "loss": 0.3973, "step": 137810 }, { "epoch": 183.76, "grad_norm": 0.43359375, "learning_rate": 0.00029383501887264785, "loss": 0.4103, "step": 137820 }, { "epoch": 183.77333333333334, "grad_norm": 0.41796875, "learning_rate": 0.000293834127136382, "loss": 0.3964, "step": 137830 }, { "epoch": 183.78666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029383323533698137, "loss": 0.3984, "step": 137840 }, { "epoch": 183.8, "grad_norm": 0.43359375, "learning_rate": 0.0002938323434744463, "loss": 0.396, "step": 137850 }, { "epoch": 183.81333333333333, "grad_norm": 0.4375, "learning_rate": 0.00029383145154877725, "loss": 0.3694, "step": 137860 }, { "epoch": 183.82666666666665, "grad_norm": 0.4453125, "learning_rate": 0.0002938305595599746, "loss": 0.3785, "step": 137870 }, { "epoch": 183.84, "grad_norm": 0.447265625, "learning_rate": 0.0002938296675080387, "loss": 0.3916, "step": 137880 }, { "epoch": 183.85333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029382877539297, "loss": 0.3869, "step": 137890 }, { "epoch": 183.86666666666667, "grad_norm": 0.46484375, "learning_rate": 0.0002938278832147688, "loss": 0.3908, "step": 137900 }, { "epoch": 183.88, "grad_norm": 0.427734375, "learning_rate": 0.0002938269909734356, "loss": 0.3716, "step": 137910 }, { "epoch": 183.89333333333335, "grad_norm": 0.40234375, "learning_rate": 0.00029382609866897074, "loss": 0.3837, "step": 137920 }, { "epoch": 183.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0002938252063013746, "loss": 0.3903, "step": 137930 }, { "epoch": 183.92, "grad_norm": 0.40625, "learning_rate": 0.00029382431387064756, "loss": 0.3918, "step": 137940 }, { "epoch": 183.93333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002938234213767901, "loss": 0.3855, "step": 137950 }, { "epoch": 183.94666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029382252881980246, "loss": 0.3863, "step": 137960 }, { "epoch": 183.96, "grad_norm": 0.361328125, "learning_rate": 0.00029382163619968516, "loss": 0.385, "step": 137970 }, { "epoch": 183.97333333333333, "grad_norm": 0.4765625, "learning_rate": 0.00029382074351643855, "loss": 0.4092, "step": 137980 }, { "epoch": 183.98666666666668, "grad_norm": 0.451171875, "learning_rate": 0.00029381985077006303, "loss": 0.3814, "step": 137990 }, { "epoch": 184.0, "grad_norm": 0.376953125, "learning_rate": 0.00029381895796055897, "loss": 0.3784, "step": 138000 }, { "epoch": 184.0, "eval_loss": 0.4264039099216461, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.3122, "eval_samples_per_second": 1.552, "eval_steps_per_second": 0.097, "step": 138000 }, { "epoch": 184.01333333333332, "grad_norm": 0.453125, "learning_rate": 0.0002938180650879268, "loss": 0.3962, "step": 138010 }, { "epoch": 184.02666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002938171721521669, "loss": 0.4096, "step": 138020 }, { "epoch": 184.04, "grad_norm": 0.36328125, "learning_rate": 0.00029381627915327967, "loss": 0.4224, "step": 138030 }, { "epoch": 184.05333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002938153860912654, "loss": 0.4071, "step": 138040 }, { "epoch": 184.06666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002938144929661246, "loss": 0.3943, "step": 138050 }, { "epoch": 184.08, "grad_norm": 0.45703125, "learning_rate": 0.00029381359977785767, "loss": 0.3984, "step": 138060 }, { "epoch": 184.09333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029381270652646495, "loss": 0.3995, "step": 138070 }, { "epoch": 184.10666666666665, "grad_norm": 0.345703125, "learning_rate": 0.00029381181321194683, "loss": 0.3868, "step": 138080 }, { "epoch": 184.12, "grad_norm": 0.40625, "learning_rate": 0.0002938109198343037, "loss": 0.3911, "step": 138090 }, { "epoch": 184.13333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029381002639353594, "loss": 0.384, "step": 138100 }, { "epoch": 184.14666666666668, "grad_norm": 0.423828125, "learning_rate": 0.000293809132889644, "loss": 0.4026, "step": 138110 }, { "epoch": 184.16, "grad_norm": 0.392578125, "learning_rate": 0.00029380823932262823, "loss": 0.3963, "step": 138120 }, { "epoch": 184.17333333333335, "grad_norm": 0.443359375, "learning_rate": 0.00029380734569248905, "loss": 0.3915, "step": 138130 }, { "epoch": 184.18666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002938064519992268, "loss": 0.3899, "step": 138140 }, { "epoch": 184.2, "grad_norm": 0.455078125, "learning_rate": 0.000293805558242842, "loss": 0.3818, "step": 138150 }, { "epoch": 184.21333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002938046644233348, "loss": 0.3833, "step": 138160 }, { "epoch": 184.22666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029380377054070587, "loss": 0.395, "step": 138170 }, { "epoch": 184.24, "grad_norm": 0.4453125, "learning_rate": 0.00029380287659495544, "loss": 0.3797, "step": 138180 }, { "epoch": 184.25333333333333, "grad_norm": 0.419921875, "learning_rate": 0.0002938019825860839, "loss": 0.3813, "step": 138190 }, { "epoch": 184.26666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029380108851409173, "loss": 0.3839, "step": 138200 }, { "epoch": 184.28, "grad_norm": 0.453125, "learning_rate": 0.0002938001943789792, "loss": 0.4134, "step": 138210 }, { "epoch": 184.29333333333332, "grad_norm": 0.4296875, "learning_rate": 0.0002937993001807468, "loss": 0.3695, "step": 138220 }, { "epoch": 184.30666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029379840591939495, "loss": 0.3931, "step": 138230 }, { "epoch": 184.32, "grad_norm": 0.353515625, "learning_rate": 0.0002937975115949239, "loss": 0.3964, "step": 138240 }, { "epoch": 184.33333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002937966172073342, "loss": 0.3988, "step": 138250 }, { "epoch": 184.34666666666666, "grad_norm": 0.478515625, "learning_rate": 0.00029379572275662616, "loss": 0.3885, "step": 138260 }, { "epoch": 184.36, "grad_norm": 0.4140625, "learning_rate": 0.00029379482824280014, "loss": 0.3898, "step": 138270 }, { "epoch": 184.37333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002937939336658567, "loss": 0.3907, "step": 138280 }, { "epoch": 184.38666666666666, "grad_norm": 0.42578125, "learning_rate": 0.00029379303902579603, "loss": 0.3825, "step": 138290 }, { "epoch": 184.4, "grad_norm": 0.416015625, "learning_rate": 0.0002937921443226186, "loss": 0.3902, "step": 138300 }, { "epoch": 184.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.00029379124955632483, "loss": 0.3951, "step": 138310 }, { "epoch": 184.42666666666668, "grad_norm": 0.390625, "learning_rate": 0.00029379035472691504, "loss": 0.3958, "step": 138320 }, { "epoch": 184.44, "grad_norm": 0.376953125, "learning_rate": 0.00029378945983438967, "loss": 0.4078, "step": 138330 }, { "epoch": 184.45333333333335, "grad_norm": 0.45703125, "learning_rate": 0.00029378856487874915, "loss": 0.3968, "step": 138340 }, { "epoch": 184.46666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029378766985999386, "loss": 0.4047, "step": 138350 }, { "epoch": 184.48, "grad_norm": 0.392578125, "learning_rate": 0.0002937867747781242, "loss": 0.3873, "step": 138360 }, { "epoch": 184.49333333333334, "grad_norm": 0.384765625, "learning_rate": 0.00029378587963314044, "loss": 0.3983, "step": 138370 }, { "epoch": 184.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002937849844250431, "loss": 0.397, "step": 138380 }, { "epoch": 184.52, "grad_norm": 0.369140625, "learning_rate": 0.00029378408915383254, "loss": 0.3877, "step": 138390 }, { "epoch": 184.53333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002937831938195092, "loss": 0.3904, "step": 138400 }, { "epoch": 184.54666666666665, "grad_norm": 0.43359375, "learning_rate": 0.0002937822984220733, "loss": 0.3924, "step": 138410 }, { "epoch": 184.56, "grad_norm": 0.392578125, "learning_rate": 0.0002937814029615255, "loss": 0.3861, "step": 138420 }, { "epoch": 184.57333333333332, "grad_norm": 0.400390625, "learning_rate": 0.000293780507437866, "loss": 0.3904, "step": 138430 }, { "epoch": 184.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029377961185109527, "loss": 0.3792, "step": 138440 }, { "epoch": 184.6, "grad_norm": 0.376953125, "learning_rate": 0.0002937787162012136, "loss": 0.3804, "step": 138450 }, { "epoch": 184.61333333333334, "grad_norm": 0.55859375, "learning_rate": 0.00029377782048822153, "loss": 0.3706, "step": 138460 }, { "epoch": 184.62666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029377692471211936, "loss": 0.3764, "step": 138470 }, { "epoch": 184.64, "grad_norm": 0.388671875, "learning_rate": 0.0002937760288729075, "loss": 0.388, "step": 138480 }, { "epoch": 184.65333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002937751329705864, "loss": 0.3971, "step": 138490 }, { "epoch": 184.66666666666666, "grad_norm": 0.400390625, "learning_rate": 0.00029377423700515634, "loss": 0.3855, "step": 138500 }, { "epoch": 184.68, "grad_norm": 0.396484375, "learning_rate": 0.0002937733409766178, "loss": 0.376, "step": 138510 }, { "epoch": 184.69333333333333, "grad_norm": 0.357421875, "learning_rate": 0.0002937724448849712, "loss": 0.3854, "step": 138520 }, { "epoch": 184.70666666666668, "grad_norm": 0.447265625, "learning_rate": 0.00029377154873021677, "loss": 0.3789, "step": 138530 }, { "epoch": 184.72, "grad_norm": 0.451171875, "learning_rate": 0.00029377065251235513, "loss": 0.4004, "step": 138540 }, { "epoch": 184.73333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002937697562313865, "loss": 0.3949, "step": 138550 }, { "epoch": 184.74666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002937688598873114, "loss": 0.3974, "step": 138560 }, { "epoch": 184.76, "grad_norm": 0.41796875, "learning_rate": 0.0002937679634801301, "loss": 0.4107, "step": 138570 }, { "epoch": 184.77333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029376706700984305, "loss": 0.3968, "step": 138580 }, { "epoch": 184.78666666666666, "grad_norm": 0.4140625, "learning_rate": 0.00029376617047645066, "loss": 0.3978, "step": 138590 }, { "epoch": 184.8, "grad_norm": 0.376953125, "learning_rate": 0.00029376527387995325, "loss": 0.3956, "step": 138600 }, { "epoch": 184.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002937643772203514, "loss": 0.3702, "step": 138610 }, { "epoch": 184.82666666666665, "grad_norm": 0.400390625, "learning_rate": 0.00029376348049764525, "loss": 0.3784, "step": 138620 }, { "epoch": 184.84, "grad_norm": 0.427734375, "learning_rate": 0.00029376258371183536, "loss": 0.3904, "step": 138630 }, { "epoch": 184.85333333333332, "grad_norm": 0.51171875, "learning_rate": 0.0002937616868629221, "loss": 0.3858, "step": 138640 }, { "epoch": 184.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029376078995090586, "loss": 0.3916, "step": 138650 }, { "epoch": 184.88, "grad_norm": 0.388671875, "learning_rate": 0.00029375989297578695, "loss": 0.3719, "step": 138660 }, { "epoch": 184.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.00029375899593756595, "loss": 0.383, "step": 138670 }, { "epoch": 184.90666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029375809883624304, "loss": 0.389, "step": 138680 }, { "epoch": 184.92, "grad_norm": 0.42578125, "learning_rate": 0.00029375720167181874, "loss": 0.3921, "step": 138690 }, { "epoch": 184.93333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002937563044442934, "loss": 0.3846, "step": 138700 }, { "epoch": 184.94666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002937554071536674, "loss": 0.3868, "step": 138710 }, { "epoch": 184.96, "grad_norm": 0.361328125, "learning_rate": 0.00029375450979994127, "loss": 0.3849, "step": 138720 }, { "epoch": 184.97333333333333, "grad_norm": 0.53125, "learning_rate": 0.0002937536123831152, "loss": 0.4101, "step": 138730 }, { "epoch": 184.98666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029375271490318975, "loss": 0.3821, "step": 138740 }, { "epoch": 185.0, "grad_norm": 0.388671875, "learning_rate": 0.00029375181736016515, "loss": 0.378, "step": 138750 }, { "epoch": 185.0, "eval_loss": 0.42469078302383423, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.3601, "eval_samples_per_second": 1.544, "eval_steps_per_second": 0.097, "step": 138750 }, { "epoch": 185.01333333333332, "grad_norm": 0.44921875, "learning_rate": 0.000293750919754042, "loss": 0.3949, "step": 138760 }, { "epoch": 185.02666666666667, "grad_norm": 0.375, "learning_rate": 0.00029375002208482053, "loss": 0.4088, "step": 138770 }, { "epoch": 185.04, "grad_norm": 0.353515625, "learning_rate": 0.00029374912435250117, "loss": 0.4218, "step": 138780 }, { "epoch": 185.05333333333334, "grad_norm": 0.41796875, "learning_rate": 0.0002937482265570843, "loss": 0.4075, "step": 138790 }, { "epoch": 185.06666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002937473286985704, "loss": 0.3945, "step": 138800 }, { "epoch": 185.08, "grad_norm": 0.41015625, "learning_rate": 0.0002937464307769598, "loss": 0.3982, "step": 138810 }, { "epoch": 185.09333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002937455327922529, "loss": 0.3992, "step": 138820 }, { "epoch": 185.10666666666665, "grad_norm": 0.37109375, "learning_rate": 0.0002937446347444501, "loss": 0.3878, "step": 138830 }, { "epoch": 185.12, "grad_norm": 0.41796875, "learning_rate": 0.0002937437366335518, "loss": 0.3911, "step": 138840 }, { "epoch": 185.13333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029374283845955834, "loss": 0.3825, "step": 138850 }, { "epoch": 185.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029374194022247017, "loss": 0.4023, "step": 138860 }, { "epoch": 185.16, "grad_norm": 0.37890625, "learning_rate": 0.0002937410419222877, "loss": 0.3961, "step": 138870 }, { "epoch": 185.17333333333335, "grad_norm": 0.416015625, "learning_rate": 0.00029374014355901127, "loss": 0.3904, "step": 138880 }, { "epoch": 185.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029373924513264135, "loss": 0.3895, "step": 138890 }, { "epoch": 185.2, "grad_norm": 0.41796875, "learning_rate": 0.00029373834664317823, "loss": 0.3818, "step": 138900 }, { "epoch": 185.21333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002937374480906224, "loss": 0.3828, "step": 138910 }, { "epoch": 185.22666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002937365494749742, "loss": 0.3938, "step": 138920 }, { "epoch": 185.24, "grad_norm": 0.431640625, "learning_rate": 0.00029373565079623406, "loss": 0.3789, "step": 138930 }, { "epoch": 185.25333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029373475205440235, "loss": 0.3812, "step": 138940 }, { "epoch": 185.26666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029373385324947944, "loss": 0.3836, "step": 138950 }, { "epoch": 185.28, "grad_norm": 0.498046875, "learning_rate": 0.0002937329543814658, "loss": 0.4138, "step": 138960 }, { "epoch": 185.29333333333332, "grad_norm": 0.53515625, "learning_rate": 0.0002937320554503617, "loss": 0.3704, "step": 138970 }, { "epoch": 185.30666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029373115645616767, "loss": 0.3932, "step": 138980 }, { "epoch": 185.32, "grad_norm": 0.36328125, "learning_rate": 0.0002937302573988841, "loss": 0.3958, "step": 138990 }, { "epoch": 185.33333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029372935827851125, "loss": 0.3984, "step": 139000 }, { "epoch": 185.34666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002937284590950496, "loss": 0.3892, "step": 139010 }, { "epoch": 185.36, "grad_norm": 0.46875, "learning_rate": 0.00029372755984849957, "loss": 0.3893, "step": 139020 }, { "epoch": 185.37333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0002937266605388615, "loss": 0.3911, "step": 139030 }, { "epoch": 185.38666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002937257611661358, "loss": 0.3825, "step": 139040 }, { "epoch": 185.4, "grad_norm": 0.375, "learning_rate": 0.00029372486173032293, "loss": 0.3905, "step": 139050 }, { "epoch": 185.41333333333333, "grad_norm": 0.37890625, "learning_rate": 0.0002937239622314232, "loss": 0.3945, "step": 139060 }, { "epoch": 185.42666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029372306266943704, "loss": 0.3956, "step": 139070 }, { "epoch": 185.44, "grad_norm": 0.427734375, "learning_rate": 0.0002937221630443648, "loss": 0.4076, "step": 139080 }, { "epoch": 185.45333333333335, "grad_norm": 0.48828125, "learning_rate": 0.000293721263356207, "loss": 0.3965, "step": 139090 }, { "epoch": 185.46666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002937203636049639, "loss": 0.4049, "step": 139100 }, { "epoch": 185.48, "grad_norm": 0.439453125, "learning_rate": 0.0002937194637906359, "loss": 0.3877, "step": 139110 }, { "epoch": 185.49333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002937185639132235, "loss": 0.3983, "step": 139120 }, { "epoch": 185.50666666666666, "grad_norm": 0.4296875, "learning_rate": 0.00029371766397272704, "loss": 0.3973, "step": 139130 }, { "epoch": 185.52, "grad_norm": 0.365234375, "learning_rate": 0.00029371676396914686, "loss": 0.3877, "step": 139140 }, { "epoch": 185.53333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029371586390248346, "loss": 0.3909, "step": 139150 }, { "epoch": 185.54666666666665, "grad_norm": 0.435546875, "learning_rate": 0.0002937149637727371, "loss": 0.3923, "step": 139160 }, { "epoch": 185.56, "grad_norm": 0.353515625, "learning_rate": 0.0002937140635799083, "loss": 0.3862, "step": 139170 }, { "epoch": 185.57333333333332, "grad_norm": 0.470703125, "learning_rate": 0.00029371316332399747, "loss": 0.3904, "step": 139180 }, { "epoch": 185.58666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029371226300500483, "loss": 0.3794, "step": 139190 }, { "epoch": 185.6, "grad_norm": 0.384765625, "learning_rate": 0.00029371136262293097, "loss": 0.3801, "step": 139200 }, { "epoch": 185.61333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002937104621777762, "loss": 0.3713, "step": 139210 }, { "epoch": 185.62666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0002937095616695409, "loss": 0.3765, "step": 139220 }, { "epoch": 185.64, "grad_norm": 0.37890625, "learning_rate": 0.00029370866109822553, "loss": 0.3875, "step": 139230 }, { "epoch": 185.65333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002937077604638304, "loss": 0.3974, "step": 139240 }, { "epoch": 185.66666666666666, "grad_norm": 0.375, "learning_rate": 0.00029370685976635595, "loss": 0.3856, "step": 139250 }, { "epoch": 185.68, "grad_norm": 0.40234375, "learning_rate": 0.0002937059590058025, "loss": 0.3759, "step": 139260 }, { "epoch": 185.69333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0002937050581821706, "loss": 0.3861, "step": 139270 }, { "epoch": 185.70666666666668, "grad_norm": 0.4375, "learning_rate": 0.0002937041572954606, "loss": 0.3779, "step": 139280 }, { "epoch": 185.72, "grad_norm": 0.431640625, "learning_rate": 0.0002937032563456728, "loss": 0.4013, "step": 139290 }, { "epoch": 185.73333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002937023553328077, "loss": 0.3949, "step": 139300 }, { "epoch": 185.74666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002937014542568656, "loss": 0.3975, "step": 139310 }, { "epoch": 185.76, "grad_norm": 0.384765625, "learning_rate": 0.00029370055311784697, "loss": 0.4105, "step": 139320 }, { "epoch": 185.77333333333334, "grad_norm": 0.458984375, "learning_rate": 0.0002936996519157522, "loss": 0.3969, "step": 139330 }, { "epoch": 185.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002936987506505816, "loss": 0.3972, "step": 139340 }, { "epoch": 185.8, "grad_norm": 0.41796875, "learning_rate": 0.00029369784932233565, "loss": 0.3963, "step": 139350 }, { "epoch": 185.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.00029369694793101474, "loss": 0.3694, "step": 139360 }, { "epoch": 185.82666666666665, "grad_norm": 0.43359375, "learning_rate": 0.00029369604647661924, "loss": 0.379, "step": 139370 }, { "epoch": 185.84, "grad_norm": 0.44140625, "learning_rate": 0.00029369514495914957, "loss": 0.3901, "step": 139380 }, { "epoch": 185.85333333333332, "grad_norm": 0.478515625, "learning_rate": 0.00029369424337860617, "loss": 0.3856, "step": 139390 }, { "epoch": 185.86666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002936933417349893, "loss": 0.3905, "step": 139400 }, { "epoch": 185.88, "grad_norm": 0.390625, "learning_rate": 0.00029369244002829946, "loss": 0.3714, "step": 139410 }, { "epoch": 185.89333333333335, "grad_norm": 0.35546875, "learning_rate": 0.00029369153825853703, "loss": 0.3835, "step": 139420 }, { "epoch": 185.90666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002936906364257024, "loss": 0.3892, "step": 139430 }, { "epoch": 185.92, "grad_norm": 0.451171875, "learning_rate": 0.00029368973452979595, "loss": 0.3918, "step": 139440 }, { "epoch": 185.93333333333334, "grad_norm": 0.373046875, "learning_rate": 0.00029368883257081807, "loss": 0.3852, "step": 139450 }, { "epoch": 185.94666666666666, "grad_norm": 0.4140625, "learning_rate": 0.0002936879305487692, "loss": 0.3871, "step": 139460 }, { "epoch": 185.96, "grad_norm": 0.333984375, "learning_rate": 0.0002936870284636497, "loss": 0.3838, "step": 139470 }, { "epoch": 185.97333333333333, "grad_norm": 0.482421875, "learning_rate": 0.00029368612631546, "loss": 0.4102, "step": 139480 }, { "epoch": 185.98666666666668, "grad_norm": 0.451171875, "learning_rate": 0.0002936852241042005, "loss": 0.3821, "step": 139490 }, { "epoch": 186.0, "grad_norm": 0.39453125, "learning_rate": 0.0002936843218298715, "loss": 0.3779, "step": 139500 }, { "epoch": 186.0, "eval_loss": 0.4251280426979065, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.3099, "eval_samples_per_second": 1.552, "eval_steps_per_second": 0.097, "step": 139500 }, { "epoch": 186.01333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029368341949247346, "loss": 0.3952, "step": 139510 }, { "epoch": 186.02666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002936825170920068, "loss": 0.4093, "step": 139520 }, { "epoch": 186.04, "grad_norm": 0.3828125, "learning_rate": 0.00029368161462847193, "loss": 0.4217, "step": 139530 }, { "epoch": 186.05333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002936807121018692, "loss": 0.4081, "step": 139540 }, { "epoch": 186.06666666666666, "grad_norm": 0.447265625, "learning_rate": 0.000293679809512199, "loss": 0.3945, "step": 139550 }, { "epoch": 186.08, "grad_norm": 0.39453125, "learning_rate": 0.0002936789068594618, "loss": 0.3979, "step": 139560 }, { "epoch": 186.09333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029367800414365787, "loss": 0.3991, "step": 139570 }, { "epoch": 186.10666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002936771013647877, "loss": 0.3872, "step": 139580 }, { "epoch": 186.12, "grad_norm": 0.447265625, "learning_rate": 0.0002936761985228517, "loss": 0.3919, "step": 139590 }, { "epoch": 186.13333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029367529561785015, "loss": 0.384, "step": 139600 }, { "epoch": 186.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002936743926497836, "loss": 0.4016, "step": 139610 }, { "epoch": 186.16, "grad_norm": 0.345703125, "learning_rate": 0.00029367348961865236, "loss": 0.396, "step": 139620 }, { "epoch": 186.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.0002936725865244568, "loss": 0.3898, "step": 139630 }, { "epoch": 186.18666666666667, "grad_norm": 0.4140625, "learning_rate": 0.0002936716833671974, "loss": 0.3883, "step": 139640 }, { "epoch": 186.2, "grad_norm": 0.421875, "learning_rate": 0.0002936707801468745, "loss": 0.3811, "step": 139650 }, { "epoch": 186.21333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029366987686348854, "loss": 0.3824, "step": 139660 }, { "epoch": 186.22666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029366897351703984, "loss": 0.3938, "step": 139670 }, { "epoch": 186.24, "grad_norm": 0.423828125, "learning_rate": 0.00029366807010752885, "loss": 0.3798, "step": 139680 }, { "epoch": 186.25333333333333, "grad_norm": 0.44921875, "learning_rate": 0.00029366716663495595, "loss": 0.3811, "step": 139690 }, { "epoch": 186.26666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029366626309932156, "loss": 0.3835, "step": 139700 }, { "epoch": 186.28, "grad_norm": 0.416015625, "learning_rate": 0.0002936653595006261, "loss": 0.413, "step": 139710 }, { "epoch": 186.29333333333332, "grad_norm": 0.427734375, "learning_rate": 0.00029366445583886986, "loss": 0.3696, "step": 139720 }, { "epoch": 186.30666666666667, "grad_norm": 0.37109375, "learning_rate": 0.0002936635521140533, "loss": 0.3934, "step": 139730 }, { "epoch": 186.32, "grad_norm": 0.3671875, "learning_rate": 0.0002936626483261769, "loss": 0.3958, "step": 139740 }, { "epoch": 186.33333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002936617444752409, "loss": 0.3975, "step": 139750 }, { "epoch": 186.34666666666666, "grad_norm": 0.421875, "learning_rate": 0.00029366084056124583, "loss": 0.3888, "step": 139760 }, { "epoch": 186.36, "grad_norm": 0.44140625, "learning_rate": 0.000293659936584192, "loss": 0.3893, "step": 139770 }, { "epoch": 186.37333333333333, "grad_norm": 0.34375, "learning_rate": 0.0002936590325440799, "loss": 0.3907, "step": 139780 }, { "epoch": 186.38666666666666, "grad_norm": 0.5, "learning_rate": 0.0002936581284409098, "loss": 0.382, "step": 139790 }, { "epoch": 186.4, "grad_norm": 0.43359375, "learning_rate": 0.00029365722427468217, "loss": 0.3902, "step": 139800 }, { "epoch": 186.41333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029365632004539735, "loss": 0.3947, "step": 139810 }, { "epoch": 186.42666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002936554157530559, "loss": 0.3961, "step": 139820 }, { "epoch": 186.44, "grad_norm": 0.419921875, "learning_rate": 0.00029365451139765796, "loss": 0.4075, "step": 139830 }, { "epoch": 186.45333333333335, "grad_norm": 0.47265625, "learning_rate": 0.0002936536069792042, "loss": 0.3962, "step": 139840 }, { "epoch": 186.46666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002936527024976948, "loss": 0.4045, "step": 139850 }, { "epoch": 186.48, "grad_norm": 0.40625, "learning_rate": 0.0002936517979531303, "loss": 0.3869, "step": 139860 }, { "epoch": 186.49333333333334, "grad_norm": 0.400390625, "learning_rate": 0.000293650893345511, "loss": 0.3988, "step": 139870 }, { "epoch": 186.50666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002936499886748374, "loss": 0.3975, "step": 139880 }, { "epoch": 186.52, "grad_norm": 0.3515625, "learning_rate": 0.0002936490839411098, "loss": 0.3878, "step": 139890 }, { "epoch": 186.53333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029364817914432864, "loss": 0.3901, "step": 139900 }, { "epoch": 186.54666666666665, "grad_norm": 0.48046875, "learning_rate": 0.00029364727428449433, "loss": 0.393, "step": 139910 }, { "epoch": 186.56, "grad_norm": 0.40234375, "learning_rate": 0.00029364636936160716, "loss": 0.386, "step": 139920 }, { "epoch": 186.57333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002936454643756677, "loss": 0.3901, "step": 139930 }, { "epoch": 186.58666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002936445593266762, "loss": 0.3794, "step": 139940 }, { "epoch": 186.6, "grad_norm": 0.373046875, "learning_rate": 0.00029364365421463316, "loss": 0.3807, "step": 139950 }, { "epoch": 186.61333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029364274903953894, "loss": 0.3707, "step": 139960 }, { "epoch": 186.62666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0002936418438013939, "loss": 0.3761, "step": 139970 }, { "epoch": 186.64, "grad_norm": 0.41796875, "learning_rate": 0.0002936409385001985, "loss": 0.3879, "step": 139980 }, { "epoch": 186.65333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029364003313595303, "loss": 0.3968, "step": 139990 }, { "epoch": 186.66666666666666, "grad_norm": 0.35546875, "learning_rate": 0.00029363912770865805, "loss": 0.3842, "step": 140000 }, { "epoch": 186.68, "grad_norm": 0.388671875, "learning_rate": 0.0002936382222183139, "loss": 0.3768, "step": 140010 }, { "epoch": 186.69333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029363731666492087, "loss": 0.386, "step": 140020 }, { "epoch": 186.70666666666668, "grad_norm": 0.42578125, "learning_rate": 0.0002936364110484795, "loss": 0.3777, "step": 140030 }, { "epoch": 186.72, "grad_norm": 0.40234375, "learning_rate": 0.0002936355053689901, "loss": 0.4004, "step": 140040 }, { "epoch": 186.73333333333332, "grad_norm": 0.416015625, "learning_rate": 0.00029363459962645307, "loss": 0.3946, "step": 140050 }, { "epoch": 186.74666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002936336938208688, "loss": 0.3966, "step": 140060 }, { "epoch": 186.76, "grad_norm": 0.40234375, "learning_rate": 0.0002936327879522378, "loss": 0.4107, "step": 140070 }, { "epoch": 186.77333333333334, "grad_norm": 0.470703125, "learning_rate": 0.00029363188202056036, "loss": 0.3958, "step": 140080 }, { "epoch": 186.78666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002936309760258369, "loss": 0.3989, "step": 140090 }, { "epoch": 186.8, "grad_norm": 0.419921875, "learning_rate": 0.00029363006996806776, "loss": 0.3961, "step": 140100 }, { "epoch": 186.81333333333333, "grad_norm": 0.484375, "learning_rate": 0.0002936291638472534, "loss": 0.3687, "step": 140110 }, { "epoch": 186.82666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002936282576633943, "loss": 0.3785, "step": 140120 }, { "epoch": 186.84, "grad_norm": 0.423828125, "learning_rate": 0.00029362735141649077, "loss": 0.3908, "step": 140130 }, { "epoch": 186.85333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029362644510654316, "loss": 0.3855, "step": 140140 }, { "epoch": 186.86666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029362553873355196, "loss": 0.3915, "step": 140150 }, { "epoch": 186.88, "grad_norm": 0.380859375, "learning_rate": 0.0002936246322975175, "loss": 0.372, "step": 140160 }, { "epoch": 186.89333333333335, "grad_norm": 0.41796875, "learning_rate": 0.0002936237257984402, "loss": 0.3836, "step": 140170 }, { "epoch": 186.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002936228192363205, "loss": 0.3903, "step": 140180 }, { "epoch": 186.92, "grad_norm": 0.421875, "learning_rate": 0.0002936219126111587, "loss": 0.3919, "step": 140190 }, { "epoch": 186.93333333333334, "grad_norm": 0.34375, "learning_rate": 0.00029362100592295525, "loss": 0.3856, "step": 140200 }, { "epoch": 186.94666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029362009917171064, "loss": 0.3868, "step": 140210 }, { "epoch": 186.96, "grad_norm": 0.328125, "learning_rate": 0.00029361919235742514, "loss": 0.3838, "step": 140220 }, { "epoch": 186.97333333333333, "grad_norm": 0.56640625, "learning_rate": 0.00029361828548009924, "loss": 0.409, "step": 140230 }, { "epoch": 186.98666666666668, "grad_norm": 0.466796875, "learning_rate": 0.00029361737853973323, "loss": 0.3805, "step": 140240 }, { "epoch": 187.0, "grad_norm": 0.375, "learning_rate": 0.0002936164715363276, "loss": 0.379, "step": 140250 }, { "epoch": 187.0, "eval_loss": 0.42645925283432007, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5597, "eval_samples_per_second": 1.674, "eval_steps_per_second": 0.105, "step": 140250 }, { "epoch": 187.01333333333332, "grad_norm": 0.4375, "learning_rate": 0.0002936155644698827, "loss": 0.395, "step": 140260 }, { "epoch": 187.02666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029361465734039895, "loss": 0.4091, "step": 140270 }, { "epoch": 187.04, "grad_norm": 0.349609375, "learning_rate": 0.0002936137501478767, "loss": 0.4222, "step": 140280 }, { "epoch": 187.05333333333334, "grad_norm": 0.35546875, "learning_rate": 0.00029361284289231644, "loss": 0.4071, "step": 140290 }, { "epoch": 187.06666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029361193557371853, "loss": 0.3945, "step": 140300 }, { "epoch": 187.08, "grad_norm": 0.400390625, "learning_rate": 0.00029361102819208337, "loss": 0.3968, "step": 140310 }, { "epoch": 187.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002936101207474113, "loss": 0.3988, "step": 140320 }, { "epoch": 187.10666666666665, "grad_norm": 0.353515625, "learning_rate": 0.00029360921323970276, "loss": 0.3868, "step": 140330 }, { "epoch": 187.12, "grad_norm": 0.421875, "learning_rate": 0.0002936083056689582, "loss": 0.3918, "step": 140340 }, { "epoch": 187.13333333333333, "grad_norm": 0.359375, "learning_rate": 0.00029360739803517793, "loss": 0.3825, "step": 140350 }, { "epoch": 187.14666666666668, "grad_norm": 0.3828125, "learning_rate": 0.00029360649033836244, "loss": 0.4024, "step": 140360 }, { "epoch": 187.16, "grad_norm": 0.36328125, "learning_rate": 0.000293605582578512, "loss": 0.396, "step": 140370 }, { "epoch": 187.17333333333335, "grad_norm": 0.404296875, "learning_rate": 0.0002936046747556271, "loss": 0.3906, "step": 140380 }, { "epoch": 187.18666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002936037668697082, "loss": 0.3886, "step": 140390 }, { "epoch": 187.2, "grad_norm": 0.435546875, "learning_rate": 0.0002936028589207556, "loss": 0.3813, "step": 140400 }, { "epoch": 187.21333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0002936019509087697, "loss": 0.3833, "step": 140410 }, { "epoch": 187.22666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002936010428337509, "loss": 0.3941, "step": 140420 }, { "epoch": 187.24, "grad_norm": 0.44140625, "learning_rate": 0.00029360013469569967, "loss": 0.3785, "step": 140430 }, { "epoch": 187.25333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002935992264946163, "loss": 0.3809, "step": 140440 }, { "epoch": 187.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.0002935983182305013, "loss": 0.383, "step": 140450 }, { "epoch": 187.28, "grad_norm": 0.404296875, "learning_rate": 0.000293597409903355, "loss": 0.4135, "step": 140460 }, { "epoch": 187.29333333333332, "grad_norm": 0.380859375, "learning_rate": 0.0002935965015131778, "loss": 0.3689, "step": 140470 }, { "epoch": 187.30666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002935955930599701, "loss": 0.393, "step": 140480 }, { "epoch": 187.32, "grad_norm": 0.380859375, "learning_rate": 0.00029359468454373235, "loss": 0.3952, "step": 140490 }, { "epoch": 187.33333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002935937759644649, "loss": 0.3987, "step": 140500 }, { "epoch": 187.34666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002935928673221682, "loss": 0.3889, "step": 140510 }, { "epoch": 187.36, "grad_norm": 0.494140625, "learning_rate": 0.00029359195861684254, "loss": 0.3892, "step": 140520 }, { "epoch": 187.37333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0002935910498484884, "loss": 0.3912, "step": 140530 }, { "epoch": 187.38666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002935901410171061, "loss": 0.3819, "step": 140540 }, { "epoch": 187.4, "grad_norm": 0.435546875, "learning_rate": 0.00029358923212269625, "loss": 0.3898, "step": 140550 }, { "epoch": 187.41333333333333, "grad_norm": 0.375, "learning_rate": 0.00029358832316525905, "loss": 0.3955, "step": 140560 }, { "epoch": 187.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.0002935874141447949, "loss": 0.3957, "step": 140570 }, { "epoch": 187.44, "grad_norm": 0.40234375, "learning_rate": 0.0002935865050613043, "loss": 0.4081, "step": 140580 }, { "epoch": 187.45333333333335, "grad_norm": 0.4296875, "learning_rate": 0.0002935855959147876, "loss": 0.3959, "step": 140590 }, { "epoch": 187.46666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002935846867052452, "loss": 0.405, "step": 140600 }, { "epoch": 187.48, "grad_norm": 0.40625, "learning_rate": 0.0002935837774326774, "loss": 0.3876, "step": 140610 }, { "epoch": 187.49333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029358286809708485, "loss": 0.3983, "step": 140620 }, { "epoch": 187.50666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002935819586984677, "loss": 0.3964, "step": 140630 }, { "epoch": 187.52, "grad_norm": 0.40625, "learning_rate": 0.0002935810492368265, "loss": 0.3878, "step": 140640 }, { "epoch": 187.53333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029358013971216154, "loss": 0.39, "step": 140650 }, { "epoch": 187.54666666666665, "grad_norm": 0.453125, "learning_rate": 0.00029357923012447327, "loss": 0.3919, "step": 140660 }, { "epoch": 187.56, "grad_norm": 0.388671875, "learning_rate": 0.0002935783204737622, "loss": 0.3863, "step": 140670 }, { "epoch": 187.57333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029357741076002853, "loss": 0.3901, "step": 140680 }, { "epoch": 187.58666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002935765009832728, "loss": 0.3792, "step": 140690 }, { "epoch": 187.6, "grad_norm": 0.439453125, "learning_rate": 0.0002935755911434953, "loss": 0.3811, "step": 140700 }, { "epoch": 187.61333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002935746812406965, "loss": 0.3711, "step": 140710 }, { "epoch": 187.62666666666667, "grad_norm": 0.392578125, "learning_rate": 0.00029357377127487685, "loss": 0.3765, "step": 140720 }, { "epoch": 187.64, "grad_norm": 0.4140625, "learning_rate": 0.00029357286124603665, "loss": 0.3888, "step": 140730 }, { "epoch": 187.65333333333334, "grad_norm": 0.447265625, "learning_rate": 0.0002935719511541763, "loss": 0.3965, "step": 140740 }, { "epoch": 187.66666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002935710409992963, "loss": 0.385, "step": 140750 }, { "epoch": 187.68, "grad_norm": 0.439453125, "learning_rate": 0.000293570130781397, "loss": 0.377, "step": 140760 }, { "epoch": 187.69333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029356922050047875, "loss": 0.3861, "step": 140770 }, { "epoch": 187.70666666666668, "grad_norm": 0.421875, "learning_rate": 0.000293568310156542, "loss": 0.3782, "step": 140780 }, { "epoch": 187.72, "grad_norm": 0.4453125, "learning_rate": 0.00029356739974958717, "loss": 0.4003, "step": 140790 }, { "epoch": 187.73333333333332, "grad_norm": 0.44140625, "learning_rate": 0.0002935664892796146, "loss": 0.3948, "step": 140800 }, { "epoch": 187.74666666666667, "grad_norm": 0.431640625, "learning_rate": 0.00029356557874662465, "loss": 0.3977, "step": 140810 }, { "epoch": 187.76, "grad_norm": 0.4453125, "learning_rate": 0.00029356466815061785, "loss": 0.4107, "step": 140820 }, { "epoch": 187.77333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029356375749159456, "loss": 0.3959, "step": 140830 }, { "epoch": 187.78666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002935628467695551, "loss": 0.3973, "step": 140840 }, { "epoch": 187.8, "grad_norm": 0.390625, "learning_rate": 0.0002935619359845, "loss": 0.3961, "step": 140850 }, { "epoch": 187.81333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002935610251364295, "loss": 0.3693, "step": 140860 }, { "epoch": 187.82666666666665, "grad_norm": 0.4140625, "learning_rate": 0.00029356011422534414, "loss": 0.379, "step": 140870 }, { "epoch": 187.84, "grad_norm": 0.47265625, "learning_rate": 0.00029355920325124427, "loss": 0.3901, "step": 140880 }, { "epoch": 187.85333333333332, "grad_norm": 0.447265625, "learning_rate": 0.00029355829221413025, "loss": 0.3855, "step": 140890 }, { "epoch": 187.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029355738111400256, "loss": 0.3909, "step": 140900 }, { "epoch": 187.88, "grad_norm": 0.345703125, "learning_rate": 0.0002935564699508615, "loss": 0.3716, "step": 140910 }, { "epoch": 187.89333333333335, "grad_norm": 0.421875, "learning_rate": 0.00029355555872470754, "loss": 0.3838, "step": 140920 }, { "epoch": 187.90666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029355464743554107, "loss": 0.3901, "step": 140930 }, { "epoch": 187.92, "grad_norm": 0.46875, "learning_rate": 0.0002935537360833625, "loss": 0.3915, "step": 140940 }, { "epoch": 187.93333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029355282466817217, "loss": 0.3857, "step": 140950 }, { "epoch": 187.94666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029355191318997055, "loss": 0.3865, "step": 140960 }, { "epoch": 187.96, "grad_norm": 0.3984375, "learning_rate": 0.00029355100164875803, "loss": 0.3843, "step": 140970 }, { "epoch": 187.97333333333333, "grad_norm": 0.443359375, "learning_rate": 0.000293550090044535, "loss": 0.4097, "step": 140980 }, { "epoch": 187.98666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002935491783773018, "loss": 0.3811, "step": 140990 }, { "epoch": 188.0, "grad_norm": 0.412109375, "learning_rate": 0.00029354826664705895, "loss": 0.3784, "step": 141000 }, { "epoch": 188.0, "eval_loss": 0.4262850880622864, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5703, "eval_samples_per_second": 1.672, "eval_steps_per_second": 0.104, "step": 141000 }, { "epoch": 188.01333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002935473548538067, "loss": 0.3954, "step": 141010 }, { "epoch": 188.02666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029354644299754565, "loss": 0.4094, "step": 141020 }, { "epoch": 188.04, "grad_norm": 0.376953125, "learning_rate": 0.000293545531078276, "loss": 0.4214, "step": 141030 }, { "epoch": 188.05333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002935446190959983, "loss": 0.4076, "step": 141040 }, { "epoch": 188.06666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002935437070507128, "loss": 0.3948, "step": 141050 }, { "epoch": 188.08, "grad_norm": 0.4375, "learning_rate": 0.00029354279494242004, "loss": 0.3975, "step": 141060 }, { "epoch": 188.09333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029354188277112034, "loss": 0.3992, "step": 141070 }, { "epoch": 188.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.0002935409705368142, "loss": 0.3867, "step": 141080 }, { "epoch": 188.12, "grad_norm": 0.466796875, "learning_rate": 0.0002935400582395019, "loss": 0.3917, "step": 141090 }, { "epoch": 188.13333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002935391458791839, "loss": 0.3838, "step": 141100 }, { "epoch": 188.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002935382334558605, "loss": 0.4022, "step": 141110 }, { "epoch": 188.16, "grad_norm": 0.359375, "learning_rate": 0.0002935373209695323, "loss": 0.3957, "step": 141120 }, { "epoch": 188.17333333333335, "grad_norm": 0.396484375, "learning_rate": 0.0002935364084201996, "loss": 0.3902, "step": 141130 }, { "epoch": 188.18666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002935354958078627, "loss": 0.3881, "step": 141140 }, { "epoch": 188.2, "grad_norm": 0.447265625, "learning_rate": 0.0002935345831325221, "loss": 0.3813, "step": 141150 }, { "epoch": 188.21333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002935336703941782, "loss": 0.3828, "step": 141160 }, { "epoch": 188.22666666666666, "grad_norm": 0.40234375, "learning_rate": 0.00029353275759283145, "loss": 0.394, "step": 141170 }, { "epoch": 188.24, "grad_norm": 0.41796875, "learning_rate": 0.0002935318447284822, "loss": 0.3791, "step": 141180 }, { "epoch": 188.25333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002935309318011308, "loss": 0.3803, "step": 141190 }, { "epoch": 188.26666666666668, "grad_norm": 0.3671875, "learning_rate": 0.0002935300188107777, "loss": 0.3836, "step": 141200 }, { "epoch": 188.28, "grad_norm": 0.421875, "learning_rate": 0.0002935291057574233, "loss": 0.4132, "step": 141210 }, { "epoch": 188.29333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029352819264106796, "loss": 0.3697, "step": 141220 }, { "epoch": 188.30666666666667, "grad_norm": 0.41015625, "learning_rate": 0.0002935272794617121, "loss": 0.3928, "step": 141230 }, { "epoch": 188.32, "grad_norm": 0.396484375, "learning_rate": 0.0002935263662193562, "loss": 0.3959, "step": 141240 }, { "epoch": 188.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029352545291400057, "loss": 0.3978, "step": 141250 }, { "epoch": 188.34666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029352453954564566, "loss": 0.3884, "step": 141260 }, { "epoch": 188.36, "grad_norm": 0.47265625, "learning_rate": 0.00029352362611429183, "loss": 0.3885, "step": 141270 }, { "epoch": 188.37333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002935227126199395, "loss": 0.3911, "step": 141280 }, { "epoch": 188.38666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002935217990625891, "loss": 0.3828, "step": 141290 }, { "epoch": 188.4, "grad_norm": 0.400390625, "learning_rate": 0.000293520885442241, "loss": 0.3895, "step": 141300 }, { "epoch": 188.41333333333333, "grad_norm": 0.392578125, "learning_rate": 0.0002935199717588956, "loss": 0.3945, "step": 141310 }, { "epoch": 188.42666666666668, "grad_norm": 0.400390625, "learning_rate": 0.00029351905801255326, "loss": 0.397, "step": 141320 }, { "epoch": 188.44, "grad_norm": 0.41796875, "learning_rate": 0.00029351814420321446, "loss": 0.4075, "step": 141330 }, { "epoch": 188.45333333333335, "grad_norm": 0.5, "learning_rate": 0.00029351723033087956, "loss": 0.396, "step": 141340 }, { "epoch": 188.46666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029351631639554893, "loss": 0.4053, "step": 141350 }, { "epoch": 188.48, "grad_norm": 0.40234375, "learning_rate": 0.00029351540239722307, "loss": 0.3874, "step": 141360 }, { "epoch": 188.49333333333334, "grad_norm": 0.373046875, "learning_rate": 0.0002935144883359023, "loss": 0.3975, "step": 141370 }, { "epoch": 188.50666666666666, "grad_norm": 0.404296875, "learning_rate": 0.00029351357421158704, "loss": 0.3977, "step": 141380 }, { "epoch": 188.52, "grad_norm": 0.34375, "learning_rate": 0.00029351266002427775, "loss": 0.3877, "step": 141390 }, { "epoch": 188.53333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002935117457739747, "loss": 0.3902, "step": 141400 }, { "epoch": 188.54666666666665, "grad_norm": 0.427734375, "learning_rate": 0.0002935108314606784, "loss": 0.3917, "step": 141410 }, { "epoch": 188.56, "grad_norm": 0.35546875, "learning_rate": 0.0002935099170843892, "loss": 0.3857, "step": 141420 }, { "epoch": 188.57333333333332, "grad_norm": 0.455078125, "learning_rate": 0.0002935090026451075, "loss": 0.389, "step": 141430 }, { "epoch": 188.58666666666667, "grad_norm": 0.37109375, "learning_rate": 0.00029350808814283374, "loss": 0.3789, "step": 141440 }, { "epoch": 188.6, "grad_norm": 0.384765625, "learning_rate": 0.0002935071735775683, "loss": 0.3805, "step": 141450 }, { "epoch": 188.61333333333334, "grad_norm": 0.33203125, "learning_rate": 0.0002935062589493116, "loss": 0.3713, "step": 141460 }, { "epoch": 188.62666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029350534425806395, "loss": 0.376, "step": 141470 }, { "epoch": 188.64, "grad_norm": 0.375, "learning_rate": 0.00029350442950382594, "loss": 0.3879, "step": 141480 }, { "epoch": 188.65333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002935035146865978, "loss": 0.3975, "step": 141490 }, { "epoch": 188.66666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029350259980638, "loss": 0.3841, "step": 141500 }, { "epoch": 188.68, "grad_norm": 0.41015625, "learning_rate": 0.0002935016848631729, "loss": 0.3763, "step": 141510 }, { "epoch": 188.69333333333333, "grad_norm": 0.37890625, "learning_rate": 0.000293500769856977, "loss": 0.3859, "step": 141520 }, { "epoch": 188.70666666666668, "grad_norm": 0.431640625, "learning_rate": 0.00029349985478779254, "loss": 0.3784, "step": 141530 }, { "epoch": 188.72, "grad_norm": 0.435546875, "learning_rate": 0.0002934989396556201, "loss": 0.4011, "step": 141540 }, { "epoch": 188.73333333333332, "grad_norm": 0.443359375, "learning_rate": 0.0002934980244604599, "loss": 0.3947, "step": 141550 }, { "epoch": 188.74666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029349710920231254, "loss": 0.3979, "step": 141560 }, { "epoch": 188.76, "grad_norm": 0.416015625, "learning_rate": 0.0002934961938811782, "loss": 0.4099, "step": 141570 }, { "epoch": 188.77333333333334, "grad_norm": 0.46484375, "learning_rate": 0.00029349527849705756, "loss": 0.3964, "step": 141580 }, { "epoch": 188.78666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029349436304995077, "loss": 0.3978, "step": 141590 }, { "epoch": 188.8, "grad_norm": 0.396484375, "learning_rate": 0.0002934934475398583, "loss": 0.3951, "step": 141600 }, { "epoch": 188.81333333333333, "grad_norm": 0.486328125, "learning_rate": 0.0002934925319667806, "loss": 0.3691, "step": 141610 }, { "epoch": 188.82666666666665, "grad_norm": 0.423828125, "learning_rate": 0.00029349161633071807, "loss": 0.3781, "step": 141620 }, { "epoch": 188.84, "grad_norm": 0.443359375, "learning_rate": 0.0002934907006316711, "loss": 0.3918, "step": 141630 }, { "epoch": 188.85333333333332, "grad_norm": 0.423828125, "learning_rate": 0.00029348978486964006, "loss": 0.3867, "step": 141640 }, { "epoch": 188.86666666666667, "grad_norm": 0.435546875, "learning_rate": 0.0002934888690446254, "loss": 0.391, "step": 141650 }, { "epoch": 188.88, "grad_norm": 0.365234375, "learning_rate": 0.00029348795315662746, "loss": 0.372, "step": 141660 }, { "epoch": 188.89333333333335, "grad_norm": 0.39453125, "learning_rate": 0.0002934870372056467, "loss": 0.384, "step": 141670 }, { "epoch": 188.90666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002934861211916835, "loss": 0.3899, "step": 141680 }, { "epoch": 188.92, "grad_norm": 0.4296875, "learning_rate": 0.00029348520511473825, "loss": 0.3909, "step": 141690 }, { "epoch": 188.93333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002934842889748114, "loss": 0.3852, "step": 141700 }, { "epoch": 188.94666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002934833727719033, "loss": 0.3866, "step": 141710 }, { "epoch": 188.96, "grad_norm": 0.35546875, "learning_rate": 0.0002934824565060144, "loss": 0.3847, "step": 141720 }, { "epoch": 188.97333333333333, "grad_norm": 0.50390625, "learning_rate": 0.000293481540177145, "loss": 0.4085, "step": 141730 }, { "epoch": 188.98666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002934806237852956, "loss": 0.3815, "step": 141740 }, { "epoch": 189.0, "grad_norm": 0.40234375, "learning_rate": 0.00029347970733046663, "loss": 0.3777, "step": 141750 }, { "epoch": 189.0, "eval_loss": 0.4256782531738281, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.672, "eval_samples_per_second": 1.654, "eval_steps_per_second": 0.103, "step": 141750 }, { "epoch": 189.01333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029347879081265837, "loss": 0.3954, "step": 141760 }, { "epoch": 189.02666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002934778742318713, "loss": 0.4095, "step": 141770 }, { "epoch": 189.04, "grad_norm": 0.375, "learning_rate": 0.00029347695758810585, "loss": 0.4222, "step": 141780 }, { "epoch": 189.05333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029347604088136235, "loss": 0.4072, "step": 141790 }, { "epoch": 189.06666666666666, "grad_norm": 0.42578125, "learning_rate": 0.0002934751241116413, "loss": 0.3949, "step": 141800 }, { "epoch": 189.08, "grad_norm": 0.45703125, "learning_rate": 0.000293474207278943, "loss": 0.3976, "step": 141810 }, { "epoch": 189.09333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002934732903832678, "loss": 0.3988, "step": 141820 }, { "epoch": 189.10666666666665, "grad_norm": 0.35546875, "learning_rate": 0.00029347237342461634, "loss": 0.3876, "step": 141830 }, { "epoch": 189.12, "grad_norm": 0.37109375, "learning_rate": 0.0002934714564029888, "loss": 0.3914, "step": 141840 }, { "epoch": 189.13333333333333, "grad_norm": 0.375, "learning_rate": 0.00029347053931838573, "loss": 0.3826, "step": 141850 }, { "epoch": 189.14666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029346962217080737, "loss": 0.4016, "step": 141860 }, { "epoch": 189.16, "grad_norm": 0.388671875, "learning_rate": 0.00029346870496025425, "loss": 0.396, "step": 141870 }, { "epoch": 189.17333333333335, "grad_norm": 0.458984375, "learning_rate": 0.00029346778768672677, "loss": 0.3892, "step": 141880 }, { "epoch": 189.18666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002934668703502253, "loss": 0.3883, "step": 141890 }, { "epoch": 189.2, "grad_norm": 0.462890625, "learning_rate": 0.0002934659529507502, "loss": 0.3818, "step": 141900 }, { "epoch": 189.21333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029346503548830194, "loss": 0.3819, "step": 141910 }, { "epoch": 189.22666666666666, "grad_norm": 0.451171875, "learning_rate": 0.0002934641179628809, "loss": 0.3941, "step": 141920 }, { "epoch": 189.24, "grad_norm": 0.423828125, "learning_rate": 0.00029346320037448745, "loss": 0.3783, "step": 141930 }, { "epoch": 189.25333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029346228272312207, "loss": 0.3806, "step": 141940 }, { "epoch": 189.26666666666668, "grad_norm": 0.45703125, "learning_rate": 0.0002934613650087851, "loss": 0.3832, "step": 141950 }, { "epoch": 189.28, "grad_norm": 0.380859375, "learning_rate": 0.00029346044723147695, "loss": 0.4127, "step": 141960 }, { "epoch": 189.29333333333332, "grad_norm": 0.466796875, "learning_rate": 0.000293459529391198, "loss": 0.3703, "step": 141970 }, { "epoch": 189.30666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029345861148794873, "loss": 0.3931, "step": 141980 }, { "epoch": 189.32, "grad_norm": 0.38671875, "learning_rate": 0.0002934576935217295, "loss": 0.3959, "step": 141990 }, { "epoch": 189.33333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002934567754925407, "loss": 0.3979, "step": 142000 }, { "epoch": 189.34666666666666, "grad_norm": 0.439453125, "learning_rate": 0.00029345585740038276, "loss": 0.3886, "step": 142010 }, { "epoch": 189.36, "grad_norm": 0.41796875, "learning_rate": 0.0002934549392452561, "loss": 0.3885, "step": 142020 }, { "epoch": 189.37333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029345402102716104, "loss": 0.3911, "step": 142030 }, { "epoch": 189.38666666666666, "grad_norm": 0.5078125, "learning_rate": 0.00029345310274609803, "loss": 0.3819, "step": 142040 }, { "epoch": 189.4, "grad_norm": 0.408203125, "learning_rate": 0.0002934521844020675, "loss": 0.3909, "step": 142050 }, { "epoch": 189.41333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002934512659950698, "loss": 0.3946, "step": 142060 }, { "epoch": 189.42666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002934503475251054, "loss": 0.3954, "step": 142070 }, { "epoch": 189.44, "grad_norm": 0.412109375, "learning_rate": 0.0002934494289921746, "loss": 0.4071, "step": 142080 }, { "epoch": 189.45333333333335, "grad_norm": 0.45703125, "learning_rate": 0.00029344851039627795, "loss": 0.3967, "step": 142090 }, { "epoch": 189.46666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029344759173741575, "loss": 0.4047, "step": 142100 }, { "epoch": 189.48, "grad_norm": 0.412109375, "learning_rate": 0.0002934466730155884, "loss": 0.386, "step": 142110 }, { "epoch": 189.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029344575423079634, "loss": 0.3981, "step": 142120 }, { "epoch": 189.50666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029344483538303994, "loss": 0.396, "step": 142130 }, { "epoch": 189.52, "grad_norm": 0.37109375, "learning_rate": 0.0002934439164723197, "loss": 0.3868, "step": 142140 }, { "epoch": 189.53333333333333, "grad_norm": 0.451171875, "learning_rate": 0.00029344299749863587, "loss": 0.39, "step": 142150 }, { "epoch": 189.54666666666665, "grad_norm": 0.431640625, "learning_rate": 0.00029344207846198895, "loss": 0.3918, "step": 142160 }, { "epoch": 189.56, "grad_norm": 0.353515625, "learning_rate": 0.00029344115936237933, "loss": 0.387, "step": 142170 }, { "epoch": 189.57333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029344024019980743, "loss": 0.3899, "step": 142180 }, { "epoch": 189.58666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029343932097427363, "loss": 0.3798, "step": 142190 }, { "epoch": 189.6, "grad_norm": 0.37109375, "learning_rate": 0.0002934384016857783, "loss": 0.3809, "step": 142200 }, { "epoch": 189.61333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002934374823343219, "loss": 0.3712, "step": 142210 }, { "epoch": 189.62666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002934365629199048, "loss": 0.3765, "step": 142220 }, { "epoch": 189.64, "grad_norm": 0.416015625, "learning_rate": 0.00029343564344252743, "loss": 0.3872, "step": 142230 }, { "epoch": 189.65333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029343472390219017, "loss": 0.3969, "step": 142240 }, { "epoch": 189.66666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029343380429889344, "loss": 0.3846, "step": 142250 }, { "epoch": 189.68, "grad_norm": 0.38671875, "learning_rate": 0.00029343288463263764, "loss": 0.3764, "step": 142260 }, { "epoch": 189.69333333333333, "grad_norm": 0.34765625, "learning_rate": 0.0002934319649034232, "loss": 0.3855, "step": 142270 }, { "epoch": 189.70666666666668, "grad_norm": 0.412109375, "learning_rate": 0.0002934310451112505, "loss": 0.3782, "step": 142280 }, { "epoch": 189.72, "grad_norm": 0.43359375, "learning_rate": 0.0002934301252561199, "loss": 0.4005, "step": 142290 }, { "epoch": 189.73333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029342920533803184, "loss": 0.3947, "step": 142300 }, { "epoch": 189.74666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002934282853569867, "loss": 0.3976, "step": 142310 }, { "epoch": 189.76, "grad_norm": 0.416015625, "learning_rate": 0.00029342736531298496, "loss": 0.4097, "step": 142320 }, { "epoch": 189.77333333333334, "grad_norm": 0.45703125, "learning_rate": 0.000293426445206027, "loss": 0.3971, "step": 142330 }, { "epoch": 189.78666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002934255250361131, "loss": 0.3973, "step": 142340 }, { "epoch": 189.8, "grad_norm": 0.416015625, "learning_rate": 0.00029342460480324386, "loss": 0.3968, "step": 142350 }, { "epoch": 189.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002934236845074195, "loss": 0.3689, "step": 142360 }, { "epoch": 189.82666666666665, "grad_norm": 0.3828125, "learning_rate": 0.0002934227641486406, "loss": 0.3789, "step": 142370 }, { "epoch": 189.84, "grad_norm": 0.455078125, "learning_rate": 0.0002934218437269074, "loss": 0.391, "step": 142380 }, { "epoch": 189.85333333333332, "grad_norm": 0.375, "learning_rate": 0.00029342092324222043, "loss": 0.3855, "step": 142390 }, { "epoch": 189.86666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029342000269458, "loss": 0.3903, "step": 142400 }, { "epoch": 189.88, "grad_norm": 0.41015625, "learning_rate": 0.0002934190820839866, "loss": 0.3723, "step": 142410 }, { "epoch": 189.89333333333335, "grad_norm": 0.392578125, "learning_rate": 0.0002934181614104405, "loss": 0.3833, "step": 142420 }, { "epoch": 189.90666666666667, "grad_norm": 0.45703125, "learning_rate": 0.0002934172406739423, "loss": 0.3895, "step": 142430 }, { "epoch": 189.92, "grad_norm": 0.408203125, "learning_rate": 0.00029341631987449225, "loss": 0.3914, "step": 142440 }, { "epoch": 189.93333333333334, "grad_norm": 0.357421875, "learning_rate": 0.0002934153990120908, "loss": 0.3855, "step": 142450 }, { "epoch": 189.94666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0002934144780867383, "loss": 0.3864, "step": 142460 }, { "epoch": 189.96, "grad_norm": 0.365234375, "learning_rate": 0.0002934135570984353, "loss": 0.3841, "step": 142470 }, { "epoch": 189.97333333333333, "grad_norm": 0.5078125, "learning_rate": 0.00029341263604718205, "loss": 0.409, "step": 142480 }, { "epoch": 189.98666666666668, "grad_norm": 0.42578125, "learning_rate": 0.00029341171493297907, "loss": 0.3809, "step": 142490 }, { "epoch": 190.0, "grad_norm": 0.380859375, "learning_rate": 0.0002934107937558267, "loss": 0.3784, "step": 142500 }, { "epoch": 190.0, "eval_loss": 0.42411378026008606, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9297, "eval_samples_per_second": 1.611, "eval_steps_per_second": 0.101, "step": 142500 }, { "epoch": 190.01333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029340987251572537, "loss": 0.3956, "step": 142510 }, { "epoch": 190.02666666666667, "grad_norm": 0.474609375, "learning_rate": 0.00029340895121267546, "loss": 0.4089, "step": 142520 }, { "epoch": 190.04, "grad_norm": 0.447265625, "learning_rate": 0.00029340802984667737, "loss": 0.4214, "step": 142530 }, { "epoch": 190.05333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029340710841773153, "loss": 0.4077, "step": 142540 }, { "epoch": 190.06666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002934061869258383, "loss": 0.3948, "step": 142550 }, { "epoch": 190.08, "grad_norm": 0.408203125, "learning_rate": 0.0002934052653709982, "loss": 0.399, "step": 142560 }, { "epoch": 190.09333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002934043437532115, "loss": 0.3997, "step": 142570 }, { "epoch": 190.10666666666665, "grad_norm": 0.357421875, "learning_rate": 0.0002934034220724787, "loss": 0.3869, "step": 142580 }, { "epoch": 190.12, "grad_norm": 0.400390625, "learning_rate": 0.0002934025003288001, "loss": 0.3912, "step": 142590 }, { "epoch": 190.13333333333333, "grad_norm": 0.3828125, "learning_rate": 0.00029340157852217623, "loss": 0.3819, "step": 142600 }, { "epoch": 190.14666666666668, "grad_norm": 0.40625, "learning_rate": 0.0002934006566526074, "loss": 0.4025, "step": 142610 }, { "epoch": 190.16, "grad_norm": 0.3828125, "learning_rate": 0.000293399734720094, "loss": 0.3955, "step": 142620 }, { "epoch": 190.17333333333335, "grad_norm": 0.41015625, "learning_rate": 0.00029339881272463656, "loss": 0.3903, "step": 142630 }, { "epoch": 190.18666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029339789066623535, "loss": 0.3879, "step": 142640 }, { "epoch": 190.2, "grad_norm": 0.408203125, "learning_rate": 0.0002933969685448909, "loss": 0.3811, "step": 142650 }, { "epoch": 190.21333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002933960463606035, "loss": 0.383, "step": 142660 }, { "epoch": 190.22666666666666, "grad_norm": 0.50390625, "learning_rate": 0.0002933951241133736, "loss": 0.393, "step": 142670 }, { "epoch": 190.24, "grad_norm": 0.4375, "learning_rate": 0.00029339420180320163, "loss": 0.3787, "step": 142680 }, { "epoch": 190.25333333333333, "grad_norm": 0.435546875, "learning_rate": 0.000293393279430088, "loss": 0.3807, "step": 142690 }, { "epoch": 190.26666666666668, "grad_norm": 0.396484375, "learning_rate": 0.000293392356994033, "loss": 0.3837, "step": 142700 }, { "epoch": 190.28, "grad_norm": 0.423828125, "learning_rate": 0.00029339143449503717, "loss": 0.4129, "step": 142710 }, { "epoch": 190.29333333333332, "grad_norm": 0.435546875, "learning_rate": 0.00029339051193310087, "loss": 0.3693, "step": 142720 }, { "epoch": 190.30666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029338958930822447, "loss": 0.3933, "step": 142730 }, { "epoch": 190.32, "grad_norm": 0.369140625, "learning_rate": 0.0002933886666204084, "loss": 0.3958, "step": 142740 }, { "epoch": 190.33333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0002933877438696531, "loss": 0.3992, "step": 142750 }, { "epoch": 190.34666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002933868210559589, "loss": 0.3889, "step": 142760 }, { "epoch": 190.36, "grad_norm": 0.4609375, "learning_rate": 0.00029338589817932634, "loss": 0.3895, "step": 142770 }, { "epoch": 190.37333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002933849752397557, "loss": 0.3903, "step": 142780 }, { "epoch": 190.38666666666666, "grad_norm": 0.51171875, "learning_rate": 0.00029338405223724735, "loss": 0.3819, "step": 142790 }, { "epoch": 190.4, "grad_norm": 0.400390625, "learning_rate": 0.00029338312917180187, "loss": 0.3886, "step": 142800 }, { "epoch": 190.41333333333333, "grad_norm": 0.404296875, "learning_rate": 0.00029338220604341943, "loss": 0.3958, "step": 142810 }, { "epoch": 190.42666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002933812828521007, "loss": 0.3967, "step": 142820 }, { "epoch": 190.44, "grad_norm": 0.435546875, "learning_rate": 0.00029338035959784584, "loss": 0.4083, "step": 142830 }, { "epoch": 190.45333333333335, "grad_norm": 0.453125, "learning_rate": 0.00029337943628065545, "loss": 0.3971, "step": 142840 }, { "epoch": 190.46666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029337851290052984, "loss": 0.4048, "step": 142850 }, { "epoch": 190.48, "grad_norm": 0.38671875, "learning_rate": 0.0002933775894574694, "loss": 0.3874, "step": 142860 }, { "epoch": 190.49333333333334, "grad_norm": 0.44140625, "learning_rate": 0.00029337666595147455, "loss": 0.3986, "step": 142870 }, { "epoch": 190.50666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029337574238254575, "loss": 0.3972, "step": 142880 }, { "epoch": 190.52, "grad_norm": 0.384765625, "learning_rate": 0.00029337481875068335, "loss": 0.3873, "step": 142890 }, { "epoch": 190.53333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002933738950558878, "loss": 0.391, "step": 142900 }, { "epoch": 190.54666666666665, "grad_norm": 0.46484375, "learning_rate": 0.00029337297129815944, "loss": 0.3924, "step": 142910 }, { "epoch": 190.56, "grad_norm": 0.36328125, "learning_rate": 0.0002933720474774986, "loss": 0.3859, "step": 142920 }, { "epoch": 190.57333333333332, "grad_norm": 0.38671875, "learning_rate": 0.00029337112359390595, "loss": 0.3895, "step": 142930 }, { "epoch": 190.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.00029337019964738173, "loss": 0.3786, "step": 142940 }, { "epoch": 190.6, "grad_norm": 0.3828125, "learning_rate": 0.0002933692756379263, "loss": 0.38, "step": 142950 }, { "epoch": 190.61333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029336835156554015, "loss": 0.3711, "step": 142960 }, { "epoch": 190.62666666666667, "grad_norm": 0.337890625, "learning_rate": 0.00029336742743022365, "loss": 0.3763, "step": 142970 }, { "epoch": 190.64, "grad_norm": 0.4296875, "learning_rate": 0.0002933665032319772, "loss": 0.3878, "step": 142980 }, { "epoch": 190.65333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029336557897080123, "loss": 0.3971, "step": 142990 }, { "epoch": 190.66666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002933646546466961, "loss": 0.3849, "step": 143000 }, { "epoch": 190.68, "grad_norm": 0.443359375, "learning_rate": 0.0002933637302596623, "loss": 0.3763, "step": 143010 }, { "epoch": 190.69333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029336280580970014, "loss": 0.3861, "step": 143020 }, { "epoch": 190.70666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002933618812968101, "loss": 0.3782, "step": 143030 }, { "epoch": 190.72, "grad_norm": 0.443359375, "learning_rate": 0.00029336095672099263, "loss": 0.4001, "step": 143040 }, { "epoch": 190.73333333333332, "grad_norm": 0.38671875, "learning_rate": 0.000293360032082248, "loss": 0.3948, "step": 143050 }, { "epoch": 190.74666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002933591073805766, "loss": 0.3972, "step": 143060 }, { "epoch": 190.76, "grad_norm": 0.41015625, "learning_rate": 0.000293358182615979, "loss": 0.4094, "step": 143070 }, { "epoch": 190.77333333333334, "grad_norm": 0.462890625, "learning_rate": 0.0002933572577884555, "loss": 0.3969, "step": 143080 }, { "epoch": 190.78666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029335633289800657, "loss": 0.3965, "step": 143090 }, { "epoch": 190.8, "grad_norm": 0.412109375, "learning_rate": 0.00029335540794463253, "loss": 0.3958, "step": 143100 }, { "epoch": 190.81333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002933544829283338, "loss": 0.3682, "step": 143110 }, { "epoch": 190.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029335355784911087, "loss": 0.3784, "step": 143120 }, { "epoch": 190.84, "grad_norm": 0.4296875, "learning_rate": 0.00029335263270696406, "loss": 0.3901, "step": 143130 }, { "epoch": 190.85333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029335170750189384, "loss": 0.3861, "step": 143140 }, { "epoch": 190.86666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029335078223390054, "loss": 0.3898, "step": 143150 }, { "epoch": 190.88, "grad_norm": 0.40625, "learning_rate": 0.0002933498569029846, "loss": 0.3717, "step": 143160 }, { "epoch": 190.89333333333335, "grad_norm": 0.427734375, "learning_rate": 0.0002933489315091465, "loss": 0.3834, "step": 143170 }, { "epoch": 190.90666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029334800605238654, "loss": 0.3901, "step": 143180 }, { "epoch": 190.92, "grad_norm": 0.421875, "learning_rate": 0.00029334708053270513, "loss": 0.3914, "step": 143190 }, { "epoch": 190.93333333333334, "grad_norm": 0.36328125, "learning_rate": 0.00029334615495010276, "loss": 0.3852, "step": 143200 }, { "epoch": 190.94666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002933452293045798, "loss": 0.3866, "step": 143210 }, { "epoch": 190.96, "grad_norm": 0.341796875, "learning_rate": 0.00029334430359613664, "loss": 0.3845, "step": 143220 }, { "epoch": 190.97333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0002933433778247737, "loss": 0.4095, "step": 143230 }, { "epoch": 190.98666666666668, "grad_norm": 0.46875, "learning_rate": 0.00029334245199049135, "loss": 0.3809, "step": 143240 }, { "epoch": 191.0, "grad_norm": 0.421875, "learning_rate": 0.00029334152609329005, "loss": 0.3787, "step": 143250 }, { "epoch": 191.0, "eval_loss": 0.42531707882881165, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2197, "eval_samples_per_second": 1.566, "eval_steps_per_second": 0.098, "step": 143250 }, { "epoch": 191.01333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002933406001331702, "loss": 0.3945, "step": 143260 }, { "epoch": 191.02666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002933396741101321, "loss": 0.4086, "step": 143270 }, { "epoch": 191.04, "grad_norm": 0.404296875, "learning_rate": 0.0002933387480241764, "loss": 0.4218, "step": 143280 }, { "epoch": 191.05333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002933378218753032, "loss": 0.4068, "step": 143290 }, { "epoch": 191.06666666666666, "grad_norm": 0.44921875, "learning_rate": 0.0002933368956635131, "loss": 0.3949, "step": 143300 }, { "epoch": 191.08, "grad_norm": 0.486328125, "learning_rate": 0.0002933359693888065, "loss": 0.3978, "step": 143310 }, { "epoch": 191.09333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029333504305118375, "loss": 0.3991, "step": 143320 }, { "epoch": 191.10666666666665, "grad_norm": 0.376953125, "learning_rate": 0.0002933341166506453, "loss": 0.3865, "step": 143330 }, { "epoch": 191.12, "grad_norm": 0.400390625, "learning_rate": 0.0002933331901871915, "loss": 0.3912, "step": 143340 }, { "epoch": 191.13333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002933322636608228, "loss": 0.3837, "step": 143350 }, { "epoch": 191.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002933313370715396, "loss": 0.4021, "step": 143360 }, { "epoch": 191.16, "grad_norm": 0.37890625, "learning_rate": 0.0002933304104193423, "loss": 0.396, "step": 143370 }, { "epoch": 191.17333333333335, "grad_norm": 0.43359375, "learning_rate": 0.00029332948370423134, "loss": 0.3897, "step": 143380 }, { "epoch": 191.18666666666667, "grad_norm": 0.369140625, "learning_rate": 0.00029332855692620706, "loss": 0.389, "step": 143390 }, { "epoch": 191.2, "grad_norm": 0.40625, "learning_rate": 0.0002933276300852699, "loss": 0.381, "step": 143400 }, { "epoch": 191.21333333333334, "grad_norm": 0.404296875, "learning_rate": 0.0002933267031814203, "loss": 0.3818, "step": 143410 }, { "epoch": 191.22666666666666, "grad_norm": 0.46875, "learning_rate": 0.00029332577621465867, "loss": 0.394, "step": 143420 }, { "epoch": 191.24, "grad_norm": 0.38671875, "learning_rate": 0.0002933248491849853, "loss": 0.3779, "step": 143430 }, { "epoch": 191.25333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029332392209240076, "loss": 0.3805, "step": 143440 }, { "epoch": 191.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029332299493690537, "loss": 0.3828, "step": 143450 }, { "epoch": 191.28, "grad_norm": 0.41015625, "learning_rate": 0.00029332206771849953, "loss": 0.4133, "step": 143460 }, { "epoch": 191.29333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029332114043718367, "loss": 0.3691, "step": 143470 }, { "epoch": 191.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029332021309295817, "loss": 0.3929, "step": 143480 }, { "epoch": 191.32, "grad_norm": 0.38671875, "learning_rate": 0.0002933192856858234, "loss": 0.3952, "step": 143490 }, { "epoch": 191.33333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029331835821577994, "loss": 0.3978, "step": 143500 }, { "epoch": 191.34666666666666, "grad_norm": 0.478515625, "learning_rate": 0.000293317430682828, "loss": 0.3883, "step": 143510 }, { "epoch": 191.36, "grad_norm": 0.4296875, "learning_rate": 0.00029331650308696814, "loss": 0.3889, "step": 143520 }, { "epoch": 191.37333333333333, "grad_norm": 0.345703125, "learning_rate": 0.00029331557542820063, "loss": 0.3908, "step": 143530 }, { "epoch": 191.38666666666666, "grad_norm": 0.45703125, "learning_rate": 0.000293314647706526, "loss": 0.3824, "step": 143540 }, { "epoch": 191.4, "grad_norm": 0.400390625, "learning_rate": 0.00029331371992194456, "loss": 0.3893, "step": 143550 }, { "epoch": 191.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029331279207445675, "loss": 0.3942, "step": 143560 }, { "epoch": 191.42666666666668, "grad_norm": 0.390625, "learning_rate": 0.00029331186416406305, "loss": 0.3955, "step": 143570 }, { "epoch": 191.44, "grad_norm": 0.400390625, "learning_rate": 0.0002933109361907637, "loss": 0.4074, "step": 143580 }, { "epoch": 191.45333333333335, "grad_norm": 0.44921875, "learning_rate": 0.0002933100081545593, "loss": 0.3956, "step": 143590 }, { "epoch": 191.46666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002933090800554501, "loss": 0.4054, "step": 143600 }, { "epoch": 191.48, "grad_norm": 0.37890625, "learning_rate": 0.00029330815189343657, "loss": 0.3867, "step": 143610 }, { "epoch": 191.49333333333334, "grad_norm": 0.408203125, "learning_rate": 0.0002933072236685192, "loss": 0.398, "step": 143620 }, { "epoch": 191.50666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029330629538069827, "loss": 0.3964, "step": 143630 }, { "epoch": 191.52, "grad_norm": 0.392578125, "learning_rate": 0.00029330536702997423, "loss": 0.3871, "step": 143640 }, { "epoch": 191.53333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002933044386163475, "loss": 0.389, "step": 143650 }, { "epoch": 191.54666666666665, "grad_norm": 0.40625, "learning_rate": 0.0002933035101398185, "loss": 0.3912, "step": 143660 }, { "epoch": 191.56, "grad_norm": 0.412109375, "learning_rate": 0.0002933025816003876, "loss": 0.3864, "step": 143670 }, { "epoch": 191.57333333333332, "grad_norm": 0.466796875, "learning_rate": 0.0002933016529980552, "loss": 0.3898, "step": 143680 }, { "epoch": 191.58666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002933007243328218, "loss": 0.3801, "step": 143690 }, { "epoch": 191.6, "grad_norm": 0.384765625, "learning_rate": 0.0002932997956046877, "loss": 0.3811, "step": 143700 }, { "epoch": 191.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029329886681365335, "loss": 0.3711, "step": 143710 }, { "epoch": 191.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0002932979379597192, "loss": 0.3767, "step": 143720 }, { "epoch": 191.64, "grad_norm": 0.396484375, "learning_rate": 0.0002932970090428855, "loss": 0.3871, "step": 143730 }, { "epoch": 191.65333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002932960800631529, "loss": 0.3967, "step": 143740 }, { "epoch": 191.66666666666666, "grad_norm": 0.375, "learning_rate": 0.0002932951510205216, "loss": 0.3853, "step": 143750 }, { "epoch": 191.68, "grad_norm": 0.443359375, "learning_rate": 0.0002932942219149921, "loss": 0.376, "step": 143760 }, { "epoch": 191.69333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029329329274656486, "loss": 0.3859, "step": 143770 }, { "epoch": 191.70666666666668, "grad_norm": 0.419921875, "learning_rate": 0.00029329236351524016, "loss": 0.3786, "step": 143780 }, { "epoch": 191.72, "grad_norm": 0.396484375, "learning_rate": 0.0002932914342210185, "loss": 0.4012, "step": 143790 }, { "epoch": 191.73333333333332, "grad_norm": 0.416015625, "learning_rate": 0.0002932905048639003, "loss": 0.3947, "step": 143800 }, { "epoch": 191.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002932895754438858, "loss": 0.397, "step": 143810 }, { "epoch": 191.76, "grad_norm": 0.451171875, "learning_rate": 0.00029328864596097563, "loss": 0.4104, "step": 143820 }, { "epoch": 191.77333333333334, "grad_norm": 0.486328125, "learning_rate": 0.00029328771641517007, "loss": 0.3956, "step": 143830 }, { "epoch": 191.78666666666666, "grad_norm": 0.435546875, "learning_rate": 0.0002932867868064696, "loss": 0.397, "step": 143840 }, { "epoch": 191.8, "grad_norm": 0.412109375, "learning_rate": 0.00029328585713487453, "loss": 0.3962, "step": 143850 }, { "epoch": 191.81333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0002932849274003854, "loss": 0.3691, "step": 143860 }, { "epoch": 191.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.00029328399760300246, "loss": 0.3783, "step": 143870 }, { "epoch": 191.84, "grad_norm": 0.453125, "learning_rate": 0.0002932830677427263, "loss": 0.3905, "step": 143880 }, { "epoch": 191.85333333333332, "grad_norm": 0.451171875, "learning_rate": 0.00029328213781955716, "loss": 0.3863, "step": 143890 }, { "epoch": 191.86666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029328120783349553, "loss": 0.3904, "step": 143900 }, { "epoch": 191.88, "grad_norm": 0.4609375, "learning_rate": 0.0002932802777845418, "loss": 0.3711, "step": 143910 }, { "epoch": 191.89333333333335, "grad_norm": 0.392578125, "learning_rate": 0.0002932793476726965, "loss": 0.3829, "step": 143920 }, { "epoch": 191.90666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029327841749795977, "loss": 0.3897, "step": 143930 }, { "epoch": 191.92, "grad_norm": 0.416015625, "learning_rate": 0.0002932774872603322, "loss": 0.3914, "step": 143940 }, { "epoch": 191.93333333333334, "grad_norm": 0.4453125, "learning_rate": 0.0002932765569598143, "loss": 0.3859, "step": 143950 }, { "epoch": 191.94666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029327562659640623, "loss": 0.3856, "step": 143960 }, { "epoch": 191.96, "grad_norm": 0.38671875, "learning_rate": 0.00029327469617010854, "loss": 0.3845, "step": 143970 }, { "epoch": 191.97333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002932737656809216, "loss": 0.4089, "step": 143980 }, { "epoch": 191.98666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029327283512884587, "loss": 0.3811, "step": 143990 }, { "epoch": 192.0, "grad_norm": 0.419921875, "learning_rate": 0.0002932719045138817, "loss": 0.3776, "step": 144000 }, { "epoch": 192.0, "eval_loss": 0.4261593520641327, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8627, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 144000 }, { "epoch": 192.01333333333332, "grad_norm": 0.43359375, "learning_rate": 0.00029327097383602955, "loss": 0.3954, "step": 144010 }, { "epoch": 192.02666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002932700430952898, "loss": 0.4085, "step": 144020 }, { "epoch": 192.04, "grad_norm": 0.357421875, "learning_rate": 0.0002932691122916628, "loss": 0.4208, "step": 144030 }, { "epoch": 192.05333333333334, "grad_norm": 0.48046875, "learning_rate": 0.00029326818142514906, "loss": 0.4069, "step": 144040 }, { "epoch": 192.06666666666666, "grad_norm": 0.404296875, "learning_rate": 0.000293267250495749, "loss": 0.3948, "step": 144050 }, { "epoch": 192.08, "grad_norm": 0.404296875, "learning_rate": 0.0002932663195034629, "loss": 0.3978, "step": 144060 }, { "epoch": 192.09333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002932653884482913, "loss": 0.399, "step": 144070 }, { "epoch": 192.10666666666665, "grad_norm": 0.41015625, "learning_rate": 0.0002932644573302345, "loss": 0.3863, "step": 144080 }, { "epoch": 192.12, "grad_norm": 0.3984375, "learning_rate": 0.00029326352614929296, "loss": 0.391, "step": 144090 }, { "epoch": 192.13333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002932625949054671, "loss": 0.3827, "step": 144100 }, { "epoch": 192.14666666666668, "grad_norm": 0.40234375, "learning_rate": 0.00029326166359875733, "loss": 0.4013, "step": 144110 }, { "epoch": 192.16, "grad_norm": 0.392578125, "learning_rate": 0.000293260732229164, "loss": 0.3961, "step": 144120 }, { "epoch": 192.17333333333335, "grad_norm": 0.44140625, "learning_rate": 0.0002932598007966876, "loss": 0.3907, "step": 144130 }, { "epoch": 192.18666666666667, "grad_norm": 0.46875, "learning_rate": 0.0002932588693013286, "loss": 0.3887, "step": 144140 }, { "epoch": 192.2, "grad_norm": 0.390625, "learning_rate": 0.0002932579377430872, "loss": 0.3807, "step": 144150 }, { "epoch": 192.21333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029325700612196394, "loss": 0.3823, "step": 144160 }, { "epoch": 192.22666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002932560744379592, "loss": 0.3929, "step": 144170 }, { "epoch": 192.24, "grad_norm": 0.380859375, "learning_rate": 0.00029325514269107344, "loss": 0.3782, "step": 144180 }, { "epoch": 192.25333333333333, "grad_norm": 0.4296875, "learning_rate": 0.000293254210881307, "loss": 0.3798, "step": 144190 }, { "epoch": 192.26666666666668, "grad_norm": 0.37890625, "learning_rate": 0.0002932532790086603, "loss": 0.3828, "step": 144200 }, { "epoch": 192.28, "grad_norm": 0.435546875, "learning_rate": 0.00029325234707313383, "loss": 0.4126, "step": 144210 }, { "epoch": 192.29333333333332, "grad_norm": 0.423828125, "learning_rate": 0.0002932514150747279, "loss": 0.3694, "step": 144220 }, { "epoch": 192.30666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029325048301344294, "loss": 0.3931, "step": 144230 }, { "epoch": 192.32, "grad_norm": 0.390625, "learning_rate": 0.0002932495508892794, "loss": 0.3966, "step": 144240 }, { "epoch": 192.33333333333334, "grad_norm": 0.447265625, "learning_rate": 0.0002932486187022377, "loss": 0.3974, "step": 144250 }, { "epoch": 192.34666666666666, "grad_norm": 0.462890625, "learning_rate": 0.00029324768645231817, "loss": 0.3893, "step": 144260 }, { "epoch": 192.36, "grad_norm": 0.470703125, "learning_rate": 0.0002932467541395212, "loss": 0.3886, "step": 144270 }, { "epoch": 192.37333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0002932458217638473, "loss": 0.3911, "step": 144280 }, { "epoch": 192.38666666666666, "grad_norm": 0.478515625, "learning_rate": 0.0002932448893252969, "loss": 0.3823, "step": 144290 }, { "epoch": 192.4, "grad_norm": 0.38671875, "learning_rate": 0.00029324395682387035, "loss": 0.39, "step": 144300 }, { "epoch": 192.41333333333333, "grad_norm": 0.392578125, "learning_rate": 0.000293243024259568, "loss": 0.3941, "step": 144310 }, { "epoch": 192.42666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029324209163239035, "loss": 0.3954, "step": 144320 }, { "epoch": 192.44, "grad_norm": 0.3984375, "learning_rate": 0.0002932411589423378, "loss": 0.4076, "step": 144330 }, { "epoch": 192.45333333333335, "grad_norm": 0.470703125, "learning_rate": 0.00029324022618941063, "loss": 0.3966, "step": 144340 }, { "epoch": 192.46666666666667, "grad_norm": 0.4140625, "learning_rate": 0.00029323929337360947, "loss": 0.4044, "step": 144350 }, { "epoch": 192.48, "grad_norm": 0.423828125, "learning_rate": 0.0002932383604949346, "loss": 0.387, "step": 144360 }, { "epoch": 192.49333333333334, "grad_norm": 0.390625, "learning_rate": 0.00029323742755338637, "loss": 0.3984, "step": 144370 }, { "epoch": 192.50666666666666, "grad_norm": 0.39453125, "learning_rate": 0.00029323649454896536, "loss": 0.3964, "step": 144380 }, { "epoch": 192.52, "grad_norm": 0.318359375, "learning_rate": 0.00029323556148167185, "loss": 0.3873, "step": 144390 }, { "epoch": 192.53333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029323462835150626, "loss": 0.3903, "step": 144400 }, { "epoch": 192.54666666666665, "grad_norm": 0.470703125, "learning_rate": 0.00029323369515846904, "loss": 0.3911, "step": 144410 }, { "epoch": 192.56, "grad_norm": 0.35546875, "learning_rate": 0.00029323276190256056, "loss": 0.3857, "step": 144420 }, { "epoch": 192.57333333333332, "grad_norm": 0.40234375, "learning_rate": 0.0002932318285837813, "loss": 0.3892, "step": 144430 }, { "epoch": 192.58666666666667, "grad_norm": 0.396484375, "learning_rate": 0.0002932308952021316, "loss": 0.3785, "step": 144440 }, { "epoch": 192.6, "grad_norm": 0.419921875, "learning_rate": 0.0002932299617576119, "loss": 0.3802, "step": 144450 }, { "epoch": 192.61333333333334, "grad_norm": 0.337890625, "learning_rate": 0.00029322902825022263, "loss": 0.371, "step": 144460 }, { "epoch": 192.62666666666667, "grad_norm": 0.384765625, "learning_rate": 0.0002932280946799641, "loss": 0.3767, "step": 144470 }, { "epoch": 192.64, "grad_norm": 0.40625, "learning_rate": 0.00029322716104683685, "loss": 0.3871, "step": 144480 }, { "epoch": 192.65333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002932262273508412, "loss": 0.3977, "step": 144490 }, { "epoch": 192.66666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0002932252935919776, "loss": 0.3851, "step": 144500 }, { "epoch": 192.68, "grad_norm": 0.439453125, "learning_rate": 0.0002932243597702465, "loss": 0.3764, "step": 144510 }, { "epoch": 192.69333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0002932234258856482, "loss": 0.3866, "step": 144520 }, { "epoch": 192.70666666666668, "grad_norm": 0.451171875, "learning_rate": 0.0002932224919381832, "loss": 0.3786, "step": 144530 }, { "epoch": 192.72, "grad_norm": 0.404296875, "learning_rate": 0.00029322155792785184, "loss": 0.4, "step": 144540 }, { "epoch": 192.73333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029322062385465464, "loss": 0.3944, "step": 144550 }, { "epoch": 192.74666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029321968971859186, "loss": 0.396, "step": 144560 }, { "epoch": 192.76, "grad_norm": 0.41796875, "learning_rate": 0.00029321875551966407, "loss": 0.4102, "step": 144570 }, { "epoch": 192.77333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002932178212578715, "loss": 0.396, "step": 144580 }, { "epoch": 192.78666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029321688693321476, "loss": 0.3975, "step": 144590 }, { "epoch": 192.8, "grad_norm": 0.412109375, "learning_rate": 0.00029321595254569417, "loss": 0.3952, "step": 144600 }, { "epoch": 192.81333333333333, "grad_norm": 0.478515625, "learning_rate": 0.00029321501809531007, "loss": 0.3688, "step": 144610 }, { "epoch": 192.82666666666665, "grad_norm": 0.40625, "learning_rate": 0.00029321408358206296, "loss": 0.3781, "step": 144620 }, { "epoch": 192.84, "grad_norm": 0.42578125, "learning_rate": 0.0002932131490059532, "loss": 0.3899, "step": 144630 }, { "epoch": 192.85333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029321221436698125, "loss": 0.3859, "step": 144640 }, { "epoch": 192.86666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029321127966514747, "loss": 0.3901, "step": 144650 }, { "epoch": 192.88, "grad_norm": 0.3984375, "learning_rate": 0.0002932103449004523, "loss": 0.3716, "step": 144660 }, { "epoch": 192.89333333333335, "grad_norm": 0.384765625, "learning_rate": 0.00029320941007289616, "loss": 0.3833, "step": 144670 }, { "epoch": 192.90666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002932084751824794, "loss": 0.3891, "step": 144680 }, { "epoch": 192.92, "grad_norm": 0.44140625, "learning_rate": 0.00029320754022920255, "loss": 0.3915, "step": 144690 }, { "epoch": 192.93333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029320660521306587, "loss": 0.3853, "step": 144700 }, { "epoch": 192.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029320567013406987, "loss": 0.3855, "step": 144710 }, { "epoch": 192.96, "grad_norm": 0.349609375, "learning_rate": 0.0002932047349922149, "loss": 0.3848, "step": 144720 }, { "epoch": 192.97333333333333, "grad_norm": 0.49609375, "learning_rate": 0.0002932037997875015, "loss": 0.4094, "step": 144730 }, { "epoch": 192.98666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029320286451992993, "loss": 0.3817, "step": 144740 }, { "epoch": 193.0, "grad_norm": 0.400390625, "learning_rate": 0.0002932019291895006, "loss": 0.3783, "step": 144750 }, { "epoch": 193.0, "eval_loss": 0.4271315634250641, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9543, "eval_samples_per_second": 1.607, "eval_steps_per_second": 0.1, "step": 144750 }, { "epoch": 193.01333333333332, "grad_norm": 0.484375, "learning_rate": 0.000293200993796214, "loss": 0.3947, "step": 144760 }, { "epoch": 193.02666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029320005834007054, "loss": 0.4089, "step": 144770 }, { "epoch": 193.04, "grad_norm": 0.328125, "learning_rate": 0.00029319912282107065, "loss": 0.4212, "step": 144780 }, { "epoch": 193.05333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002931981872392147, "loss": 0.4071, "step": 144790 }, { "epoch": 193.06666666666666, "grad_norm": 0.3984375, "learning_rate": 0.000293197251594503, "loss": 0.3947, "step": 144800 }, { "epoch": 193.08, "grad_norm": 0.396484375, "learning_rate": 0.0002931963158869362, "loss": 0.398, "step": 144810 }, { "epoch": 193.09333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029319538011651444, "loss": 0.3984, "step": 144820 }, { "epoch": 193.10666666666665, "grad_norm": 0.41796875, "learning_rate": 0.00029319444428323833, "loss": 0.3877, "step": 144830 }, { "epoch": 193.12, "grad_norm": 0.412109375, "learning_rate": 0.0002931935083871082, "loss": 0.3915, "step": 144840 }, { "epoch": 193.13333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002931925724281245, "loss": 0.3829, "step": 144850 }, { "epoch": 193.14666666666668, "grad_norm": 0.376953125, "learning_rate": 0.0002931916364062875, "loss": 0.4021, "step": 144860 }, { "epoch": 193.16, "grad_norm": 0.421875, "learning_rate": 0.0002931907003215979, "loss": 0.3957, "step": 144870 }, { "epoch": 193.17333333333335, "grad_norm": 0.416015625, "learning_rate": 0.0002931897641740558, "loss": 0.3909, "step": 144880 }, { "epoch": 193.18666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002931888279636618, "loss": 0.3882, "step": 144890 }, { "epoch": 193.2, "grad_norm": 0.3984375, "learning_rate": 0.00029318789169041626, "loss": 0.3814, "step": 144900 }, { "epoch": 193.21333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029318695535431955, "loss": 0.3822, "step": 144910 }, { "epoch": 193.22666666666666, "grad_norm": 0.44140625, "learning_rate": 0.0002931860189553722, "loss": 0.3936, "step": 144920 }, { "epoch": 193.24, "grad_norm": 0.40234375, "learning_rate": 0.0002931850824935745, "loss": 0.3786, "step": 144930 }, { "epoch": 193.25333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002931841459689268, "loss": 0.381, "step": 144940 }, { "epoch": 193.26666666666668, "grad_norm": 0.361328125, "learning_rate": 0.00029318320938142976, "loss": 0.3833, "step": 144950 }, { "epoch": 193.28, "grad_norm": 0.39453125, "learning_rate": 0.0002931822727310836, "loss": 0.4125, "step": 144960 }, { "epoch": 193.29333333333332, "grad_norm": 0.41015625, "learning_rate": 0.00029318133601788875, "loss": 0.3693, "step": 144970 }, { "epoch": 193.30666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002931803992418456, "loss": 0.393, "step": 144980 }, { "epoch": 193.32, "grad_norm": 0.39453125, "learning_rate": 0.0002931794624029547, "loss": 0.3963, "step": 144990 }, { "epoch": 193.33333333333334, "grad_norm": 0.4375, "learning_rate": 0.00029317852550121633, "loss": 0.3977, "step": 145000 }, { "epoch": 193.34666666666666, "grad_norm": 0.44921875, "learning_rate": 0.000293177588536631, "loss": 0.3895, "step": 145010 }, { "epoch": 193.36, "grad_norm": 0.5234375, "learning_rate": 0.00029317665150919894, "loss": 0.3893, "step": 145020 }, { "epoch": 193.37333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002931757144189208, "loss": 0.3903, "step": 145030 }, { "epoch": 193.38666666666666, "grad_norm": 0.490234375, "learning_rate": 0.0002931747772657968, "loss": 0.3819, "step": 145040 }, { "epoch": 193.4, "grad_norm": 0.412109375, "learning_rate": 0.0002931738400498274, "loss": 0.3902, "step": 145050 }, { "epoch": 193.41333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029317290277101313, "loss": 0.3938, "step": 145060 }, { "epoch": 193.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.00029317196542935425, "loss": 0.3954, "step": 145070 }, { "epoch": 193.44, "grad_norm": 0.4375, "learning_rate": 0.0002931710280248512, "loss": 0.4067, "step": 145080 }, { "epoch": 193.45333333333335, "grad_norm": 0.46484375, "learning_rate": 0.0002931700905575045, "loss": 0.3964, "step": 145090 }, { "epoch": 193.46666666666667, "grad_norm": 0.423828125, "learning_rate": 0.0002931691530273145, "loss": 0.4053, "step": 145100 }, { "epoch": 193.48, "grad_norm": 0.412109375, "learning_rate": 0.0002931682154342815, "loss": 0.3871, "step": 145110 }, { "epoch": 193.49333333333334, "grad_norm": 0.3671875, "learning_rate": 0.00029316727777840606, "loss": 0.3987, "step": 145120 }, { "epoch": 193.50666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002931663400596885, "loss": 0.3966, "step": 145130 }, { "epoch": 193.52, "grad_norm": 0.365234375, "learning_rate": 0.0002931654022781293, "loss": 0.3872, "step": 145140 }, { "epoch": 193.53333333333333, "grad_norm": 0.443359375, "learning_rate": 0.00029316446443372883, "loss": 0.3906, "step": 145150 }, { "epoch": 193.54666666666665, "grad_norm": 0.458984375, "learning_rate": 0.0002931635265264875, "loss": 0.3919, "step": 145160 }, { "epoch": 193.56, "grad_norm": 0.369140625, "learning_rate": 0.00029316258855640573, "loss": 0.3857, "step": 145170 }, { "epoch": 193.57333333333332, "grad_norm": 0.404296875, "learning_rate": 0.00029316165052348394, "loss": 0.3903, "step": 145180 }, { "epoch": 193.58666666666667, "grad_norm": 0.37890625, "learning_rate": 0.0002931607124277226, "loss": 0.3787, "step": 145190 }, { "epoch": 193.6, "grad_norm": 0.412109375, "learning_rate": 0.000293159774269122, "loss": 0.3807, "step": 145200 }, { "epoch": 193.61333333333334, "grad_norm": 0.341796875, "learning_rate": 0.0002931588360476826, "loss": 0.3709, "step": 145210 }, { "epoch": 193.62666666666667, "grad_norm": 0.388671875, "learning_rate": 0.00029315789776340485, "loss": 0.3754, "step": 145220 }, { "epoch": 193.64, "grad_norm": 0.421875, "learning_rate": 0.00029315695941628913, "loss": 0.3884, "step": 145230 }, { "epoch": 193.65333333333334, "grad_norm": 0.375, "learning_rate": 0.0002931560210063358, "loss": 0.3965, "step": 145240 }, { "epoch": 193.66666666666666, "grad_norm": 0.37890625, "learning_rate": 0.0002931550825335454, "loss": 0.385, "step": 145250 }, { "epoch": 193.68, "grad_norm": 0.43359375, "learning_rate": 0.00029315414399791825, "loss": 0.3757, "step": 145260 }, { "epoch": 193.69333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0002931532053994548, "loss": 0.3858, "step": 145270 }, { "epoch": 193.70666666666668, "grad_norm": 0.50390625, "learning_rate": 0.00029315226673815535, "loss": 0.3779, "step": 145280 }, { "epoch": 193.72, "grad_norm": 0.39453125, "learning_rate": 0.0002931513280140205, "loss": 0.4001, "step": 145290 }, { "epoch": 193.73333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002931503892270506, "loss": 0.394, "step": 145300 }, { "epoch": 193.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029314945037724595, "loss": 0.3966, "step": 145310 }, { "epoch": 193.76, "grad_norm": 0.458984375, "learning_rate": 0.00029314851146460707, "loss": 0.4106, "step": 145320 }, { "epoch": 193.77333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029314757248913434, "loss": 0.3958, "step": 145330 }, { "epoch": 193.78666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002931466334508282, "loss": 0.3976, "step": 145340 }, { "epoch": 193.8, "grad_norm": 0.44921875, "learning_rate": 0.000293145694349689, "loss": 0.3957, "step": 145350 }, { "epoch": 193.81333333333333, "grad_norm": 0.4453125, "learning_rate": 0.0002931447551857172, "loss": 0.3689, "step": 145360 }, { "epoch": 193.82666666666665, "grad_norm": 0.4296875, "learning_rate": 0.00029314381595891317, "loss": 0.3777, "step": 145370 }, { "epoch": 193.84, "grad_norm": 0.396484375, "learning_rate": 0.00029314287666927746, "loss": 0.3903, "step": 145380 }, { "epoch": 193.85333333333332, "grad_norm": 0.4375, "learning_rate": 0.0002931419373168103, "loss": 0.3849, "step": 145390 }, { "epoch": 193.86666666666667, "grad_norm": 0.49609375, "learning_rate": 0.0002931409979015122, "loss": 0.3905, "step": 145400 }, { "epoch": 193.88, "grad_norm": 0.408203125, "learning_rate": 0.00029314005842338354, "loss": 0.3712, "step": 145410 }, { "epoch": 193.89333333333335, "grad_norm": 0.35546875, "learning_rate": 0.0002931391188824248, "loss": 0.3827, "step": 145420 }, { "epoch": 193.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.00029313817927863623, "loss": 0.3896, "step": 145430 }, { "epoch": 193.92, "grad_norm": 0.40625, "learning_rate": 0.0002931372396120184, "loss": 0.3919, "step": 145440 }, { "epoch": 193.93333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002931362998825717, "loss": 0.3855, "step": 145450 }, { "epoch": 193.94666666666666, "grad_norm": 0.421875, "learning_rate": 0.0002931353600902965, "loss": 0.3867, "step": 145460 }, { "epoch": 193.96, "grad_norm": 0.37109375, "learning_rate": 0.0002931344202351932, "loss": 0.3853, "step": 145470 }, { "epoch": 193.97333333333333, "grad_norm": 0.484375, "learning_rate": 0.00029313348031726226, "loss": 0.4088, "step": 145480 }, { "epoch": 193.98666666666668, "grad_norm": 0.4609375, "learning_rate": 0.0002931325403365041, "loss": 0.3809, "step": 145490 }, { "epoch": 194.0, "grad_norm": 0.37109375, "learning_rate": 0.000293131600292919, "loss": 0.3786, "step": 145500 }, { "epoch": 194.0, "eval_loss": 0.4264920651912689, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.5955, "eval_samples_per_second": 1.667, "eval_steps_per_second": 0.104, "step": 145500 }, { "epoch": 194.01333333333332, "grad_norm": 0.43359375, "learning_rate": 0.0002931306601865076, "loss": 0.3952, "step": 145510 }, { "epoch": 194.02666666666667, "grad_norm": 0.375, "learning_rate": 0.00029312972001727014, "loss": 0.4091, "step": 145520 }, { "epoch": 194.04, "grad_norm": 0.39453125, "learning_rate": 0.0002931287797852071, "loss": 0.4211, "step": 145530 }, { "epoch": 194.05333333333334, "grad_norm": 0.44140625, "learning_rate": 0.00029312783949031885, "loss": 0.4071, "step": 145540 }, { "epoch": 194.06666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002931268991326058, "loss": 0.3939, "step": 145550 }, { "epoch": 194.08, "grad_norm": 0.404296875, "learning_rate": 0.0002931259587120685, "loss": 0.3978, "step": 145560 }, { "epoch": 194.09333333333333, "grad_norm": 0.46484375, "learning_rate": 0.00029312501822870715, "loss": 0.3988, "step": 145570 }, { "epoch": 194.10666666666665, "grad_norm": 0.384765625, "learning_rate": 0.00029312407768252233, "loss": 0.387, "step": 145580 }, { "epoch": 194.12, "grad_norm": 0.41796875, "learning_rate": 0.0002931231370735144, "loss": 0.3916, "step": 145590 }, { "epoch": 194.13333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029312219640168364, "loss": 0.3832, "step": 145600 }, { "epoch": 194.14666666666668, "grad_norm": 0.388671875, "learning_rate": 0.0002931212556670307, "loss": 0.4012, "step": 145610 }, { "epoch": 194.16, "grad_norm": 0.3671875, "learning_rate": 0.00029312031486955584, "loss": 0.3951, "step": 145620 }, { "epoch": 194.17333333333335, "grad_norm": 0.455078125, "learning_rate": 0.0002931193740092595, "loss": 0.3901, "step": 145630 }, { "epoch": 194.18666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002931184330861421, "loss": 0.3889, "step": 145640 }, { "epoch": 194.2, "grad_norm": 0.44140625, "learning_rate": 0.0002931174921002041, "loss": 0.382, "step": 145650 }, { "epoch": 194.21333333333334, "grad_norm": 0.43359375, "learning_rate": 0.00029311655105144585, "loss": 0.3836, "step": 145660 }, { "epoch": 194.22666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029311560993986775, "loss": 0.3932, "step": 145670 }, { "epoch": 194.24, "grad_norm": 0.4140625, "learning_rate": 0.0002931146687654703, "loss": 0.3788, "step": 145680 }, { "epoch": 194.25333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029311372752825385, "loss": 0.38, "step": 145690 }, { "epoch": 194.26666666666668, "grad_norm": 0.4375, "learning_rate": 0.0002931127862282188, "loss": 0.3836, "step": 145700 }, { "epoch": 194.28, "grad_norm": 0.462890625, "learning_rate": 0.0002931118448653656, "loss": 0.4125, "step": 145710 }, { "epoch": 194.29333333333332, "grad_norm": 0.384765625, "learning_rate": 0.00029311090343969465, "loss": 0.3698, "step": 145720 }, { "epoch": 194.30666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029310996195120636, "loss": 0.3932, "step": 145730 }, { "epoch": 194.32, "grad_norm": 0.421875, "learning_rate": 0.0002931090203999011, "loss": 0.3953, "step": 145740 }, { "epoch": 194.33333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002931080787857794, "loss": 0.3982, "step": 145750 }, { "epoch": 194.34666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002931071371088415, "loss": 0.3885, "step": 145760 }, { "epoch": 194.36, "grad_norm": 0.5625, "learning_rate": 0.000293106195369088, "loss": 0.3877, "step": 145770 }, { "epoch": 194.37333333333333, "grad_norm": 0.365234375, "learning_rate": 0.00029310525356651923, "loss": 0.391, "step": 145780 }, { "epoch": 194.38666666666666, "grad_norm": 0.470703125, "learning_rate": 0.0002931043117011356, "loss": 0.3826, "step": 145790 }, { "epoch": 194.4, "grad_norm": 0.439453125, "learning_rate": 0.00029310336977293755, "loss": 0.3909, "step": 145800 }, { "epoch": 194.41333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002931024277819254, "loss": 0.3945, "step": 145810 }, { "epoch": 194.42666666666668, "grad_norm": 0.390625, "learning_rate": 0.00029310148572809965, "loss": 0.3962, "step": 145820 }, { "epoch": 194.44, "grad_norm": 0.41796875, "learning_rate": 0.0002931005436114607, "loss": 0.4077, "step": 145830 }, { "epoch": 194.45333333333335, "grad_norm": 0.478515625, "learning_rate": 0.00029309960143200897, "loss": 0.3963, "step": 145840 }, { "epoch": 194.46666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002930986591897449, "loss": 0.4049, "step": 145850 }, { "epoch": 194.48, "grad_norm": 0.427734375, "learning_rate": 0.0002930977168846688, "loss": 0.3864, "step": 145860 }, { "epoch": 194.49333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029309677451678113, "loss": 0.3986, "step": 145870 }, { "epoch": 194.50666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0002930958320860824, "loss": 0.3967, "step": 145880 }, { "epoch": 194.52, "grad_norm": 0.345703125, "learning_rate": 0.00029309488959257293, "loss": 0.3873, "step": 145890 }, { "epoch": 194.53333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029309394703625315, "loss": 0.3906, "step": 145900 }, { "epoch": 194.54666666666665, "grad_norm": 0.45703125, "learning_rate": 0.0002930930044171235, "loss": 0.392, "step": 145910 }, { "epoch": 194.56, "grad_norm": 0.39453125, "learning_rate": 0.0002930920617351843, "loss": 0.3857, "step": 145920 }, { "epoch": 194.57333333333332, "grad_norm": 0.396484375, "learning_rate": 0.00029309111899043604, "loss": 0.3893, "step": 145930 }, { "epoch": 194.58666666666667, "grad_norm": 0.404296875, "learning_rate": 0.00029309017618287913, "loss": 0.3785, "step": 145940 }, { "epoch": 194.6, "grad_norm": 0.38671875, "learning_rate": 0.000293089233312514, "loss": 0.3807, "step": 145950 }, { "epoch": 194.61333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002930882903793411, "loss": 0.3707, "step": 145960 }, { "epoch": 194.62666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0002930873473833607, "loss": 0.3761, "step": 145970 }, { "epoch": 194.64, "grad_norm": 0.408203125, "learning_rate": 0.00029308640432457335, "loss": 0.3871, "step": 145980 }, { "epoch": 194.65333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002930854612029794, "loss": 0.3967, "step": 145990 }, { "epoch": 194.66666666666666, "grad_norm": 0.423828125, "learning_rate": 0.00029308451801857925, "loss": 0.3854, "step": 146000 }, { "epoch": 194.68, "grad_norm": 0.40625, "learning_rate": 0.00029308357477137337, "loss": 0.3761, "step": 146010 }, { "epoch": 194.69333333333333, "grad_norm": 0.3671875, "learning_rate": 0.00029308263146136216, "loss": 0.3859, "step": 146020 }, { "epoch": 194.70666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029308168808854604, "loss": 0.3776, "step": 146030 }, { "epoch": 194.72, "grad_norm": 0.40625, "learning_rate": 0.00029308074465292535, "loss": 0.3998, "step": 146040 }, { "epoch": 194.73333333333332, "grad_norm": 0.4140625, "learning_rate": 0.0002930798011545006, "loss": 0.3941, "step": 146050 }, { "epoch": 194.74666666666667, "grad_norm": 0.37890625, "learning_rate": 0.00029307885759327217, "loss": 0.3968, "step": 146060 }, { "epoch": 194.76, "grad_norm": 0.439453125, "learning_rate": 0.00029307791396924045, "loss": 0.4095, "step": 146070 }, { "epoch": 194.77333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002930769702824059, "loss": 0.3955, "step": 146080 }, { "epoch": 194.78666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029307602653276884, "loss": 0.3975, "step": 146090 }, { "epoch": 194.8, "grad_norm": 0.423828125, "learning_rate": 0.0002930750827203298, "loss": 0.396, "step": 146100 }, { "epoch": 194.81333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002930741388450891, "loss": 0.3689, "step": 146110 }, { "epoch": 194.82666666666665, "grad_norm": 0.369140625, "learning_rate": 0.00029307319490704724, "loss": 0.378, "step": 146120 }, { "epoch": 194.84, "grad_norm": 0.494140625, "learning_rate": 0.0002930722509062046, "loss": 0.3907, "step": 146130 }, { "epoch": 194.85333333333332, "grad_norm": 0.466796875, "learning_rate": 0.00029307130684256156, "loss": 0.3859, "step": 146140 }, { "epoch": 194.86666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002930703627161186, "loss": 0.3907, "step": 146150 }, { "epoch": 194.88, "grad_norm": 0.36328125, "learning_rate": 0.0002930694185268761, "loss": 0.3724, "step": 146160 }, { "epoch": 194.89333333333335, "grad_norm": 0.373046875, "learning_rate": 0.0002930684742748344, "loss": 0.3828, "step": 146170 }, { "epoch": 194.90666666666667, "grad_norm": 0.380859375, "learning_rate": 0.00029306752995999407, "loss": 0.3887, "step": 146180 }, { "epoch": 194.92, "grad_norm": 0.474609375, "learning_rate": 0.00029306658558235537, "loss": 0.3919, "step": 146190 }, { "epoch": 194.93333333333334, "grad_norm": 0.369140625, "learning_rate": 0.00029306564114191887, "loss": 0.3851, "step": 146200 }, { "epoch": 194.94666666666666, "grad_norm": 0.41796875, "learning_rate": 0.00029306469663868483, "loss": 0.3863, "step": 146210 }, { "epoch": 194.96, "grad_norm": 0.33984375, "learning_rate": 0.00029306375207265376, "loss": 0.3846, "step": 146220 }, { "epoch": 194.97333333333333, "grad_norm": 0.4921875, "learning_rate": 0.000293062807443826, "loss": 0.4087, "step": 146230 }, { "epoch": 194.98666666666668, "grad_norm": 0.4453125, "learning_rate": 0.0002930618627522021, "loss": 0.3814, "step": 146240 }, { "epoch": 195.0, "grad_norm": 0.390625, "learning_rate": 0.0002930609179977823, "loss": 0.3771, "step": 146250 }, { "epoch": 195.0, "eval_loss": 0.42632701992988586, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8059, "eval_samples_per_second": 1.632, "eval_steps_per_second": 0.102, "step": 146250 }, { "epoch": 195.01333333333332, "grad_norm": 0.4375, "learning_rate": 0.00029305997318056714, "loss": 0.3949, "step": 146260 }, { "epoch": 195.02666666666667, "grad_norm": 0.384765625, "learning_rate": 0.000293059028300557, "loss": 0.4085, "step": 146270 }, { "epoch": 195.04, "grad_norm": 0.380859375, "learning_rate": 0.00029305808335775235, "loss": 0.4213, "step": 146280 }, { "epoch": 195.05333333333334, "grad_norm": 0.4609375, "learning_rate": 0.00029305713835215346, "loss": 0.4071, "step": 146290 }, { "epoch": 195.06666666666666, "grad_norm": 0.4453125, "learning_rate": 0.0002930561932837609, "loss": 0.3945, "step": 146300 }, { "epoch": 195.08, "grad_norm": 0.431640625, "learning_rate": 0.00029305524815257495, "loss": 0.3968, "step": 146310 }, { "epoch": 195.09333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0002930543029585961, "loss": 0.3983, "step": 146320 }, { "epoch": 195.10666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002930533577018248, "loss": 0.3864, "step": 146330 }, { "epoch": 195.12, "grad_norm": 0.388671875, "learning_rate": 0.00029305241238226145, "loss": 0.3907, "step": 146340 }, { "epoch": 195.13333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029305146699990637, "loss": 0.3819, "step": 146350 }, { "epoch": 195.14666666666668, "grad_norm": 0.4140625, "learning_rate": 0.00029305052155476004, "loss": 0.402, "step": 146360 }, { "epoch": 195.16, "grad_norm": 0.369140625, "learning_rate": 0.00029304957604682285, "loss": 0.3956, "step": 146370 }, { "epoch": 195.17333333333335, "grad_norm": 0.40625, "learning_rate": 0.00029304863047609534, "loss": 0.3899, "step": 146380 }, { "epoch": 195.18666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002930476848425777, "loss": 0.3889, "step": 146390 }, { "epoch": 195.2, "grad_norm": 0.4140625, "learning_rate": 0.0002930467391462706, "loss": 0.3808, "step": 146400 }, { "epoch": 195.21333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002930457933871743, "loss": 0.3814, "step": 146410 }, { "epoch": 195.22666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002930448475652892, "loss": 0.3932, "step": 146420 }, { "epoch": 195.24, "grad_norm": 0.435546875, "learning_rate": 0.00029304390168061574, "loss": 0.3783, "step": 146430 }, { "epoch": 195.25333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002930429557331544, "loss": 0.3814, "step": 146440 }, { "epoch": 195.26666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002930420097229055, "loss": 0.3829, "step": 146450 }, { "epoch": 195.28, "grad_norm": 0.44921875, "learning_rate": 0.0002930410636498695, "loss": 0.4134, "step": 146460 }, { "epoch": 195.29333333333332, "grad_norm": 0.44921875, "learning_rate": 0.0002930401175140469, "loss": 0.3687, "step": 146470 }, { "epoch": 195.30666666666667, "grad_norm": 0.40625, "learning_rate": 0.00029303917131543795, "loss": 0.392, "step": 146480 }, { "epoch": 195.32, "grad_norm": 0.37109375, "learning_rate": 0.0002930382250540432, "loss": 0.3949, "step": 146490 }, { "epoch": 195.33333333333334, "grad_norm": 0.427734375, "learning_rate": 0.00029303727872986293, "loss": 0.398, "step": 146500 }, { "epoch": 195.34666666666666, "grad_norm": 0.5625, "learning_rate": 0.0002930363323428977, "loss": 0.3883, "step": 146510 }, { "epoch": 195.36, "grad_norm": 0.51171875, "learning_rate": 0.00029303538589314787, "loss": 0.3895, "step": 146520 }, { "epoch": 195.37333333333333, "grad_norm": 0.359375, "learning_rate": 0.0002930344393806139, "loss": 0.3905, "step": 146530 }, { "epoch": 195.38666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002930334928052961, "loss": 0.3818, "step": 146540 }, { "epoch": 195.4, "grad_norm": 0.40625, "learning_rate": 0.0002930325461671949, "loss": 0.39, "step": 146550 }, { "epoch": 195.41333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0002930315994663108, "loss": 0.3947, "step": 146560 }, { "epoch": 195.42666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029303065270264416, "loss": 0.3966, "step": 146570 }, { "epoch": 195.44, "grad_norm": 0.427734375, "learning_rate": 0.0002930297058761954, "loss": 0.4081, "step": 146580 }, { "epoch": 195.45333333333335, "grad_norm": 0.45703125, "learning_rate": 0.00029302875898696494, "loss": 0.3956, "step": 146590 }, { "epoch": 195.46666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029302781203495323, "loss": 0.4045, "step": 146600 }, { "epoch": 195.48, "grad_norm": 0.419921875, "learning_rate": 0.00029302686502016064, "loss": 0.387, "step": 146610 }, { "epoch": 195.49333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002930259179425876, "loss": 0.3988, "step": 146620 }, { "epoch": 195.50666666666666, "grad_norm": 0.3984375, "learning_rate": 0.0002930249708022345, "loss": 0.3975, "step": 146630 }, { "epoch": 195.52, "grad_norm": 0.419921875, "learning_rate": 0.00029302402359910186, "loss": 0.3876, "step": 146640 }, { "epoch": 195.53333333333333, "grad_norm": 0.427734375, "learning_rate": 0.00029302307633318993, "loss": 0.3897, "step": 146650 }, { "epoch": 195.54666666666665, "grad_norm": 0.42578125, "learning_rate": 0.00029302212900449924, "loss": 0.3918, "step": 146660 }, { "epoch": 195.56, "grad_norm": 0.37109375, "learning_rate": 0.0002930211816130302, "loss": 0.3851, "step": 146670 }, { "epoch": 195.57333333333332, "grad_norm": 0.451171875, "learning_rate": 0.0002930202341587832, "loss": 0.389, "step": 146680 }, { "epoch": 195.58666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029301928664175866, "loss": 0.379, "step": 146690 }, { "epoch": 195.6, "grad_norm": 0.357421875, "learning_rate": 0.000293018339061957, "loss": 0.38, "step": 146700 }, { "epoch": 195.61333333333334, "grad_norm": 0.375, "learning_rate": 0.0002930173914193786, "loss": 0.3704, "step": 146710 }, { "epoch": 195.62666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0002930164437140239, "loss": 0.3747, "step": 146720 }, { "epoch": 195.64, "grad_norm": 0.421875, "learning_rate": 0.0002930154959458934, "loss": 0.3872, "step": 146730 }, { "epoch": 195.65333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002930145481149874, "loss": 0.3962, "step": 146740 }, { "epoch": 195.66666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002930136002213063, "loss": 0.3851, "step": 146750 }, { "epoch": 195.68, "grad_norm": 0.462890625, "learning_rate": 0.00029301265226485063, "loss": 0.3755, "step": 146760 }, { "epoch": 195.69333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002930117042456207, "loss": 0.3854, "step": 146770 }, { "epoch": 195.70666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002930107561636171, "loss": 0.3787, "step": 146780 }, { "epoch": 195.72, "grad_norm": 0.435546875, "learning_rate": 0.00029300980801884, "loss": 0.3991, "step": 146790 }, { "epoch": 195.73333333333332, "grad_norm": 0.46484375, "learning_rate": 0.00029300885981128997, "loss": 0.395, "step": 146800 }, { "epoch": 195.74666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029300791154096735, "loss": 0.3972, "step": 146810 }, { "epoch": 195.76, "grad_norm": 0.41015625, "learning_rate": 0.0002930069632078727, "loss": 0.4096, "step": 146820 }, { "epoch": 195.77333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002930060148120063, "loss": 0.3954, "step": 146830 }, { "epoch": 195.78666666666666, "grad_norm": 0.33984375, "learning_rate": 0.00029300506635336854, "loss": 0.3974, "step": 146840 }, { "epoch": 195.8, "grad_norm": 0.392578125, "learning_rate": 0.00029300411783196, "loss": 0.3955, "step": 146850 }, { "epoch": 195.81333333333333, "grad_norm": 0.515625, "learning_rate": 0.0002930031692477809, "loss": 0.3689, "step": 146860 }, { "epoch": 195.82666666666665, "grad_norm": 0.447265625, "learning_rate": 0.00029300222060083176, "loss": 0.3784, "step": 146870 }, { "epoch": 195.84, "grad_norm": 0.4375, "learning_rate": 0.000293001271891113, "loss": 0.3903, "step": 146880 }, { "epoch": 195.85333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002930003231186251, "loss": 0.385, "step": 146890 }, { "epoch": 195.86666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002929993742833683, "loss": 0.3911, "step": 146900 }, { "epoch": 195.88, "grad_norm": 0.423828125, "learning_rate": 0.00029299842538534315, "loss": 0.3712, "step": 146910 }, { "epoch": 195.89333333333335, "grad_norm": 0.392578125, "learning_rate": 0.00029299747642455, "loss": 0.383, "step": 146920 }, { "epoch": 195.90666666666667, "grad_norm": 0.404296875, "learning_rate": 0.0002929965274009894, "loss": 0.3897, "step": 146930 }, { "epoch": 195.92, "grad_norm": 0.41796875, "learning_rate": 0.00029299557831466156, "loss": 0.3915, "step": 146940 }, { "epoch": 195.93333333333334, "grad_norm": 0.376953125, "learning_rate": 0.00029299462916556706, "loss": 0.3853, "step": 146950 }, { "epoch": 195.94666666666666, "grad_norm": 0.443359375, "learning_rate": 0.00029299367995370626, "loss": 0.3865, "step": 146960 }, { "epoch": 195.96, "grad_norm": 0.328125, "learning_rate": 0.00029299273067907953, "loss": 0.3834, "step": 146970 }, { "epoch": 195.97333333333333, "grad_norm": 0.50390625, "learning_rate": 0.00029299178134168736, "loss": 0.4083, "step": 146980 }, { "epoch": 195.98666666666668, "grad_norm": 0.458984375, "learning_rate": 0.0002929908319415301, "loss": 0.3801, "step": 146990 }, { "epoch": 196.0, "grad_norm": 0.380859375, "learning_rate": 0.0002929898824786083, "loss": 0.3779, "step": 147000 }, { "epoch": 196.0, "eval_loss": 0.4270703196525574, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9374, "eval_samples_per_second": 1.61, "eval_steps_per_second": 0.101, "step": 147000 }, { "epoch": 196.01333333333332, "grad_norm": 0.435546875, "learning_rate": 0.00029298893295292227, "loss": 0.3944, "step": 147010 }, { "epoch": 196.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002929879833644724, "loss": 0.4088, "step": 147020 }, { "epoch": 196.04, "grad_norm": 0.375, "learning_rate": 0.00029298703371325916, "loss": 0.4211, "step": 147030 }, { "epoch": 196.05333333333334, "grad_norm": 0.4375, "learning_rate": 0.0002929860839992829, "loss": 0.4072, "step": 147040 }, { "epoch": 196.06666666666666, "grad_norm": 0.4375, "learning_rate": 0.00029298513422254416, "loss": 0.3944, "step": 147050 }, { "epoch": 196.08, "grad_norm": 0.39453125, "learning_rate": 0.00029298418438304327, "loss": 0.3978, "step": 147060 }, { "epoch": 196.09333333333333, "grad_norm": 0.40234375, "learning_rate": 0.00029298323448078063, "loss": 0.3995, "step": 147070 }, { "epoch": 196.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.0002929822845157567, "loss": 0.387, "step": 147080 }, { "epoch": 196.12, "grad_norm": 0.3984375, "learning_rate": 0.0002929813344879719, "loss": 0.3911, "step": 147090 }, { "epoch": 196.13333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002929803843974267, "loss": 0.3826, "step": 147100 }, { "epoch": 196.14666666666668, "grad_norm": 0.458984375, "learning_rate": 0.00029297943424412136, "loss": 0.4013, "step": 147110 }, { "epoch": 196.16, "grad_norm": 0.345703125, "learning_rate": 0.00029297848402805646, "loss": 0.3953, "step": 147120 }, { "epoch": 196.17333333333335, "grad_norm": 0.404296875, "learning_rate": 0.0002929775337492323, "loss": 0.3902, "step": 147130 }, { "epoch": 196.18666666666667, "grad_norm": 0.4296875, "learning_rate": 0.00029297658340764936, "loss": 0.3886, "step": 147140 }, { "epoch": 196.2, "grad_norm": 0.419921875, "learning_rate": 0.00029297563300330803, "loss": 0.3819, "step": 147150 }, { "epoch": 196.21333333333334, "grad_norm": 0.396484375, "learning_rate": 0.00029297468253620875, "loss": 0.3821, "step": 147160 }, { "epoch": 196.22666666666666, "grad_norm": 0.47265625, "learning_rate": 0.0002929737320063519, "loss": 0.393, "step": 147170 }, { "epoch": 196.24, "grad_norm": 0.451171875, "learning_rate": 0.00029297278141373793, "loss": 0.3786, "step": 147180 }, { "epoch": 196.25333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029297183075836726, "loss": 0.3803, "step": 147190 }, { "epoch": 196.26666666666668, "grad_norm": 0.416015625, "learning_rate": 0.0002929708800402403, "loss": 0.3836, "step": 147200 }, { "epoch": 196.28, "grad_norm": 0.396484375, "learning_rate": 0.00029296992925935747, "loss": 0.4123, "step": 147210 }, { "epoch": 196.29333333333332, "grad_norm": 0.412109375, "learning_rate": 0.00029296897841571916, "loss": 0.3698, "step": 147220 }, { "epoch": 196.30666666666667, "grad_norm": 0.40625, "learning_rate": 0.0002929680275093258, "loss": 0.3929, "step": 147230 }, { "epoch": 196.32, "grad_norm": 0.380859375, "learning_rate": 0.0002929670765401779, "loss": 0.3957, "step": 147240 }, { "epoch": 196.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002929661255082757, "loss": 0.3981, "step": 147250 }, { "epoch": 196.34666666666666, "grad_norm": 0.5, "learning_rate": 0.00029296517441361973, "loss": 0.3884, "step": 147260 }, { "epoch": 196.36, "grad_norm": 0.453125, "learning_rate": 0.00029296422325621034, "loss": 0.3884, "step": 147270 }, { "epoch": 196.37333333333333, "grad_norm": 0.341796875, "learning_rate": 0.00029296327203604813, "loss": 0.3909, "step": 147280 }, { "epoch": 196.38666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002929623207531333, "loss": 0.3823, "step": 147290 }, { "epoch": 196.4, "grad_norm": 0.38671875, "learning_rate": 0.0002929613694074663, "loss": 0.3898, "step": 147300 }, { "epoch": 196.41333333333333, "grad_norm": 0.390625, "learning_rate": 0.0002929604179990477, "loss": 0.3947, "step": 147310 }, { "epoch": 196.42666666666668, "grad_norm": 0.365234375, "learning_rate": 0.00029295946652787777, "loss": 0.3958, "step": 147320 }, { "epoch": 196.44, "grad_norm": 0.39453125, "learning_rate": 0.000292958514993957, "loss": 0.4074, "step": 147330 }, { "epoch": 196.45333333333335, "grad_norm": 0.41796875, "learning_rate": 0.00029295756339728574, "loss": 0.3952, "step": 147340 }, { "epoch": 196.46666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002929566117378645, "loss": 0.4044, "step": 147350 }, { "epoch": 196.48, "grad_norm": 0.412109375, "learning_rate": 0.0002929556600156936, "loss": 0.3852, "step": 147360 }, { "epoch": 196.49333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002929547082307735, "loss": 0.3976, "step": 147370 }, { "epoch": 196.50666666666666, "grad_norm": 0.3828125, "learning_rate": 0.0002929537563831047, "loss": 0.398, "step": 147380 }, { "epoch": 196.52, "grad_norm": 0.33203125, "learning_rate": 0.00029295280447268744, "loss": 0.3865, "step": 147390 }, { "epoch": 196.53333333333333, "grad_norm": 0.412109375, "learning_rate": 0.00029295185249952226, "loss": 0.39, "step": 147400 }, { "epoch": 196.54666666666665, "grad_norm": 0.50390625, "learning_rate": 0.0002929509004636096, "loss": 0.3911, "step": 147410 }, { "epoch": 196.56, "grad_norm": 0.419921875, "learning_rate": 0.0002929499483649498, "loss": 0.3857, "step": 147420 }, { "epoch": 196.57333333333332, "grad_norm": 0.41796875, "learning_rate": 0.00029294899620354334, "loss": 0.39, "step": 147430 }, { "epoch": 196.58666666666667, "grad_norm": 0.388671875, "learning_rate": 0.0002929480439793906, "loss": 0.3792, "step": 147440 }, { "epoch": 196.6, "grad_norm": 0.412109375, "learning_rate": 0.000292947091692492, "loss": 0.3799, "step": 147450 }, { "epoch": 196.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029294613934284795, "loss": 0.3711, "step": 147460 }, { "epoch": 196.62666666666667, "grad_norm": 0.341796875, "learning_rate": 0.00029294518693045887, "loss": 0.3756, "step": 147470 }, { "epoch": 196.64, "grad_norm": 0.43359375, "learning_rate": 0.0002929442344553253, "loss": 0.3867, "step": 147480 }, { "epoch": 196.65333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029294328191744744, "loss": 0.3968, "step": 147490 }, { "epoch": 196.66666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029294232931682585, "loss": 0.3844, "step": 147500 }, { "epoch": 196.68, "grad_norm": 0.38671875, "learning_rate": 0.00029294137665346093, "loss": 0.3764, "step": 147510 }, { "epoch": 196.69333333333333, "grad_norm": 0.365234375, "learning_rate": 0.000292940423927353, "loss": 0.3857, "step": 147520 }, { "epoch": 196.70666666666668, "grad_norm": 0.458984375, "learning_rate": 0.0002929394711385027, "loss": 0.3775, "step": 147530 }, { "epoch": 196.72, "grad_norm": 0.42578125, "learning_rate": 0.0002929385182869102, "loss": 0.4, "step": 147540 }, { "epoch": 196.73333333333332, "grad_norm": 0.423828125, "learning_rate": 0.00029293756537257607, "loss": 0.395, "step": 147550 }, { "epoch": 196.74666666666667, "grad_norm": 0.34375, "learning_rate": 0.0002929366123955007, "loss": 0.3967, "step": 147560 }, { "epoch": 196.76, "grad_norm": 0.4453125, "learning_rate": 0.0002929356593556845, "loss": 0.4105, "step": 147570 }, { "epoch": 196.77333333333334, "grad_norm": 0.48046875, "learning_rate": 0.0002929347062531279, "loss": 0.3966, "step": 147580 }, { "epoch": 196.78666666666666, "grad_norm": 0.41015625, "learning_rate": 0.0002929337530878313, "loss": 0.3973, "step": 147590 }, { "epoch": 196.8, "grad_norm": 0.43359375, "learning_rate": 0.000292932799859795, "loss": 0.3956, "step": 147600 }, { "epoch": 196.81333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029293184656901966, "loss": 0.3691, "step": 147610 }, { "epoch": 196.82666666666665, "grad_norm": 0.435546875, "learning_rate": 0.0002929308932155056, "loss": 0.3784, "step": 147620 }, { "epoch": 196.84, "grad_norm": 0.4296875, "learning_rate": 0.0002929299397992531, "loss": 0.3906, "step": 147630 }, { "epoch": 196.85333333333332, "grad_norm": 0.435546875, "learning_rate": 0.0002929289863202628, "loss": 0.3852, "step": 147640 }, { "epoch": 196.86666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029292803277853496, "loss": 0.3905, "step": 147650 }, { "epoch": 196.88, "grad_norm": 0.388671875, "learning_rate": 0.0002929270791740701, "loss": 0.3713, "step": 147660 }, { "epoch": 196.89333333333335, "grad_norm": 0.365234375, "learning_rate": 0.0002929261255068685, "loss": 0.3834, "step": 147670 }, { "epoch": 196.90666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002929251717769307, "loss": 0.3899, "step": 147680 }, { "epoch": 196.92, "grad_norm": 0.40625, "learning_rate": 0.0002929242179842572, "loss": 0.3905, "step": 147690 }, { "epoch": 196.93333333333334, "grad_norm": 0.427734375, "learning_rate": 0.0002929232641288482, "loss": 0.3851, "step": 147700 }, { "epoch": 196.94666666666666, "grad_norm": 0.48046875, "learning_rate": 0.0002929223102107042, "loss": 0.3863, "step": 147710 }, { "epoch": 196.96, "grad_norm": 0.376953125, "learning_rate": 0.0002929213562298257, "loss": 0.3837, "step": 147720 }, { "epoch": 196.97333333333333, "grad_norm": 0.51171875, "learning_rate": 0.00029292040218621305, "loss": 0.4084, "step": 147730 }, { "epoch": 196.98666666666668, "grad_norm": 0.4140625, "learning_rate": 0.0002929194480798667, "loss": 0.381, "step": 147740 }, { "epoch": 197.0, "grad_norm": 0.41015625, "learning_rate": 0.00029291849391078703, "loss": 0.3777, "step": 147750 }, { "epoch": 197.0, "eval_loss": 0.42557817697525024, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.8655, "eval_samples_per_second": 1.622, "eval_steps_per_second": 0.101, "step": 147750 }, { "epoch": 197.01333333333332, "grad_norm": 0.41015625, "learning_rate": 0.00029291753967897443, "loss": 0.3952, "step": 147760 }, { "epoch": 197.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.00029291658538442946, "loss": 0.4086, "step": 147770 }, { "epoch": 197.04, "grad_norm": 0.349609375, "learning_rate": 0.0002929156310271524, "loss": 0.4214, "step": 147780 }, { "epoch": 197.05333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002929146766071437, "loss": 0.4065, "step": 147790 }, { "epoch": 197.06666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002929137221244038, "loss": 0.3934, "step": 147800 }, { "epoch": 197.08, "grad_norm": 0.453125, "learning_rate": 0.00029291276757893313, "loss": 0.3973, "step": 147810 }, { "epoch": 197.09333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002929118129707321, "loss": 0.3991, "step": 147820 }, { "epoch": 197.10666666666665, "grad_norm": 0.384765625, "learning_rate": 0.0002929108582998011, "loss": 0.3864, "step": 147830 }, { "epoch": 197.12, "grad_norm": 0.400390625, "learning_rate": 0.0002929099035661406, "loss": 0.3915, "step": 147840 }, { "epoch": 197.13333333333333, "grad_norm": 0.408203125, "learning_rate": 0.0002929089487697509, "loss": 0.382, "step": 147850 }, { "epoch": 197.14666666666668, "grad_norm": 0.443359375, "learning_rate": 0.0002929079939106326, "loss": 0.4011, "step": 147860 }, { "epoch": 197.16, "grad_norm": 0.37890625, "learning_rate": 0.000292907038988786, "loss": 0.3957, "step": 147870 }, { "epoch": 197.17333333333335, "grad_norm": 0.40234375, "learning_rate": 0.0002929060840042115, "loss": 0.3903, "step": 147880 }, { "epoch": 197.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002929051289569097, "loss": 0.3874, "step": 147890 }, { "epoch": 197.2, "grad_norm": 0.427734375, "learning_rate": 0.00029290417384688077, "loss": 0.38, "step": 147900 }, { "epoch": 197.21333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029290321867412526, "loss": 0.3823, "step": 147910 }, { "epoch": 197.22666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002929022634386436, "loss": 0.3937, "step": 147920 }, { "epoch": 197.24, "grad_norm": 0.45703125, "learning_rate": 0.00029290130814043616, "loss": 0.3787, "step": 147930 }, { "epoch": 197.25333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002929003527795034, "loss": 0.3806, "step": 147940 }, { "epoch": 197.26666666666668, "grad_norm": 0.453125, "learning_rate": 0.0002928993973558457, "loss": 0.3826, "step": 147950 }, { "epoch": 197.28, "grad_norm": 0.396484375, "learning_rate": 0.0002928984418694635, "loss": 0.4136, "step": 147960 }, { "epoch": 197.29333333333332, "grad_norm": 0.40625, "learning_rate": 0.0002928974863203573, "loss": 0.3692, "step": 147970 }, { "epoch": 197.30666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002928965307085273, "loss": 0.3927, "step": 147980 }, { "epoch": 197.32, "grad_norm": 0.341796875, "learning_rate": 0.00029289557503397415, "loss": 0.3956, "step": 147990 }, { "epoch": 197.33333333333334, "grad_norm": 0.443359375, "learning_rate": 0.00029289461929669816, "loss": 0.3971, "step": 148000 }, { "epoch": 197.34666666666666, "grad_norm": 0.474609375, "learning_rate": 0.00029289366349669976, "loss": 0.3887, "step": 148010 }, { "epoch": 197.36, "grad_norm": 0.46875, "learning_rate": 0.0002928927076339794, "loss": 0.3881, "step": 148020 }, { "epoch": 197.37333333333333, "grad_norm": 0.3515625, "learning_rate": 0.00029289175170853747, "loss": 0.3908, "step": 148030 }, { "epoch": 197.38666666666666, "grad_norm": 0.443359375, "learning_rate": 0.0002928907957203744, "loss": 0.3821, "step": 148040 }, { "epoch": 197.4, "grad_norm": 0.416015625, "learning_rate": 0.0002928898396694906, "loss": 0.3903, "step": 148050 }, { "epoch": 197.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002928888835558865, "loss": 0.3938, "step": 148060 }, { "epoch": 197.42666666666668, "grad_norm": 0.375, "learning_rate": 0.0002928879273795625, "loss": 0.3957, "step": 148070 }, { "epoch": 197.44, "grad_norm": 0.423828125, "learning_rate": 0.00029288697114051904, "loss": 0.4071, "step": 148080 }, { "epoch": 197.45333333333335, "grad_norm": 0.458984375, "learning_rate": 0.00029288601483875654, "loss": 0.3965, "step": 148090 }, { "epoch": 197.46666666666667, "grad_norm": 0.4296875, "learning_rate": 0.0002928850584742754, "loss": 0.4042, "step": 148100 }, { "epoch": 197.48, "grad_norm": 0.390625, "learning_rate": 0.00029288410204707607, "loss": 0.3862, "step": 148110 }, { "epoch": 197.49333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029288314555715896, "loss": 0.3975, "step": 148120 }, { "epoch": 197.50666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002928821890045245, "loss": 0.3959, "step": 148130 }, { "epoch": 197.52, "grad_norm": 0.375, "learning_rate": 0.00029288123238917305, "loss": 0.3866, "step": 148140 }, { "epoch": 197.53333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002928802757111051, "loss": 0.3902, "step": 148150 }, { "epoch": 197.54666666666665, "grad_norm": 0.4375, "learning_rate": 0.00029287931897032103, "loss": 0.3918, "step": 148160 }, { "epoch": 197.56, "grad_norm": 0.3828125, "learning_rate": 0.00029287836216682127, "loss": 0.3855, "step": 148170 }, { "epoch": 197.57333333333332, "grad_norm": 0.412109375, "learning_rate": 0.00029287740530060626, "loss": 0.3898, "step": 148180 }, { "epoch": 197.58666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0002928764483716764, "loss": 0.3785, "step": 148190 }, { "epoch": 197.6, "grad_norm": 0.40234375, "learning_rate": 0.0002928754913800321, "loss": 0.3807, "step": 148200 }, { "epoch": 197.61333333333334, "grad_norm": 0.5, "learning_rate": 0.0002928745343256738, "loss": 0.3703, "step": 148210 }, { "epoch": 197.62666666666667, "grad_norm": 0.34765625, "learning_rate": 0.00029287357720860196, "loss": 0.3761, "step": 148220 }, { "epoch": 197.64, "grad_norm": 0.4296875, "learning_rate": 0.00029287262002881693, "loss": 0.3872, "step": 148230 }, { "epoch": 197.65333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029287166278631915, "loss": 0.3956, "step": 148240 }, { "epoch": 197.66666666666666, "grad_norm": 0.408203125, "learning_rate": 0.000292870705481109, "loss": 0.3858, "step": 148250 }, { "epoch": 197.68, "grad_norm": 0.404296875, "learning_rate": 0.00029286974811318703, "loss": 0.3763, "step": 148260 }, { "epoch": 197.69333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0002928687906825535, "loss": 0.3854, "step": 148270 }, { "epoch": 197.70666666666668, "grad_norm": 0.490234375, "learning_rate": 0.00029286783318920896, "loss": 0.3785, "step": 148280 }, { "epoch": 197.72, "grad_norm": 0.419921875, "learning_rate": 0.00029286687563315374, "loss": 0.4002, "step": 148290 }, { "epoch": 197.73333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002928659180143883, "loss": 0.3944, "step": 148300 }, { "epoch": 197.74666666666667, "grad_norm": 0.36328125, "learning_rate": 0.00029286496033291307, "loss": 0.3969, "step": 148310 }, { "epoch": 197.76, "grad_norm": 0.412109375, "learning_rate": 0.00029286400258872843, "loss": 0.4101, "step": 148320 }, { "epoch": 197.77333333333334, "grad_norm": 0.462890625, "learning_rate": 0.00029286304478183485, "loss": 0.3957, "step": 148330 }, { "epoch": 197.78666666666666, "grad_norm": 0.34765625, "learning_rate": 0.00029286208691223274, "loss": 0.397, "step": 148340 }, { "epoch": 197.8, "grad_norm": 0.40625, "learning_rate": 0.0002928611289799225, "loss": 0.3948, "step": 148350 }, { "epoch": 197.81333333333333, "grad_norm": 0.470703125, "learning_rate": 0.00029286017098490455, "loss": 0.369, "step": 148360 }, { "epoch": 197.82666666666665, "grad_norm": 0.44140625, "learning_rate": 0.00029285921292717933, "loss": 0.3783, "step": 148370 }, { "epoch": 197.84, "grad_norm": 0.46875, "learning_rate": 0.00029285825480674716, "loss": 0.3899, "step": 148380 }, { "epoch": 197.85333333333332, "grad_norm": 0.439453125, "learning_rate": 0.0002928572966236087, "loss": 0.3857, "step": 148390 }, { "epoch": 197.86666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029285633837776415, "loss": 0.3906, "step": 148400 }, { "epoch": 197.88, "grad_norm": 0.400390625, "learning_rate": 0.00029285538006921396, "loss": 0.3716, "step": 148410 }, { "epoch": 197.89333333333335, "grad_norm": 0.380859375, "learning_rate": 0.0002928544216979586, "loss": 0.3836, "step": 148420 }, { "epoch": 197.90666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029285346326399854, "loss": 0.3887, "step": 148430 }, { "epoch": 197.92, "grad_norm": 0.423828125, "learning_rate": 0.0002928525047673341, "loss": 0.3915, "step": 148440 }, { "epoch": 197.93333333333334, "grad_norm": 0.353515625, "learning_rate": 0.0002928515462079658, "loss": 0.3856, "step": 148450 }, { "epoch": 197.94666666666666, "grad_norm": 0.451171875, "learning_rate": 0.000292850587585894, "loss": 0.3865, "step": 148460 }, { "epoch": 197.96, "grad_norm": 0.390625, "learning_rate": 0.0002928496289011191, "loss": 0.3843, "step": 148470 }, { "epoch": 197.97333333333333, "grad_norm": 0.53515625, "learning_rate": 0.0002928486701536415, "loss": 0.4086, "step": 148480 }, { "epoch": 197.98666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029284771134346167, "loss": 0.3808, "step": 148490 }, { "epoch": 198.0, "grad_norm": 0.388671875, "learning_rate": 0.0002928467524705801, "loss": 0.3771, "step": 148500 }, { "epoch": 198.0, "eval_loss": 0.4270714521408081, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7369, "eval_samples_per_second": 1.643, "eval_steps_per_second": 0.103, "step": 148500 }, { "epoch": 198.01333333333332, "grad_norm": 0.447265625, "learning_rate": 0.0002928457935349971, "loss": 0.3954, "step": 148510 }, { "epoch": 198.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002928448345367131, "loss": 0.4083, "step": 148520 }, { "epoch": 198.04, "grad_norm": 0.392578125, "learning_rate": 0.0002928438754757286, "loss": 0.4222, "step": 148530 }, { "epoch": 198.05333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029284291635204397, "loss": 0.4066, "step": 148540 }, { "epoch": 198.06666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002928419571656596, "loss": 0.3941, "step": 148550 }, { "epoch": 198.08, "grad_norm": 0.44140625, "learning_rate": 0.0002928409979165759, "loss": 0.3969, "step": 148560 }, { "epoch": 198.09333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029284003860479346, "loss": 0.3987, "step": 148570 }, { "epoch": 198.10666666666665, "grad_norm": 0.39453125, "learning_rate": 0.0002928390792303125, "loss": 0.3869, "step": 148580 }, { "epoch": 198.12, "grad_norm": 0.400390625, "learning_rate": 0.00029283811979313355, "loss": 0.3911, "step": 148590 }, { "epoch": 198.13333333333333, "grad_norm": 0.3984375, "learning_rate": 0.00029283716029325697, "loss": 0.3823, "step": 148600 }, { "epoch": 198.14666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002928362007306832, "loss": 0.4015, "step": 148610 }, { "epoch": 198.16, "grad_norm": 0.375, "learning_rate": 0.0002928352411054127, "loss": 0.3952, "step": 148620 }, { "epoch": 198.17333333333335, "grad_norm": 0.3984375, "learning_rate": 0.00029283428141744583, "loss": 0.3902, "step": 148630 }, { "epoch": 198.18666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029283332166678305, "loss": 0.3876, "step": 148640 }, { "epoch": 198.2, "grad_norm": 0.39453125, "learning_rate": 0.0002928323618534248, "loss": 0.3797, "step": 148650 }, { "epoch": 198.21333333333334, "grad_norm": 0.3828125, "learning_rate": 0.00029283140197737144, "loss": 0.3821, "step": 148660 }, { "epoch": 198.22666666666666, "grad_norm": 0.439453125, "learning_rate": 0.0002928304420386235, "loss": 0.3933, "step": 148670 }, { "epoch": 198.24, "grad_norm": 0.455078125, "learning_rate": 0.0002928294820371812, "loss": 0.3788, "step": 148680 }, { "epoch": 198.25333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002928285219730452, "loss": 0.3815, "step": 148690 }, { "epoch": 198.26666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029282756184621577, "loss": 0.3826, "step": 148700 }, { "epoch": 198.28, "grad_norm": 0.3984375, "learning_rate": 0.0002928266016566934, "loss": 0.4127, "step": 148710 }, { "epoch": 198.29333333333332, "grad_norm": 0.439453125, "learning_rate": 0.00029282564140447844, "loss": 0.3693, "step": 148720 }, { "epoch": 198.30666666666667, "grad_norm": 0.453125, "learning_rate": 0.0002928246810895714, "loss": 0.3925, "step": 148730 }, { "epoch": 198.32, "grad_norm": 0.353515625, "learning_rate": 0.00029282372071197263, "loss": 0.3948, "step": 148740 }, { "epoch": 198.33333333333334, "grad_norm": 0.431640625, "learning_rate": 0.00029282276027168256, "loss": 0.3981, "step": 148750 }, { "epoch": 198.34666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029282179976870164, "loss": 0.388, "step": 148760 }, { "epoch": 198.36, "grad_norm": 0.431640625, "learning_rate": 0.0002928208392030303, "loss": 0.3885, "step": 148770 }, { "epoch": 198.37333333333333, "grad_norm": 0.369140625, "learning_rate": 0.00029281987857466895, "loss": 0.3901, "step": 148780 }, { "epoch": 198.38666666666666, "grad_norm": 0.44921875, "learning_rate": 0.000292818917883618, "loss": 0.3817, "step": 148790 }, { "epoch": 198.4, "grad_norm": 0.396484375, "learning_rate": 0.0002928179571298778, "loss": 0.3889, "step": 148800 }, { "epoch": 198.41333333333333, "grad_norm": 0.375, "learning_rate": 0.00029281699631344895, "loss": 0.3942, "step": 148810 }, { "epoch": 198.42666666666668, "grad_norm": 0.40625, "learning_rate": 0.00029281603543433173, "loss": 0.3966, "step": 148820 }, { "epoch": 198.44, "grad_norm": 0.4140625, "learning_rate": 0.0002928150744925266, "loss": 0.407, "step": 148830 }, { "epoch": 198.45333333333335, "grad_norm": 0.54296875, "learning_rate": 0.00029281411348803404, "loss": 0.3957, "step": 148840 }, { "epoch": 198.46666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029281315242085437, "loss": 0.4045, "step": 148850 }, { "epoch": 198.48, "grad_norm": 0.4140625, "learning_rate": 0.00029281219129098803, "loss": 0.3871, "step": 148860 }, { "epoch": 198.49333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002928112300984355, "loss": 0.3979, "step": 148870 }, { "epoch": 198.50666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029281026884319717, "loss": 0.3968, "step": 148880 }, { "epoch": 198.52, "grad_norm": 0.40625, "learning_rate": 0.00029280930752527347, "loss": 0.3865, "step": 148890 }, { "epoch": 198.53333333333333, "grad_norm": 0.455078125, "learning_rate": 0.0002928083461446648, "loss": 0.3893, "step": 148900 }, { "epoch": 198.54666666666665, "grad_norm": 0.4140625, "learning_rate": 0.0002928073847013716, "loss": 0.3912, "step": 148910 }, { "epoch": 198.56, "grad_norm": 0.375, "learning_rate": 0.00029280642319539426, "loss": 0.386, "step": 148920 }, { "epoch": 198.57333333333332, "grad_norm": 0.427734375, "learning_rate": 0.0002928054616267333, "loss": 0.3893, "step": 148930 }, { "epoch": 198.58666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029280449999538903, "loss": 0.3789, "step": 148940 }, { "epoch": 198.6, "grad_norm": 0.390625, "learning_rate": 0.0002928035383013619, "loss": 0.3791, "step": 148950 }, { "epoch": 198.61333333333334, "grad_norm": 0.33984375, "learning_rate": 0.00029280257654465234, "loss": 0.3698, "step": 148960 }, { "epoch": 198.62666666666667, "grad_norm": 0.33984375, "learning_rate": 0.00029280161472526085, "loss": 0.3762, "step": 148970 }, { "epoch": 198.64, "grad_norm": 0.447265625, "learning_rate": 0.00029280065284318773, "loss": 0.3868, "step": 148980 }, { "epoch": 198.65333333333334, "grad_norm": 0.380859375, "learning_rate": 0.00029279969089843346, "loss": 0.3968, "step": 148990 }, { "epoch": 198.66666666666666, "grad_norm": 0.373046875, "learning_rate": 0.00029279872889099843, "loss": 0.3847, "step": 149000 }, { "epoch": 198.68, "grad_norm": 0.39453125, "learning_rate": 0.0002927977668208831, "loss": 0.3755, "step": 149010 }, { "epoch": 198.69333333333333, "grad_norm": 0.376953125, "learning_rate": 0.0002927968046880879, "loss": 0.3859, "step": 149020 }, { "epoch": 198.70666666666668, "grad_norm": 0.462890625, "learning_rate": 0.00029279584249261326, "loss": 0.3778, "step": 149030 }, { "epoch": 198.72, "grad_norm": 0.390625, "learning_rate": 0.00029279488023445957, "loss": 0.4001, "step": 149040 }, { "epoch": 198.73333333333332, "grad_norm": 0.380859375, "learning_rate": 0.00029279391791362723, "loss": 0.3945, "step": 149050 }, { "epoch": 198.74666666666667, "grad_norm": 0.361328125, "learning_rate": 0.00029279295553011667, "loss": 0.3969, "step": 149060 }, { "epoch": 198.76, "grad_norm": 0.427734375, "learning_rate": 0.0002927919930839284, "loss": 0.4091, "step": 149070 }, { "epoch": 198.77333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0002927910305750627, "loss": 0.3962, "step": 149080 }, { "epoch": 198.78666666666666, "grad_norm": 0.40625, "learning_rate": 0.0002927900680035201, "loss": 0.3974, "step": 149090 }, { "epoch": 198.8, "grad_norm": 0.423828125, "learning_rate": 0.00029278910536930096, "loss": 0.3955, "step": 149100 }, { "epoch": 198.81333333333333, "grad_norm": 0.50390625, "learning_rate": 0.0002927881426724058, "loss": 0.3684, "step": 149110 }, { "epoch": 198.82666666666665, "grad_norm": 0.42578125, "learning_rate": 0.00029278717991283493, "loss": 0.3774, "step": 149120 }, { "epoch": 198.84, "grad_norm": 0.44140625, "learning_rate": 0.0002927862170905888, "loss": 0.39, "step": 149130 }, { "epoch": 198.85333333333332, "grad_norm": 0.4296875, "learning_rate": 0.00029278525420566785, "loss": 0.3857, "step": 149140 }, { "epoch": 198.86666666666667, "grad_norm": 0.419921875, "learning_rate": 0.00029278429125807255, "loss": 0.39, "step": 149150 }, { "epoch": 198.88, "grad_norm": 0.400390625, "learning_rate": 0.00029278332824780325, "loss": 0.371, "step": 149160 }, { "epoch": 198.89333333333335, "grad_norm": 0.412109375, "learning_rate": 0.0002927823651748604, "loss": 0.3827, "step": 149170 }, { "epoch": 198.90666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002927814020392444, "loss": 0.3891, "step": 149180 }, { "epoch": 198.92, "grad_norm": 0.423828125, "learning_rate": 0.00029278043884095573, "loss": 0.3915, "step": 149190 }, { "epoch": 198.93333333333334, "grad_norm": 0.4296875, "learning_rate": 0.0002927794755799948, "loss": 0.3855, "step": 149200 }, { "epoch": 198.94666666666666, "grad_norm": 0.4375, "learning_rate": 0.00029277851225636194, "loss": 0.3871, "step": 149210 }, { "epoch": 198.96, "grad_norm": 0.333984375, "learning_rate": 0.00029277754887005767, "loss": 0.3837, "step": 149220 }, { "epoch": 198.97333333333333, "grad_norm": 0.51171875, "learning_rate": 0.0002927765854210824, "loss": 0.4082, "step": 149230 }, { "epoch": 198.98666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002927756219094365, "loss": 0.3812, "step": 149240 }, { "epoch": 199.0, "grad_norm": 0.41796875, "learning_rate": 0.0002927746583351205, "loss": 0.3776, "step": 149250 }, { "epoch": 199.0, "eval_loss": 0.42438021302223206, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.0116, "eval_samples_per_second": 1.598, "eval_steps_per_second": 0.1, "step": 149250 }, { "epoch": 199.01333333333332, "grad_norm": 0.451171875, "learning_rate": 0.00029277369469813465, "loss": 0.3948, "step": 149260 }, { "epoch": 199.02666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002927727309984796, "loss": 0.4082, "step": 149270 }, { "epoch": 199.04, "grad_norm": 0.34765625, "learning_rate": 0.00029277176723615557, "loss": 0.4218, "step": 149280 }, { "epoch": 199.05333333333334, "grad_norm": 0.451171875, "learning_rate": 0.0002927708034111631, "loss": 0.4066, "step": 149290 }, { "epoch": 199.06666666666666, "grad_norm": 0.4453125, "learning_rate": 0.00029276983952350254, "loss": 0.3943, "step": 149300 }, { "epoch": 199.08, "grad_norm": 0.412109375, "learning_rate": 0.0002927688755731744, "loss": 0.3975, "step": 149310 }, { "epoch": 199.09333333333333, "grad_norm": 0.412109375, "learning_rate": 0.000292767911560179, "loss": 0.3994, "step": 149320 }, { "epoch": 199.10666666666665, "grad_norm": 0.44140625, "learning_rate": 0.0002927669474845168, "loss": 0.3868, "step": 149330 }, { "epoch": 199.12, "grad_norm": 0.421875, "learning_rate": 0.0002927659833461883, "loss": 0.3911, "step": 149340 }, { "epoch": 199.13333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029276501914519385, "loss": 0.3818, "step": 149350 }, { "epoch": 199.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.0002927640548815338, "loss": 0.401, "step": 149360 }, { "epoch": 199.16, "grad_norm": 0.376953125, "learning_rate": 0.0002927630905552088, "loss": 0.3949, "step": 149370 }, { "epoch": 199.17333333333335, "grad_norm": 0.470703125, "learning_rate": 0.00029276212616621903, "loss": 0.3895, "step": 149380 }, { "epoch": 199.18666666666667, "grad_norm": 0.458984375, "learning_rate": 0.0002927611617145651, "loss": 0.3887, "step": 149390 }, { "epoch": 199.2, "grad_norm": 0.40625, "learning_rate": 0.0002927601972002472, "loss": 0.3809, "step": 149400 }, { "epoch": 199.21333333333334, "grad_norm": 0.474609375, "learning_rate": 0.00029275923262326605, "loss": 0.382, "step": 149410 }, { "epoch": 199.22666666666666, "grad_norm": 0.44140625, "learning_rate": 0.00029275826798362184, "loss": 0.3931, "step": 149420 }, { "epoch": 199.24, "grad_norm": 0.431640625, "learning_rate": 0.00029275730328131514, "loss": 0.3784, "step": 149430 }, { "epoch": 199.25333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002927563385163463, "loss": 0.3801, "step": 149440 }, { "epoch": 199.26666666666668, "grad_norm": 0.400390625, "learning_rate": 0.0002927553736887157, "loss": 0.382, "step": 149450 }, { "epoch": 199.28, "grad_norm": 0.408203125, "learning_rate": 0.0002927544087984238, "loss": 0.4145, "step": 149460 }, { "epoch": 199.29333333333332, "grad_norm": 0.392578125, "learning_rate": 0.00029275344384547115, "loss": 0.3691, "step": 149470 }, { "epoch": 199.30666666666667, "grad_norm": 0.384765625, "learning_rate": 0.000292752478829858, "loss": 0.3922, "step": 149480 }, { "epoch": 199.32, "grad_norm": 0.357421875, "learning_rate": 0.00029275151375158484, "loss": 0.3944, "step": 149490 }, { "epoch": 199.33333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0002927505486106522, "loss": 0.3972, "step": 149500 }, { "epoch": 199.34666666666666, "grad_norm": 0.48828125, "learning_rate": 0.0002927495834070602, "loss": 0.3877, "step": 149510 }, { "epoch": 199.36, "grad_norm": 0.455078125, "learning_rate": 0.0002927486181408096, "loss": 0.3891, "step": 149520 }, { "epoch": 199.37333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002927476528119006, "loss": 0.3897, "step": 149530 }, { "epoch": 199.38666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0002927466874203338, "loss": 0.3818, "step": 149540 }, { "epoch": 199.4, "grad_norm": 0.376953125, "learning_rate": 0.0002927457219661095, "loss": 0.3897, "step": 149550 }, { "epoch": 199.41333333333333, "grad_norm": 0.419921875, "learning_rate": 0.00029274475644922813, "loss": 0.394, "step": 149560 }, { "epoch": 199.42666666666668, "grad_norm": 0.4296875, "learning_rate": 0.00029274379086969014, "loss": 0.3956, "step": 149570 }, { "epoch": 199.44, "grad_norm": 0.5078125, "learning_rate": 0.000292742825227496, "loss": 0.4077, "step": 149580 }, { "epoch": 199.45333333333335, "grad_norm": 0.46875, "learning_rate": 0.00029274185952264605, "loss": 0.3954, "step": 149590 }, { "epoch": 199.46666666666667, "grad_norm": 0.412109375, "learning_rate": 0.00029274089375514074, "loss": 0.4054, "step": 149600 }, { "epoch": 199.48, "grad_norm": 0.443359375, "learning_rate": 0.0002927399279249805, "loss": 0.3858, "step": 149610 }, { "epoch": 199.49333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029273896203216575, "loss": 0.3976, "step": 149620 }, { "epoch": 199.50666666666666, "grad_norm": 0.361328125, "learning_rate": 0.0002927379960766969, "loss": 0.3963, "step": 149630 }, { "epoch": 199.52, "grad_norm": 0.341796875, "learning_rate": 0.0002927370300585745, "loss": 0.3867, "step": 149640 }, { "epoch": 199.53333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002927360639777988, "loss": 0.3905, "step": 149650 }, { "epoch": 199.54666666666665, "grad_norm": 0.451171875, "learning_rate": 0.00029273509783437035, "loss": 0.3919, "step": 149660 }, { "epoch": 199.56, "grad_norm": 0.380859375, "learning_rate": 0.0002927341316282895, "loss": 0.3855, "step": 149670 }, { "epoch": 199.57333333333332, "grad_norm": 0.419921875, "learning_rate": 0.00029273316535955666, "loss": 0.3894, "step": 149680 }, { "epoch": 199.58666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0002927321990281723, "loss": 0.3784, "step": 149690 }, { "epoch": 199.6, "grad_norm": 0.412109375, "learning_rate": 0.0002927312326341368, "loss": 0.3793, "step": 149700 }, { "epoch": 199.61333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029273026617745063, "loss": 0.3702, "step": 149710 }, { "epoch": 199.62666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002927292996581142, "loss": 0.376, "step": 149720 }, { "epoch": 199.64, "grad_norm": 0.40625, "learning_rate": 0.00029272833307612795, "loss": 0.3874, "step": 149730 }, { "epoch": 199.65333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002927273664314923, "loss": 0.3965, "step": 149740 }, { "epoch": 199.66666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029272639972420766, "loss": 0.3845, "step": 149750 }, { "epoch": 199.68, "grad_norm": 0.421875, "learning_rate": 0.00029272543295427446, "loss": 0.3757, "step": 149760 }, { "epoch": 199.69333333333333, "grad_norm": 0.439453125, "learning_rate": 0.00029272446612169307, "loss": 0.3867, "step": 149770 }, { "epoch": 199.70666666666668, "grad_norm": 0.431640625, "learning_rate": 0.000292723499226464, "loss": 0.378, "step": 149780 }, { "epoch": 199.72, "grad_norm": 0.392578125, "learning_rate": 0.00029272253226858764, "loss": 0.4004, "step": 149790 }, { "epoch": 199.73333333333332, "grad_norm": 0.404296875, "learning_rate": 0.0002927215652480644, "loss": 0.3941, "step": 149800 }, { "epoch": 199.74666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029272059816489473, "loss": 0.396, "step": 149810 }, { "epoch": 199.76, "grad_norm": 0.3984375, "learning_rate": 0.00029271963101907904, "loss": 0.4111, "step": 149820 }, { "epoch": 199.77333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002927186638106178, "loss": 0.3962, "step": 149830 }, { "epoch": 199.78666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029271769653951135, "loss": 0.3972, "step": 149840 }, { "epoch": 199.8, "grad_norm": 0.416015625, "learning_rate": 0.00029271672920576017, "loss": 0.3949, "step": 149850 }, { "epoch": 199.81333333333333, "grad_norm": 0.46875, "learning_rate": 0.00029271576180936465, "loss": 0.3686, "step": 149860 }, { "epoch": 199.82666666666665, "grad_norm": 0.427734375, "learning_rate": 0.0002927147943503253, "loss": 0.3783, "step": 149870 }, { "epoch": 199.84, "grad_norm": 0.458984375, "learning_rate": 0.0002927138268286424, "loss": 0.3901, "step": 149880 }, { "epoch": 199.85333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029271285924431647, "loss": 0.3856, "step": 149890 }, { "epoch": 199.86666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029271189159734795, "loss": 0.3902, "step": 149900 }, { "epoch": 199.88, "grad_norm": 0.3671875, "learning_rate": 0.0002927109238877372, "loss": 0.3712, "step": 149910 }, { "epoch": 199.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.0002927099561154847, "loss": 0.3834, "step": 149920 }, { "epoch": 199.90666666666667, "grad_norm": 0.43359375, "learning_rate": 0.00029270898828059086, "loss": 0.3894, "step": 149930 }, { "epoch": 199.92, "grad_norm": 0.431640625, "learning_rate": 0.00029270802038305606, "loss": 0.3905, "step": 149940 }, { "epoch": 199.93333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0002927070524228809, "loss": 0.3851, "step": 149950 }, { "epoch": 199.94666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0002927060844000655, "loss": 0.3855, "step": 149960 }, { "epoch": 199.96, "grad_norm": 0.3828125, "learning_rate": 0.00029270511631461054, "loss": 0.3836, "step": 149970 }, { "epoch": 199.97333333333333, "grad_norm": 0.515625, "learning_rate": 0.00029270414816651635, "loss": 0.4081, "step": 149980 }, { "epoch": 199.98666666666668, "grad_norm": 0.44921875, "learning_rate": 0.00029270317995578335, "loss": 0.3818, "step": 149990 }, { "epoch": 200.0, "grad_norm": 0.388671875, "learning_rate": 0.000292702211682412, "loss": 0.3767, "step": 150000 }, { "epoch": 200.0, "eval_loss": 0.4261203110218048, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6055, "eval_samples_per_second": 1.666, "eval_steps_per_second": 0.104, "step": 150000 }, { "epoch": 200.01333333333332, "grad_norm": 0.427734375, "learning_rate": 0.00029270124334640263, "loss": 0.3953, "step": 150010 }, { "epoch": 200.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002927002749477558, "loss": 0.4079, "step": 150020 }, { "epoch": 200.04, "grad_norm": 0.412109375, "learning_rate": 0.0002926993064864719, "loss": 0.4213, "step": 150030 }, { "epoch": 200.05333333333334, "grad_norm": 0.439453125, "learning_rate": 0.0002926983379625513, "loss": 0.4073, "step": 150040 }, { "epoch": 200.06666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029269736937599444, "loss": 0.3951, "step": 150050 }, { "epoch": 200.08, "grad_norm": 0.416015625, "learning_rate": 0.00029269640072680173, "loss": 0.3967, "step": 150060 }, { "epoch": 200.09333333333333, "grad_norm": 0.4140625, "learning_rate": 0.0002926954320149737, "loss": 0.3989, "step": 150070 }, { "epoch": 200.10666666666665, "grad_norm": 0.390625, "learning_rate": 0.0002926944632405107, "loss": 0.3871, "step": 150080 }, { "epoch": 200.12, "grad_norm": 0.4453125, "learning_rate": 0.00029269349440341313, "loss": 0.3908, "step": 150090 }, { "epoch": 200.13333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002926925255036814, "loss": 0.3826, "step": 150100 }, { "epoch": 200.14666666666668, "grad_norm": 0.40234375, "learning_rate": 0.000292691556541316, "loss": 0.4019, "step": 150110 }, { "epoch": 200.16, "grad_norm": 0.375, "learning_rate": 0.00029269058751631735, "loss": 0.3953, "step": 150120 }, { "epoch": 200.17333333333335, "grad_norm": 0.419921875, "learning_rate": 0.0002926896184286858, "loss": 0.3901, "step": 150130 }, { "epoch": 200.18666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002926886492784219, "loss": 0.3883, "step": 150140 }, { "epoch": 200.2, "grad_norm": 0.443359375, "learning_rate": 0.000292687680065526, "loss": 0.3805, "step": 150150 }, { "epoch": 200.21333333333334, "grad_norm": 0.408203125, "learning_rate": 0.00029268671078999854, "loss": 0.3815, "step": 150160 }, { "epoch": 200.22666666666666, "grad_norm": 0.427734375, "learning_rate": 0.00029268574145183986, "loss": 0.3934, "step": 150170 }, { "epoch": 200.24, "grad_norm": 0.41796875, "learning_rate": 0.00029268477205105056, "loss": 0.3783, "step": 150180 }, { "epoch": 200.25333333333333, "grad_norm": 0.443359375, "learning_rate": 0.0002926838025876309, "loss": 0.3806, "step": 150190 }, { "epoch": 200.26666666666668, "grad_norm": 0.396484375, "learning_rate": 0.0002926828330615814, "loss": 0.3829, "step": 150200 }, { "epoch": 200.28, "grad_norm": 0.3984375, "learning_rate": 0.0002926818634729025, "loss": 0.4131, "step": 150210 }, { "epoch": 200.29333333333332, "grad_norm": 0.392578125, "learning_rate": 0.0002926808938215945, "loss": 0.3687, "step": 150220 }, { "epoch": 200.30666666666667, "grad_norm": 0.357421875, "learning_rate": 0.00029267992410765797, "loss": 0.393, "step": 150230 }, { "epoch": 200.32, "grad_norm": 0.392578125, "learning_rate": 0.00029267895433109325, "loss": 0.396, "step": 150240 }, { "epoch": 200.33333333333334, "grad_norm": 0.40625, "learning_rate": 0.00029267798449190085, "loss": 0.3978, "step": 150250 }, { "epoch": 200.34666666666666, "grad_norm": 0.486328125, "learning_rate": 0.00029267701459008107, "loss": 0.3877, "step": 150260 }, { "epoch": 200.36, "grad_norm": 0.453125, "learning_rate": 0.0002926760446256344, "loss": 0.388, "step": 150270 }, { "epoch": 200.37333333333333, "grad_norm": 0.380859375, "learning_rate": 0.0002926750745985613, "loss": 0.3898, "step": 150280 }, { "epoch": 200.38666666666666, "grad_norm": 0.431640625, "learning_rate": 0.00029267410450886216, "loss": 0.3811, "step": 150290 }, { "epoch": 200.4, "grad_norm": 0.408203125, "learning_rate": 0.0002926731343565374, "loss": 0.3898, "step": 150300 }, { "epoch": 200.41333333333333, "grad_norm": 0.396484375, "learning_rate": 0.00029267216414158753, "loss": 0.3942, "step": 150310 }, { "epoch": 200.42666666666668, "grad_norm": 0.38671875, "learning_rate": 0.00029267119386401283, "loss": 0.3957, "step": 150320 }, { "epoch": 200.44, "grad_norm": 0.451171875, "learning_rate": 0.0002926702235238138, "loss": 0.4076, "step": 150330 }, { "epoch": 200.45333333333335, "grad_norm": 0.5, "learning_rate": 0.00029266925312099087, "loss": 0.396, "step": 150340 }, { "epoch": 200.46666666666667, "grad_norm": 0.494140625, "learning_rate": 0.0002926682826555445, "loss": 0.405, "step": 150350 }, { "epoch": 200.48, "grad_norm": 0.404296875, "learning_rate": 0.00029266731212747505, "loss": 0.3858, "step": 150360 }, { "epoch": 200.49333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002926663415367829, "loss": 0.398, "step": 150370 }, { "epoch": 200.50666666666666, "grad_norm": 0.3671875, "learning_rate": 0.00029266537088346863, "loss": 0.3966, "step": 150380 }, { "epoch": 200.52, "grad_norm": 0.412109375, "learning_rate": 0.00029266440016753256, "loss": 0.3878, "step": 150390 }, { "epoch": 200.53333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002926634293889752, "loss": 0.3895, "step": 150400 }, { "epoch": 200.54666666666665, "grad_norm": 0.443359375, "learning_rate": 0.00029266245854779686, "loss": 0.3915, "step": 150410 }, { "epoch": 200.56, "grad_norm": 0.365234375, "learning_rate": 0.00029266148764399804, "loss": 0.3858, "step": 150420 }, { "epoch": 200.57333333333332, "grad_norm": 0.3828125, "learning_rate": 0.0002926605166775791, "loss": 0.3895, "step": 150430 }, { "epoch": 200.58666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002926595456485406, "loss": 0.3781, "step": 150440 }, { "epoch": 200.6, "grad_norm": 0.3671875, "learning_rate": 0.00029265857455688287, "loss": 0.3789, "step": 150450 }, { "epoch": 200.61333333333334, "grad_norm": 0.37109375, "learning_rate": 0.0002926576034026063, "loss": 0.3709, "step": 150460 }, { "epoch": 200.62666666666667, "grad_norm": 0.353515625, "learning_rate": 0.00029265663218571136, "loss": 0.3757, "step": 150470 }, { "epoch": 200.64, "grad_norm": 0.458984375, "learning_rate": 0.00029265566090619854, "loss": 0.3876, "step": 150480 }, { "epoch": 200.65333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002926546895640681, "loss": 0.3957, "step": 150490 }, { "epoch": 200.66666666666666, "grad_norm": 0.376953125, "learning_rate": 0.00029265371815932067, "loss": 0.3848, "step": 150500 }, { "epoch": 200.68, "grad_norm": 0.42578125, "learning_rate": 0.00029265274669195655, "loss": 0.3758, "step": 150510 }, { "epoch": 200.69333333333333, "grad_norm": 0.384765625, "learning_rate": 0.0002926517751619762, "loss": 0.3857, "step": 150520 }, { "epoch": 200.70666666666668, "grad_norm": 0.4765625, "learning_rate": 0.00029265080356938, "loss": 0.3781, "step": 150530 }, { "epoch": 200.72, "grad_norm": 0.384765625, "learning_rate": 0.0002926498319141685, "loss": 0.4001, "step": 150540 }, { "epoch": 200.73333333333332, "grad_norm": 0.447265625, "learning_rate": 0.000292648860196342, "loss": 0.3945, "step": 150550 }, { "epoch": 200.74666666666667, "grad_norm": 0.42578125, "learning_rate": 0.00029264788841590095, "loss": 0.3958, "step": 150560 }, { "epoch": 200.76, "grad_norm": 0.466796875, "learning_rate": 0.00029264691657284586, "loss": 0.4092, "step": 150570 }, { "epoch": 200.77333333333334, "grad_norm": 0.4296875, "learning_rate": 0.000292645944667177, "loss": 0.3955, "step": 150580 }, { "epoch": 200.78666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029264497269889495, "loss": 0.3972, "step": 150590 }, { "epoch": 200.8, "grad_norm": 0.443359375, "learning_rate": 0.00029264400066800016, "loss": 0.3962, "step": 150600 }, { "epoch": 200.81333333333333, "grad_norm": 0.48828125, "learning_rate": 0.00029264302857449285, "loss": 0.368, "step": 150610 }, { "epoch": 200.82666666666665, "grad_norm": 0.431640625, "learning_rate": 0.00029264205641837363, "loss": 0.3781, "step": 150620 }, { "epoch": 200.84, "grad_norm": 0.404296875, "learning_rate": 0.00029264108419964287, "loss": 0.3905, "step": 150630 }, { "epoch": 200.85333333333332, "grad_norm": 0.458984375, "learning_rate": 0.00029264011191830095, "loss": 0.3845, "step": 150640 }, { "epoch": 200.86666666666667, "grad_norm": 0.447265625, "learning_rate": 0.0002926391395743484, "loss": 0.3899, "step": 150650 }, { "epoch": 200.88, "grad_norm": 0.384765625, "learning_rate": 0.00029263816716778554, "loss": 0.3714, "step": 150660 }, { "epoch": 200.89333333333335, "grad_norm": 0.365234375, "learning_rate": 0.00029263719469861286, "loss": 0.3826, "step": 150670 }, { "epoch": 200.90666666666667, "grad_norm": 0.38671875, "learning_rate": 0.0002926362221668308, "loss": 0.3892, "step": 150680 }, { "epoch": 200.92, "grad_norm": 0.462890625, "learning_rate": 0.0002926352495724397, "loss": 0.3906, "step": 150690 }, { "epoch": 200.93333333333334, "grad_norm": 0.419921875, "learning_rate": 0.0002926342769154401, "loss": 0.3854, "step": 150700 }, { "epoch": 200.94666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002926333041958324, "loss": 0.3863, "step": 150710 }, { "epoch": 200.96, "grad_norm": 0.37109375, "learning_rate": 0.00029263233141361695, "loss": 0.3837, "step": 150720 }, { "epoch": 200.97333333333333, "grad_norm": 0.47265625, "learning_rate": 0.00029263135856879424, "loss": 0.4083, "step": 150730 }, { "epoch": 200.98666666666668, "grad_norm": 0.44921875, "learning_rate": 0.00029263038566136466, "loss": 0.3802, "step": 150740 }, { "epoch": 201.0, "grad_norm": 0.37109375, "learning_rate": 0.0002926294126913287, "loss": 0.3777, "step": 150750 }, { "epoch": 201.0, "eval_loss": 0.42512086033821106, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6675, "eval_samples_per_second": 1.655, "eval_steps_per_second": 0.103, "step": 150750 }, { "epoch": 201.01333333333332, "grad_norm": 0.431640625, "learning_rate": 0.0002926284396586867, "loss": 0.3954, "step": 150760 }, { "epoch": 201.02666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0002926274665634392, "loss": 0.4089, "step": 150770 }, { "epoch": 201.04, "grad_norm": 0.3828125, "learning_rate": 0.0002926264934055865, "loss": 0.4219, "step": 150780 }, { "epoch": 201.05333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002926255201851291, "loss": 0.407, "step": 150790 }, { "epoch": 201.06666666666666, "grad_norm": 0.470703125, "learning_rate": 0.0002926245469020674, "loss": 0.3946, "step": 150800 }, { "epoch": 201.08, "grad_norm": 0.40234375, "learning_rate": 0.0002926235735564019, "loss": 0.3981, "step": 150810 }, { "epoch": 201.09333333333333, "grad_norm": 0.47265625, "learning_rate": 0.000292622600148133, "loss": 0.3983, "step": 150820 }, { "epoch": 201.10666666666665, "grad_norm": 0.40234375, "learning_rate": 0.000292621626677261, "loss": 0.3876, "step": 150830 }, { "epoch": 201.12, "grad_norm": 0.396484375, "learning_rate": 0.0002926206531437865, "loss": 0.3914, "step": 150840 }, { "epoch": 201.13333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0002926196795477098, "loss": 0.3825, "step": 150850 }, { "epoch": 201.14666666666668, "grad_norm": 0.412109375, "learning_rate": 0.00029261870588903144, "loss": 0.4014, "step": 150860 }, { "epoch": 201.16, "grad_norm": 0.357421875, "learning_rate": 0.00029261773216775173, "loss": 0.3957, "step": 150870 }, { "epoch": 201.17333333333335, "grad_norm": 0.421875, "learning_rate": 0.0002926167583838712, "loss": 0.3893, "step": 150880 }, { "epoch": 201.18666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002926157845373902, "loss": 0.3885, "step": 150890 }, { "epoch": 201.2, "grad_norm": 0.412109375, "learning_rate": 0.00029261481062830923, "loss": 0.3806, "step": 150900 }, { "epoch": 201.21333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029261383665662863, "loss": 0.3817, "step": 150910 }, { "epoch": 201.22666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0002926128626223489, "loss": 0.3934, "step": 150920 }, { "epoch": 201.24, "grad_norm": 0.392578125, "learning_rate": 0.00029261188852547045, "loss": 0.3781, "step": 150930 }, { "epoch": 201.25333333333333, "grad_norm": 0.431640625, "learning_rate": 0.00029261091436599373, "loss": 0.3796, "step": 150940 }, { "epoch": 201.26666666666668, "grad_norm": 0.41015625, "learning_rate": 0.0002926099401439191, "loss": 0.3837, "step": 150950 }, { "epoch": 201.28, "grad_norm": 0.46484375, "learning_rate": 0.000292608965859247, "loss": 0.4122, "step": 150960 }, { "epoch": 201.29333333333332, "grad_norm": 0.466796875, "learning_rate": 0.0002926079915119779, "loss": 0.3682, "step": 150970 }, { "epoch": 201.30666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0002926070171021122, "loss": 0.3918, "step": 150980 }, { "epoch": 201.32, "grad_norm": 0.361328125, "learning_rate": 0.00029260604262965035, "loss": 0.395, "step": 150990 }, { "epoch": 201.33333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029260506809459277, "loss": 0.3981, "step": 151000 }, { "epoch": 201.34666666666666, "grad_norm": 0.455078125, "learning_rate": 0.0002926040934969399, "loss": 0.3881, "step": 151010 }, { "epoch": 201.36, "grad_norm": 0.482421875, "learning_rate": 0.00029260311883669217, "loss": 0.3883, "step": 151020 }, { "epoch": 201.37333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002926021441138499, "loss": 0.3909, "step": 151030 }, { "epoch": 201.38666666666666, "grad_norm": 0.50390625, "learning_rate": 0.0002926011693284137, "loss": 0.3816, "step": 151040 }, { "epoch": 201.4, "grad_norm": 0.4140625, "learning_rate": 0.0002926001944803839, "loss": 0.3892, "step": 151050 }, { "epoch": 201.41333333333333, "grad_norm": 0.404296875, "learning_rate": 0.0002925992195697609, "loss": 0.3942, "step": 151060 }, { "epoch": 201.42666666666668, "grad_norm": 0.43359375, "learning_rate": 0.00029259824459654515, "loss": 0.3974, "step": 151070 }, { "epoch": 201.44, "grad_norm": 0.44140625, "learning_rate": 0.0002925972695607371, "loss": 0.4065, "step": 151080 }, { "epoch": 201.45333333333335, "grad_norm": 0.482421875, "learning_rate": 0.0002925962944623372, "loss": 0.3956, "step": 151090 }, { "epoch": 201.46666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029259531930134577, "loss": 0.4044, "step": 151100 }, { "epoch": 201.48, "grad_norm": 0.439453125, "learning_rate": 0.0002925943440777634, "loss": 0.3861, "step": 151110 }, { "epoch": 201.49333333333334, "grad_norm": 0.416015625, "learning_rate": 0.00029259336879159043, "loss": 0.3992, "step": 151120 }, { "epoch": 201.50666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029259239344282725, "loss": 0.3965, "step": 151130 }, { "epoch": 201.52, "grad_norm": 0.34765625, "learning_rate": 0.0002925914180314743, "loss": 0.3866, "step": 151140 }, { "epoch": 201.53333333333333, "grad_norm": 0.453125, "learning_rate": 0.0002925904425575321, "loss": 0.3892, "step": 151150 }, { "epoch": 201.54666666666665, "grad_norm": 0.470703125, "learning_rate": 0.000292589467021001, "loss": 0.3912, "step": 151160 }, { "epoch": 201.56, "grad_norm": 0.35546875, "learning_rate": 0.00029258849142188136, "loss": 0.3858, "step": 151170 }, { "epoch": 201.57333333333332, "grad_norm": 0.390625, "learning_rate": 0.0002925875157601738, "loss": 0.3894, "step": 151180 }, { "epoch": 201.58666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002925865400358786, "loss": 0.3786, "step": 151190 }, { "epoch": 201.6, "grad_norm": 0.46484375, "learning_rate": 0.0002925855642489962, "loss": 0.38, "step": 151200 }, { "epoch": 201.61333333333334, "grad_norm": 0.349609375, "learning_rate": 0.00029258458839952705, "loss": 0.3707, "step": 151210 }, { "epoch": 201.62666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0002925836124874716, "loss": 0.3757, "step": 151220 }, { "epoch": 201.64, "grad_norm": 0.458984375, "learning_rate": 0.0002925826365128303, "loss": 0.3864, "step": 151230 }, { "epoch": 201.65333333333334, "grad_norm": 0.390625, "learning_rate": 0.0002925816604756035, "loss": 0.3958, "step": 151240 }, { "epoch": 201.66666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002925806843757917, "loss": 0.3846, "step": 151250 }, { "epoch": 201.68, "grad_norm": 0.41015625, "learning_rate": 0.00029257970821339527, "loss": 0.3749, "step": 151260 }, { "epoch": 201.69333333333333, "grad_norm": 0.36328125, "learning_rate": 0.00029257873198841464, "loss": 0.3858, "step": 151270 }, { "epoch": 201.70666666666668, "grad_norm": 0.44921875, "learning_rate": 0.0002925777557008503, "loss": 0.3782, "step": 151280 }, { "epoch": 201.72, "grad_norm": 0.4296875, "learning_rate": 0.00029257677935070264, "loss": 0.3995, "step": 151290 }, { "epoch": 201.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.00029257580293797213, "loss": 0.3941, "step": 151300 }, { "epoch": 201.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002925748264626591, "loss": 0.3966, "step": 151310 }, { "epoch": 201.76, "grad_norm": 0.408203125, "learning_rate": 0.00029257384992476405, "loss": 0.4107, "step": 151320 }, { "epoch": 201.77333333333334, "grad_norm": 0.453125, "learning_rate": 0.0002925728733242874, "loss": 0.3962, "step": 151330 }, { "epoch": 201.78666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002925718966612296, "loss": 0.3963, "step": 151340 }, { "epoch": 201.8, "grad_norm": 0.427734375, "learning_rate": 0.00029257091993559105, "loss": 0.3953, "step": 151350 }, { "epoch": 201.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0002925699431473721, "loss": 0.3688, "step": 151360 }, { "epoch": 201.82666666666665, "grad_norm": 0.4921875, "learning_rate": 0.00029256896629657335, "loss": 0.3779, "step": 151370 }, { "epoch": 201.84, "grad_norm": 0.443359375, "learning_rate": 0.00029256798938319514, "loss": 0.3904, "step": 151380 }, { "epoch": 201.85333333333332, "grad_norm": 0.431640625, "learning_rate": 0.00029256701240723787, "loss": 0.3852, "step": 151390 }, { "epoch": 201.86666666666667, "grad_norm": 0.4375, "learning_rate": 0.000292566035368702, "loss": 0.391, "step": 151400 }, { "epoch": 201.88, "grad_norm": 0.359375, "learning_rate": 0.00029256505826758797, "loss": 0.3709, "step": 151410 }, { "epoch": 201.89333333333335, "grad_norm": 0.390625, "learning_rate": 0.0002925640811038962, "loss": 0.3828, "step": 151420 }, { "epoch": 201.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002925631038776271, "loss": 0.3891, "step": 151430 }, { "epoch": 201.92, "grad_norm": 0.40625, "learning_rate": 0.00029256212658878113, "loss": 0.3912, "step": 151440 }, { "epoch": 201.93333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029256114923735874, "loss": 0.3844, "step": 151450 }, { "epoch": 201.94666666666666, "grad_norm": 0.3984375, "learning_rate": 0.00029256017182336026, "loss": 0.3856, "step": 151460 }, { "epoch": 201.96, "grad_norm": 0.388671875, "learning_rate": 0.0002925591943467862, "loss": 0.3836, "step": 151470 }, { "epoch": 201.97333333333333, "grad_norm": 0.462890625, "learning_rate": 0.00029255821680763695, "loss": 0.4087, "step": 151480 }, { "epoch": 201.98666666666668, "grad_norm": 0.4453125, "learning_rate": 0.000292557239205913, "loss": 0.38, "step": 151490 }, { "epoch": 202.0, "grad_norm": 0.380859375, "learning_rate": 0.0002925562615416147, "loss": 0.3776, "step": 151500 }, { "epoch": 202.0, "eval_loss": 0.42565760016441345, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.1427, "eval_samples_per_second": 1.577, "eval_steps_per_second": 0.099, "step": 151500 }, { "epoch": 202.01333333333332, "grad_norm": 0.453125, "learning_rate": 0.00029255528381474255, "loss": 0.3947, "step": 151510 }, { "epoch": 202.02666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029255430602529695, "loss": 0.4084, "step": 151520 }, { "epoch": 202.04, "grad_norm": 0.3671875, "learning_rate": 0.0002925533281732783, "loss": 0.4216, "step": 151530 }, { "epoch": 202.05333333333334, "grad_norm": 0.400390625, "learning_rate": 0.00029255235025868703, "loss": 0.4066, "step": 151540 }, { "epoch": 202.06666666666666, "grad_norm": 0.4375, "learning_rate": 0.0002925513722815236, "loss": 0.3937, "step": 151550 }, { "epoch": 202.08, "grad_norm": 0.4453125, "learning_rate": 0.0002925503942417885, "loss": 0.397, "step": 151560 }, { "epoch": 202.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.00029254941613948205, "loss": 0.3985, "step": 151570 }, { "epoch": 202.10666666666665, "grad_norm": 0.36328125, "learning_rate": 0.0002925484379746047, "loss": 0.3869, "step": 151580 }, { "epoch": 202.12, "grad_norm": 0.392578125, "learning_rate": 0.00029254745974715695, "loss": 0.3917, "step": 151590 }, { "epoch": 202.13333333333333, "grad_norm": 0.431640625, "learning_rate": 0.0002925464814571391, "loss": 0.3822, "step": 151600 }, { "epoch": 202.14666666666668, "grad_norm": 0.451171875, "learning_rate": 0.0002925455031045518, "loss": 0.4012, "step": 151610 }, { "epoch": 202.16, "grad_norm": 0.37890625, "learning_rate": 0.0002925445246893952, "loss": 0.396, "step": 151620 }, { "epoch": 202.17333333333335, "grad_norm": 0.451171875, "learning_rate": 0.00029254354621166995, "loss": 0.3899, "step": 151630 }, { "epoch": 202.18666666666667, "grad_norm": 0.390625, "learning_rate": 0.0002925425676713764, "loss": 0.3874, "step": 151640 }, { "epoch": 202.2, "grad_norm": 0.44140625, "learning_rate": 0.0002925415890685149, "loss": 0.3807, "step": 151650 }, { "epoch": 202.21333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029254061040308603, "loss": 0.3824, "step": 151660 }, { "epoch": 202.22666666666666, "grad_norm": 0.419921875, "learning_rate": 0.00029253963167509014, "loss": 0.3936, "step": 151670 }, { "epoch": 202.24, "grad_norm": 0.439453125, "learning_rate": 0.00029253865288452765, "loss": 0.3782, "step": 151680 }, { "epoch": 202.25333333333333, "grad_norm": 0.462890625, "learning_rate": 0.000292537674031399, "loss": 0.3805, "step": 151690 }, { "epoch": 202.26666666666668, "grad_norm": 0.43359375, "learning_rate": 0.0002925366951157046, "loss": 0.3834, "step": 151700 }, { "epoch": 202.28, "grad_norm": 0.462890625, "learning_rate": 0.000292535716137445, "loss": 0.4137, "step": 151710 }, { "epoch": 202.29333333333332, "grad_norm": 0.45703125, "learning_rate": 0.00029253473709662045, "loss": 0.3688, "step": 151720 }, { "epoch": 202.30666666666667, "grad_norm": 0.416015625, "learning_rate": 0.00029253375799323154, "loss": 0.3928, "step": 151730 }, { "epoch": 202.32, "grad_norm": 0.376953125, "learning_rate": 0.00029253277882727857, "loss": 0.3958, "step": 151740 }, { "epoch": 202.33333333333334, "grad_norm": 0.443359375, "learning_rate": 0.000292531799598762, "loss": 0.3978, "step": 151750 }, { "epoch": 202.34666666666666, "grad_norm": 0.50390625, "learning_rate": 0.0002925308203076823, "loss": 0.389, "step": 151760 }, { "epoch": 202.36, "grad_norm": 0.482421875, "learning_rate": 0.00029252984095403994, "loss": 0.3888, "step": 151770 }, { "epoch": 202.37333333333333, "grad_norm": 0.50390625, "learning_rate": 0.0002925288615378353, "loss": 0.3898, "step": 151780 }, { "epoch": 202.38666666666666, "grad_norm": 0.56640625, "learning_rate": 0.0002925278820590687, "loss": 0.382, "step": 151790 }, { "epoch": 202.4, "grad_norm": 0.466796875, "learning_rate": 0.00029252690251774076, "loss": 0.3899, "step": 151800 }, { "epoch": 202.41333333333333, "grad_norm": 0.38671875, "learning_rate": 0.0002925259229138518, "loss": 0.3935, "step": 151810 }, { "epoch": 202.42666666666668, "grad_norm": 0.435546875, "learning_rate": 0.0002925249432474023, "loss": 0.395, "step": 151820 }, { "epoch": 202.44, "grad_norm": 0.365234375, "learning_rate": 0.0002925239635183926, "loss": 0.4072, "step": 151830 }, { "epoch": 202.45333333333335, "grad_norm": 0.447265625, "learning_rate": 0.00029252298372682323, "loss": 0.3951, "step": 151840 }, { "epoch": 202.46666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002925220038726946, "loss": 0.4041, "step": 151850 }, { "epoch": 202.48, "grad_norm": 0.44921875, "learning_rate": 0.0002925210239560071, "loss": 0.3858, "step": 151860 }, { "epoch": 202.49333333333334, "grad_norm": 0.443359375, "learning_rate": 0.00029252004397676125, "loss": 0.3979, "step": 151870 }, { "epoch": 202.50666666666666, "grad_norm": 0.392578125, "learning_rate": 0.0002925190639349573, "loss": 0.3966, "step": 151880 }, { "epoch": 202.52, "grad_norm": 0.373046875, "learning_rate": 0.0002925180838305959, "loss": 0.3872, "step": 151890 }, { "epoch": 202.53333333333333, "grad_norm": 0.47265625, "learning_rate": 0.0002925171036636773, "loss": 0.3903, "step": 151900 }, { "epoch": 202.54666666666665, "grad_norm": 0.4296875, "learning_rate": 0.0002925161234342021, "loss": 0.3917, "step": 151910 }, { "epoch": 202.56, "grad_norm": 0.3984375, "learning_rate": 0.00029251514314217056, "loss": 0.3852, "step": 151920 }, { "epoch": 202.57333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002925141627875832, "loss": 0.3894, "step": 151930 }, { "epoch": 202.58666666666667, "grad_norm": 0.375, "learning_rate": 0.0002925131823704404, "loss": 0.3795, "step": 151940 }, { "epoch": 202.6, "grad_norm": 0.38671875, "learning_rate": 0.00029251220189074266, "loss": 0.3804, "step": 151950 }, { "epoch": 202.61333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0002925112213484904, "loss": 0.3704, "step": 151960 }, { "epoch": 202.62666666666667, "grad_norm": 0.333984375, "learning_rate": 0.000292510240743684, "loss": 0.3759, "step": 151970 }, { "epoch": 202.64, "grad_norm": 0.4453125, "learning_rate": 0.00029250926007632396, "loss": 0.387, "step": 151980 }, { "epoch": 202.65333333333334, "grad_norm": 0.44140625, "learning_rate": 0.0002925082793464106, "loss": 0.3973, "step": 151990 }, { "epoch": 202.66666666666666, "grad_norm": 0.396484375, "learning_rate": 0.0002925072985539445, "loss": 0.3855, "step": 152000 }, { "epoch": 202.68, "grad_norm": 0.408203125, "learning_rate": 0.0002925063176989259, "loss": 0.3755, "step": 152010 }, { "epoch": 202.69333333333333, "grad_norm": 0.37890625, "learning_rate": 0.00029250533678135544, "loss": 0.386, "step": 152020 }, { "epoch": 202.70666666666668, "grad_norm": 0.478515625, "learning_rate": 0.0002925043558012334, "loss": 0.3778, "step": 152030 }, { "epoch": 202.72, "grad_norm": 0.376953125, "learning_rate": 0.0002925033747585603, "loss": 0.4, "step": 152040 }, { "epoch": 202.73333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002925023936533365, "loss": 0.3937, "step": 152050 }, { "epoch": 202.74666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029250141248556244, "loss": 0.3957, "step": 152060 }, { "epoch": 202.76, "grad_norm": 0.38671875, "learning_rate": 0.0002925004312552386, "loss": 0.4092, "step": 152070 }, { "epoch": 202.77333333333334, "grad_norm": 0.384765625, "learning_rate": 0.0002924994499623654, "loss": 0.3953, "step": 152080 }, { "epoch": 202.78666666666666, "grad_norm": 0.375, "learning_rate": 0.0002924984686069432, "loss": 0.3972, "step": 152090 }, { "epoch": 202.8, "grad_norm": 0.443359375, "learning_rate": 0.00029249748718897256, "loss": 0.3952, "step": 152100 }, { "epoch": 202.81333333333333, "grad_norm": 0.44921875, "learning_rate": 0.0002924965057084538, "loss": 0.3686, "step": 152110 }, { "epoch": 202.82666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002924955241653874, "loss": 0.3775, "step": 152120 }, { "epoch": 202.84, "grad_norm": 0.462890625, "learning_rate": 0.0002924945425597737, "loss": 0.3897, "step": 152130 }, { "epoch": 202.85333333333332, "grad_norm": 0.419921875, "learning_rate": 0.0002924935608916133, "loss": 0.3858, "step": 152140 }, { "epoch": 202.86666666666667, "grad_norm": 0.451171875, "learning_rate": 0.0002924925791609065, "loss": 0.3895, "step": 152150 }, { "epoch": 202.88, "grad_norm": 0.443359375, "learning_rate": 0.0002924915973676538, "loss": 0.3709, "step": 152160 }, { "epoch": 202.89333333333335, "grad_norm": 0.3984375, "learning_rate": 0.0002924906155118556, "loss": 0.3821, "step": 152170 }, { "epoch": 202.90666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029248963359351234, "loss": 0.3897, "step": 152180 }, { "epoch": 202.92, "grad_norm": 0.3984375, "learning_rate": 0.00029248865161262435, "loss": 0.3901, "step": 152190 }, { "epoch": 202.93333333333334, "grad_norm": 0.3984375, "learning_rate": 0.00029248766956919227, "loss": 0.3855, "step": 152200 }, { "epoch": 202.94666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029248668746321635, "loss": 0.3852, "step": 152210 }, { "epoch": 202.96, "grad_norm": 0.361328125, "learning_rate": 0.0002924857052946971, "loss": 0.3836, "step": 152220 }, { "epoch": 202.97333333333333, "grad_norm": 0.48828125, "learning_rate": 0.0002924847230636349, "loss": 0.4081, "step": 152230 }, { "epoch": 202.98666666666668, "grad_norm": 0.458984375, "learning_rate": 0.0002924837407700303, "loss": 0.3805, "step": 152240 }, { "epoch": 203.0, "grad_norm": 0.443359375, "learning_rate": 0.00029248275841388367, "loss": 0.3779, "step": 152250 }, { "epoch": 203.0, "eval_loss": 0.4261859357357025, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7558, "eval_samples_per_second": 1.64, "eval_steps_per_second": 0.103, "step": 152250 }, { "epoch": 203.01333333333332, "grad_norm": 0.443359375, "learning_rate": 0.00029248177599519533, "loss": 0.3938, "step": 152260 }, { "epoch": 203.02666666666667, "grad_norm": 0.447265625, "learning_rate": 0.0002924807935139658, "loss": 0.409, "step": 152270 }, { "epoch": 203.04, "grad_norm": 0.412109375, "learning_rate": 0.00029247981097019557, "loss": 0.4201, "step": 152280 }, { "epoch": 203.05333333333334, "grad_norm": 0.4296875, "learning_rate": 0.000292478828363885, "loss": 0.4068, "step": 152290 }, { "epoch": 203.06666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029247784569503453, "loss": 0.3945, "step": 152300 }, { "epoch": 203.08, "grad_norm": 0.412109375, "learning_rate": 0.00029247686296364456, "loss": 0.3977, "step": 152310 }, { "epoch": 203.09333333333333, "grad_norm": 0.41015625, "learning_rate": 0.0002924758801697156, "loss": 0.3968, "step": 152320 }, { "epoch": 203.10666666666665, "grad_norm": 0.400390625, "learning_rate": 0.00029247489731324804, "loss": 0.3868, "step": 152330 }, { "epoch": 203.12, "grad_norm": 0.384765625, "learning_rate": 0.0002924739143942423, "loss": 0.3908, "step": 152340 }, { "epoch": 203.13333333333333, "grad_norm": 0.4140625, "learning_rate": 0.00029247293141269887, "loss": 0.382, "step": 152350 }, { "epoch": 203.14666666666668, "grad_norm": 0.47265625, "learning_rate": 0.00029247194836861805, "loss": 0.4006, "step": 152360 }, { "epoch": 203.16, "grad_norm": 0.376953125, "learning_rate": 0.0002924709652620004, "loss": 0.3954, "step": 152370 }, { "epoch": 203.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.0002924699820928463, "loss": 0.3895, "step": 152380 }, { "epoch": 203.18666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0002924689988611562, "loss": 0.3881, "step": 152390 }, { "epoch": 203.2, "grad_norm": 0.40234375, "learning_rate": 0.00029246801556693055, "loss": 0.3814, "step": 152400 }, { "epoch": 203.21333333333334, "grad_norm": 0.41796875, "learning_rate": 0.00029246703221016973, "loss": 0.3811, "step": 152410 }, { "epoch": 203.22666666666666, "grad_norm": 0.408203125, "learning_rate": 0.00029246604879087413, "loss": 0.3936, "step": 152420 }, { "epoch": 203.24, "grad_norm": 0.4375, "learning_rate": 0.00029246506530904436, "loss": 0.3778, "step": 152430 }, { "epoch": 203.25333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002924640817646807, "loss": 0.3803, "step": 152440 }, { "epoch": 203.26666666666668, "grad_norm": 0.38671875, "learning_rate": 0.0002924630981577835, "loss": 0.3828, "step": 152450 }, { "epoch": 203.28, "grad_norm": 0.439453125, "learning_rate": 0.00029246211448835343, "loss": 0.4132, "step": 152460 }, { "epoch": 203.29333333333332, "grad_norm": 0.400390625, "learning_rate": 0.0002924611307563908, "loss": 0.37, "step": 152470 }, { "epoch": 203.30666666666667, "grad_norm": 0.359375, "learning_rate": 0.00029246014696189597, "loss": 0.3928, "step": 152480 }, { "epoch": 203.32, "grad_norm": 0.35546875, "learning_rate": 0.0002924591631048695, "loss": 0.3948, "step": 152490 }, { "epoch": 203.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.00029245817918531177, "loss": 0.397, "step": 152500 }, { "epoch": 203.34666666666666, "grad_norm": 0.48828125, "learning_rate": 0.00029245719520322325, "loss": 0.3882, "step": 152510 }, { "epoch": 203.36, "grad_norm": 0.478515625, "learning_rate": 0.0002924562111586043, "loss": 0.3884, "step": 152520 }, { "epoch": 203.37333333333333, "grad_norm": 0.427734375, "learning_rate": 0.00029245522705145533, "loss": 0.3905, "step": 152530 }, { "epoch": 203.38666666666666, "grad_norm": 0.45703125, "learning_rate": 0.0002924542428817769, "loss": 0.3807, "step": 152540 }, { "epoch": 203.4, "grad_norm": 0.392578125, "learning_rate": 0.00029245325864956935, "loss": 0.3896, "step": 152550 }, { "epoch": 203.41333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002924522743548331, "loss": 0.394, "step": 152560 }, { "epoch": 203.42666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002924512899975686, "loss": 0.3968, "step": 152570 }, { "epoch": 203.44, "grad_norm": 0.369140625, "learning_rate": 0.00029245030557777633, "loss": 0.4075, "step": 152580 }, { "epoch": 203.45333333333335, "grad_norm": 0.439453125, "learning_rate": 0.00029244932109545667, "loss": 0.395, "step": 152590 }, { "epoch": 203.46666666666667, "grad_norm": 0.4453125, "learning_rate": 0.0002924483365506101, "loss": 0.4048, "step": 152600 }, { "epoch": 203.48, "grad_norm": 0.3984375, "learning_rate": 0.00029244735194323696, "loss": 0.3869, "step": 152610 }, { "epoch": 203.49333333333334, "grad_norm": 0.41015625, "learning_rate": 0.0002924463672733378, "loss": 0.3979, "step": 152620 }, { "epoch": 203.50666666666666, "grad_norm": 0.390625, "learning_rate": 0.00029244538254091296, "loss": 0.3966, "step": 152630 }, { "epoch": 203.52, "grad_norm": 0.38671875, "learning_rate": 0.00029244439774596295, "loss": 0.3876, "step": 152640 }, { "epoch": 203.53333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002924434128884881, "loss": 0.3901, "step": 152650 }, { "epoch": 203.54666666666665, "grad_norm": 0.455078125, "learning_rate": 0.00029244242796848895, "loss": 0.3905, "step": 152660 }, { "epoch": 203.56, "grad_norm": 0.359375, "learning_rate": 0.00029244144298596584, "loss": 0.3855, "step": 152670 }, { "epoch": 203.57333333333332, "grad_norm": 0.388671875, "learning_rate": 0.0002924404579409193, "loss": 0.3892, "step": 152680 }, { "epoch": 203.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029243947283334965, "loss": 0.3781, "step": 152690 }, { "epoch": 203.6, "grad_norm": 0.38671875, "learning_rate": 0.0002924384876632574, "loss": 0.3799, "step": 152700 }, { "epoch": 203.61333333333334, "grad_norm": 0.412109375, "learning_rate": 0.0002924375024306429, "loss": 0.3702, "step": 152710 }, { "epoch": 203.62666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002924365171355068, "loss": 0.376, "step": 152720 }, { "epoch": 203.64, "grad_norm": 0.435546875, "learning_rate": 0.00029243553177784925, "loss": 0.3877, "step": 152730 }, { "epoch": 203.65333333333334, "grad_norm": 0.39453125, "learning_rate": 0.00029243454635767086, "loss": 0.3963, "step": 152740 }, { "epoch": 203.66666666666666, "grad_norm": 0.41015625, "learning_rate": 0.00029243356087497205, "loss": 0.3844, "step": 152750 }, { "epoch": 203.68, "grad_norm": 0.41015625, "learning_rate": 0.00029243257532975315, "loss": 0.3758, "step": 152760 }, { "epoch": 203.69333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002924315897220147, "loss": 0.3854, "step": 152770 }, { "epoch": 203.70666666666668, "grad_norm": 0.4921875, "learning_rate": 0.00029243060405175706, "loss": 0.378, "step": 152780 }, { "epoch": 203.72, "grad_norm": 0.3984375, "learning_rate": 0.0002924296183189807, "loss": 0.3997, "step": 152790 }, { "epoch": 203.73333333333332, "grad_norm": 0.369140625, "learning_rate": 0.00029242863252368606, "loss": 0.3943, "step": 152800 }, { "epoch": 203.74666666666667, "grad_norm": 0.5, "learning_rate": 0.00029242764666587357, "loss": 0.3971, "step": 152810 }, { "epoch": 203.76, "grad_norm": 0.44921875, "learning_rate": 0.0002924266607455436, "loss": 0.4097, "step": 152820 }, { "epoch": 203.77333333333334, "grad_norm": 0.423828125, "learning_rate": 0.0002924256747626967, "loss": 0.3955, "step": 152830 }, { "epoch": 203.78666666666666, "grad_norm": 0.365234375, "learning_rate": 0.0002924246887173332, "loss": 0.3972, "step": 152840 }, { "epoch": 203.8, "grad_norm": 0.43359375, "learning_rate": 0.00029242370260945357, "loss": 0.3954, "step": 152850 }, { "epoch": 203.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0002924227164390582, "loss": 0.3684, "step": 152860 }, { "epoch": 203.82666666666665, "grad_norm": 0.451171875, "learning_rate": 0.0002924217302061477, "loss": 0.3773, "step": 152870 }, { "epoch": 203.84, "grad_norm": 0.447265625, "learning_rate": 0.00029242074391072224, "loss": 0.3909, "step": 152880 }, { "epoch": 203.85333333333332, "grad_norm": 0.4375, "learning_rate": 0.0002924197575527824, "loss": 0.386, "step": 152890 }, { "epoch": 203.86666666666667, "grad_norm": 0.39453125, "learning_rate": 0.00029241877113232864, "loss": 0.3897, "step": 152900 }, { "epoch": 203.88, "grad_norm": 0.41796875, "learning_rate": 0.00029241778464936133, "loss": 0.3717, "step": 152910 }, { "epoch": 203.89333333333335, "grad_norm": 0.4140625, "learning_rate": 0.000292416798103881, "loss": 0.3832, "step": 152920 }, { "epoch": 203.90666666666667, "grad_norm": 0.392578125, "learning_rate": 0.0002924158114958879, "loss": 0.3887, "step": 152930 }, { "epoch": 203.92, "grad_norm": 0.404296875, "learning_rate": 0.0002924148248253826, "loss": 0.3912, "step": 152940 }, { "epoch": 203.93333333333334, "grad_norm": 0.38671875, "learning_rate": 0.00029241383809236547, "loss": 0.3847, "step": 152950 }, { "epoch": 203.94666666666666, "grad_norm": 0.43359375, "learning_rate": 0.000292412851296837, "loss": 0.3857, "step": 152960 }, { "epoch": 203.96, "grad_norm": 0.35546875, "learning_rate": 0.0002924118644387976, "loss": 0.3832, "step": 152970 }, { "epoch": 203.97333333333333, "grad_norm": 0.515625, "learning_rate": 0.00029241087751824763, "loss": 0.4092, "step": 152980 }, { "epoch": 203.98666666666668, "grad_norm": 0.4453125, "learning_rate": 0.0002924098905351877, "loss": 0.3801, "step": 152990 }, { "epoch": 204.0, "grad_norm": 0.376953125, "learning_rate": 0.00029240890348961805, "loss": 0.3785, "step": 153000 }, { "epoch": 204.0, "eval_loss": 0.4270828366279602, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.6246, "eval_samples_per_second": 1.662, "eval_steps_per_second": 0.104, "step": 153000 }, { "epoch": 204.01333333333332, "grad_norm": 0.482421875, "learning_rate": 0.00029240791638153924, "loss": 0.3947, "step": 153010 }, { "epoch": 204.02666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029240692921095166, "loss": 0.4083, "step": 153020 }, { "epoch": 204.04, "grad_norm": 0.404296875, "learning_rate": 0.0002924059419778558, "loss": 0.4214, "step": 153030 }, { "epoch": 204.05333333333334, "grad_norm": 0.44921875, "learning_rate": 0.00029240495468225194, "loss": 0.4065, "step": 153040 }, { "epoch": 204.06666666666666, "grad_norm": 0.44921875, "learning_rate": 0.00029240396732414065, "loss": 0.3941, "step": 153050 }, { "epoch": 204.08, "grad_norm": 0.4921875, "learning_rate": 0.00029240297990352235, "loss": 0.3974, "step": 153060 }, { "epoch": 204.09333333333333, "grad_norm": 0.400390625, "learning_rate": 0.0002924019924203974, "loss": 0.3978, "step": 153070 }, { "epoch": 204.10666666666665, "grad_norm": 0.41015625, "learning_rate": 0.00029240100487476636, "loss": 0.3856, "step": 153080 }, { "epoch": 204.12, "grad_norm": 0.41796875, "learning_rate": 0.0002924000172666295, "loss": 0.3904, "step": 153090 }, { "epoch": 204.13333333333333, "grad_norm": 0.421875, "learning_rate": 0.0002923990295959874, "loss": 0.3824, "step": 153100 }, { "epoch": 204.14666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029239804186284037, "loss": 0.4009, "step": 153110 }, { "epoch": 204.16, "grad_norm": 0.404296875, "learning_rate": 0.000292397054067189, "loss": 0.3953, "step": 153120 }, { "epoch": 204.17333333333335, "grad_norm": 0.4140625, "learning_rate": 0.00029239606620903353, "loss": 0.3904, "step": 153130 }, { "epoch": 204.18666666666667, "grad_norm": 0.384765625, "learning_rate": 0.00029239507828837457, "loss": 0.3874, "step": 153140 }, { "epoch": 204.2, "grad_norm": 0.42578125, "learning_rate": 0.00029239409030521244, "loss": 0.3807, "step": 153150 }, { "epoch": 204.21333333333334, "grad_norm": 0.431640625, "learning_rate": 0.0002923931022595476, "loss": 0.3815, "step": 153160 }, { "epoch": 204.22666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002923921141513805, "loss": 0.3932, "step": 153170 }, { "epoch": 204.24, "grad_norm": 0.4296875, "learning_rate": 0.0002923911259807116, "loss": 0.3786, "step": 153180 }, { "epoch": 204.25333333333333, "grad_norm": 0.44140625, "learning_rate": 0.0002923901377475413, "loss": 0.3807, "step": 153190 }, { "epoch": 204.26666666666668, "grad_norm": 0.3984375, "learning_rate": 0.00029238914945187004, "loss": 0.3833, "step": 153200 }, { "epoch": 204.28, "grad_norm": 0.419921875, "learning_rate": 0.0002923881610936982, "loss": 0.4121, "step": 153210 }, { "epoch": 204.29333333333332, "grad_norm": 0.421875, "learning_rate": 0.00029238717267302634, "loss": 0.369, "step": 153220 }, { "epoch": 204.30666666666667, "grad_norm": 0.375, "learning_rate": 0.0002923861841898548, "loss": 0.3924, "step": 153230 }, { "epoch": 204.32, "grad_norm": 0.376953125, "learning_rate": 0.00029238519564418395, "loss": 0.3946, "step": 153240 }, { "epoch": 204.33333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002923842070360144, "loss": 0.397, "step": 153250 }, { "epoch": 204.34666666666666, "grad_norm": 0.4609375, "learning_rate": 0.00029238321836534643, "loss": 0.3877, "step": 153260 }, { "epoch": 204.36, "grad_norm": 0.451171875, "learning_rate": 0.0002923822296321805, "loss": 0.3883, "step": 153270 }, { "epoch": 204.37333333333333, "grad_norm": 0.39453125, "learning_rate": 0.00029238124083651716, "loss": 0.39, "step": 153280 }, { "epoch": 204.38666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002923802519783567, "loss": 0.3815, "step": 153290 }, { "epoch": 204.4, "grad_norm": 0.408203125, "learning_rate": 0.0002923792630576997, "loss": 0.3901, "step": 153300 }, { "epoch": 204.41333333333333, "grad_norm": 0.400390625, "learning_rate": 0.00029237827407454646, "loss": 0.3938, "step": 153310 }, { "epoch": 204.42666666666668, "grad_norm": 0.404296875, "learning_rate": 0.0002923772850288974, "loss": 0.3956, "step": 153320 }, { "epoch": 204.44, "grad_norm": 0.439453125, "learning_rate": 0.0002923762959207531, "loss": 0.4068, "step": 153330 }, { "epoch": 204.45333333333335, "grad_norm": 0.47265625, "learning_rate": 0.0002923753067501139, "loss": 0.3965, "step": 153340 }, { "epoch": 204.46666666666667, "grad_norm": 0.462890625, "learning_rate": 0.00029237431751698024, "loss": 0.4043, "step": 153350 }, { "epoch": 204.48, "grad_norm": 0.38671875, "learning_rate": 0.0002923733282213525, "loss": 0.3857, "step": 153360 }, { "epoch": 204.49333333333334, "grad_norm": 0.392578125, "learning_rate": 0.0002923723388632313, "loss": 0.3974, "step": 153370 }, { "epoch": 204.50666666666666, "grad_norm": 0.392578125, "learning_rate": 0.00029237134944261686, "loss": 0.3962, "step": 153380 }, { "epoch": 204.52, "grad_norm": 0.349609375, "learning_rate": 0.00029237035995950976, "loss": 0.3869, "step": 153390 }, { "epoch": 204.53333333333333, "grad_norm": 0.453125, "learning_rate": 0.00029236937041391027, "loss": 0.3896, "step": 153400 }, { "epoch": 204.54666666666665, "grad_norm": 0.4375, "learning_rate": 0.000292368380805819, "loss": 0.3903, "step": 153410 }, { "epoch": 204.56, "grad_norm": 0.44140625, "learning_rate": 0.0002923673911352363, "loss": 0.3847, "step": 153420 }, { "epoch": 204.57333333333332, "grad_norm": 0.431640625, "learning_rate": 0.0002923664014021627, "loss": 0.3893, "step": 153430 }, { "epoch": 204.58666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029236541160659847, "loss": 0.3788, "step": 153440 }, { "epoch": 204.6, "grad_norm": 0.40625, "learning_rate": 0.00029236442174854416, "loss": 0.3804, "step": 153450 }, { "epoch": 204.61333333333334, "grad_norm": 0.38671875, "learning_rate": 0.0002923634318280002, "loss": 0.3707, "step": 153460 }, { "epoch": 204.62666666666667, "grad_norm": 0.3671875, "learning_rate": 0.0002923624418449669, "loss": 0.3758, "step": 153470 }, { "epoch": 204.64, "grad_norm": 0.4140625, "learning_rate": 0.0002923614517994449, "loss": 0.3866, "step": 153480 }, { "epoch": 204.65333333333334, "grad_norm": 0.37890625, "learning_rate": 0.00029236046169143446, "loss": 0.3961, "step": 153490 }, { "epoch": 204.66666666666666, "grad_norm": 0.375, "learning_rate": 0.00029235947152093613, "loss": 0.3839, "step": 153500 }, { "epoch": 204.68, "grad_norm": 0.451171875, "learning_rate": 0.00029235848128795024, "loss": 0.3758, "step": 153510 }, { "epoch": 204.69333333333333, "grad_norm": 0.4453125, "learning_rate": 0.00029235749099247734, "loss": 0.3859, "step": 153520 }, { "epoch": 204.70666666666668, "grad_norm": 0.375, "learning_rate": 0.00029235650063451775, "loss": 0.3775, "step": 153530 }, { "epoch": 204.72, "grad_norm": 0.400390625, "learning_rate": 0.00029235551021407206, "loss": 0.3993, "step": 153540 }, { "epoch": 204.73333333333332, "grad_norm": 0.470703125, "learning_rate": 0.0002923545197311405, "loss": 0.3941, "step": 153550 }, { "epoch": 204.74666666666667, "grad_norm": 0.396484375, "learning_rate": 0.00029235352918572364, "loss": 0.3966, "step": 153560 }, { "epoch": 204.76, "grad_norm": 0.4453125, "learning_rate": 0.0002923525385778219, "loss": 0.4095, "step": 153570 }, { "epoch": 204.77333333333334, "grad_norm": 0.462890625, "learning_rate": 0.0002923515479074357, "loss": 0.3963, "step": 153580 }, { "epoch": 204.78666666666666, "grad_norm": 0.404296875, "learning_rate": 0.0002923505571745654, "loss": 0.397, "step": 153590 }, { "epoch": 204.8, "grad_norm": 0.4140625, "learning_rate": 0.00029234956637921167, "loss": 0.3954, "step": 153600 }, { "epoch": 204.81333333333333, "grad_norm": 0.4921875, "learning_rate": 0.00029234857552137464, "loss": 0.3687, "step": 153610 }, { "epoch": 204.82666666666665, "grad_norm": 0.423828125, "learning_rate": 0.00029234758460105494, "loss": 0.3777, "step": 153620 }, { "epoch": 204.84, "grad_norm": 0.46484375, "learning_rate": 0.000292346593618253, "loss": 0.3907, "step": 153630 }, { "epoch": 204.85333333333332, "grad_norm": 0.466796875, "learning_rate": 0.0002923456025729691, "loss": 0.3853, "step": 153640 }, { "epoch": 204.86666666666667, "grad_norm": 0.4453125, "learning_rate": 0.00029234461146520393, "loss": 0.3907, "step": 153650 }, { "epoch": 204.88, "grad_norm": 0.4296875, "learning_rate": 0.0002923436202949576, "loss": 0.3706, "step": 153660 }, { "epoch": 204.89333333333335, "grad_norm": 0.3828125, "learning_rate": 0.00029234262906223087, "loss": 0.3825, "step": 153670 }, { "epoch": 204.90666666666667, "grad_norm": 0.447265625, "learning_rate": 0.00029234163776702403, "loss": 0.3889, "step": 153680 }, { "epoch": 204.92, "grad_norm": 0.431640625, "learning_rate": 0.0002923406464093374, "loss": 0.3906, "step": 153690 }, { "epoch": 204.93333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029233965498917165, "loss": 0.3849, "step": 153700 }, { "epoch": 204.94666666666666, "grad_norm": 0.3828125, "learning_rate": 0.000292338663506527, "loss": 0.3851, "step": 153710 }, { "epoch": 204.96, "grad_norm": 0.365234375, "learning_rate": 0.00029233767196140404, "loss": 0.3844, "step": 153720 }, { "epoch": 204.97333333333333, "grad_norm": 0.54296875, "learning_rate": 0.00029233668035380316, "loss": 0.4081, "step": 153730 }, { "epoch": 204.98666666666668, "grad_norm": 0.447265625, "learning_rate": 0.0002923356886837247, "loss": 0.3804, "step": 153740 }, { "epoch": 205.0, "grad_norm": 0.431640625, "learning_rate": 0.00029233469695116925, "loss": 0.3774, "step": 153750 }, { "epoch": 205.0, "eval_loss": 0.42539915442466736, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9153, "eval_samples_per_second": 1.614, "eval_steps_per_second": 0.101, "step": 153750 }, { "epoch": 205.01333333333332, "grad_norm": 0.419921875, "learning_rate": 0.00029233370515613713, "loss": 0.3947, "step": 153760 }, { "epoch": 205.02666666666667, "grad_norm": 0.400390625, "learning_rate": 0.00029233271329862884, "loss": 0.407, "step": 153770 }, { "epoch": 205.04, "grad_norm": 0.369140625, "learning_rate": 0.00029233172137864476, "loss": 0.4218, "step": 153780 }, { "epoch": 205.05333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0002923307293961854, "loss": 0.4067, "step": 153790 }, { "epoch": 205.06666666666666, "grad_norm": 0.416015625, "learning_rate": 0.00029232973735125115, "loss": 0.394, "step": 153800 }, { "epoch": 205.08, "grad_norm": 0.421875, "learning_rate": 0.00029232874524384245, "loss": 0.397, "step": 153810 }, { "epoch": 205.09333333333333, "grad_norm": 0.40625, "learning_rate": 0.00029232775307395974, "loss": 0.3984, "step": 153820 }, { "epoch": 205.10666666666665, "grad_norm": 0.41796875, "learning_rate": 0.0002923267608416034, "loss": 0.3868, "step": 153830 }, { "epoch": 205.12, "grad_norm": 0.408203125, "learning_rate": 0.00029232576854677393, "loss": 0.3909, "step": 153840 }, { "epoch": 205.13333333333333, "grad_norm": 0.38671875, "learning_rate": 0.00029232477618947175, "loss": 0.3818, "step": 153850 }, { "epoch": 205.14666666666668, "grad_norm": 0.37109375, "learning_rate": 0.0002923237837696973, "loss": 0.4017, "step": 153860 }, { "epoch": 205.16, "grad_norm": 0.384765625, "learning_rate": 0.00029232279128745106, "loss": 0.3956, "step": 153870 }, { "epoch": 205.17333333333335, "grad_norm": 0.419921875, "learning_rate": 0.00029232179874273337, "loss": 0.3899, "step": 153880 }, { "epoch": 205.18666666666667, "grad_norm": 0.40234375, "learning_rate": 0.0002923208061355447, "loss": 0.3876, "step": 153890 }, { "epoch": 205.2, "grad_norm": 0.41796875, "learning_rate": 0.00029231981346588556, "loss": 0.3807, "step": 153900 }, { "epoch": 205.21333333333334, "grad_norm": 0.44140625, "learning_rate": 0.00029231882073375626, "loss": 0.3817, "step": 153910 }, { "epoch": 205.22666666666666, "grad_norm": 0.458984375, "learning_rate": 0.0002923178279391573, "loss": 0.3933, "step": 153920 }, { "epoch": 205.24, "grad_norm": 0.4609375, "learning_rate": 0.00029231683508208913, "loss": 0.379, "step": 153930 }, { "epoch": 205.25333333333333, "grad_norm": 0.455078125, "learning_rate": 0.00029231584216255223, "loss": 0.3805, "step": 153940 }, { "epoch": 205.26666666666668, "grad_norm": 0.462890625, "learning_rate": 0.0002923148491805469, "loss": 0.3822, "step": 153950 }, { "epoch": 205.28, "grad_norm": 0.45703125, "learning_rate": 0.0002923138561360737, "loss": 0.4122, "step": 153960 }, { "epoch": 205.29333333333332, "grad_norm": 0.423828125, "learning_rate": 0.000292312863029133, "loss": 0.3694, "step": 153970 }, { "epoch": 205.30666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002923118698597252, "loss": 0.3928, "step": 153980 }, { "epoch": 205.32, "grad_norm": 0.392578125, "learning_rate": 0.0002923108766278509, "loss": 0.3949, "step": 153990 }, { "epoch": 205.33333333333334, "grad_norm": 0.4921875, "learning_rate": 0.0002923098833335104, "loss": 0.3971, "step": 154000 }, { "epoch": 205.34666666666666, "grad_norm": 0.4765625, "learning_rate": 0.00029230888997670406, "loss": 0.3876, "step": 154010 }, { "epoch": 205.36, "grad_norm": 0.5234375, "learning_rate": 0.0002923078965574325, "loss": 0.3878, "step": 154020 }, { "epoch": 205.37333333333333, "grad_norm": 0.39453125, "learning_rate": 0.0002923069030756961, "loss": 0.3909, "step": 154030 }, { "epoch": 205.38666666666666, "grad_norm": 0.43359375, "learning_rate": 0.00029230590953149523, "loss": 0.3815, "step": 154040 }, { "epoch": 205.4, "grad_norm": 0.4296875, "learning_rate": 0.0002923049159248304, "loss": 0.389, "step": 154050 }, { "epoch": 205.41333333333333, "grad_norm": 0.400390625, "learning_rate": 0.000292303922255702, "loss": 0.3945, "step": 154060 }, { "epoch": 205.42666666666668, "grad_norm": 0.384765625, "learning_rate": 0.00029230292852411044, "loss": 0.3947, "step": 154070 }, { "epoch": 205.44, "grad_norm": 0.41796875, "learning_rate": 0.00029230193473005623, "loss": 0.4069, "step": 154080 }, { "epoch": 205.45333333333335, "grad_norm": 0.51953125, "learning_rate": 0.0002923009408735398, "loss": 0.3958, "step": 154090 }, { "epoch": 205.46666666666667, "grad_norm": 0.421875, "learning_rate": 0.0002922999469545615, "loss": 0.4036, "step": 154100 }, { "epoch": 205.48, "grad_norm": 0.40625, "learning_rate": 0.0002922989529731219, "loss": 0.3865, "step": 154110 }, { "epoch": 205.49333333333334, "grad_norm": 0.462890625, "learning_rate": 0.0002922979589292213, "loss": 0.3977, "step": 154120 }, { "epoch": 205.50666666666666, "grad_norm": 0.427734375, "learning_rate": 0.0002922969648228602, "loss": 0.3972, "step": 154130 }, { "epoch": 205.52, "grad_norm": 0.400390625, "learning_rate": 0.00029229597065403906, "loss": 0.3869, "step": 154140 }, { "epoch": 205.53333333333333, "grad_norm": 0.44140625, "learning_rate": 0.00029229497642275826, "loss": 0.3892, "step": 154150 }, { "epoch": 205.54666666666665, "grad_norm": 0.45703125, "learning_rate": 0.0002922939821290183, "loss": 0.391, "step": 154160 }, { "epoch": 205.56, "grad_norm": 0.357421875, "learning_rate": 0.0002922929877728195, "loss": 0.3855, "step": 154170 }, { "epoch": 205.57333333333332, "grad_norm": 0.439453125, "learning_rate": 0.0002922919933541625, "loss": 0.3893, "step": 154180 }, { "epoch": 205.58666666666667, "grad_norm": 0.3984375, "learning_rate": 0.00029229099887304754, "loss": 0.3788, "step": 154190 }, { "epoch": 205.6, "grad_norm": 0.408203125, "learning_rate": 0.00029229000432947516, "loss": 0.3802, "step": 154200 }, { "epoch": 205.61333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002922890097234458, "loss": 0.3693, "step": 154210 }, { "epoch": 205.62666666666667, "grad_norm": 0.36328125, "learning_rate": 0.0002922880150549598, "loss": 0.3757, "step": 154220 }, { "epoch": 205.64, "grad_norm": 0.455078125, "learning_rate": 0.00029228702032401766, "loss": 0.3875, "step": 154230 }, { "epoch": 205.65333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002922860255306199, "loss": 0.3961, "step": 154240 }, { "epoch": 205.66666666666666, "grad_norm": 0.380859375, "learning_rate": 0.0002922850306747668, "loss": 0.3841, "step": 154250 }, { "epoch": 205.68, "grad_norm": 0.39453125, "learning_rate": 0.0002922840357564589, "loss": 0.3757, "step": 154260 }, { "epoch": 205.69333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002922830407756966, "loss": 0.386, "step": 154270 }, { "epoch": 205.70666666666668, "grad_norm": 0.427734375, "learning_rate": 0.0002922820457324803, "loss": 0.3776, "step": 154280 }, { "epoch": 205.72, "grad_norm": 0.41015625, "learning_rate": 0.00029228105062681055, "loss": 0.399, "step": 154290 }, { "epoch": 205.73333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029228005545868773, "loss": 0.393, "step": 154300 }, { "epoch": 205.74666666666667, "grad_norm": 0.419921875, "learning_rate": 0.0002922790602281122, "loss": 0.3959, "step": 154310 }, { "epoch": 205.76, "grad_norm": 0.40625, "learning_rate": 0.0002922780649350845, "loss": 0.409, "step": 154320 }, { "epoch": 205.77333333333334, "grad_norm": 0.53125, "learning_rate": 0.000292277069579605, "loss": 0.3951, "step": 154330 }, { "epoch": 205.78666666666666, "grad_norm": 0.37890625, "learning_rate": 0.00029227607416167426, "loss": 0.3968, "step": 154340 }, { "epoch": 205.8, "grad_norm": 0.40625, "learning_rate": 0.00029227507868129254, "loss": 0.3945, "step": 154350 }, { "epoch": 205.81333333333333, "grad_norm": 0.478515625, "learning_rate": 0.0002922740831384604, "loss": 0.369, "step": 154360 }, { "epoch": 205.82666666666665, "grad_norm": 0.40234375, "learning_rate": 0.0002922730875331782, "loss": 0.3776, "step": 154370 }, { "epoch": 205.84, "grad_norm": 0.49609375, "learning_rate": 0.0002922720918654464, "loss": 0.3901, "step": 154380 }, { "epoch": 205.85333333333332, "grad_norm": 0.43359375, "learning_rate": 0.0002922710961352655, "loss": 0.3845, "step": 154390 }, { "epoch": 205.86666666666667, "grad_norm": 0.408203125, "learning_rate": 0.00029227010034263586, "loss": 0.3898, "step": 154400 }, { "epoch": 205.88, "grad_norm": 0.443359375, "learning_rate": 0.00029226910448755793, "loss": 0.3709, "step": 154410 }, { "epoch": 205.89333333333335, "grad_norm": 0.37109375, "learning_rate": 0.0002922681085700322, "loss": 0.3826, "step": 154420 }, { "epoch": 205.90666666666667, "grad_norm": 0.416015625, "learning_rate": 0.0002922671125900591, "loss": 0.3894, "step": 154430 }, { "epoch": 205.92, "grad_norm": 0.447265625, "learning_rate": 0.00029226611654763895, "loss": 0.3904, "step": 154440 }, { "epoch": 205.93333333333334, "grad_norm": 0.37109375, "learning_rate": 0.00029226512044277234, "loss": 0.3844, "step": 154450 }, { "epoch": 205.94666666666666, "grad_norm": 0.431640625, "learning_rate": 0.0002922641242754596, "loss": 0.3857, "step": 154460 }, { "epoch": 205.96, "grad_norm": 0.3671875, "learning_rate": 0.00029226312804570123, "loss": 0.3835, "step": 154470 }, { "epoch": 205.97333333333333, "grad_norm": 0.53515625, "learning_rate": 0.0002922621317534976, "loss": 0.4083, "step": 154480 }, { "epoch": 205.98666666666668, "grad_norm": 0.453125, "learning_rate": 0.0002922611353988493, "loss": 0.3803, "step": 154490 }, { "epoch": 206.0, "grad_norm": 0.380859375, "learning_rate": 0.0002922601389817566, "loss": 0.3775, "step": 154500 }, { "epoch": 206.0, "eval_loss": 0.425143301486969, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.7636, "eval_samples_per_second": 1.639, "eval_steps_per_second": 0.102, "step": 154500 }, { "epoch": 206.01333333333332, "grad_norm": 0.484375, "learning_rate": 0.00029225914250222, "loss": 0.3947, "step": 154510 }, { "epoch": 206.02666666666667, "grad_norm": 0.375, "learning_rate": 0.0002922581459602399, "loss": 0.4081, "step": 154520 }, { "epoch": 206.04, "grad_norm": 0.380859375, "learning_rate": 0.0002922571493558168, "loss": 0.4213, "step": 154530 }, { "epoch": 206.05333333333334, "grad_norm": 0.443359375, "learning_rate": 0.0002922561526889511, "loss": 0.4063, "step": 154540 }, { "epoch": 206.06666666666666, "grad_norm": 0.40625, "learning_rate": 0.00029225515595964326, "loss": 0.3942, "step": 154550 }, { "epoch": 206.08, "grad_norm": 0.443359375, "learning_rate": 0.00029225415916789375, "loss": 0.3972, "step": 154560 }, { "epoch": 206.09333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0002922531623137029, "loss": 0.3986, "step": 154570 }, { "epoch": 206.10666666666665, "grad_norm": 0.36328125, "learning_rate": 0.0002922521653970712, "loss": 0.3862, "step": 154580 }, { "epoch": 206.12, "grad_norm": 0.40625, "learning_rate": 0.00029225116841799916, "loss": 0.3909, "step": 154590 }, { "epoch": 206.13333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002922501713764871, "loss": 0.3822, "step": 154600 }, { "epoch": 206.14666666666668, "grad_norm": 0.439453125, "learning_rate": 0.00029224917427253554, "loss": 0.402, "step": 154610 }, { "epoch": 206.16, "grad_norm": 0.34375, "learning_rate": 0.0002922481771061449, "loss": 0.3951, "step": 154620 }, { "epoch": 206.17333333333335, "grad_norm": 0.431640625, "learning_rate": 0.0002922471798773156, "loss": 0.3903, "step": 154630 }, { "epoch": 206.18666666666667, "grad_norm": 0.3984375, "learning_rate": 0.0002922461825860481, "loss": 0.3871, "step": 154640 }, { "epoch": 206.2, "grad_norm": 0.4453125, "learning_rate": 0.0002922451852323428, "loss": 0.3803, "step": 154650 }, { "epoch": 206.21333333333334, "grad_norm": 0.435546875, "learning_rate": 0.00029224418781620014, "loss": 0.3817, "step": 154660 }, { "epoch": 206.22666666666666, "grad_norm": 0.451171875, "learning_rate": 0.0002922431903376206, "loss": 0.3928, "step": 154670 }, { "epoch": 206.24, "grad_norm": 0.404296875, "learning_rate": 0.0002922421927966046, "loss": 0.378, "step": 154680 }, { "epoch": 206.25333333333333, "grad_norm": 0.4375, "learning_rate": 0.0002922411951931526, "loss": 0.3795, "step": 154690 }, { "epoch": 206.26666666666668, "grad_norm": 0.390625, "learning_rate": 0.000292240197527265, "loss": 0.3822, "step": 154700 }, { "epoch": 206.28, "grad_norm": 0.431640625, "learning_rate": 0.0002922391997989422, "loss": 0.413, "step": 154710 }, { "epoch": 206.29333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002922382020081847, "loss": 0.3687, "step": 154720 }, { "epoch": 206.30666666666667, "grad_norm": 0.41015625, "learning_rate": 0.00029223720415499303, "loss": 0.393, "step": 154730 }, { "epoch": 206.32, "grad_norm": 0.35546875, "learning_rate": 0.00029223620623936746, "loss": 0.3956, "step": 154740 }, { "epoch": 206.33333333333334, "grad_norm": 0.46875, "learning_rate": 0.00029223520826130844, "loss": 0.3972, "step": 154750 }, { "epoch": 206.34666666666666, "grad_norm": 0.455078125, "learning_rate": 0.00029223421022081655, "loss": 0.3873, "step": 154760 }, { "epoch": 206.36, "grad_norm": 0.431640625, "learning_rate": 0.0002922332121178921, "loss": 0.3881, "step": 154770 }, { "epoch": 206.37333333333333, "grad_norm": 0.4296875, "learning_rate": 0.00029223221395253556, "loss": 0.3914, "step": 154780 }, { "epoch": 206.38666666666666, "grad_norm": 0.453125, "learning_rate": 0.00029223121572474737, "loss": 0.3811, "step": 154790 }, { "epoch": 206.4, "grad_norm": 0.4375, "learning_rate": 0.000292230217434528, "loss": 0.39, "step": 154800 }, { "epoch": 206.41333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0002922292190818778, "loss": 0.3939, "step": 154810 }, { "epoch": 206.42666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029222822066679734, "loss": 0.3961, "step": 154820 }, { "epoch": 206.44, "grad_norm": 0.3828125, "learning_rate": 0.000292227222189287, "loss": 0.4068, "step": 154830 }, { "epoch": 206.45333333333335, "grad_norm": 0.4609375, "learning_rate": 0.0002922262236493471, "loss": 0.3959, "step": 154840 }, { "epoch": 206.46666666666667, "grad_norm": 0.45703125, "learning_rate": 0.0002922252250469783, "loss": 0.4043, "step": 154850 }, { "epoch": 206.48, "grad_norm": 0.408203125, "learning_rate": 0.00029222422638218085, "loss": 0.3857, "step": 154860 }, { "epoch": 206.49333333333334, "grad_norm": 0.416015625, "learning_rate": 0.0002922232276549553, "loss": 0.3984, "step": 154870 }, { "epoch": 206.50666666666666, "grad_norm": 0.380859375, "learning_rate": 0.00029222222886530206, "loss": 0.397, "step": 154880 }, { "epoch": 206.52, "grad_norm": 0.40234375, "learning_rate": 0.00029222123001322153, "loss": 0.3864, "step": 154890 }, { "epoch": 206.53333333333333, "grad_norm": 0.41796875, "learning_rate": 0.0002922202310987142, "loss": 0.3892, "step": 154900 }, { "epoch": 206.54666666666665, "grad_norm": 0.47265625, "learning_rate": 0.00029221923212178043, "loss": 0.3909, "step": 154910 }, { "epoch": 206.56, "grad_norm": 0.37890625, "learning_rate": 0.0002922182330824208, "loss": 0.3854, "step": 154920 }, { "epoch": 206.57333333333332, "grad_norm": 0.416015625, "learning_rate": 0.0002922172339806356, "loss": 0.3884, "step": 154930 }, { "epoch": 206.58666666666667, "grad_norm": 0.373046875, "learning_rate": 0.00029221623481642535, "loss": 0.3787, "step": 154940 }, { "epoch": 206.6, "grad_norm": 0.36328125, "learning_rate": 0.0002922152355897905, "loss": 0.3798, "step": 154950 }, { "epoch": 206.61333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0002922142363007314, "loss": 0.3698, "step": 154960 }, { "epoch": 206.62666666666667, "grad_norm": 0.35546875, "learning_rate": 0.00029221323694924857, "loss": 0.3753, "step": 154970 }, { "epoch": 206.64, "grad_norm": 0.40625, "learning_rate": 0.0002922122375353424, "loss": 0.3861, "step": 154980 }, { "epoch": 206.65333333333334, "grad_norm": 0.36328125, "learning_rate": 0.0002922112380590134, "loss": 0.3966, "step": 154990 }, { "epoch": 206.66666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0002922102385202619, "loss": 0.3852, "step": 155000 }, { "epoch": 206.68, "grad_norm": 0.44140625, "learning_rate": 0.0002922092389190885, "loss": 0.3758, "step": 155010 }, { "epoch": 206.69333333333333, "grad_norm": 0.37109375, "learning_rate": 0.0002922082392554934, "loss": 0.3853, "step": 155020 }, { "epoch": 206.70666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0002922072395294773, "loss": 0.3774, "step": 155030 }, { "epoch": 206.72, "grad_norm": 0.40234375, "learning_rate": 0.0002922062397410405, "loss": 0.4001, "step": 155040 }, { "epoch": 206.73333333333332, "grad_norm": 0.4453125, "learning_rate": 0.0002922052398901834, "loss": 0.394, "step": 155050 }, { "epoch": 206.74666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0002922042399769065, "loss": 0.3966, "step": 155060 }, { "epoch": 206.76, "grad_norm": 0.42578125, "learning_rate": 0.0002922032400012103, "loss": 0.4097, "step": 155070 }, { "epoch": 206.77333333333334, "grad_norm": 0.46875, "learning_rate": 0.00029220223996309516, "loss": 0.3957, "step": 155080 }, { "epoch": 206.78666666666666, "grad_norm": 0.369140625, "learning_rate": 0.0002922012398625615, "loss": 0.397, "step": 155090 }, { "epoch": 206.8, "grad_norm": 0.392578125, "learning_rate": 0.0002922002396996098, "loss": 0.3956, "step": 155100 }, { "epoch": 206.81333333333333, "grad_norm": 0.458984375, "learning_rate": 0.00029219923947424055, "loss": 0.3685, "step": 155110 }, { "epoch": 206.82666666666665, "grad_norm": 0.44140625, "learning_rate": 0.00029219823918645403, "loss": 0.3774, "step": 155120 }, { "epoch": 206.84, "grad_norm": 0.482421875, "learning_rate": 0.0002921972388362508, "loss": 0.3896, "step": 155130 }, { "epoch": 206.85333333333332, "grad_norm": 0.435546875, "learning_rate": 0.0002921962384236313, "loss": 0.385, "step": 155140 }, { "epoch": 206.86666666666667, "grad_norm": 0.478515625, "learning_rate": 0.00029219523794859597, "loss": 0.3896, "step": 155150 }, { "epoch": 206.88, "grad_norm": 0.375, "learning_rate": 0.00029219423741114523, "loss": 0.3708, "step": 155160 }, { "epoch": 206.89333333333335, "grad_norm": 0.353515625, "learning_rate": 0.00029219323681127946, "loss": 0.3833, "step": 155170 }, { "epoch": 206.90666666666667, "grad_norm": 0.435546875, "learning_rate": 0.0002921922361489992, "loss": 0.389, "step": 155180 }, { "epoch": 206.92, "grad_norm": 0.443359375, "learning_rate": 0.0002921912354243048, "loss": 0.3912, "step": 155190 }, { "epoch": 206.93333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0002921902346371968, "loss": 0.3849, "step": 155200 }, { "epoch": 206.94666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002921892337876755, "loss": 0.3852, "step": 155210 }, { "epoch": 206.96, "grad_norm": 0.408203125, "learning_rate": 0.0002921882328757415, "loss": 0.3839, "step": 155220 }, { "epoch": 206.97333333333333, "grad_norm": 0.482421875, "learning_rate": 0.0002921872319013951, "loss": 0.4082, "step": 155230 }, { "epoch": 206.98666666666668, "grad_norm": 0.408203125, "learning_rate": 0.00029218623086463687, "loss": 0.3801, "step": 155240 }, { "epoch": 207.0, "grad_norm": 0.40234375, "learning_rate": 0.0002921852297654671, "loss": 0.3767, "step": 155250 }, { "epoch": 207.0, "eval_loss": 0.42495977878570557, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.988, "eval_samples_per_second": 1.602, "eval_steps_per_second": 0.1, "step": 155250 }, { "epoch": 207.01333333333332, "grad_norm": 0.49609375, "learning_rate": 0.00029218422860388633, "loss": 0.3943, "step": 155260 }, { "epoch": 207.02666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029218322737989503, "loss": 0.4082, "step": 155270 }, { "epoch": 207.04, "grad_norm": 0.404296875, "learning_rate": 0.0002921822260934935, "loss": 0.4209, "step": 155280 }, { "epoch": 207.05333333333334, "grad_norm": 0.388671875, "learning_rate": 0.00029218122474468236, "loss": 0.4066, "step": 155290 }, { "epoch": 207.06666666666666, "grad_norm": 0.4609375, "learning_rate": 0.0002921802233334619, "loss": 0.3946, "step": 155300 }, { "epoch": 207.08, "grad_norm": 0.412109375, "learning_rate": 0.0002921792218598327, "loss": 0.397, "step": 155310 }, { "epoch": 207.09333333333333, "grad_norm": 0.42578125, "learning_rate": 0.000292178220323795, "loss": 0.3984, "step": 155320 }, { "epoch": 207.10666666666665, "grad_norm": 0.3828125, "learning_rate": 0.00029217721872534943, "loss": 0.3862, "step": 155330 }, { "epoch": 207.12, "grad_norm": 0.439453125, "learning_rate": 0.0002921762170644963, "loss": 0.3906, "step": 155340 }, { "epoch": 207.13333333333333, "grad_norm": 0.41796875, "learning_rate": 0.00029217521534123615, "loss": 0.3822, "step": 155350 }, { "epoch": 207.14666666666668, "grad_norm": 0.39453125, "learning_rate": 0.00029217421355556936, "loss": 0.4002, "step": 155360 }, { "epoch": 207.16, "grad_norm": 0.37890625, "learning_rate": 0.0002921732117074964, "loss": 0.3948, "step": 155370 }, { "epoch": 207.17333333333335, "grad_norm": 0.376953125, "learning_rate": 0.0002921722097970177, "loss": 0.3885, "step": 155380 }, { "epoch": 207.18666666666667, "grad_norm": 0.4375, "learning_rate": 0.00029217120782413364, "loss": 0.3878, "step": 155390 }, { "epoch": 207.2, "grad_norm": 0.42578125, "learning_rate": 0.00029217020578884475, "loss": 0.3803, "step": 155400 }, { "epoch": 207.21333333333334, "grad_norm": 0.421875, "learning_rate": 0.0002921692036911514, "loss": 0.3812, "step": 155410 }, { "epoch": 207.22666666666666, "grad_norm": 0.4296875, "learning_rate": 0.0002921682015310541, "loss": 0.3936, "step": 155420 }, { "epoch": 207.24, "grad_norm": 0.396484375, "learning_rate": 0.00029216719930855325, "loss": 0.3788, "step": 155430 }, { "epoch": 207.25333333333333, "grad_norm": 0.423828125, "learning_rate": 0.00029216619702364925, "loss": 0.3812, "step": 155440 }, { "epoch": 207.26666666666668, "grad_norm": 0.373046875, "learning_rate": 0.00029216519467634264, "loss": 0.3816, "step": 155450 }, { "epoch": 207.28, "grad_norm": 0.421875, "learning_rate": 0.0002921641922666338, "loss": 0.4126, "step": 155460 }, { "epoch": 207.29333333333332, "grad_norm": 0.4453125, "learning_rate": 0.00029216318979452316, "loss": 0.3695, "step": 155470 }, { "epoch": 207.30666666666667, "grad_norm": 0.3828125, "learning_rate": 0.00029216218726001115, "loss": 0.3926, "step": 155480 }, { "epoch": 207.32, "grad_norm": 0.341796875, "learning_rate": 0.00029216118466309827, "loss": 0.3947, "step": 155490 }, { "epoch": 207.33333333333334, "grad_norm": 0.453125, "learning_rate": 0.0002921601820037849, "loss": 0.3973, "step": 155500 }, { "epoch": 207.34666666666666, "grad_norm": 0.46875, "learning_rate": 0.0002921591792820715, "loss": 0.3881, "step": 155510 }, { "epoch": 207.36, "grad_norm": 0.5390625, "learning_rate": 0.00029215817649795855, "loss": 0.3881, "step": 155520 }, { "epoch": 207.37333333333333, "grad_norm": 0.369140625, "learning_rate": 0.0002921571736514464, "loss": 0.3905, "step": 155530 }, { "epoch": 207.38666666666666, "grad_norm": 0.466796875, "learning_rate": 0.0002921561707425356, "loss": 0.3819, "step": 155540 }, { "epoch": 207.4, "grad_norm": 0.388671875, "learning_rate": 0.00029215516777122643, "loss": 0.389, "step": 155550 }, { "epoch": 207.41333333333333, "grad_norm": 0.376953125, "learning_rate": 0.00029215416473751956, "loss": 0.3934, "step": 155560 }, { "epoch": 207.42666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002921531616414152, "loss": 0.3952, "step": 155570 }, { "epoch": 207.44, "grad_norm": 0.380859375, "learning_rate": 0.00029215215848291397, "loss": 0.4063, "step": 155580 }, { "epoch": 207.45333333333335, "grad_norm": 0.435546875, "learning_rate": 0.00029215115526201623, "loss": 0.3961, "step": 155590 }, { "epoch": 207.46666666666667, "grad_norm": 0.44140625, "learning_rate": 0.0002921501519787224, "loss": 0.4043, "step": 155600 }, { "epoch": 207.48, "grad_norm": 0.373046875, "learning_rate": 0.0002921491486330329, "loss": 0.3859, "step": 155610 }, { "epoch": 207.49333333333334, "grad_norm": 0.404296875, "learning_rate": 0.00029214814522494833, "loss": 0.3987, "step": 155620 }, { "epoch": 207.50666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029214714175446893, "loss": 0.3969, "step": 155630 }, { "epoch": 207.52, "grad_norm": 0.40234375, "learning_rate": 0.00029214613822159527, "loss": 0.3873, "step": 155640 }, { "epoch": 207.53333333333333, "grad_norm": 0.439453125, "learning_rate": 0.0002921451346263277, "loss": 0.3897, "step": 155650 }, { "epoch": 207.54666666666665, "grad_norm": 0.427734375, "learning_rate": 0.0002921441309686668, "loss": 0.3909, "step": 155660 }, { "epoch": 207.56, "grad_norm": 0.369140625, "learning_rate": 0.0002921431272486128, "loss": 0.3853, "step": 155670 }, { "epoch": 207.57333333333332, "grad_norm": 0.42578125, "learning_rate": 0.00029214212346616634, "loss": 0.3893, "step": 155680 }, { "epoch": 207.58666666666667, "grad_norm": 0.375, "learning_rate": 0.00029214111962132776, "loss": 0.3779, "step": 155690 }, { "epoch": 207.6, "grad_norm": 0.39453125, "learning_rate": 0.0002921401157140975, "loss": 0.3794, "step": 155700 }, { "epoch": 207.61333333333334, "grad_norm": 0.359375, "learning_rate": 0.00029213911174447605, "loss": 0.3702, "step": 155710 }, { "epoch": 207.62666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0002921381077124638, "loss": 0.376, "step": 155720 }, { "epoch": 207.64, "grad_norm": 0.419921875, "learning_rate": 0.0002921371036180612, "loss": 0.3867, "step": 155730 }, { "epoch": 207.65333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0002921360994612688, "loss": 0.396, "step": 155740 }, { "epoch": 207.66666666666666, "grad_norm": 0.357421875, "learning_rate": 0.00029213509524208685, "loss": 0.3849, "step": 155750 }, { "epoch": 207.68, "grad_norm": 0.427734375, "learning_rate": 0.0002921340909605159, "loss": 0.375, "step": 155760 }, { "epoch": 207.69333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0002921330866165564, "loss": 0.3854, "step": 155770 }, { "epoch": 207.70666666666668, "grad_norm": 0.43359375, "learning_rate": 0.0002921320822102087, "loss": 0.3769, "step": 155780 }, { "epoch": 207.72, "grad_norm": 0.44921875, "learning_rate": 0.00029213107774147336, "loss": 0.3995, "step": 155790 }, { "epoch": 207.73333333333332, "grad_norm": 0.439453125, "learning_rate": 0.00029213007321035074, "loss": 0.3935, "step": 155800 }, { "epoch": 207.74666666666667, "grad_norm": 0.3828125, "learning_rate": 0.0002921290686168414, "loss": 0.396, "step": 155810 }, { "epoch": 207.76, "grad_norm": 0.4140625, "learning_rate": 0.0002921280639609456, "loss": 0.409, "step": 155820 }, { "epoch": 207.77333333333334, "grad_norm": 0.455078125, "learning_rate": 0.0002921270592426639, "loss": 0.3952, "step": 155830 }, { "epoch": 207.78666666666666, "grad_norm": 0.376953125, "learning_rate": 0.0002921260544619967, "loss": 0.3959, "step": 155840 }, { "epoch": 207.8, "grad_norm": 0.3984375, "learning_rate": 0.00029212504961894444, "loss": 0.3953, "step": 155850 }, { "epoch": 207.81333333333333, "grad_norm": 0.44921875, "learning_rate": 0.0002921240447135076, "loss": 0.3681, "step": 155860 }, { "epoch": 207.82666666666665, "grad_norm": 0.451171875, "learning_rate": 0.0002921230397456866, "loss": 0.3767, "step": 155870 }, { "epoch": 207.84, "grad_norm": 0.447265625, "learning_rate": 0.00029212203471548187, "loss": 0.391, "step": 155880 }, { "epoch": 207.85333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002921210296228939, "loss": 0.3855, "step": 155890 }, { "epoch": 207.86666666666667, "grad_norm": 0.443359375, "learning_rate": 0.00029212002446792296, "loss": 0.3902, "step": 155900 }, { "epoch": 207.88, "grad_norm": 0.404296875, "learning_rate": 0.0002921190192505697, "loss": 0.3706, "step": 155910 }, { "epoch": 207.89333333333335, "grad_norm": 0.41015625, "learning_rate": 0.0002921180139708345, "loss": 0.3826, "step": 155920 }, { "epoch": 207.90666666666667, "grad_norm": 0.423828125, "learning_rate": 0.00029211700862871774, "loss": 0.3882, "step": 155930 }, { "epoch": 207.92, "grad_norm": 0.435546875, "learning_rate": 0.0002921160032242199, "loss": 0.3906, "step": 155940 }, { "epoch": 207.93333333333334, "grad_norm": 0.376953125, "learning_rate": 0.0002921149977573415, "loss": 0.3851, "step": 155950 }, { "epoch": 207.94666666666666, "grad_norm": 0.384765625, "learning_rate": 0.0002921139922280829, "loss": 0.3865, "step": 155960 }, { "epoch": 207.96, "grad_norm": 0.384765625, "learning_rate": 0.00029211298663644444, "loss": 0.3838, "step": 155970 }, { "epoch": 207.97333333333333, "grad_norm": 0.486328125, "learning_rate": 0.00029211198098242676, "loss": 0.4078, "step": 155980 }, { "epoch": 207.98666666666668, "grad_norm": 0.40234375, "learning_rate": 0.0002921109752660302, "loss": 0.3808, "step": 155990 }, { "epoch": 208.0, "grad_norm": 0.423828125, "learning_rate": 0.00029210996948725516, "loss": 0.3777, "step": 156000 }, { "epoch": 208.0, "eval_loss": 0.42512860894203186, "eval_model_preparation_time": 0.0017, "eval_runtime": 9.9085, "eval_samples_per_second": 1.615, "eval_steps_per_second": 0.101, "step": 156000 }, { "epoch": 208.01333333333332, "grad_norm": 0.45703125, "learning_rate": 0.0002921089636461022, "loss": 0.3953, "step": 156010 }, { "epoch": 208.02666666666667, "grad_norm": 0.38671875, "learning_rate": 0.00029210795774257167, "loss": 0.4083, "step": 156020 }, { "epoch": 208.04, "grad_norm": 0.384765625, "learning_rate": 0.00029210695177666403, "loss": 0.421, "step": 156030 }, { "epoch": 208.05333333333334, "grad_norm": 0.42578125, "learning_rate": 0.00029210594574837975, "loss": 0.4068, "step": 156040 }, { "epoch": 208.06666666666666, "grad_norm": 0.4375, "learning_rate": 0.00029210493965771926, "loss": 0.3944, "step": 156050 }, { "epoch": 208.08, "grad_norm": 0.408203125, "learning_rate": 0.00029210393350468294, "loss": 0.3973, "step": 156060 }, { "epoch": 208.09333333333333, "grad_norm": 0.40625, "learning_rate": 0.0002921029272892713, "loss": 0.3973, "step": 156070 }, { "epoch": 208.10666666666665, "grad_norm": 0.435546875, "learning_rate": 0.0002921019210114848, "loss": 0.3871, "step": 156080 }, { "epoch": 208.12, "grad_norm": 0.42578125, "learning_rate": 0.0002921009146713238, "loss": 0.3909, "step": 156090 }, { "epoch": 208.13333333333333, "grad_norm": 0.42578125, "learning_rate": 0.00029209990826878883, "loss": 0.3818, "step": 156100 }, { "epoch": 208.14666666666668, "grad_norm": 0.423828125, "learning_rate": 0.00029209890180388024, "loss": 0.4011, "step": 156110 }, { "epoch": 208.16, "grad_norm": 0.396484375, "learning_rate": 0.0002920978952765985, "loss": 0.3958, "step": 156120 }, { "epoch": 208.17333333333335, "grad_norm": 0.427734375, "learning_rate": 0.0002920968886869442, "loss": 0.3901, "step": 156130 }, { "epoch": 208.18666666666667, "grad_norm": 0.41796875, "learning_rate": 0.00029209588203491757, "loss": 0.3879, "step": 156140 }, { "epoch": 208.2, "grad_norm": 0.408203125, "learning_rate": 0.00029209487532051915, "loss": 0.3806, "step": 156150 }, { "epoch": 208.21333333333334, "grad_norm": 0.419921875, "learning_rate": 0.00029209386854374934, "loss": 0.3817, "step": 156160 }, { "epoch": 208.22666666666666, "grad_norm": 0.4765625, "learning_rate": 0.00029209286170460864, "loss": 0.3935, "step": 156170 }, { "epoch": 208.24, "grad_norm": 0.45703125, "learning_rate": 0.00029209185480309747, "loss": 0.3782, "step": 156180 }, { "epoch": 208.25333333333333, "grad_norm": 0.412109375, "learning_rate": 0.0002920908478392162, "loss": 0.3805, "step": 156190 }, { "epoch": 208.26666666666668, "grad_norm": 0.3828125, "learning_rate": 0.0002920898408129654, "loss": 0.3831, "step": 156200 }, { "epoch": 208.28, "grad_norm": 0.404296875, "learning_rate": 0.00029208883372434545, "loss": 0.4121, "step": 156210 }, { "epoch": 208.29333333333332, "grad_norm": 0.408203125, "learning_rate": 0.0002920878265733568, "loss": 0.3692, "step": 156220 }, { "epoch": 208.30666666666667, "grad_norm": 0.39453125, "learning_rate": 0.0002920868193599999, "loss": 0.393, "step": 156230 }, { "epoch": 208.32, "grad_norm": 0.36328125, "learning_rate": 0.00029208581208427513, "loss": 0.3951, "step": 156240 }, { "epoch": 208.33333333333334, "grad_norm": 0.41015625, "learning_rate": 0.00029208480474618296, "loss": 0.3973, "step": 156250 }, { "epoch": 208.34666666666666, "grad_norm": 0.48046875, "learning_rate": 0.00029208379734572384, "loss": 0.3884, "step": 156260 }, { "epoch": 208.36, "grad_norm": 0.44140625, "learning_rate": 0.0002920827898828983, "loss": 0.3887, "step": 156270 }, { "epoch": 208.37333333333333, "grad_norm": 0.390625, "learning_rate": 0.00029208178235770664, "loss": 0.3894, "step": 156280 }, { "epoch": 208.38666666666666, "grad_norm": 0.447265625, "learning_rate": 0.00029208077477014936, "loss": 0.3808, "step": 156290 }, { "epoch": 208.4, "grad_norm": 0.412109375, "learning_rate": 0.0002920797671202269, "loss": 0.3893, "step": 156300 }, { "epoch": 208.41333333333333, "grad_norm": 0.4296875, "learning_rate": 0.0002920787594079398, "loss": 0.3934, "step": 156310 }, { "epoch": 208.42666666666668, "grad_norm": 0.388671875, "learning_rate": 0.0002920777516332884, "loss": 0.395, "step": 156320 }, { "epoch": 208.44, "grad_norm": 0.41796875, "learning_rate": 0.00029207674379627305, "loss": 0.4076, "step": 156330 }, { "epoch": 208.45333333333335, "grad_norm": 0.46484375, "learning_rate": 0.00029207573589689435, "loss": 0.3955, "step": 156340 }, { "epoch": 208.46666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0002920747279351527, "loss": 0.4041, "step": 156350 }, { "epoch": 208.48, "grad_norm": 0.3671875, "learning_rate": 0.0002920737199110486, "loss": 0.3863, "step": 156360 }, { "epoch": 208.49333333333334, "grad_norm": 0.365234375, "learning_rate": 0.00029207271182458234, "loss": 0.3971, "step": 156370 }, { "epoch": 208.50666666666666, "grad_norm": 0.412109375, "learning_rate": 0.00029207170367575447, "loss": 0.396, "step": 156380 }, { "epoch": 208.52, "grad_norm": 0.380859375, "learning_rate": 0.0002920706954645654, "loss": 0.3861, "step": 156390 }, { "epoch": 208.53333333333333, "grad_norm": 0.451171875, "learning_rate": 0.0002920696871910156, "loss": 0.3899, "step": 156400 }, { "epoch": 208.54666666666665, "grad_norm": 0.470703125, "learning_rate": 0.00029206867885510547, "loss": 0.3919, "step": 156410 }, { "epoch": 208.56, "grad_norm": 0.388671875, "learning_rate": 0.00029206767045683547, "loss": 0.3856, "step": 156420 }, { "epoch": 208.57333333333332, "grad_norm": 0.390625, "learning_rate": 0.00029206666199620607, "loss": 0.3897, "step": 156430 }, { "epoch": 208.58666666666667, "grad_norm": 0.380859375, "learning_rate": 0.0002920656534732177, "loss": 0.378, "step": 156440 }, { "epoch": 208.6, "grad_norm": 0.40625, "learning_rate": 0.00029206464488787083, "loss": 0.3801, "step": 156450 }, { "epoch": 208.61333333333334, "grad_norm": 0.3671875, "learning_rate": 0.0002920636362401658, "loss": 0.3702, "step": 156460 }, { "epoch": 208.62666666666667, "grad_norm": 0.376953125, "learning_rate": 0.00029206262753010313, "loss": 0.3759, "step": 156470 }, { "epoch": 208.64, "grad_norm": 0.419921875, "learning_rate": 0.00029206161875768325, "loss": 0.3872, "step": 156480 }, { "epoch": 208.65333333333334, "grad_norm": 0.4140625, "learning_rate": 0.0002920606099229067, "loss": 0.3957, "step": 156490 }, { "epoch": 208.66666666666666, "grad_norm": 0.396484375, "learning_rate": 0.00029205960102577375, "loss": 0.3841, "step": 156500 }, { "epoch": 208.68, "grad_norm": 0.412109375, "learning_rate": 0.0002920585920662849, "loss": 0.3756, "step": 156510 }, { "epoch": 208.69333333333333, "grad_norm": 0.435546875, "learning_rate": 0.0002920575830444407, "loss": 0.3862, "step": 156520 }, { "epoch": 208.70666666666668, "grad_norm": 0.466796875, "learning_rate": 0.00029205657396024143, "loss": 0.3778, "step": 156530 }, { "epoch": 208.72, "grad_norm": 0.447265625, "learning_rate": 0.0002920555648136876, "loss": 0.3992, "step": 156540 }, { "epoch": 208.73333333333332, "grad_norm": 0.412109375, "learning_rate": 0.0002920545556047797, "loss": 0.3937, "step": 156550 }, { "epoch": 208.74666666666667, "grad_norm": 0.3671875, "learning_rate": 0.00029205354633351816, "loss": 0.3959, "step": 156560 }, { "epoch": 208.76, "grad_norm": 0.40625, "learning_rate": 0.0002920525369999034, "loss": 0.4095, "step": 156570 }, { "epoch": 208.77333333333334, "grad_norm": 0.455078125, "learning_rate": 0.00029205152760393584, "loss": 0.3954, "step": 156580 }, { "epoch": 208.78666666666666, "grad_norm": 0.388671875, "learning_rate": 0.00029205051814561596, "loss": 0.3971, "step": 156590 }, { "epoch": 208.8, "grad_norm": 0.40234375, "learning_rate": 0.0002920495086249442, "loss": 0.3953, "step": 156600 }, { "epoch": 208.81333333333333, "grad_norm": 0.43359375, "learning_rate": 0.00029204849904192095, "loss": 0.3686, "step": 156610 }, { "epoch": 208.82666666666665, "grad_norm": 0.4609375, "learning_rate": 0.0002920474893965467, "loss": 0.3776, "step": 156620 }, { "epoch": 208.84, "grad_norm": 0.43359375, "learning_rate": 0.0002920464796888219, "loss": 0.3895, "step": 156630 }, { "epoch": 208.85333333333332, "grad_norm": 0.3984375, "learning_rate": 0.000292045469918747, "loss": 0.3847, "step": 156640 }, { "epoch": 208.86666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0002920444600863224, "loss": 0.3901, "step": 156650 }, { "epoch": 208.88, "grad_norm": 0.427734375, "learning_rate": 0.00029204345019154856, "loss": 0.3706, "step": 156660 }, { "epoch": 208.89333333333335, "grad_norm": 0.404296875, "learning_rate": 0.00029204244023442596, "loss": 0.3824, "step": 156670 }, { "epoch": 208.90666666666667, "grad_norm": 0.40234375, "learning_rate": 0.000292041430214955, "loss": 0.389, "step": 156680 }, { "epoch": 208.92, "grad_norm": 0.435546875, "learning_rate": 0.00029204042013313616, "loss": 0.3906, "step": 156690 }, { "epoch": 208.93333333333334, "grad_norm": 0.345703125, "learning_rate": 0.00029203940998896987, "loss": 0.3846, "step": 156700 }, { "epoch": 208.94666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0002920383997824565, "loss": 0.3848, "step": 156710 }, { "epoch": 208.96, "grad_norm": 0.373046875, "learning_rate": 0.0002920373895135966, "loss": 0.383, "step": 156720 }, { "epoch": 208.97333333333333, "grad_norm": 0.51953125, "learning_rate": 0.0002920363791823906, "loss": 0.4078, "step": 156730 }, { "epoch": 208.98666666666668, "grad_norm": 0.44921875, "learning_rate": 0.0002920353687888389, "loss": 0.3797, "step": 156740 }, { "epoch": 209.0, "grad_norm": 0.388671875, "learning_rate": 0.0002920343583329419, "loss": 0.3778, "step": 156750 }, { "epoch": 209.0, "eval_loss": 0.4275403320789337, "eval_model_preparation_time": 0.0017, "eval_runtime": 10.2851, "eval_samples_per_second": 1.556, "eval_steps_per_second": 0.097, "step": 156750 } ], "logging_steps": 10, "max_steps": 1500000, "num_input_tokens_seen": 0, "num_train_epochs": 2000, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 32, "trial_name": null, "trial_params": null }