{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 209.0, "eval_steps": 500, "global_step": 78375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.02666666666666667, "grad_norm": 5.3125, "learning_rate": 9e-06, "loss": 1.3367, "step": 10 }, { "epoch": 0.05333333333333334, "grad_norm": 3.703125, "learning_rate": 1.9e-05, "loss": 1.1824, "step": 20 }, { "epoch": 0.08, "grad_norm": 36.5, "learning_rate": 2.9000000000000004e-05, "loss": 1.099, "step": 30 }, { "epoch": 0.10666666666666667, "grad_norm": 27.625, "learning_rate": 3.9e-05, "loss": 1.0526, "step": 40 }, { "epoch": 0.13333333333333333, "grad_norm": 24.25, "learning_rate": 4.9000000000000005e-05, "loss": 0.9671, "step": 50 }, { "epoch": 0.16, "grad_norm": 6.15625, "learning_rate": 5.9e-05, "loss": 0.8796, "step": 60 }, { "epoch": 0.18666666666666668, "grad_norm": 51.25, "learning_rate": 6.900000000000001e-05, "loss": 0.8943, "step": 70 }, { "epoch": 0.21333333333333335, "grad_norm": 17.125, "learning_rate": 7.9e-05, "loss": 1.0641, "step": 80 }, { "epoch": 0.24, "grad_norm": 5.4375, "learning_rate": 8.9e-05, "loss": 0.7461, "step": 90 }, { "epoch": 0.26666666666666666, "grad_norm": 32.25, "learning_rate": 9.900000000000001e-05, "loss": 0.794, "step": 100 }, { "epoch": 0.29333333333333333, "grad_norm": 9.5625, "learning_rate": 0.000109, "loss": 0.7961, "step": 110 }, { "epoch": 0.32, "grad_norm": 2.3125, "learning_rate": 0.00011899999999999999, "loss": 0.7733, "step": 120 }, { "epoch": 0.3466666666666667, "grad_norm": 1.1640625, "learning_rate": 0.00012900000000000002, "loss": 0.7313, "step": 130 }, { "epoch": 0.37333333333333335, "grad_norm": 27.75, "learning_rate": 0.00013900000000000002, "loss": 0.7616, "step": 140 }, { "epoch": 0.4, "grad_norm": 6.5, "learning_rate": 0.000149, "loss": 0.8072, "step": 150 }, { "epoch": 0.4266666666666667, "grad_norm": 13.8125, "learning_rate": 0.00015900000000000002, "loss": 0.7331, "step": 160 }, { "epoch": 0.4533333333333333, "grad_norm": 11.625, "learning_rate": 0.00016900000000000002, "loss": 0.743, "step": 170 }, { "epoch": 0.48, "grad_norm": 24.75, "learning_rate": 0.000179, "loss": 0.7827, "step": 180 }, { "epoch": 0.5066666666666667, "grad_norm": 37.5, "learning_rate": 0.000189, "loss": 0.9353, "step": 190 }, { "epoch": 0.5333333333333333, "grad_norm": 3.28125, "learning_rate": 0.000199, "loss": 0.7651, "step": 200 }, { "epoch": 0.56, "grad_norm": 8.5625, "learning_rate": 0.00020899999999999998, "loss": 0.7216, "step": 210 }, { "epoch": 0.5866666666666667, "grad_norm": 3.640625, "learning_rate": 0.000219, "loss": 0.6977, "step": 220 }, { "epoch": 0.6133333333333333, "grad_norm": 7.5, "learning_rate": 0.000229, "loss": 0.6921, "step": 230 }, { "epoch": 0.64, "grad_norm": 1.4296875, "learning_rate": 0.00023899999999999998, "loss": 0.6739, "step": 240 }, { "epoch": 0.6666666666666666, "grad_norm": 9.5, "learning_rate": 0.000249, "loss": 0.7126, "step": 250 }, { "epoch": 0.6933333333333334, "grad_norm": 17.75, "learning_rate": 0.000259, "loss": 0.7635, "step": 260 }, { "epoch": 0.72, "grad_norm": 1.9765625, "learning_rate": 0.00026900000000000003, "loss": 0.6687, "step": 270 }, { "epoch": 0.7466666666666667, "grad_norm": 1.078125, "learning_rate": 0.000279, "loss": 0.6598, "step": 280 }, { "epoch": 0.7733333333333333, "grad_norm": 5.625, "learning_rate": 0.000289, "loss": 0.6839, "step": 290 }, { "epoch": 0.8, "grad_norm": 3.171875, "learning_rate": 0.000299, "loss": 0.6751, "step": 300 }, { "epoch": 0.8266666666666667, "grad_norm": 3.71875, "learning_rate": 0.00030900000000000003, "loss": 0.6606, "step": 310 }, { "epoch": 0.8533333333333334, "grad_norm": 0.69921875, "learning_rate": 0.000319, "loss": 0.6375, "step": 320 }, { "epoch": 0.88, "grad_norm": 1.8359375, "learning_rate": 0.00032900000000000003, "loss": 0.6087, "step": 330 }, { "epoch": 0.9066666666666666, "grad_norm": 3.546875, "learning_rate": 0.00033900000000000005, "loss": 0.6182, "step": 340 }, { "epoch": 0.9333333333333333, "grad_norm": 3.921875, "learning_rate": 0.00034899999999999997, "loss": 0.6035, "step": 350 }, { "epoch": 0.96, "grad_norm": 12.5625, "learning_rate": 0.000359, "loss": 0.625, "step": 360 }, { "epoch": 0.9866666666666667, "grad_norm": 6.59375, "learning_rate": 0.000369, "loss": 0.6316, "step": 370 }, { "epoch": 1.0, "eval_loss": 0.6012489199638367, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.2753, "eval_samples_per_second": 1.557, "eval_steps_per_second": 0.097, "step": 375 }, { "epoch": 1.0133333333333334, "grad_norm": 1.3359375, "learning_rate": 0.000379, "loss": 0.6093, "step": 380 }, { "epoch": 1.04, "grad_norm": 6.25, "learning_rate": 0.000389, "loss": 0.6407, "step": 390 }, { "epoch": 1.0666666666666667, "grad_norm": 4.875, "learning_rate": 0.00039900000000000005, "loss": 0.6221, "step": 400 }, { "epoch": 1.0933333333333333, "grad_norm": 2.703125, "learning_rate": 0.00040899999999999997, "loss": 0.5996, "step": 410 }, { "epoch": 1.12, "grad_norm": 2.359375, "learning_rate": 0.000419, "loss": 0.5921, "step": 420 }, { "epoch": 1.1466666666666667, "grad_norm": 3.765625, "learning_rate": 0.000429, "loss": 0.6062, "step": 430 }, { "epoch": 1.1733333333333333, "grad_norm": 3.390625, "learning_rate": 0.000439, "loss": 0.5903, "step": 440 }, { "epoch": 1.2, "grad_norm": 1.6640625, "learning_rate": 0.000449, "loss": 0.5929, "step": 450 }, { "epoch": 1.2266666666666666, "grad_norm": 2.640625, "learning_rate": 0.00045900000000000004, "loss": 0.5979, "step": 460 }, { "epoch": 1.2533333333333334, "grad_norm": 1.5859375, "learning_rate": 0.00046899999999999996, "loss": 0.5772, "step": 470 }, { "epoch": 1.28, "grad_norm": 0.6484375, "learning_rate": 0.000479, "loss": 0.6067, "step": 480 }, { "epoch": 1.3066666666666666, "grad_norm": 8.9375, "learning_rate": 0.000489, "loss": 0.5896, "step": 490 }, { "epoch": 1.3333333333333333, "grad_norm": 4.0625, "learning_rate": 0.000499, "loss": 0.6056, "step": 500 }, { "epoch": 1.3599999999999999, "grad_norm": 1.8984375, "learning_rate": 0.0004999999998221101, "loss": 0.5801, "step": 510 }, { "epoch": 1.3866666666666667, "grad_norm": 1.7734375, "learning_rate": 0.0004999999992071816, "loss": 0.5629, "step": 520 }, { "epoch": 1.4133333333333333, "grad_norm": 1.9765625, "learning_rate": 0.0004999999981530188, "loss": 0.5518, "step": 530 }, { "epoch": 1.44, "grad_norm": 2.671875, "learning_rate": 0.0004999999966596214, "loss": 0.5552, "step": 540 }, { "epoch": 1.4666666666666668, "grad_norm": 1.2890625, "learning_rate": 0.0004999999947269895, "loss": 0.5581, "step": 550 }, { "epoch": 1.4933333333333334, "grad_norm": 2.3125, "learning_rate": 0.000499999992355123, "loss": 0.5481, "step": 560 }, { "epoch": 1.52, "grad_norm": 2.359375, "learning_rate": 0.000499999989544022, "loss": 0.5408, "step": 570 }, { "epoch": 1.5466666666666666, "grad_norm": 1.4296875, "learning_rate": 0.0004999999862936865, "loss": 0.5321, "step": 580 }, { "epoch": 1.5733333333333333, "grad_norm": 2.0, "learning_rate": 0.0004999999826041164, "loss": 0.5273, "step": 590 }, { "epoch": 1.6, "grad_norm": 2.015625, "learning_rate": 0.0004999999784753119, "loss": 0.5224, "step": 600 }, { "epoch": 1.6266666666666667, "grad_norm": 1.71875, "learning_rate": 0.000499999973907273, "loss": 0.5028, "step": 610 }, { "epoch": 1.6533333333333333, "grad_norm": 1.7421875, "learning_rate": 0.0004999999688999994, "loss": 0.5226, "step": 620 }, { "epoch": 1.6800000000000002, "grad_norm": 2.25, "learning_rate": 0.0004999999634534915, "loss": 0.5117, "step": 630 }, { "epoch": 1.7066666666666666, "grad_norm": 1.6328125, "learning_rate": 0.0004999999575677489, "loss": 0.5115, "step": 640 }, { "epoch": 1.7333333333333334, "grad_norm": 2.125, "learning_rate": 0.0004999999512427719, "loss": 0.531, "step": 650 }, { "epoch": 1.76, "grad_norm": 1.9375, "learning_rate": 0.0004999999444785606, "loss": 0.5313, "step": 660 }, { "epoch": 1.7866666666666666, "grad_norm": 1.796875, "learning_rate": 0.0004999999372751148, "loss": 0.5266, "step": 670 }, { "epoch": 1.8133333333333335, "grad_norm": 1.5625, "learning_rate": 0.0004999999296324346, "loss": 0.5099, "step": 680 }, { "epoch": 1.8399999999999999, "grad_norm": 2.390625, "learning_rate": 0.0004999999215505199, "loss": 0.5172, "step": 690 }, { "epoch": 1.8666666666666667, "grad_norm": 1.7265625, "learning_rate": 0.0004999999130293709, "loss": 0.5121, "step": 700 }, { "epoch": 1.8933333333333333, "grad_norm": 1.234375, "learning_rate": 0.0004999999040689874, "loss": 0.5034, "step": 710 }, { "epoch": 1.92, "grad_norm": 1.6796875, "learning_rate": 0.0004999998946693697, "loss": 0.5201, "step": 720 }, { "epoch": 1.9466666666666668, "grad_norm": 1.65625, "learning_rate": 0.0004999998848305176, "loss": 0.507, "step": 730 }, { "epoch": 1.9733333333333334, "grad_norm": 1.171875, "learning_rate": 0.000499999874552431, "loss": 0.5157, "step": 740 }, { "epoch": 2.0, "grad_norm": 1.765625, "learning_rate": 0.0004999998638351102, "loss": 0.5026, "step": 750 }, { "epoch": 2.0, "eval_loss": 0.518104076385498, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.1096, "eval_samples_per_second": 1.583, "eval_steps_per_second": 0.099, "step": 750 }, { "epoch": 2.026666666666667, "grad_norm": 1.6796875, "learning_rate": 0.0004999998526785551, "loss": 0.5192, "step": 760 }, { "epoch": 2.0533333333333332, "grad_norm": 1.6953125, "learning_rate": 0.0004999998410827658, "loss": 0.5238, "step": 770 }, { "epoch": 2.08, "grad_norm": 1.8671875, "learning_rate": 0.0004999998290477421, "loss": 0.5122, "step": 780 }, { "epoch": 2.1066666666666665, "grad_norm": 1.921875, "learning_rate": 0.0004999998165734843, "loss": 0.5049, "step": 790 }, { "epoch": 2.1333333333333333, "grad_norm": 1.2421875, "learning_rate": 0.0004999998036599923, "loss": 0.5085, "step": 800 }, { "epoch": 2.16, "grad_norm": 1.0546875, "learning_rate": 0.000499999790307266, "loss": 0.5109, "step": 810 }, { "epoch": 2.1866666666666665, "grad_norm": 1.34375, "learning_rate": 0.0004999997765153056, "loss": 0.5024, "step": 820 }, { "epoch": 2.2133333333333334, "grad_norm": 1.203125, "learning_rate": 0.0004999997622841109, "loss": 0.4982, "step": 830 }, { "epoch": 2.24, "grad_norm": 1.1640625, "learning_rate": 0.0004999997476136823, "loss": 0.4989, "step": 840 }, { "epoch": 2.2666666666666666, "grad_norm": 1.3125, "learning_rate": 0.0004999997325040196, "loss": 0.5008, "step": 850 }, { "epoch": 2.2933333333333334, "grad_norm": 1.3515625, "learning_rate": 0.0004999997169551227, "loss": 0.4922, "step": 860 }, { "epoch": 2.32, "grad_norm": 1.9296875, "learning_rate": 0.0004999997009669918, "loss": 0.4957, "step": 870 }, { "epoch": 2.3466666666666667, "grad_norm": 1.5703125, "learning_rate": 0.0004999996845396269, "loss": 0.5048, "step": 880 }, { "epoch": 2.3733333333333335, "grad_norm": 1.59375, "learning_rate": 0.0004999996676730281, "loss": 0.4992, "step": 890 }, { "epoch": 2.4, "grad_norm": 1.2421875, "learning_rate": 0.0004999996503671952, "loss": 0.4932, "step": 900 }, { "epoch": 2.4266666666666667, "grad_norm": 1.5703125, "learning_rate": 0.0004999996326221284, "loss": 0.4977, "step": 910 }, { "epoch": 2.453333333333333, "grad_norm": 2.140625, "learning_rate": 0.0004999996144378279, "loss": 0.5019, "step": 920 }, { "epoch": 2.48, "grad_norm": 2.3125, "learning_rate": 0.0004999995958142933, "loss": 0.508, "step": 930 }, { "epoch": 2.506666666666667, "grad_norm": 1.3515625, "learning_rate": 0.000499999576751525, "loss": 0.4981, "step": 940 }, { "epoch": 2.533333333333333, "grad_norm": 0.255859375, "learning_rate": 0.000499999557249523, "loss": 0.4856, "step": 950 }, { "epoch": 2.56, "grad_norm": 0.1982421875, "learning_rate": 0.000499999537308287, "loss": 0.4876, "step": 960 }, { "epoch": 2.586666666666667, "grad_norm": 0.375, "learning_rate": 0.0004999995169278174, "loss": 0.4812, "step": 970 }, { "epoch": 2.6133333333333333, "grad_norm": 0.140625, "learning_rate": 0.0004999994961081142, "loss": 0.4651, "step": 980 }, { "epoch": 2.64, "grad_norm": 0.251953125, "learning_rate": 0.0004999994748491773, "loss": 0.4687, "step": 990 }, { "epoch": 2.6666666666666665, "grad_norm": 0.169921875, "learning_rate": 0.0004999994531510067, "loss": 0.4854, "step": 1000 }, { "epoch": 2.6933333333333334, "grad_norm": 0.400390625, "learning_rate": 0.0004999994310136025, "loss": 0.4672, "step": 1010 }, { "epoch": 2.7199999999999998, "grad_norm": 0.80078125, "learning_rate": 0.0004999994084369649, "loss": 0.4839, "step": 1020 }, { "epoch": 2.7466666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0004999993854210938, "loss": 0.4919, "step": 1030 }, { "epoch": 2.7733333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0004999993619659892, "loss": 0.4968, "step": 1040 }, { "epoch": 2.8, "grad_norm": 0.1572265625, "learning_rate": 0.0004999993380716512, "loss": 0.4806, "step": 1050 }, { "epoch": 2.8266666666666667, "grad_norm": 0.1279296875, "learning_rate": 0.0004999993137380798, "loss": 0.4736, "step": 1060 }, { "epoch": 2.8533333333333335, "grad_norm": 0.2890625, "learning_rate": 0.0004999992889652751, "loss": 0.4831, "step": 1070 }, { "epoch": 2.88, "grad_norm": 0.2470703125, "learning_rate": 0.0004999992637532371, "loss": 0.4691, "step": 1080 }, { "epoch": 2.9066666666666667, "grad_norm": 0.337890625, "learning_rate": 0.0004999992381019659, "loss": 0.4713, "step": 1090 }, { "epoch": 2.9333333333333336, "grad_norm": 0.498046875, "learning_rate": 0.0004999992120114614, "loss": 0.4727, "step": 1100 }, { "epoch": 2.96, "grad_norm": 0.326171875, "learning_rate": 0.0004999991854817238, "loss": 0.4699, "step": 1110 }, { "epoch": 2.986666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004999991585127532, "loss": 0.4851, "step": 1120 }, { "epoch": 3.0, "eval_loss": 0.4860386550426483, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.2604, "eval_samples_per_second": 1.559, "eval_steps_per_second": 0.097, "step": 1125 }, { "epoch": 3.013333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004999991311045494, "loss": 0.4724, "step": 1130 }, { "epoch": 3.04, "grad_norm": 0.421875, "learning_rate": 0.0004999991032571126, "loss": 0.496, "step": 1140 }, { "epoch": 3.066666666666667, "grad_norm": 0.640625, "learning_rate": 0.0004999990749704429, "loss": 0.4826, "step": 1150 }, { "epoch": 3.0933333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004999990462445403, "loss": 0.4802, "step": 1160 }, { "epoch": 3.12, "grad_norm": 0.208984375, "learning_rate": 0.0004999990170794047, "loss": 0.4735, "step": 1170 }, { "epoch": 3.1466666666666665, "grad_norm": 0.271484375, "learning_rate": 0.0004999989874750365, "loss": 0.4807, "step": 1180 }, { "epoch": 3.1733333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0004999989574314354, "loss": 0.4713, "step": 1190 }, { "epoch": 3.2, "grad_norm": 0.26953125, "learning_rate": 0.0004999989269486016, "loss": 0.4694, "step": 1200 }, { "epoch": 3.2266666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004999988960265353, "loss": 0.4661, "step": 1210 }, { "epoch": 3.2533333333333334, "grad_norm": 0.1513671875, "learning_rate": 0.0004999988646652362, "loss": 0.4645, "step": 1220 }, { "epoch": 3.2800000000000002, "grad_norm": 0.283203125, "learning_rate": 0.0004999988328647047, "loss": 0.4779, "step": 1230 }, { "epoch": 3.3066666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0004999988006249407, "loss": 0.4581, "step": 1240 }, { "epoch": 3.3333333333333335, "grad_norm": 0.1611328125, "learning_rate": 0.0004999987679459442, "loss": 0.4728, "step": 1250 }, { "epoch": 3.36, "grad_norm": 0.208984375, "learning_rate": 0.0004999987348277154, "loss": 0.4756, "step": 1260 }, { "epoch": 3.3866666666666667, "grad_norm": 0.34375, "learning_rate": 0.0004999987012702543, "loss": 0.4663, "step": 1270 }, { "epoch": 3.413333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0004999986672735608, "loss": 0.4698, "step": 1280 }, { "epoch": 3.44, "grad_norm": 0.28515625, "learning_rate": 0.0004999986328376352, "loss": 0.4722, "step": 1290 }, { "epoch": 3.466666666666667, "grad_norm": 0.349609375, "learning_rate": 0.0004999985979624776, "loss": 0.4819, "step": 1300 }, { "epoch": 3.493333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004999985626480877, "loss": 0.4719, "step": 1310 }, { "epoch": 3.52, "grad_norm": 0.1904296875, "learning_rate": 0.000499998526894466, "loss": 0.4663, "step": 1320 }, { "epoch": 3.546666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0004999984907016121, "loss": 0.461, "step": 1330 }, { "epoch": 3.5733333333333333, "grad_norm": 0.283203125, "learning_rate": 0.0004999984540695266, "loss": 0.4602, "step": 1340 }, { "epoch": 3.6, "grad_norm": 0.251953125, "learning_rate": 0.0004999984169982092, "loss": 0.4524, "step": 1350 }, { "epoch": 3.626666666666667, "grad_norm": 0.65234375, "learning_rate": 0.0004999983794876599, "loss": 0.4403, "step": 1360 }, { "epoch": 3.6533333333333333, "grad_norm": 2.21875, "learning_rate": 0.000499998341537879, "loss": 0.4621, "step": 1370 }, { "epoch": 3.68, "grad_norm": 1.3125, "learning_rate": 0.0004999983031488666, "loss": 0.4539, "step": 1380 }, { "epoch": 3.7066666666666666, "grad_norm": 2.140625, "learning_rate": 0.0004999982643206224, "loss": 0.4524, "step": 1390 }, { "epoch": 3.7333333333333334, "grad_norm": 1.296875, "learning_rate": 0.0004999982250531469, "loss": 0.4715, "step": 1400 }, { "epoch": 3.76, "grad_norm": 1.28125, "learning_rate": 0.0004999981853464399, "loss": 0.471, "step": 1410 }, { "epoch": 3.7866666666666666, "grad_norm": 1.5078125, "learning_rate": 0.0004999981452005016, "loss": 0.4688, "step": 1420 }, { "epoch": 3.8133333333333335, "grad_norm": 1.703125, "learning_rate": 0.000499998104615332, "loss": 0.4543, "step": 1430 }, { "epoch": 3.84, "grad_norm": 1.5390625, "learning_rate": 0.0004999980635909312, "loss": 0.4591, "step": 1440 }, { "epoch": 3.8666666666666667, "grad_norm": 1.5546875, "learning_rate": 0.0004999980221272993, "loss": 0.4572, "step": 1450 }, { "epoch": 3.8933333333333335, "grad_norm": 1.75, "learning_rate": 0.0004999979802244363, "loss": 0.448, "step": 1460 }, { "epoch": 3.92, "grad_norm": 1.640625, "learning_rate": 0.0004999979378823423, "loss": 0.4589, "step": 1470 }, { "epoch": 3.9466666666666668, "grad_norm": 1.7421875, "learning_rate": 0.0004999978951010174, "loss": 0.4516, "step": 1480 }, { "epoch": 3.9733333333333336, "grad_norm": 2.09375, "learning_rate": 0.0004999978518804616, "loss": 0.4633, "step": 1490 }, { "epoch": 4.0, "grad_norm": 0.255859375, "learning_rate": 0.0004999978082206752, "loss": 0.4506, "step": 1500 }, { "epoch": 4.0, "eval_loss": 0.46845948696136475, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.1765, "eval_samples_per_second": 1.572, "eval_steps_per_second": 0.098, "step": 1500 }, { "epoch": 4.026666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.000499997764121658, "loss": 0.4713, "step": 1510 }, { "epoch": 4.053333333333334, "grad_norm": 0.134765625, "learning_rate": 0.0004999977195834102, "loss": 0.476, "step": 1520 }, { "epoch": 4.08, "grad_norm": 0.203125, "learning_rate": 0.000499997674605932, "loss": 0.4623, "step": 1530 }, { "epoch": 4.1066666666666665, "grad_norm": 0.2890625, "learning_rate": 0.0004999976291892231, "loss": 0.4578, "step": 1540 }, { "epoch": 4.133333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004999975833332841, "loss": 0.4594, "step": 1550 }, { "epoch": 4.16, "grad_norm": 0.32421875, "learning_rate": 0.0004999975370381146, "loss": 0.4627, "step": 1560 }, { "epoch": 4.1866666666666665, "grad_norm": 0.38671875, "learning_rate": 0.000499997490303715, "loss": 0.454, "step": 1570 }, { "epoch": 4.213333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004999974431300852, "loss": 0.4484, "step": 1580 }, { "epoch": 4.24, "grad_norm": 0.361328125, "learning_rate": 0.0004999973955172255, "loss": 0.4527, "step": 1590 }, { "epoch": 4.266666666666667, "grad_norm": 0.1494140625, "learning_rate": 0.0004999973474651356, "loss": 0.4569, "step": 1600 }, { "epoch": 4.293333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.000499997298973816, "loss": 0.4504, "step": 1610 }, { "epoch": 4.32, "grad_norm": 0.1650390625, "learning_rate": 0.0004999972500432665, "loss": 0.453, "step": 1620 }, { "epoch": 4.346666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004999972006734874, "loss": 0.4619, "step": 1630 }, { "epoch": 4.373333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0004999971508644788, "loss": 0.4556, "step": 1640 }, { "epoch": 4.4, "grad_norm": 0.138671875, "learning_rate": 0.0004999971006162405, "loss": 0.4528, "step": 1650 }, { "epoch": 4.426666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004999970499287727, "loss": 0.4573, "step": 1660 }, { "epoch": 4.453333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004999969988020757, "loss": 0.4628, "step": 1670 }, { "epoch": 4.48, "grad_norm": 0.310546875, "learning_rate": 0.0004999969472361494, "loss": 0.4668, "step": 1680 }, { "epoch": 4.506666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004999968952309939, "loss": 0.4554, "step": 1690 }, { "epoch": 4.533333333333333, "grad_norm": 0.150390625, "learning_rate": 0.0004999968427866093, "loss": 0.4482, "step": 1700 }, { "epoch": 4.5600000000000005, "grad_norm": 0.1787109375, "learning_rate": 0.0004999967899029957, "loss": 0.4488, "step": 1710 }, { "epoch": 4.586666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004999967365801533, "loss": 0.4459, "step": 1720 }, { "epoch": 4.613333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.000499996682818082, "loss": 0.4307, "step": 1730 }, { "epoch": 4.64, "grad_norm": 0.19921875, "learning_rate": 0.0004999966286167821, "loss": 0.4364, "step": 1740 }, { "epoch": 4.666666666666667, "grad_norm": 0.376953125, "learning_rate": 0.0004999965739762534, "loss": 0.4518, "step": 1750 }, { "epoch": 4.693333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004999965188964964, "loss": 0.4348, "step": 1760 }, { "epoch": 4.72, "grad_norm": 0.25, "learning_rate": 0.0004999964633775108, "loss": 0.4517, "step": 1770 }, { "epoch": 4.746666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0004999964074192969, "loss": 0.454, "step": 1780 }, { "epoch": 4.773333333333333, "grad_norm": 0.224609375, "learning_rate": 0.000499996351021855, "loss": 0.4625, "step": 1790 }, { "epoch": 4.8, "grad_norm": 0.2001953125, "learning_rate": 0.0004999962941851847, "loss": 0.4496, "step": 1800 }, { "epoch": 4.826666666666666, "grad_norm": 0.1455078125, "learning_rate": 0.0004999962369092865, "loss": 0.4427, "step": 1810 }, { "epoch": 4.8533333333333335, "grad_norm": 0.271484375, "learning_rate": 0.0004999961791941604, "loss": 0.45, "step": 1820 }, { "epoch": 4.88, "grad_norm": 0.271484375, "learning_rate": 0.0004999961210398064, "loss": 0.4395, "step": 1830 }, { "epoch": 4.906666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0004999960624462248, "loss": 0.4425, "step": 1840 }, { "epoch": 4.933333333333334, "grad_norm": 0.314453125, "learning_rate": 0.0004999960034134154, "loss": 0.4431, "step": 1850 }, { "epoch": 4.96, "grad_norm": 0.2255859375, "learning_rate": 0.0004999959439413786, "loss": 0.4409, "step": 1860 }, { "epoch": 4.986666666666666, "grad_norm": 0.37109375, "learning_rate": 0.0004999958840301145, "loss": 0.4585, "step": 1870 }, { "epoch": 5.0, "eval_loss": 0.46095505356788635, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.1877, "eval_samples_per_second": 1.571, "eval_steps_per_second": 0.098, "step": 1875 }, { "epoch": 5.013333333333334, "grad_norm": 0.3203125, "learning_rate": 0.0004999958236796229, "loss": 0.4451, "step": 1880 }, { "epoch": 5.04, "grad_norm": 0.412109375, "learning_rate": 0.0004999957628899042, "loss": 0.4681, "step": 1890 }, { "epoch": 5.066666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004999957016609583, "loss": 0.4541, "step": 1900 }, { "epoch": 5.093333333333334, "grad_norm": 0.35546875, "learning_rate": 0.0004999956399927855, "loss": 0.4496, "step": 1910 }, { "epoch": 5.12, "grad_norm": 0.18359375, "learning_rate": 0.0004999955778853859, "loss": 0.4455, "step": 1920 }, { "epoch": 5.1466666666666665, "grad_norm": 0.1611328125, "learning_rate": 0.0004999955153387594, "loss": 0.4515, "step": 1930 }, { "epoch": 5.173333333333334, "grad_norm": 0.1640625, "learning_rate": 0.0004999954523529064, "loss": 0.4437, "step": 1940 }, { "epoch": 5.2, "grad_norm": 0.21875, "learning_rate": 0.0004999953889278267, "loss": 0.4414, "step": 1950 }, { "epoch": 5.226666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004999953250635206, "loss": 0.438, "step": 1960 }, { "epoch": 5.253333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004999952607599883, "loss": 0.4386, "step": 1970 }, { "epoch": 5.28, "grad_norm": 0.240234375, "learning_rate": 0.0004999951960172296, "loss": 0.4534, "step": 1980 }, { "epoch": 5.306666666666667, "grad_norm": 0.1357421875, "learning_rate": 0.0004999951308352449, "loss": 0.4333, "step": 1990 }, { "epoch": 5.333333333333333, "grad_norm": 0.43359375, "learning_rate": 0.0004999950652140343, "loss": 0.4482, "step": 2000 }, { "epoch": 5.36, "grad_norm": 0.26953125, "learning_rate": 0.0004999949991535978, "loss": 0.4479, "step": 2010 }, { "epoch": 5.386666666666667, "grad_norm": 0.6796875, "learning_rate": 0.0004999949326539354, "loss": 0.4409, "step": 2020 }, { "epoch": 5.413333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0004999948657150475, "loss": 0.4463, "step": 2030 }, { "epoch": 5.44, "grad_norm": 0.1376953125, "learning_rate": 0.000499994798336934, "loss": 0.4486, "step": 2040 }, { "epoch": 5.466666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004999947305195953, "loss": 0.4563, "step": 2050 }, { "epoch": 5.493333333333333, "grad_norm": 0.421875, "learning_rate": 0.0004999946622630311, "loss": 0.4465, "step": 2060 }, { "epoch": 5.52, "grad_norm": 0.2099609375, "learning_rate": 0.0004999945935672418, "loss": 0.4424, "step": 2070 }, { "epoch": 5.546666666666667, "grad_norm": 0.56640625, "learning_rate": 0.0004999945244322276, "loss": 0.4368, "step": 2080 }, { "epoch": 5.573333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004999944548579883, "loss": 0.4377, "step": 2090 }, { "epoch": 5.6, "grad_norm": 0.30859375, "learning_rate": 0.0004999943848445243, "loss": 0.4293, "step": 2100 }, { "epoch": 5.626666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0004999943143918357, "loss": 0.4199, "step": 2110 }, { "epoch": 5.653333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004999942434999224, "loss": 0.4383, "step": 2120 }, { "epoch": 5.68, "grad_norm": 0.1962890625, "learning_rate": 0.0004999941721687848, "loss": 0.4292, "step": 2130 }, { "epoch": 5.706666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0004999941003984229, "loss": 0.4291, "step": 2140 }, { "epoch": 5.733333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0004999940281888368, "loss": 0.4488, "step": 2150 }, { "epoch": 5.76, "grad_norm": 0.28515625, "learning_rate": 0.0004999939555400266, "loss": 0.4472, "step": 2160 }, { "epoch": 5.786666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004999938824519926, "loss": 0.4481, "step": 2170 }, { "epoch": 5.8133333333333335, "grad_norm": 0.2412109375, "learning_rate": 0.0004999938089247347, "loss": 0.4325, "step": 2180 }, { "epoch": 5.84, "grad_norm": 0.36328125, "learning_rate": 0.0004999937349582531, "loss": 0.4368, "step": 2190 }, { "epoch": 5.866666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004999936605525481, "loss": 0.4358, "step": 2200 }, { "epoch": 5.8933333333333335, "grad_norm": 0.2373046875, "learning_rate": 0.0004999935857076197, "loss": 0.4272, "step": 2210 }, { "epoch": 5.92, "grad_norm": 0.353515625, "learning_rate": 0.0004999935104234679, "loss": 0.4382, "step": 2220 }, { "epoch": 5.946666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004999934347000931, "loss": 0.4313, "step": 2230 }, { "epoch": 5.973333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0004999933585374953, "loss": 0.4428, "step": 2240 }, { "epoch": 6.0, "grad_norm": 0.2109375, "learning_rate": 0.0004999932819356745, "loss": 0.43, "step": 2250 }, { "epoch": 6.0, "eval_loss": 0.45286816358566284, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9926, "eval_samples_per_second": 1.456, "eval_steps_per_second": 0.091, "step": 2250 }, { "epoch": 6.026666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004999932048946311, "loss": 0.4507, "step": 2260 }, { "epoch": 6.053333333333334, "grad_norm": 0.34765625, "learning_rate": 0.000499993127414365, "loss": 0.4542, "step": 2270 }, { "epoch": 6.08, "grad_norm": 0.392578125, "learning_rate": 0.0004999930494948765, "loss": 0.4414, "step": 2280 }, { "epoch": 6.1066666666666665, "grad_norm": 0.333984375, "learning_rate": 0.0004999929711361657, "loss": 0.437, "step": 2290 }, { "epoch": 6.133333333333334, "grad_norm": 0.39453125, "learning_rate": 0.0004999928923382327, "loss": 0.4372, "step": 2300 }, { "epoch": 6.16, "grad_norm": 0.197265625, "learning_rate": 0.0004999928131010777, "loss": 0.4412, "step": 2310 }, { "epoch": 6.1866666666666665, "grad_norm": 0.1474609375, "learning_rate": 0.0004999927334247007, "loss": 0.4339, "step": 2320 }, { "epoch": 6.213333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004999926533091019, "loss": 0.4269, "step": 2330 }, { "epoch": 6.24, "grad_norm": 0.1884765625, "learning_rate": 0.0004999925727542816, "loss": 0.4314, "step": 2340 }, { "epoch": 6.266666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004999924917602397, "loss": 0.4379, "step": 2350 }, { "epoch": 6.293333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0004999924103269765, "loss": 0.4318, "step": 2360 }, { "epoch": 6.32, "grad_norm": 0.1591796875, "learning_rate": 0.0004999923284544921, "loss": 0.4326, "step": 2370 }, { "epoch": 6.346666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004999922461427867, "loss": 0.4407, "step": 2380 }, { "epoch": 6.373333333333333, "grad_norm": 0.1630859375, "learning_rate": 0.0004999921633918604, "loss": 0.4351, "step": 2390 }, { "epoch": 6.4, "grad_norm": 0.158203125, "learning_rate": 0.0004999920802017132, "loss": 0.4329, "step": 2400 }, { "epoch": 6.426666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004999919965723455, "loss": 0.4373, "step": 2410 }, { "epoch": 6.453333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004999919125037572, "loss": 0.4424, "step": 2420 }, { "epoch": 6.48, "grad_norm": 0.185546875, "learning_rate": 0.0004999918279959487, "loss": 0.4453, "step": 2430 }, { "epoch": 6.506666666666667, "grad_norm": 0.265625, "learning_rate": 0.00049999174304892, "loss": 0.4357, "step": 2440 }, { "epoch": 6.533333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004999916576626712, "loss": 0.4293, "step": 2450 }, { "epoch": 6.5600000000000005, "grad_norm": 0.2158203125, "learning_rate": 0.0004999915718372026, "loss": 0.4304, "step": 2460 }, { "epoch": 6.586666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004999914855725142, "loss": 0.4263, "step": 2470 }, { "epoch": 6.613333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004999913988686063, "loss": 0.4124, "step": 2480 }, { "epoch": 6.64, "grad_norm": 0.1962890625, "learning_rate": 0.000499991311725479, "loss": 0.4182, "step": 2490 }, { "epoch": 6.666666666666667, "grad_norm": 0.1650390625, "learning_rate": 0.0004999912241431323, "loss": 0.4334, "step": 2500 }, { "epoch": 6.693333333333333, "grad_norm": 0.306640625, "learning_rate": 0.0004999911361215666, "loss": 0.4161, "step": 2510 }, { "epoch": 6.72, "grad_norm": 0.1455078125, "learning_rate": 0.0004999910476607819, "loss": 0.4329, "step": 2520 }, { "epoch": 6.746666666666667, "grad_norm": 0.1474609375, "learning_rate": 0.0004999909587607784, "loss": 0.435, "step": 2530 }, { "epoch": 6.773333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004999908694215561, "loss": 0.4441, "step": 2540 }, { "epoch": 6.8, "grad_norm": 0.2275390625, "learning_rate": 0.0004999907796431155, "loss": 0.4312, "step": 2550 }, { "epoch": 6.826666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0004999906894254566, "loss": 0.4237, "step": 2560 }, { "epoch": 6.8533333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.0004999905987685793, "loss": 0.43, "step": 2570 }, { "epoch": 6.88, "grad_norm": 0.42578125, "learning_rate": 0.0004999905076724842, "loss": 0.4213, "step": 2580 }, { "epoch": 6.906666666666666, "grad_norm": 0.15625, "learning_rate": 0.0004999904161371711, "loss": 0.4239, "step": 2590 }, { "epoch": 6.933333333333334, "grad_norm": 0.142578125, "learning_rate": 0.0004999903241626404, "loss": 0.4259, "step": 2600 }, { "epoch": 6.96, "grad_norm": 0.1767578125, "learning_rate": 0.0004999902317488921, "loss": 0.4224, "step": 2610 }, { "epoch": 6.986666666666666, "grad_norm": 0.234375, "learning_rate": 0.0004999901388959264, "loss": 0.4405, "step": 2620 }, { "epoch": 7.0, "eval_loss": 0.44747602939605713, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6989, "eval_samples_per_second": 1.495, "eval_steps_per_second": 0.093, "step": 2625 }, { "epoch": 7.013333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004999900456037436, "loss": 0.4268, "step": 2630 }, { "epoch": 7.04, "grad_norm": 0.2470703125, "learning_rate": 0.0004999899518723436, "loss": 0.4506, "step": 2640 }, { "epoch": 7.066666666666666, "grad_norm": 0.41796875, "learning_rate": 0.0004999898577017269, "loss": 0.4371, "step": 2650 }, { "epoch": 7.093333333333334, "grad_norm": 0.22265625, "learning_rate": 0.0004999897630918933, "loss": 0.4329, "step": 2660 }, { "epoch": 7.12, "grad_norm": 0.240234375, "learning_rate": 0.0004999896680428433, "loss": 0.4283, "step": 2670 }, { "epoch": 7.1466666666666665, "grad_norm": 0.1533203125, "learning_rate": 0.0004999895725545769, "loss": 0.4332, "step": 2680 }, { "epoch": 7.173333333333334, "grad_norm": 0.326171875, "learning_rate": 0.0004999894766270943, "loss": 0.426, "step": 2690 }, { "epoch": 7.2, "grad_norm": 0.2451171875, "learning_rate": 0.0004999893802603955, "loss": 0.4249, "step": 2700 }, { "epoch": 7.226666666666667, "grad_norm": 0.59375, "learning_rate": 0.0004999892834544809, "loss": 0.421, "step": 2710 }, { "epoch": 7.253333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0004999891862093506, "loss": 0.421, "step": 2720 }, { "epoch": 7.28, "grad_norm": 0.294921875, "learning_rate": 0.0004999890885250049, "loss": 0.4372, "step": 2730 }, { "epoch": 7.306666666666667, "grad_norm": 0.154296875, "learning_rate": 0.0004999889904014436, "loss": 0.4163, "step": 2740 }, { "epoch": 7.333333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004999888918386673, "loss": 0.4308, "step": 2750 }, { "epoch": 7.36, "grad_norm": 0.189453125, "learning_rate": 0.0004999887928366759, "loss": 0.4294, "step": 2760 }, { "epoch": 7.386666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004999886933954697, "loss": 0.4238, "step": 2770 }, { "epoch": 7.413333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004999885935150488, "loss": 0.4291, "step": 2780 }, { "epoch": 7.44, "grad_norm": 0.2578125, "learning_rate": 0.0004999884931954134, "loss": 0.4322, "step": 2790 }, { "epoch": 7.466666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0004999883924365635, "loss": 0.4398, "step": 2800 }, { "epoch": 7.493333333333333, "grad_norm": 0.462890625, "learning_rate": 0.0004999882912384997, "loss": 0.4289, "step": 2810 }, { "epoch": 7.52, "grad_norm": 0.26953125, "learning_rate": 0.0004999881896012219, "loss": 0.4269, "step": 2820 }, { "epoch": 7.546666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004999880875247303, "loss": 0.4211, "step": 2830 }, { "epoch": 7.573333333333333, "grad_norm": 0.470703125, "learning_rate": 0.0004999879850090251, "loss": 0.4223, "step": 2840 }, { "epoch": 7.6, "grad_norm": 0.341796875, "learning_rate": 0.0004999878820541064, "loss": 0.4124, "step": 2850 }, { "epoch": 7.626666666666667, "grad_norm": 0.35546875, "learning_rate": 0.0004999877786599746, "loss": 0.406, "step": 2860 }, { "epoch": 7.653333333333333, "grad_norm": 0.69140625, "learning_rate": 0.0004999876748266296, "loss": 0.4233, "step": 2870 }, { "epoch": 7.68, "grad_norm": 0.310546875, "learning_rate": 0.0004999875705540718, "loss": 0.4137, "step": 2880 }, { "epoch": 7.706666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0004999874658423013, "loss": 0.4137, "step": 2890 }, { "epoch": 7.733333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004999873606913182, "loss": 0.4338, "step": 2900 }, { "epoch": 7.76, "grad_norm": 0.1572265625, "learning_rate": 0.0004999872551011228, "loss": 0.4325, "step": 2910 }, { "epoch": 7.786666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0004999871490717153, "loss": 0.4326, "step": 2920 }, { "epoch": 7.8133333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0004999870426030958, "loss": 0.417, "step": 2930 }, { "epoch": 7.84, "grad_norm": 0.203125, "learning_rate": 0.0004999869356952645, "loss": 0.4204, "step": 2940 }, { "epoch": 7.866666666666667, "grad_norm": 0.3125, "learning_rate": 0.0004999868283482217, "loss": 0.4184, "step": 2950 }, { "epoch": 7.8933333333333335, "grad_norm": 0.22265625, "learning_rate": 0.0004999867205619675, "loss": 0.4122, "step": 2960 }, { "epoch": 7.92, "grad_norm": 0.25, "learning_rate": 0.0004999866123365021, "loss": 0.4223, "step": 2970 }, { "epoch": 7.946666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004999865036718257, "loss": 0.4169, "step": 2980 }, { "epoch": 7.973333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0004999863945679383, "loss": 0.4285, "step": 2990 }, { "epoch": 8.0, "grad_norm": 0.275390625, "learning_rate": 0.0004999862850248405, "loss": 0.4152, "step": 3000 }, { "epoch": 8.0, "eval_loss": 0.44355833530426025, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1914, "eval_samples_per_second": 1.43, "eval_steps_per_second": 0.089, "step": 3000 }, { "epoch": 8.026666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004999861750425322, "loss": 0.4366, "step": 3010 }, { "epoch": 8.053333333333333, "grad_norm": 0.1494140625, "learning_rate": 0.0004999860646210136, "loss": 0.4397, "step": 3020 }, { "epoch": 8.08, "grad_norm": 0.21484375, "learning_rate": 0.000499985953760285, "loss": 0.4271, "step": 3030 }, { "epoch": 8.106666666666667, "grad_norm": 0.54296875, "learning_rate": 0.0004999858424603465, "loss": 0.424, "step": 3040 }, { "epoch": 8.133333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004999857307211984, "loss": 0.4228, "step": 3050 }, { "epoch": 8.16, "grad_norm": 0.23828125, "learning_rate": 0.0004999856185428407, "loss": 0.426, "step": 3060 }, { "epoch": 8.186666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0004999855059252739, "loss": 0.4195, "step": 3070 }, { "epoch": 8.213333333333333, "grad_norm": 0.625, "learning_rate": 0.0004999853928684979, "loss": 0.4123, "step": 3080 }, { "epoch": 8.24, "grad_norm": 0.248046875, "learning_rate": 0.0004999852793725131, "loss": 0.4175, "step": 3090 }, { "epoch": 8.266666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0004999851654373197, "loss": 0.4235, "step": 3100 }, { "epoch": 8.293333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0004999850510629177, "loss": 0.4169, "step": 3110 }, { "epoch": 8.32, "grad_norm": 0.19921875, "learning_rate": 0.0004999849362493074, "loss": 0.4186, "step": 3120 }, { "epoch": 8.346666666666668, "grad_norm": 0.431640625, "learning_rate": 0.0004999848209964891, "loss": 0.4257, "step": 3130 }, { "epoch": 8.373333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004999847053044629, "loss": 0.4201, "step": 3140 }, { "epoch": 8.4, "grad_norm": 0.33203125, "learning_rate": 0.0004999845891732291, "loss": 0.4195, "step": 3150 }, { "epoch": 8.426666666666666, "grad_norm": 0.484375, "learning_rate": 0.0004999844726027878, "loss": 0.4223, "step": 3160 }, { "epoch": 8.453333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0004999843555931392, "loss": 0.4295, "step": 3170 }, { "epoch": 8.48, "grad_norm": 0.318359375, "learning_rate": 0.0004999842381442837, "loss": 0.4305, "step": 3180 }, { "epoch": 8.506666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004999841202562212, "loss": 0.4225, "step": 3190 }, { "epoch": 8.533333333333333, "grad_norm": 0.474609375, "learning_rate": 0.0004999840019289521, "loss": 0.4157, "step": 3200 }, { "epoch": 8.56, "grad_norm": 0.8125, "learning_rate": 0.0004999838831624767, "loss": 0.416, "step": 3210 }, { "epoch": 8.586666666666666, "grad_norm": 0.25, "learning_rate": 0.0004999837639567949, "loss": 0.4125, "step": 3220 }, { "epoch": 8.613333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004999836443119072, "loss": 0.3995, "step": 3230 }, { "epoch": 8.64, "grad_norm": 0.314453125, "learning_rate": 0.0004999835242278137, "loss": 0.4058, "step": 3240 }, { "epoch": 8.666666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004999834037045145, "loss": 0.4209, "step": 3250 }, { "epoch": 8.693333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.00049998328274201, "loss": 0.4026, "step": 3260 }, { "epoch": 8.72, "grad_norm": 0.1650390625, "learning_rate": 0.0004999831613403003, "loss": 0.4198, "step": 3270 }, { "epoch": 8.746666666666666, "grad_norm": 0.19140625, "learning_rate": 0.0004999830394993857, "loss": 0.4213, "step": 3280 }, { "epoch": 8.773333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004999829172192664, "loss": 0.4307, "step": 3290 }, { "epoch": 8.8, "grad_norm": 0.380859375, "learning_rate": 0.0004999827944999426, "loss": 0.4184, "step": 3300 }, { "epoch": 8.826666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004999826713414144, "loss": 0.41, "step": 3310 }, { "epoch": 8.853333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0004999825477436822, "loss": 0.4143, "step": 3320 }, { "epoch": 8.88, "grad_norm": 0.2451171875, "learning_rate": 0.000499982423706746, "loss": 0.4079, "step": 3330 }, { "epoch": 8.906666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004999822992306062, "loss": 0.4123, "step": 3340 }, { "epoch": 8.933333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004999821743152629, "loss": 0.4128, "step": 3350 }, { "epoch": 8.96, "grad_norm": 0.279296875, "learning_rate": 0.0004999820489607165, "loss": 0.4088, "step": 3360 }, { "epoch": 8.986666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0004999819231669671, "loss": 0.4274, "step": 3370 }, { "epoch": 9.0, "eval_loss": 0.4391622543334961, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6475, "eval_samples_per_second": 1.503, "eval_steps_per_second": 0.094, "step": 3375 }, { "epoch": 9.013333333333334, "grad_norm": 0.345703125, "learning_rate": 0.0004999817969340148, "loss": 0.4137, "step": 3380 }, { "epoch": 9.04, "grad_norm": 0.3125, "learning_rate": 0.00049998167026186, "loss": 0.4373, "step": 3390 }, { "epoch": 9.066666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004999815431505029, "loss": 0.4231, "step": 3400 }, { "epoch": 9.093333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004999814155999437, "loss": 0.4202, "step": 3410 }, { "epoch": 9.12, "grad_norm": 0.185546875, "learning_rate": 0.0004999812876101827, "loss": 0.4158, "step": 3420 }, { "epoch": 9.146666666666667, "grad_norm": 0.31640625, "learning_rate": 0.0004999811591812199, "loss": 0.4198, "step": 3430 }, { "epoch": 9.173333333333334, "grad_norm": 0.294921875, "learning_rate": 0.0004999810303130557, "loss": 0.4149, "step": 3440 }, { "epoch": 9.2, "grad_norm": 0.240234375, "learning_rate": 0.0004999809010056903, "loss": 0.4114, "step": 3450 }, { "epoch": 9.226666666666667, "grad_norm": 0.21875, "learning_rate": 0.000499980771259124, "loss": 0.408, "step": 3460 }, { "epoch": 9.253333333333334, "grad_norm": 0.369140625, "learning_rate": 0.0004999806410733569, "loss": 0.4075, "step": 3470 }, { "epoch": 9.28, "grad_norm": 0.1875, "learning_rate": 0.0004999805104483892, "loss": 0.4256, "step": 3480 }, { "epoch": 9.306666666666667, "grad_norm": 0.1572265625, "learning_rate": 0.0004999803793842212, "loss": 0.4041, "step": 3490 }, { "epoch": 9.333333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004999802478808532, "loss": 0.4184, "step": 3500 }, { "epoch": 9.36, "grad_norm": 0.41796875, "learning_rate": 0.0004999801159382854, "loss": 0.4169, "step": 3510 }, { "epoch": 9.386666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0004999799835565179, "loss": 0.4111, "step": 3520 }, { "epoch": 9.413333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004999798507355512, "loss": 0.4168, "step": 3530 }, { "epoch": 9.44, "grad_norm": 0.19140625, "learning_rate": 0.0004999797174753852, "loss": 0.4196, "step": 3540 }, { "epoch": 9.466666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004999795837760204, "loss": 0.4277, "step": 3550 }, { "epoch": 9.493333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.0004999794496374569, "loss": 0.4162, "step": 3560 }, { "epoch": 9.52, "grad_norm": 0.1767578125, "learning_rate": 0.0004999793150596949, "loss": 0.4152, "step": 3570 }, { "epoch": 9.546666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004999791800427348, "loss": 0.4091, "step": 3580 }, { "epoch": 9.573333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0004999790445865767, "loss": 0.4096, "step": 3590 }, { "epoch": 9.6, "grad_norm": 0.177734375, "learning_rate": 0.000499978908691221, "loss": 0.4003, "step": 3600 }, { "epoch": 9.626666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004999787723566677, "loss": 0.394, "step": 3610 }, { "epoch": 9.653333333333332, "grad_norm": 0.16796875, "learning_rate": 0.0004999786355829171, "loss": 0.4115, "step": 3620 }, { "epoch": 9.68, "grad_norm": 0.353515625, "learning_rate": 0.0004999784983699696, "loss": 0.4011, "step": 3630 }, { "epoch": 9.706666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004999783607178254, "loss": 0.4015, "step": 3640 }, { "epoch": 9.733333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0004999782226264846, "loss": 0.4213, "step": 3650 }, { "epoch": 9.76, "grad_norm": 0.427734375, "learning_rate": 0.0004999780840959475, "loss": 0.4197, "step": 3660 }, { "epoch": 9.786666666666667, "grad_norm": 0.43359375, "learning_rate": 0.0004999779451262145, "loss": 0.4209, "step": 3670 }, { "epoch": 9.813333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004999778057172856, "loss": 0.4046, "step": 3680 }, { "epoch": 9.84, "grad_norm": 0.1845703125, "learning_rate": 0.0004999776658691611, "loss": 0.4078, "step": 3690 }, { "epoch": 9.866666666666667, "grad_norm": 0.234375, "learning_rate": 0.0004999775255818414, "loss": 0.4054, "step": 3700 }, { "epoch": 9.893333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004999773848553266, "loss": 0.4005, "step": 3710 }, { "epoch": 9.92, "grad_norm": 0.2431640625, "learning_rate": 0.0004999772436896171, "loss": 0.4113, "step": 3720 }, { "epoch": 9.946666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004999771020847129, "loss": 0.4048, "step": 3730 }, { "epoch": 9.973333333333333, "grad_norm": 0.25, "learning_rate": 0.0004999769600406146, "loss": 0.4166, "step": 3740 }, { "epoch": 10.0, "grad_norm": 0.2734375, "learning_rate": 0.000499976817557322, "loss": 0.4035, "step": 3750 }, { "epoch": 10.0, "eval_loss": 0.4371285140514374, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7886, "eval_samples_per_second": 1.357, "eval_steps_per_second": 0.085, "step": 3750 }, { "epoch": 10.026666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004999766746348358, "loss": 0.4254, "step": 3760 }, { "epoch": 10.053333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004999765312731559, "loss": 0.4295, "step": 3770 }, { "epoch": 10.08, "grad_norm": 0.376953125, "learning_rate": 0.0004999763874722827, "loss": 0.4154, "step": 3780 }, { "epoch": 10.106666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004999762432322166, "loss": 0.4118, "step": 3790 }, { "epoch": 10.133333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004999760985529575, "loss": 0.411, "step": 3800 }, { "epoch": 10.16, "grad_norm": 0.275390625, "learning_rate": 0.000499975953434506, "loss": 0.4143, "step": 3810 }, { "epoch": 10.186666666666667, "grad_norm": 0.361328125, "learning_rate": 0.0004999758078768622, "loss": 0.4078, "step": 3820 }, { "epoch": 10.213333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0004999756618800263, "loss": 0.4006, "step": 3830 }, { "epoch": 10.24, "grad_norm": 0.41015625, "learning_rate": 0.0004999755154439987, "loss": 0.4055, "step": 3840 }, { "epoch": 10.266666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004999753685687796, "loss": 0.412, "step": 3850 }, { "epoch": 10.293333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004999752212543693, "loss": 0.4056, "step": 3860 }, { "epoch": 10.32, "grad_norm": 0.294921875, "learning_rate": 0.0004999750735007678, "loss": 0.4078, "step": 3870 }, { "epoch": 10.346666666666668, "grad_norm": 0.283203125, "learning_rate": 0.0004999749253079756, "loss": 0.414, "step": 3880 }, { "epoch": 10.373333333333333, "grad_norm": 0.30078125, "learning_rate": 0.000499974776675993, "loss": 0.4082, "step": 3890 }, { "epoch": 10.4, "grad_norm": 0.18359375, "learning_rate": 0.0004999746276048201, "loss": 0.4076, "step": 3900 }, { "epoch": 10.426666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004999744780944574, "loss": 0.4113, "step": 3910 }, { "epoch": 10.453333333333333, "grad_norm": 0.1875, "learning_rate": 0.000499974328144905, "loss": 0.4186, "step": 3920 }, { "epoch": 10.48, "grad_norm": 0.21875, "learning_rate": 0.0004999741777561629, "loss": 0.4192, "step": 3930 }, { "epoch": 10.506666666666666, "grad_norm": 0.162109375, "learning_rate": 0.0004999740269282318, "loss": 0.4101, "step": 3940 }, { "epoch": 10.533333333333333, "grad_norm": 0.1474609375, "learning_rate": 0.0004999738756611119, "loss": 0.4042, "step": 3950 }, { "epoch": 10.56, "grad_norm": 0.33984375, "learning_rate": 0.0004999737239548032, "loss": 0.4049, "step": 3960 }, { "epoch": 10.586666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0004999735718093062, "loss": 0.4018, "step": 3970 }, { "epoch": 10.613333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004999734192246212, "loss": 0.389, "step": 3980 }, { "epoch": 10.64, "grad_norm": 0.296875, "learning_rate": 0.0004999732662007482, "loss": 0.3956, "step": 3990 }, { "epoch": 10.666666666666666, "grad_norm": 0.1484375, "learning_rate": 0.0004999731127376877, "loss": 0.4102, "step": 4000 }, { "epoch": 10.693333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004999729588354399, "loss": 0.3926, "step": 4010 }, { "epoch": 10.72, "grad_norm": 0.2060546875, "learning_rate": 0.000499972804494005, "loss": 0.409, "step": 4020 }, { "epoch": 10.746666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004999726497133835, "loss": 0.4098, "step": 4030 }, { "epoch": 10.773333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0004999724944935754, "loss": 0.4209, "step": 4040 }, { "epoch": 10.8, "grad_norm": 0.283203125, "learning_rate": 0.0004999723388345812, "loss": 0.4077, "step": 4050 }, { "epoch": 10.826666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004999721827364009, "loss": 0.399, "step": 4060 }, { "epoch": 10.853333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.000499972026199035, "loss": 0.4031, "step": 4070 }, { "epoch": 10.88, "grad_norm": 0.2138671875, "learning_rate": 0.0004999718692224838, "loss": 0.3974, "step": 4080 }, { "epoch": 10.906666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004999717118067474, "loss": 0.4017, "step": 4090 }, { "epoch": 10.933333333333334, "grad_norm": 0.37890625, "learning_rate": 0.0004999715539518262, "loss": 0.403, "step": 4100 }, { "epoch": 10.96, "grad_norm": 0.2431640625, "learning_rate": 0.0004999713956577204, "loss": 0.3987, "step": 4110 }, { "epoch": 10.986666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0004999712369244304, "loss": 0.4172, "step": 4120 }, { "epoch": 11.0, "eval_loss": 0.43250614404678345, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.9102, "eval_samples_per_second": 1.239, "eval_steps_per_second": 0.077, "step": 4125 }, { "epoch": 11.013333333333334, "grad_norm": 0.59375, "learning_rate": 0.0004999710777519563, "loss": 0.4041, "step": 4130 }, { "epoch": 11.04, "grad_norm": 0.283203125, "learning_rate": 0.0004999709181402986, "loss": 0.4272, "step": 4140 }, { "epoch": 11.066666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0004999707580894574, "loss": 0.4131, "step": 4150 }, { "epoch": 11.093333333333334, "grad_norm": 0.365234375, "learning_rate": 0.000499970597599433, "loss": 0.4102, "step": 4160 }, { "epoch": 11.12, "grad_norm": 0.390625, "learning_rate": 0.0004999704366702258, "loss": 0.4058, "step": 4170 }, { "epoch": 11.146666666666667, "grad_norm": 0.232421875, "learning_rate": 0.000499970275301836, "loss": 0.4091, "step": 4180 }, { "epoch": 11.173333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.0004999701134942638, "loss": 0.4049, "step": 4190 }, { "epoch": 11.2, "grad_norm": 0.212890625, "learning_rate": 0.0004999699512475096, "loss": 0.4017, "step": 4200 }, { "epoch": 11.226666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004999697885615737, "loss": 0.3982, "step": 4210 }, { "epoch": 11.253333333333334, "grad_norm": 0.40234375, "learning_rate": 0.0004999696254364564, "loss": 0.3979, "step": 4220 }, { "epoch": 11.28, "grad_norm": 0.326171875, "learning_rate": 0.0004999694618721579, "loss": 0.4147, "step": 4230 }, { "epoch": 11.306666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004999692978686784, "loss": 0.395, "step": 4240 }, { "epoch": 11.333333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004999691334260185, "loss": 0.4091, "step": 4250 }, { "epoch": 11.36, "grad_norm": 0.1865234375, "learning_rate": 0.0004999689685441781, "loss": 0.4059, "step": 4260 }, { "epoch": 11.386666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004999688032231577, "loss": 0.4011, "step": 4270 }, { "epoch": 11.413333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004999686374629577, "loss": 0.4064, "step": 4280 }, { "epoch": 11.44, "grad_norm": 0.173828125, "learning_rate": 0.0004999684712635782, "loss": 0.4103, "step": 4290 }, { "epoch": 11.466666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0004999683046250196, "loss": 0.4174, "step": 4300 }, { "epoch": 11.493333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004999681375472821, "loss": 0.4065, "step": 4310 }, { "epoch": 11.52, "grad_norm": 0.408203125, "learning_rate": 0.0004999679700303661, "loss": 0.4056, "step": 4320 }, { "epoch": 11.546666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004999678020742718, "loss": 0.399, "step": 4330 }, { "epoch": 11.573333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0004999676336789996, "loss": 0.4006, "step": 4340 }, { "epoch": 11.6, "grad_norm": 0.2431640625, "learning_rate": 0.0004999674648445496, "loss": 0.3914, "step": 4350 }, { "epoch": 11.626666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004999672955709223, "loss": 0.3851, "step": 4360 }, { "epoch": 11.653333333333332, "grad_norm": 0.2275390625, "learning_rate": 0.0004999671258581179, "loss": 0.4033, "step": 4370 }, { "epoch": 11.68, "grad_norm": 0.2109375, "learning_rate": 0.0004999669557061368, "loss": 0.392, "step": 4380 }, { "epoch": 11.706666666666667, "grad_norm": 0.71484375, "learning_rate": 0.0004999667851149791, "loss": 0.3926, "step": 4390 }, { "epoch": 11.733333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004999666140846452, "loss": 0.4121, "step": 4400 }, { "epoch": 11.76, "grad_norm": 0.248046875, "learning_rate": 0.0004999664426151355, "loss": 0.4108, "step": 4410 }, { "epoch": 11.786666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004999662707064503, "loss": 0.4104, "step": 4420 }, { "epoch": 11.813333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0004999660983585898, "loss": 0.3947, "step": 4430 }, { "epoch": 11.84, "grad_norm": 0.1796875, "learning_rate": 0.0004999659255715543, "loss": 0.3974, "step": 4440 }, { "epoch": 11.866666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004999657523453441, "loss": 0.3959, "step": 4450 }, { "epoch": 11.893333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0004999655786799595, "loss": 0.3919, "step": 4460 }, { "epoch": 11.92, "grad_norm": 0.2890625, "learning_rate": 0.000499965404575401, "loss": 0.4014, "step": 4470 }, { "epoch": 11.946666666666667, "grad_norm": 0.302734375, "learning_rate": 0.0004999652300316686, "loss": 0.3967, "step": 4480 }, { "epoch": 11.973333333333333, "grad_norm": 0.423828125, "learning_rate": 0.0004999650550487628, "loss": 0.4073, "step": 4490 }, { "epoch": 12.0, "grad_norm": 0.240234375, "learning_rate": 0.0004999648796266838, "loss": 0.395, "step": 4500 }, { "epoch": 12.0, "eval_loss": 0.4319377839565277, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.0057, "eval_samples_per_second": 1.333, "eval_steps_per_second": 0.083, "step": 4500 }, { "epoch": 12.026666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004999647037654321, "loss": 0.4159, "step": 4510 }, { "epoch": 12.053333333333333, "grad_norm": 0.296875, "learning_rate": 0.0004999645274650077, "loss": 0.4195, "step": 4520 }, { "epoch": 12.08, "grad_norm": 0.162109375, "learning_rate": 0.0004999643507254113, "loss": 0.4057, "step": 4530 }, { "epoch": 12.106666666666667, "grad_norm": 0.5625, "learning_rate": 0.0004999641735466429, "loss": 0.4037, "step": 4540 }, { "epoch": 12.133333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004999639959287029, "loss": 0.4022, "step": 4550 }, { "epoch": 12.16, "grad_norm": 0.1982421875, "learning_rate": 0.0004999638178715916, "loss": 0.4057, "step": 4560 }, { "epoch": 12.186666666666667, "grad_norm": 0.15625, "learning_rate": 0.0004999636393753093, "loss": 0.3987, "step": 4570 }, { "epoch": 12.213333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0004999634604398565, "loss": 0.3908, "step": 4580 }, { "epoch": 12.24, "grad_norm": 0.58203125, "learning_rate": 0.0004999632810652331, "loss": 0.3966, "step": 4590 }, { "epoch": 12.266666666666667, "grad_norm": 0.373046875, "learning_rate": 0.0004999631012514399, "loss": 0.403, "step": 4600 }, { "epoch": 12.293333333333333, "grad_norm": 0.220703125, "learning_rate": 0.000499962920998477, "loss": 0.3966, "step": 4610 }, { "epoch": 12.32, "grad_norm": 0.1923828125, "learning_rate": 0.0004999627403063446, "loss": 0.3994, "step": 4620 }, { "epoch": 12.346666666666668, "grad_norm": 0.1923828125, "learning_rate": 0.0004999625591750431, "loss": 0.4056, "step": 4630 }, { "epoch": 12.373333333333333, "grad_norm": 0.173828125, "learning_rate": 0.000499962377604573, "loss": 0.3989, "step": 4640 }, { "epoch": 12.4, "grad_norm": 0.25, "learning_rate": 0.0004999621955949344, "loss": 0.3981, "step": 4650 }, { "epoch": 12.426666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004999620131461277, "loss": 0.4027, "step": 4660 }, { "epoch": 12.453333333333333, "grad_norm": 0.3671875, "learning_rate": 0.0004999618302581531, "loss": 0.4103, "step": 4670 }, { "epoch": 12.48, "grad_norm": 0.203125, "learning_rate": 0.0004999616469310111, "loss": 0.4103, "step": 4680 }, { "epoch": 12.506666666666666, "grad_norm": 0.23828125, "learning_rate": 0.000499961463164702, "loss": 0.4022, "step": 4690 }, { "epoch": 12.533333333333333, "grad_norm": 0.166015625, "learning_rate": 0.000499961278959226, "loss": 0.3966, "step": 4700 }, { "epoch": 12.56, "grad_norm": 0.2109375, "learning_rate": 0.0004999610943145834, "loss": 0.3963, "step": 4710 }, { "epoch": 12.586666666666666, "grad_norm": 0.22265625, "learning_rate": 0.0004999609092307749, "loss": 0.3937, "step": 4720 }, { "epoch": 12.613333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004999607237078003, "loss": 0.3806, "step": 4730 }, { "epoch": 12.64, "grad_norm": 0.19140625, "learning_rate": 0.0004999605377456602, "loss": 0.3876, "step": 4740 }, { "epoch": 12.666666666666666, "grad_norm": 0.169921875, "learning_rate": 0.000499960351344355, "loss": 0.4024, "step": 4750 }, { "epoch": 12.693333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004999601645038848, "loss": 0.3833, "step": 4760 }, { "epoch": 12.72, "grad_norm": 0.306640625, "learning_rate": 0.0004999599772242502, "loss": 0.4003, "step": 4770 }, { "epoch": 12.746666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004999597895054513, "loss": 0.4023, "step": 4780 }, { "epoch": 12.773333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0004999596013474885, "loss": 0.4123, "step": 4790 }, { "epoch": 12.8, "grad_norm": 0.2431640625, "learning_rate": 0.0004999594127503621, "loss": 0.3987, "step": 4800 }, { "epoch": 12.826666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004999592237140727, "loss": 0.3897, "step": 4810 }, { "epoch": 12.853333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004999590342386202, "loss": 0.3935, "step": 4820 }, { "epoch": 12.88, "grad_norm": 0.2041015625, "learning_rate": 0.0004999588443240051, "loss": 0.3886, "step": 4830 }, { "epoch": 12.906666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004999586539702279, "loss": 0.3931, "step": 4840 }, { "epoch": 12.933333333333334, "grad_norm": 0.166015625, "learning_rate": 0.0004999584631772887, "loss": 0.3942, "step": 4850 }, { "epoch": 12.96, "grad_norm": 0.1953125, "learning_rate": 0.000499958271945188, "loss": 0.3909, "step": 4860 }, { "epoch": 12.986666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004999580802739262, "loss": 0.4098, "step": 4870 }, { "epoch": 13.0, "eval_loss": 0.4278475046157837, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5283, "eval_samples_per_second": 1.388, "eval_steps_per_second": 0.087, "step": 4875 }, { "epoch": 13.013333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004999578881635034, "loss": 0.3957, "step": 4880 }, { "epoch": 13.04, "grad_norm": 0.162109375, "learning_rate": 0.00049995769561392, "loss": 0.4191, "step": 4890 }, { "epoch": 13.066666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004999575026251765, "loss": 0.4041, "step": 4900 }, { "epoch": 13.093333333333334, "grad_norm": 0.22265625, "learning_rate": 0.000499957309197273, "loss": 0.4016, "step": 4910 }, { "epoch": 13.12, "grad_norm": 0.255859375, "learning_rate": 0.00049995711533021, "loss": 0.3984, "step": 4920 }, { "epoch": 13.146666666666667, "grad_norm": 0.4609375, "learning_rate": 0.000499956921023988, "loss": 0.402, "step": 4930 }, { "epoch": 13.173333333333334, "grad_norm": 0.62109375, "learning_rate": 0.000499956726278607, "loss": 0.3974, "step": 4940 }, { "epoch": 13.2, "grad_norm": 0.36328125, "learning_rate": 0.0004999565310940675, "loss": 0.3933, "step": 4950 }, { "epoch": 13.226666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004999563354703698, "loss": 0.3895, "step": 4960 }, { "epoch": 13.253333333333334, "grad_norm": 0.337890625, "learning_rate": 0.0004999561394075143, "loss": 0.39, "step": 4970 }, { "epoch": 13.28, "grad_norm": 0.224609375, "learning_rate": 0.0004999559429055012, "loss": 0.4078, "step": 4980 }, { "epoch": 13.306666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004999557459643313, "loss": 0.3872, "step": 4990 }, { "epoch": 13.333333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004999555485840043, "loss": 0.4012, "step": 5000 }, { "epoch": 13.36, "grad_norm": 0.76171875, "learning_rate": 0.000499955350764521, "loss": 0.3969, "step": 5010 }, { "epoch": 13.386666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004999551525058817, "loss": 0.393, "step": 5020 }, { "epoch": 13.413333333333334, "grad_norm": 0.34765625, "learning_rate": 0.0004999549538080865, "loss": 0.3987, "step": 5030 }, { "epoch": 13.44, "grad_norm": 0.1845703125, "learning_rate": 0.000499954754671136, "loss": 0.4015, "step": 5040 }, { "epoch": 13.466666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004999545550950304, "loss": 0.4095, "step": 5050 }, { "epoch": 13.493333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0004999543550797702, "loss": 0.3988, "step": 5060 }, { "epoch": 13.52, "grad_norm": 0.181640625, "learning_rate": 0.0004999541546253555, "loss": 0.3984, "step": 5070 }, { "epoch": 13.546666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0004999539537317869, "loss": 0.3913, "step": 5080 }, { "epoch": 13.573333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004999537523990647, "loss": 0.392, "step": 5090 }, { "epoch": 13.6, "grad_norm": 0.1796875, "learning_rate": 0.0004999535506271893, "loss": 0.3839, "step": 5100 }, { "epoch": 13.626666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004999533484161608, "loss": 0.3784, "step": 5110 }, { "epoch": 13.653333333333332, "grad_norm": 0.39453125, "learning_rate": 0.0004999531457659798, "loss": 0.3952, "step": 5120 }, { "epoch": 13.68, "grad_norm": 0.154296875, "learning_rate": 0.0004999529426766465, "loss": 0.3849, "step": 5130 }, { "epoch": 13.706666666666667, "grad_norm": 0.34375, "learning_rate": 0.0004999527391481614, "loss": 0.385, "step": 5140 }, { "epoch": 13.733333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004999525351805249, "loss": 0.4048, "step": 5150 }, { "epoch": 13.76, "grad_norm": 0.1884765625, "learning_rate": 0.0004999523307737372, "loss": 0.4032, "step": 5160 }, { "epoch": 13.786666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004999521259277987, "loss": 0.4031, "step": 5170 }, { "epoch": 13.813333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004999519206427097, "loss": 0.3874, "step": 5180 }, { "epoch": 13.84, "grad_norm": 0.177734375, "learning_rate": 0.0004999517149184708, "loss": 0.3892, "step": 5190 }, { "epoch": 13.866666666666667, "grad_norm": 0.41796875, "learning_rate": 0.000499951508755082, "loss": 0.3883, "step": 5200 }, { "epoch": 13.893333333333333, "grad_norm": 0.212890625, "learning_rate": 0.000499951302152544, "loss": 0.3841, "step": 5210 }, { "epoch": 13.92, "grad_norm": 0.412109375, "learning_rate": 0.000499951095110857, "loss": 0.3938, "step": 5220 }, { "epoch": 13.946666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004999508876300214, "loss": 0.39, "step": 5230 }, { "epoch": 13.973333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004999506797100375, "loss": 0.3994, "step": 5240 }, { "epoch": 14.0, "grad_norm": 0.31640625, "learning_rate": 0.0004999504713509058, "loss": 0.3871, "step": 5250 }, { "epoch": 14.0, "eval_loss": 0.4258194863796234, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8592, "eval_samples_per_second": 1.473, "eval_steps_per_second": 0.092, "step": 5250 }, { "epoch": 14.026666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004999502625526265, "loss": 0.4094, "step": 5260 }, { "epoch": 14.053333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004999500533152, "loss": 0.4122, "step": 5270 }, { "epoch": 14.08, "grad_norm": 0.2216796875, "learning_rate": 0.0004999498436386268, "loss": 0.3986, "step": 5280 }, { "epoch": 14.106666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004999496335229073, "loss": 0.3961, "step": 5290 }, { "epoch": 14.133333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004999494229680415, "loss": 0.3944, "step": 5300 }, { "epoch": 14.16, "grad_norm": 0.1689453125, "learning_rate": 0.0004999492119740303, "loss": 0.3984, "step": 5310 }, { "epoch": 14.186666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004999490005408736, "loss": 0.3919, "step": 5320 }, { "epoch": 14.213333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.000499948788668572, "loss": 0.3834, "step": 5330 }, { "epoch": 14.24, "grad_norm": 0.24609375, "learning_rate": 0.0004999485763571259, "loss": 0.3888, "step": 5340 }, { "epoch": 14.266666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0004999483636065356, "loss": 0.3962, "step": 5350 }, { "epoch": 14.293333333333333, "grad_norm": 0.3125, "learning_rate": 0.0004999481504168015, "loss": 0.3893, "step": 5360 }, { "epoch": 14.32, "grad_norm": 0.212890625, "learning_rate": 0.000499947936787924, "loss": 0.3928, "step": 5370 }, { "epoch": 14.346666666666668, "grad_norm": 0.232421875, "learning_rate": 0.0004999477227199033, "loss": 0.398, "step": 5380 }, { "epoch": 14.373333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.00049994750821274, "loss": 0.3912, "step": 5390 }, { "epoch": 14.4, "grad_norm": 0.1943359375, "learning_rate": 0.0004999472932664343, "loss": 0.3915, "step": 5400 }, { "epoch": 14.426666666666666, "grad_norm": 0.1552734375, "learning_rate": 0.0004999470778809868, "loss": 0.3949, "step": 5410 }, { "epoch": 14.453333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004999468620563976, "loss": 0.4025, "step": 5420 }, { "epoch": 14.48, "grad_norm": 0.37109375, "learning_rate": 0.0004999466457926673, "loss": 0.4029, "step": 5430 }, { "epoch": 14.506666666666666, "grad_norm": 0.546875, "learning_rate": 0.0004999464290897963, "loss": 0.3955, "step": 5440 }, { "epoch": 14.533333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004999462119477848, "loss": 0.3895, "step": 5450 }, { "epoch": 14.56, "grad_norm": 0.19921875, "learning_rate": 0.0004999459943666332, "loss": 0.3891, "step": 5460 }, { "epoch": 14.586666666666666, "grad_norm": 0.22265625, "learning_rate": 0.000499945776346342, "loss": 0.3868, "step": 5470 }, { "epoch": 14.613333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004999455578869116, "loss": 0.374, "step": 5480 }, { "epoch": 14.64, "grad_norm": 0.302734375, "learning_rate": 0.0004999453389883423, "loss": 0.3799, "step": 5490 }, { "epoch": 14.666666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004999451196506344, "loss": 0.3955, "step": 5500 }, { "epoch": 14.693333333333333, "grad_norm": 0.421875, "learning_rate": 0.0004999448998737884, "loss": 0.377, "step": 5510 }, { "epoch": 14.72, "grad_norm": 0.3984375, "learning_rate": 0.0004999446796578048, "loss": 0.393, "step": 5520 }, { "epoch": 14.746666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0004999444590026837, "loss": 0.3946, "step": 5530 }, { "epoch": 14.773333333333333, "grad_norm": 0.458984375, "learning_rate": 0.0004999442379084258, "loss": 0.4051, "step": 5540 }, { "epoch": 14.8, "grad_norm": 0.2353515625, "learning_rate": 0.0004999440163750313, "loss": 0.3927, "step": 5550 }, { "epoch": 14.826666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004999437944025006, "loss": 0.3827, "step": 5560 }, { "epoch": 14.853333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.000499943571990834, "loss": 0.3866, "step": 5570 }, { "epoch": 14.88, "grad_norm": 0.1875, "learning_rate": 0.0004999433491400322, "loss": 0.382, "step": 5580 }, { "epoch": 14.906666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004999431258500953, "loss": 0.3864, "step": 5590 }, { "epoch": 14.933333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004999429021210238, "loss": 0.387, "step": 5600 }, { "epoch": 14.96, "grad_norm": 0.21875, "learning_rate": 0.000499942677952818, "loss": 0.3841, "step": 5610 }, { "epoch": 14.986666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0004999424533454785, "loss": 0.4025, "step": 5620 }, { "epoch": 15.0, "eval_loss": 0.4256788492202759, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.2126, "eval_samples_per_second": 1.31, "eval_steps_per_second": 0.082, "step": 5625 }, { "epoch": 15.013333333333334, "grad_norm": 0.7265625, "learning_rate": 0.0004999422282990055, "loss": 0.389, "step": 5630 }, { "epoch": 15.04, "grad_norm": 0.2177734375, "learning_rate": 0.0004999420028133995, "loss": 0.4128, "step": 5640 }, { "epoch": 15.066666666666666, "grad_norm": 0.306640625, "learning_rate": 0.0004999417768886608, "loss": 0.3985, "step": 5650 }, { "epoch": 15.093333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.00049994155052479, "loss": 0.3954, "step": 5660 }, { "epoch": 15.12, "grad_norm": 0.171875, "learning_rate": 0.0004999413237217873, "loss": 0.3912, "step": 5670 }, { "epoch": 15.146666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.000499941096479653, "loss": 0.3942, "step": 5680 }, { "epoch": 15.173333333333334, "grad_norm": 0.2333984375, "learning_rate": 0.0004999408687983878, "loss": 0.3902, "step": 5690 }, { "epoch": 15.2, "grad_norm": 0.205078125, "learning_rate": 0.0004999406406779919, "loss": 0.3866, "step": 5700 }, { "epoch": 15.226666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0004999404121184658, "loss": 0.382, "step": 5710 }, { "epoch": 15.253333333333334, "grad_norm": 0.349609375, "learning_rate": 0.0004999401831198098, "loss": 0.3827, "step": 5720 }, { "epoch": 15.28, "grad_norm": 0.298828125, "learning_rate": 0.0004999399536820245, "loss": 0.4002, "step": 5730 }, { "epoch": 15.306666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004999397238051101, "loss": 0.3798, "step": 5740 }, { "epoch": 15.333333333333334, "grad_norm": 0.20703125, "learning_rate": 0.000499939493489067, "loss": 0.3951, "step": 5750 }, { "epoch": 15.36, "grad_norm": 0.3359375, "learning_rate": 0.0004999392627338956, "loss": 0.3903, "step": 5760 }, { "epoch": 15.386666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004999390315395965, "loss": 0.3862, "step": 5770 }, { "epoch": 15.413333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.00049993879990617, "loss": 0.391, "step": 5780 }, { "epoch": 15.44, "grad_norm": 0.2138671875, "learning_rate": 0.0004999385678336165, "loss": 0.3952, "step": 5790 }, { "epoch": 15.466666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004999383353219364, "loss": 0.402, "step": 5800 }, { "epoch": 15.493333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004999381023711299, "loss": 0.3905, "step": 5810 }, { "epoch": 15.52, "grad_norm": 0.22265625, "learning_rate": 0.0004999378689811979, "loss": 0.3922, "step": 5820 }, { "epoch": 15.546666666666667, "grad_norm": 0.369140625, "learning_rate": 0.0004999376351521403, "loss": 0.385, "step": 5830 }, { "epoch": 15.573333333333334, "grad_norm": 0.1513671875, "learning_rate": 0.0004999374008839579, "loss": 0.3861, "step": 5840 }, { "epoch": 15.6, "grad_norm": 0.3671875, "learning_rate": 0.0004999371661766509, "loss": 0.3766, "step": 5850 }, { "epoch": 15.626666666666667, "grad_norm": 0.1630859375, "learning_rate": 0.0004999369310302197, "loss": 0.3724, "step": 5860 }, { "epoch": 15.653333333333332, "grad_norm": 0.3359375, "learning_rate": 0.0004999366954446648, "loss": 0.3888, "step": 5870 }, { "epoch": 15.68, "grad_norm": 0.193359375, "learning_rate": 0.0004999364594199865, "loss": 0.3783, "step": 5880 }, { "epoch": 15.706666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0004999362229561855, "loss": 0.3785, "step": 5890 }, { "epoch": 15.733333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004999359860532619, "loss": 0.3979, "step": 5900 }, { "epoch": 15.76, "grad_norm": 0.2275390625, "learning_rate": 0.0004999357487112163, "loss": 0.3969, "step": 5910 }, { "epoch": 15.786666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.000499935510930049, "loss": 0.3972, "step": 5920 }, { "epoch": 15.813333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004999352727097604, "loss": 0.381, "step": 5930 }, { "epoch": 15.84, "grad_norm": 0.22265625, "learning_rate": 0.000499935034050351, "loss": 0.3825, "step": 5940 }, { "epoch": 15.866666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004999347949518213, "loss": 0.3812, "step": 5950 }, { "epoch": 15.893333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.0004999345554141716, "loss": 0.3787, "step": 5960 }, { "epoch": 15.92, "grad_norm": 0.1875, "learning_rate": 0.0004999343154374023, "loss": 0.3875, "step": 5970 }, { "epoch": 15.946666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0004999340750215139, "loss": 0.383, "step": 5980 }, { "epoch": 15.973333333333333, "grad_norm": 0.373046875, "learning_rate": 0.0004999338341665069, "loss": 0.3937, "step": 5990 }, { "epoch": 16.0, "grad_norm": 0.2373046875, "learning_rate": 0.0004999335928723814, "loss": 0.3803, "step": 6000 }, { "epoch": 16.0, "eval_loss": 0.4223533570766449, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4124, "eval_samples_per_second": 1.402, "eval_steps_per_second": 0.088, "step": 6000 }, { "epoch": 16.026666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004999333511391382, "loss": 0.4038, "step": 6010 }, { "epoch": 16.053333333333335, "grad_norm": 0.318359375, "learning_rate": 0.0004999331089667775, "loss": 0.4072, "step": 6020 }, { "epoch": 16.08, "grad_norm": 0.1943359375, "learning_rate": 0.0004999328663552998, "loss": 0.392, "step": 6030 }, { "epoch": 16.106666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004999326233047055, "loss": 0.3909, "step": 6040 }, { "epoch": 16.133333333333333, "grad_norm": 0.27734375, "learning_rate": 0.000499932379814995, "loss": 0.3884, "step": 6050 }, { "epoch": 16.16, "grad_norm": 0.1845703125, "learning_rate": 0.0004999321358861688, "loss": 0.3917, "step": 6060 }, { "epoch": 16.186666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0004999318915182274, "loss": 0.3859, "step": 6070 }, { "epoch": 16.213333333333335, "grad_norm": 0.1650390625, "learning_rate": 0.0004999316467111711, "loss": 0.3777, "step": 6080 }, { "epoch": 16.24, "grad_norm": 0.1806640625, "learning_rate": 0.0004999314014650002, "loss": 0.3828, "step": 6090 }, { "epoch": 16.266666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0004999311557797154, "loss": 0.389, "step": 6100 }, { "epoch": 16.293333333333333, "grad_norm": 0.296875, "learning_rate": 0.000499930909655317, "loss": 0.383, "step": 6110 }, { "epoch": 16.32, "grad_norm": 0.2578125, "learning_rate": 0.0004999306630918054, "loss": 0.387, "step": 6120 }, { "epoch": 16.346666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.0004999304160891812, "loss": 0.392, "step": 6130 }, { "epoch": 16.373333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0004999301686474446, "loss": 0.3842, "step": 6140 }, { "epoch": 16.4, "grad_norm": 0.2421875, "learning_rate": 0.0004999299207665963, "loss": 0.3849, "step": 6150 }, { "epoch": 16.426666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.0004999296724466365, "loss": 0.3891, "step": 6160 }, { "epoch": 16.453333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004999294236875658, "loss": 0.3974, "step": 6170 }, { "epoch": 16.48, "grad_norm": 0.1943359375, "learning_rate": 0.0004999291744893845, "loss": 0.3959, "step": 6180 }, { "epoch": 16.506666666666668, "grad_norm": 0.427734375, "learning_rate": 0.0004999289248520931, "loss": 0.3885, "step": 6190 }, { "epoch": 16.533333333333335, "grad_norm": 0.236328125, "learning_rate": 0.000499928674775692, "loss": 0.3831, "step": 6200 }, { "epoch": 16.56, "grad_norm": 0.4609375, "learning_rate": 0.0004999284242601817, "loss": 0.3829, "step": 6210 }, { "epoch": 16.586666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.0004999281733055626, "loss": 0.3802, "step": 6220 }, { "epoch": 16.613333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004999279219118352, "loss": 0.3685, "step": 6230 }, { "epoch": 16.64, "grad_norm": 0.1689453125, "learning_rate": 0.0004999276700789999, "loss": 0.3753, "step": 6240 }, { "epoch": 16.666666666666668, "grad_norm": 0.1826171875, "learning_rate": 0.0004999274178070572, "loss": 0.39, "step": 6250 }, { "epoch": 16.693333333333335, "grad_norm": 0.1875, "learning_rate": 0.0004999271650960074, "loss": 0.3707, "step": 6260 }, { "epoch": 16.72, "grad_norm": 0.19921875, "learning_rate": 0.000499926911945851, "loss": 0.3873, "step": 6270 }, { "epoch": 16.746666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0004999266583565886, "loss": 0.3892, "step": 6280 }, { "epoch": 16.773333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004999264043282205, "loss": 0.3995, "step": 6290 }, { "epoch": 16.8, "grad_norm": 0.240234375, "learning_rate": 0.0004999261498607471, "loss": 0.3863, "step": 6300 }, { "epoch": 16.826666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.000499925894954169, "loss": 0.3768, "step": 6310 }, { "epoch": 16.85333333333333, "grad_norm": 0.48046875, "learning_rate": 0.0004999256396084864, "loss": 0.3802, "step": 6320 }, { "epoch": 16.88, "grad_norm": 0.41796875, "learning_rate": 0.0004999253838237001, "loss": 0.3761, "step": 6330 }, { "epoch": 16.906666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0004999251275998102, "loss": 0.381, "step": 6340 }, { "epoch": 16.933333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0004999248709368175, "loss": 0.3817, "step": 6350 }, { "epoch": 16.96, "grad_norm": 0.19921875, "learning_rate": 0.0004999246138347221, "loss": 0.3785, "step": 6360 }, { "epoch": 16.986666666666668, "grad_norm": 0.20703125, "learning_rate": 0.0004999243562935246, "loss": 0.3964, "step": 6370 }, { "epoch": 17.0, "eval_loss": 0.42185091972351074, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5685, "eval_samples_per_second": 1.273, "eval_steps_per_second": 0.08, "step": 6375 }, { "epoch": 17.013333333333332, "grad_norm": 0.220703125, "learning_rate": 0.0004999240983132255, "loss": 0.3828, "step": 6380 }, { "epoch": 17.04, "grad_norm": 0.1669921875, "learning_rate": 0.0004999238398938253, "loss": 0.4075, "step": 6390 }, { "epoch": 17.066666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004999235810353243, "loss": 0.3922, "step": 6400 }, { "epoch": 17.093333333333334, "grad_norm": 0.232421875, "learning_rate": 0.000499923321737723, "loss": 0.3904, "step": 6410 }, { "epoch": 17.12, "grad_norm": 0.16796875, "learning_rate": 0.000499923062001022, "loss": 0.386, "step": 6420 }, { "epoch": 17.14666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0004999228018252216, "loss": 0.3891, "step": 6430 }, { "epoch": 17.173333333333332, "grad_norm": 0.20703125, "learning_rate": 0.0004999225412103222, "loss": 0.3853, "step": 6440 }, { "epoch": 17.2, "grad_norm": 0.31640625, "learning_rate": 0.0004999222801563244, "loss": 0.3813, "step": 6450 }, { "epoch": 17.226666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004999220186632287, "loss": 0.376, "step": 6460 }, { "epoch": 17.253333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004999217567310354, "loss": 0.377, "step": 6470 }, { "epoch": 17.28, "grad_norm": 0.2041015625, "learning_rate": 0.000499921494359745, "loss": 0.3952, "step": 6480 }, { "epoch": 17.306666666666665, "grad_norm": 0.1884765625, "learning_rate": 0.0004999212315493581, "loss": 0.3749, "step": 6490 }, { "epoch": 17.333333333333332, "grad_norm": 0.1923828125, "learning_rate": 0.000499920968299875, "loss": 0.3886, "step": 6500 }, { "epoch": 17.36, "grad_norm": 0.197265625, "learning_rate": 0.0004999207046112962, "loss": 0.3839, "step": 6510 }, { "epoch": 17.386666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004999204404836222, "loss": 0.3805, "step": 6520 }, { "epoch": 17.413333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004999201759168535, "loss": 0.3852, "step": 6530 }, { "epoch": 17.44, "grad_norm": 0.1708984375, "learning_rate": 0.0004999199109109904, "loss": 0.3896, "step": 6540 }, { "epoch": 17.466666666666665, "grad_norm": 0.21484375, "learning_rate": 0.0004999196454660335, "loss": 0.3966, "step": 6550 }, { "epoch": 17.493333333333332, "grad_norm": 0.3671875, "learning_rate": 0.0004999193795819833, "loss": 0.3851, "step": 6560 }, { "epoch": 17.52, "grad_norm": 0.1689453125, "learning_rate": 0.0004999191132588402, "loss": 0.3859, "step": 6570 }, { "epoch": 17.546666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004999188464966047, "loss": 0.3794, "step": 6580 }, { "epoch": 17.573333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004999185792952771, "loss": 0.3813, "step": 6590 }, { "epoch": 17.6, "grad_norm": 0.236328125, "learning_rate": 0.0004999183116548582, "loss": 0.3722, "step": 6600 }, { "epoch": 17.626666666666665, "grad_norm": 0.21875, "learning_rate": 0.0004999180435753482, "loss": 0.3674, "step": 6610 }, { "epoch": 17.653333333333332, "grad_norm": 0.162109375, "learning_rate": 0.0004999177750567476, "loss": 0.3832, "step": 6620 }, { "epoch": 17.68, "grad_norm": 0.2197265625, "learning_rate": 0.0004999175060990571, "loss": 0.3741, "step": 6630 }, { "epoch": 17.706666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004999172367022768, "loss": 0.373, "step": 6640 }, { "epoch": 17.733333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004999169668664076, "loss": 0.392, "step": 6650 }, { "epoch": 17.76, "grad_norm": 0.3828125, "learning_rate": 0.0004999166965914496, "loss": 0.3921, "step": 6660 }, { "epoch": 17.786666666666665, "grad_norm": 0.318359375, "learning_rate": 0.0004999164258774034, "loss": 0.3918, "step": 6670 }, { "epoch": 17.813333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004999161547242695, "loss": 0.3747, "step": 6680 }, { "epoch": 17.84, "grad_norm": 0.203125, "learning_rate": 0.0004999158831320484, "loss": 0.3763, "step": 6690 }, { "epoch": 17.866666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004999156111007406, "loss": 0.3754, "step": 6700 }, { "epoch": 17.893333333333334, "grad_norm": 0.43359375, "learning_rate": 0.0004999153386303465, "loss": 0.3727, "step": 6710 }, { "epoch": 17.92, "grad_norm": 0.25390625, "learning_rate": 0.0004999150657208665, "loss": 0.3817, "step": 6720 }, { "epoch": 17.946666666666665, "grad_norm": 0.265625, "learning_rate": 0.0004999147923723014, "loss": 0.3778, "step": 6730 }, { "epoch": 17.973333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004999145185846514, "loss": 0.3884, "step": 6740 }, { "epoch": 18.0, "grad_norm": 0.2578125, "learning_rate": 0.000499914244357917, "loss": 0.3754, "step": 6750 }, { "epoch": 18.0, "eval_loss": 0.41967928409576416, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8544, "eval_samples_per_second": 1.474, "eval_steps_per_second": 0.092, "step": 6750 }, { "epoch": 18.026666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004999139696920987, "loss": 0.3973, "step": 6760 }, { "epoch": 18.053333333333335, "grad_norm": 0.314453125, "learning_rate": 0.000499913694587197, "loss": 0.4016, "step": 6770 }, { "epoch": 18.08, "grad_norm": 0.1650390625, "learning_rate": 0.0004999134190432125, "loss": 0.3868, "step": 6780 }, { "epoch": 18.106666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004999131430601456, "loss": 0.3847, "step": 6790 }, { "epoch": 18.133333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004999128666379968, "loss": 0.3825, "step": 6800 }, { "epoch": 18.16, "grad_norm": 0.26953125, "learning_rate": 0.0004999125897767663, "loss": 0.3868, "step": 6810 }, { "epoch": 18.186666666666667, "grad_norm": 0.353515625, "learning_rate": 0.0004999123124764551, "loss": 0.3806, "step": 6820 }, { "epoch": 18.213333333333335, "grad_norm": 0.2236328125, "learning_rate": 0.0004999120347370633, "loss": 0.3719, "step": 6830 }, { "epoch": 18.24, "grad_norm": 0.2099609375, "learning_rate": 0.0004999117565585915, "loss": 0.3774, "step": 6840 }, { "epoch": 18.266666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004999114779410403, "loss": 0.3841, "step": 6850 }, { "epoch": 18.293333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.00049991119888441, "loss": 0.3777, "step": 6860 }, { "epoch": 18.32, "grad_norm": 0.1640625, "learning_rate": 0.0004999109193887012, "loss": 0.3817, "step": 6870 }, { "epoch": 18.346666666666668, "grad_norm": 0.44921875, "learning_rate": 0.0004999106394539144, "loss": 0.3858, "step": 6880 }, { "epoch": 18.373333333333335, "grad_norm": 0.380859375, "learning_rate": 0.0004999103590800501, "loss": 0.3792, "step": 6890 }, { "epoch": 18.4, "grad_norm": 0.2392578125, "learning_rate": 0.0004999100782671087, "loss": 0.3794, "step": 6900 }, { "epoch": 18.426666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.0004999097970150908, "loss": 0.3836, "step": 6910 }, { "epoch": 18.453333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004999095153239969, "loss": 0.3924, "step": 6920 }, { "epoch": 18.48, "grad_norm": 0.234375, "learning_rate": 0.0004999092331938273, "loss": 0.3904, "step": 6930 }, { "epoch": 18.506666666666668, "grad_norm": 0.21484375, "learning_rate": 0.0004999089506245827, "loss": 0.3835, "step": 6940 }, { "epoch": 18.533333333333335, "grad_norm": 0.2041015625, "learning_rate": 0.0004999086676162636, "loss": 0.3785, "step": 6950 }, { "epoch": 18.56, "grad_norm": 0.1953125, "learning_rate": 0.0004999083841688703, "loss": 0.3772, "step": 6960 }, { "epoch": 18.586666666666666, "grad_norm": 0.1708984375, "learning_rate": 0.0004999081002824034, "loss": 0.3757, "step": 6970 }, { "epoch": 18.613333333333333, "grad_norm": 0.154296875, "learning_rate": 0.0004999078159568636, "loss": 0.3639, "step": 6980 }, { "epoch": 18.64, "grad_norm": 0.2119140625, "learning_rate": 0.0004999075311922512, "loss": 0.3703, "step": 6990 }, { "epoch": 18.666666666666668, "grad_norm": 0.212890625, "learning_rate": 0.0004999072459885666, "loss": 0.3843, "step": 7000 }, { "epoch": 18.693333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0004999069603458105, "loss": 0.3657, "step": 7010 }, { "epoch": 18.72, "grad_norm": 0.1826171875, "learning_rate": 0.0004999066742639832, "loss": 0.3827, "step": 7020 }, { "epoch": 18.746666666666666, "grad_norm": 0.419921875, "learning_rate": 0.0004999063877430856, "loss": 0.3839, "step": 7030 }, { "epoch": 18.773333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004999061007831178, "loss": 0.3941, "step": 7040 }, { "epoch": 18.8, "grad_norm": 0.1806640625, "learning_rate": 0.0004999058133840804, "loss": 0.3813, "step": 7050 }, { "epoch": 18.826666666666668, "grad_norm": 0.2431640625, "learning_rate": 0.000499905525545974, "loss": 0.3711, "step": 7060 }, { "epoch": 18.85333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.000499905237268799, "loss": 0.3752, "step": 7070 }, { "epoch": 18.88, "grad_norm": 0.259765625, "learning_rate": 0.000499904948552556, "loss": 0.371, "step": 7080 }, { "epoch": 18.906666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004999046593972455, "loss": 0.3759, "step": 7090 }, { "epoch": 18.933333333333334, "grad_norm": 0.2412109375, "learning_rate": 0.0004999043698028678, "loss": 0.3766, "step": 7100 }, { "epoch": 18.96, "grad_norm": 0.2119140625, "learning_rate": 0.0004999040797694237, "loss": 0.3734, "step": 7110 }, { "epoch": 18.986666666666668, "grad_norm": 0.2578125, "learning_rate": 0.0004999037892969136, "loss": 0.3905, "step": 7120 }, { "epoch": 19.0, "eval_loss": 0.4191161096096039, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9577, "eval_samples_per_second": 1.338, "eval_steps_per_second": 0.084, "step": 7125 }, { "epoch": 19.013333333333332, "grad_norm": 0.1748046875, "learning_rate": 0.0004999034983853381, "loss": 0.3779, "step": 7130 }, { "epoch": 19.04, "grad_norm": 0.197265625, "learning_rate": 0.0004999032070346974, "loss": 0.4022, "step": 7140 }, { "epoch": 19.066666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004999029152449924, "loss": 0.3876, "step": 7150 }, { "epoch": 19.093333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004999026230162233, "loss": 0.3847, "step": 7160 }, { "epoch": 19.12, "grad_norm": 0.2080078125, "learning_rate": 0.0004999023303483909, "loss": 0.3803, "step": 7170 }, { "epoch": 19.14666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0004999020372414955, "loss": 0.3837, "step": 7180 }, { "epoch": 19.173333333333332, "grad_norm": 0.2421875, "learning_rate": 0.0004999017436955376, "loss": 0.3798, "step": 7190 }, { "epoch": 19.2, "grad_norm": 0.21875, "learning_rate": 0.0004999014497105179, "loss": 0.3756, "step": 7200 }, { "epoch": 19.226666666666667, "grad_norm": 0.29296875, "learning_rate": 0.0004999011552864367, "loss": 0.371, "step": 7210 }, { "epoch": 19.253333333333334, "grad_norm": 0.2353515625, "learning_rate": 0.0004999008604232947, "loss": 0.3712, "step": 7220 }, { "epoch": 19.28, "grad_norm": 0.2451171875, "learning_rate": 0.0004999005651210923, "loss": 0.3895, "step": 7230 }, { "epoch": 19.306666666666665, "grad_norm": 0.341796875, "learning_rate": 0.0004999002693798301, "loss": 0.3701, "step": 7240 }, { "epoch": 19.333333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004998999731995087, "loss": 0.384, "step": 7250 }, { "epoch": 19.36, "grad_norm": 0.251953125, "learning_rate": 0.0004998996765801283, "loss": 0.3781, "step": 7260 }, { "epoch": 19.386666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004998993795216898, "loss": 0.3757, "step": 7270 }, { "epoch": 19.413333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004998990820241935, "loss": 0.3805, "step": 7280 }, { "epoch": 19.44, "grad_norm": 0.27734375, "learning_rate": 0.0004998987840876399, "loss": 0.3847, "step": 7290 }, { "epoch": 19.466666666666665, "grad_norm": 0.16015625, "learning_rate": 0.0004998984857120297, "loss": 0.3918, "step": 7300 }, { "epoch": 19.493333333333332, "grad_norm": 0.337890625, "learning_rate": 0.0004998981868973632, "loss": 0.3796, "step": 7310 }, { "epoch": 19.52, "grad_norm": 0.193359375, "learning_rate": 0.0004998978876436411, "loss": 0.3816, "step": 7320 }, { "epoch": 19.546666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004998975879508639, "loss": 0.3739, "step": 7330 }, { "epoch": 19.573333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004998972878190321, "loss": 0.3754, "step": 7340 }, { "epoch": 19.6, "grad_norm": 0.1826171875, "learning_rate": 0.0004998969872481462, "loss": 0.3673, "step": 7350 }, { "epoch": 19.626666666666665, "grad_norm": 0.17578125, "learning_rate": 0.0004998966862382067, "loss": 0.3631, "step": 7360 }, { "epoch": 19.653333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004998963847892142, "loss": 0.3784, "step": 7370 }, { "epoch": 19.68, "grad_norm": 0.28515625, "learning_rate": 0.0004998960829011693, "loss": 0.3683, "step": 7380 }, { "epoch": 19.706666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004998957805740723, "loss": 0.3676, "step": 7390 }, { "epoch": 19.733333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.000499895477807924, "loss": 0.3874, "step": 7400 }, { "epoch": 19.76, "grad_norm": 0.2021484375, "learning_rate": 0.0004998951746027247, "loss": 0.3865, "step": 7410 }, { "epoch": 19.786666666666665, "grad_norm": 0.2392578125, "learning_rate": 0.0004998948709584751, "loss": 0.3871, "step": 7420 }, { "epoch": 19.813333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0004998945668751757, "loss": 0.3699, "step": 7430 }, { "epoch": 19.84, "grad_norm": 0.30859375, "learning_rate": 0.0004998942623528269, "loss": 0.3714, "step": 7440 }, { "epoch": 19.866666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0004998939573914294, "loss": 0.3707, "step": 7450 }, { "epoch": 19.893333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004998936519909837, "loss": 0.3685, "step": 7460 }, { "epoch": 19.92, "grad_norm": 0.2490234375, "learning_rate": 0.0004998933461514903, "loss": 0.3766, "step": 7470 }, { "epoch": 19.946666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.0004998930398729497, "loss": 0.3736, "step": 7480 }, { "epoch": 19.973333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004998927331553625, "loss": 0.3829, "step": 7490 }, { "epoch": 20.0, "grad_norm": 0.2119140625, "learning_rate": 0.0004998924259987293, "loss": 0.3711, "step": 7500 }, { "epoch": 20.0, "eval_loss": 0.4190915524959564, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.1866, "eval_samples_per_second": 1.313, "eval_steps_per_second": 0.082, "step": 7500 }, { "epoch": 20.026666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004998921184030505, "loss": 0.3922, "step": 7510 }, { "epoch": 20.053333333333335, "grad_norm": 0.169921875, "learning_rate": 0.0004998918103683267, "loss": 0.3968, "step": 7520 }, { "epoch": 20.08, "grad_norm": 0.255859375, "learning_rate": 0.0004998915018945585, "loss": 0.3824, "step": 7530 }, { "epoch": 20.106666666666666, "grad_norm": 0.3359375, "learning_rate": 0.0004998911929817464, "loss": 0.3808, "step": 7540 }, { "epoch": 20.133333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004998908836298908, "loss": 0.3777, "step": 7550 }, { "epoch": 20.16, "grad_norm": 0.1767578125, "learning_rate": 0.0004998905738389925, "loss": 0.3816, "step": 7560 }, { "epoch": 20.186666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004998902636090519, "loss": 0.3758, "step": 7570 }, { "epoch": 20.213333333333335, "grad_norm": 0.3203125, "learning_rate": 0.0004998899529400695, "loss": 0.3664, "step": 7580 }, { "epoch": 20.24, "grad_norm": 0.33203125, "learning_rate": 0.000499889641832046, "loss": 0.3724, "step": 7590 }, { "epoch": 20.266666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0004998893302849819, "loss": 0.3791, "step": 7600 }, { "epoch": 20.293333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004998890182988776, "loss": 0.3731, "step": 7610 }, { "epoch": 20.32, "grad_norm": 0.240234375, "learning_rate": 0.0004998887058737338, "loss": 0.3765, "step": 7620 }, { "epoch": 20.346666666666668, "grad_norm": 0.2060546875, "learning_rate": 0.0004998883930095509, "loss": 0.381, "step": 7630 }, { "epoch": 20.373333333333335, "grad_norm": 0.2275390625, "learning_rate": 0.0004998880797063296, "loss": 0.3742, "step": 7640 }, { "epoch": 20.4, "grad_norm": 0.1884765625, "learning_rate": 0.0004998877659640705, "loss": 0.3751, "step": 7650 }, { "epoch": 20.426666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004998874517827739, "loss": 0.3785, "step": 7660 }, { "epoch": 20.453333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004998871371624407, "loss": 0.3877, "step": 7670 }, { "epoch": 20.48, "grad_norm": 0.291015625, "learning_rate": 0.0004998868221030711, "loss": 0.3863, "step": 7680 }, { "epoch": 20.506666666666668, "grad_norm": 0.51953125, "learning_rate": 0.0004998865066046658, "loss": 0.3783, "step": 7690 }, { "epoch": 20.533333333333335, "grad_norm": 0.375, "learning_rate": 0.0004998861906672256, "loss": 0.3733, "step": 7700 }, { "epoch": 20.56, "grad_norm": 0.173828125, "learning_rate": 0.0004998858742907505, "loss": 0.3724, "step": 7710 }, { "epoch": 20.586666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004998855574752416, "loss": 0.3716, "step": 7720 }, { "epoch": 20.613333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004998852402206991, "loss": 0.3599, "step": 7730 }, { "epoch": 20.64, "grad_norm": 0.189453125, "learning_rate": 0.0004998849225271237, "loss": 0.3649, "step": 7740 }, { "epoch": 20.666666666666668, "grad_norm": 0.2001953125, "learning_rate": 0.000499884604394516, "loss": 0.3804, "step": 7750 }, { "epoch": 20.693333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.0004998842858228766, "loss": 0.3617, "step": 7760 }, { "epoch": 20.72, "grad_norm": 0.2158203125, "learning_rate": 0.0004998839668122058, "loss": 0.3773, "step": 7770 }, { "epoch": 20.746666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004998836473625043, "loss": 0.3789, "step": 7780 }, { "epoch": 20.773333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004998833274737728, "loss": 0.3901, "step": 7790 }, { "epoch": 20.8, "grad_norm": 0.1904296875, "learning_rate": 0.0004998830071460118, "loss": 0.3767, "step": 7800 }, { "epoch": 20.826666666666668, "grad_norm": 0.208984375, "learning_rate": 0.0004998826863792218, "loss": 0.3661, "step": 7810 }, { "epoch": 20.85333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004998823651734033, "loss": 0.3703, "step": 7820 }, { "epoch": 20.88, "grad_norm": 0.1767578125, "learning_rate": 0.000499882043528557, "loss": 0.3665, "step": 7830 }, { "epoch": 20.906666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004998817214446834, "loss": 0.3715, "step": 7840 }, { "epoch": 20.933333333333334, "grad_norm": 0.26171875, "learning_rate": 0.000499881398921783, "loss": 0.3714, "step": 7850 }, { "epoch": 20.96, "grad_norm": 0.216796875, "learning_rate": 0.0004998810759598564, "loss": 0.3689, "step": 7860 }, { "epoch": 20.986666666666668, "grad_norm": 0.248046875, "learning_rate": 0.0004998807525589044, "loss": 0.3859, "step": 7870 }, { "epoch": 21.0, "eval_loss": 0.4177466034889221, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.767, "eval_samples_per_second": 1.253, "eval_steps_per_second": 0.078, "step": 7875 }, { "epoch": 21.013333333333332, "grad_norm": 0.298828125, "learning_rate": 0.0004998804287189273, "loss": 0.3736, "step": 7880 }, { "epoch": 21.04, "grad_norm": 0.2421875, "learning_rate": 0.0004998801044399256, "loss": 0.398, "step": 7890 }, { "epoch": 21.066666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004998797797219002, "loss": 0.3825, "step": 7900 }, { "epoch": 21.093333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0004998794545648514, "loss": 0.3806, "step": 7910 }, { "epoch": 21.12, "grad_norm": 0.2275390625, "learning_rate": 0.0004998791289687798, "loss": 0.3765, "step": 7920 }, { "epoch": 21.14666666666667, "grad_norm": 0.365234375, "learning_rate": 0.0004998788029336862, "loss": 0.3792, "step": 7930 }, { "epoch": 21.173333333333332, "grad_norm": 0.23046875, "learning_rate": 0.0004998784764595708, "loss": 0.3759, "step": 7940 }, { "epoch": 21.2, "grad_norm": 0.5234375, "learning_rate": 0.0004998781495464345, "loss": 0.371, "step": 7950 }, { "epoch": 21.226666666666667, "grad_norm": 0.234375, "learning_rate": 0.0004998778221942777, "loss": 0.3659, "step": 7960 }, { "epoch": 21.253333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004998774944031011, "loss": 0.3669, "step": 7970 }, { "epoch": 21.28, "grad_norm": 0.2216796875, "learning_rate": 0.0004998771661729051, "loss": 0.3853, "step": 7980 }, { "epoch": 21.306666666666665, "grad_norm": 0.2421875, "learning_rate": 0.0004998768375036904, "loss": 0.3648, "step": 7990 }, { "epoch": 21.333333333333332, "grad_norm": 0.263671875, "learning_rate": 0.0004998765083954576, "loss": 0.3802, "step": 8000 }, { "epoch": 21.36, "grad_norm": 0.251953125, "learning_rate": 0.0004998761788482072, "loss": 0.3729, "step": 8010 }, { "epoch": 21.386666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004998758488619398, "loss": 0.3706, "step": 8020 }, { "epoch": 21.413333333333334, "grad_norm": 0.19921875, "learning_rate": 0.000499875518436656, "loss": 0.3754, "step": 8030 }, { "epoch": 21.44, "grad_norm": 0.447265625, "learning_rate": 0.0004998751875723564, "loss": 0.3799, "step": 8040 }, { "epoch": 21.466666666666665, "grad_norm": 0.3515625, "learning_rate": 0.0004998748562690415, "loss": 0.3869, "step": 8050 }, { "epoch": 21.493333333333332, "grad_norm": 0.263671875, "learning_rate": 0.000499874524526712, "loss": 0.3754, "step": 8060 }, { "epoch": 21.52, "grad_norm": 0.18359375, "learning_rate": 0.0004998741923453685, "loss": 0.3777, "step": 8070 }, { "epoch": 21.546666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004998738597250113, "loss": 0.3696, "step": 8080 }, { "epoch": 21.573333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0004998735266656412, "loss": 0.3715, "step": 8090 }, { "epoch": 21.6, "grad_norm": 0.302734375, "learning_rate": 0.0004998731931672588, "loss": 0.3632, "step": 8100 }, { "epoch": 21.626666666666665, "grad_norm": 0.61328125, "learning_rate": 0.0004998728592298648, "loss": 0.3598, "step": 8110 }, { "epoch": 21.653333333333332, "grad_norm": 0.375, "learning_rate": 0.0004998725248534595, "loss": 0.3748, "step": 8120 }, { "epoch": 21.68, "grad_norm": 0.1708984375, "learning_rate": 0.0004998721900380437, "loss": 0.3638, "step": 8130 }, { "epoch": 21.706666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004998718547836178, "loss": 0.364, "step": 8140 }, { "epoch": 21.733333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0004998715190901827, "loss": 0.383, "step": 8150 }, { "epoch": 21.76, "grad_norm": 0.1728515625, "learning_rate": 0.0004998711829577387, "loss": 0.3825, "step": 8160 }, { "epoch": 21.786666666666665, "grad_norm": 0.185546875, "learning_rate": 0.0004998708463862864, "loss": 0.3826, "step": 8170 }, { "epoch": 21.813333333333333, "grad_norm": 0.453125, "learning_rate": 0.0004998705093758266, "loss": 0.3665, "step": 8180 }, { "epoch": 21.84, "grad_norm": 0.23828125, "learning_rate": 0.0004998701719263598, "loss": 0.3667, "step": 8190 }, { "epoch": 21.866666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004998698340378864, "loss": 0.367, "step": 8200 }, { "epoch": 21.893333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0004998694957104073, "loss": 0.3644, "step": 8210 }, { "epoch": 21.92, "grad_norm": 0.30859375, "learning_rate": 0.0004998691569439229, "loss": 0.3723, "step": 8220 }, { "epoch": 21.946666666666665, "grad_norm": 0.232421875, "learning_rate": 0.0004998688177384338, "loss": 0.3684, "step": 8230 }, { "epoch": 21.973333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004998684780939407, "loss": 0.379, "step": 8240 }, { "epoch": 22.0, "grad_norm": 0.1806640625, "learning_rate": 0.0004998681380104442, "loss": 0.3661, "step": 8250 }, { "epoch": 22.0, "eval_loss": 0.41831234097480774, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5951, "eval_samples_per_second": 1.27, "eval_steps_per_second": 0.079, "step": 8250 }, { "epoch": 22.026666666666667, "grad_norm": 0.1611328125, "learning_rate": 0.0004998677974879448, "loss": 0.3882, "step": 8260 }, { "epoch": 22.053333333333335, "grad_norm": 0.193359375, "learning_rate": 0.000499867456526443, "loss": 0.3933, "step": 8270 }, { "epoch": 22.08, "grad_norm": 0.201171875, "learning_rate": 0.0004998671151259398, "loss": 0.3777, "step": 8280 }, { "epoch": 22.106666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004998667732864353, "loss": 0.377, "step": 8290 }, { "epoch": 22.133333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004998664310079305, "loss": 0.3734, "step": 8300 }, { "epoch": 22.16, "grad_norm": 0.2080078125, "learning_rate": 0.0004998660882904257, "loss": 0.3783, "step": 8310 }, { "epoch": 22.186666666666667, "grad_norm": 0.41796875, "learning_rate": 0.0004998657451339217, "loss": 0.3717, "step": 8320 }, { "epoch": 22.213333333333335, "grad_norm": 0.2060546875, "learning_rate": 0.0004998654015384191, "loss": 0.3629, "step": 8330 }, { "epoch": 22.24, "grad_norm": 2.53125, "learning_rate": 0.0004998650575039183, "loss": 0.3689, "step": 8340 }, { "epoch": 22.266666666666666, "grad_norm": 1.90625, "learning_rate": 0.0004998647130304201, "loss": 0.3786, "step": 8350 }, { "epoch": 22.293333333333333, "grad_norm": 1.1484375, "learning_rate": 0.0004998643681179252, "loss": 0.3701, "step": 8360 }, { "epoch": 22.32, "grad_norm": 1.0078125, "learning_rate": 0.000499864022766434, "loss": 0.3741, "step": 8370 }, { "epoch": 22.346666666666668, "grad_norm": 1.328125, "learning_rate": 0.000499863676975947, "loss": 0.3776, "step": 8380 }, { "epoch": 22.373333333333335, "grad_norm": 1.453125, "learning_rate": 0.0004998633307464652, "loss": 0.3688, "step": 8390 }, { "epoch": 22.4, "grad_norm": 1.4140625, "learning_rate": 0.0004998629840779888, "loss": 0.37, "step": 8400 }, { "epoch": 22.426666666666666, "grad_norm": 1.4609375, "learning_rate": 0.0004998626369705187, "loss": 0.3736, "step": 8410 }, { "epoch": 22.453333333333333, "grad_norm": 1.390625, "learning_rate": 0.0004998622894240554, "loss": 0.3818, "step": 8420 }, { "epoch": 22.48, "grad_norm": 1.4921875, "learning_rate": 0.0004998619414385995, "loss": 0.3806, "step": 8430 }, { "epoch": 22.506666666666668, "grad_norm": 1.0, "learning_rate": 0.0004998615930141516, "loss": 0.3739, "step": 8440 }, { "epoch": 22.533333333333335, "grad_norm": 1.03125, "learning_rate": 0.0004998612441507123, "loss": 0.368, "step": 8450 }, { "epoch": 22.56, "grad_norm": 1.421875, "learning_rate": 0.0004998608948482824, "loss": 0.3668, "step": 8460 }, { "epoch": 22.586666666666666, "grad_norm": 1.59375, "learning_rate": 0.0004998605451068622, "loss": 0.3664, "step": 8470 }, { "epoch": 22.613333333333333, "grad_norm": 1.5859375, "learning_rate": 0.0004998601949264526, "loss": 0.355, "step": 8480 }, { "epoch": 22.64, "grad_norm": 0.6953125, "learning_rate": 0.000499859844307054, "loss": 0.3635, "step": 8490 }, { "epoch": 22.666666666666668, "grad_norm": 0.6015625, "learning_rate": 0.0004998594932486671, "loss": 0.3749, "step": 8500 }, { "epoch": 22.693333333333335, "grad_norm": 0.3203125, "learning_rate": 0.0004998591417512926, "loss": 0.3552, "step": 8510 }, { "epoch": 22.72, "grad_norm": 0.34375, "learning_rate": 0.0004998587898149311, "loss": 0.3714, "step": 8520 }, { "epoch": 22.746666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0004998584374395831, "loss": 0.3736, "step": 8530 }, { "epoch": 22.773333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004998580846252491, "loss": 0.3846, "step": 8540 }, { "epoch": 22.8, "grad_norm": 0.1796875, "learning_rate": 0.0004998577313719302, "loss": 0.3708, "step": 8550 }, { "epoch": 22.826666666666668, "grad_norm": 0.2451171875, "learning_rate": 0.0004998573776796265, "loss": 0.3603, "step": 8560 }, { "epoch": 22.85333333333333, "grad_norm": 0.228515625, "learning_rate": 0.000499857023548339, "loss": 0.3645, "step": 8570 }, { "epoch": 22.88, "grad_norm": 0.18359375, "learning_rate": 0.0004998566689780681, "loss": 0.3615, "step": 8580 }, { "epoch": 22.906666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004998563139688145, "loss": 0.3657, "step": 8590 }, { "epoch": 22.933333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004998559585205788, "loss": 0.3665, "step": 8600 }, { "epoch": 22.96, "grad_norm": 0.2158203125, "learning_rate": 0.0004998556026333616, "loss": 0.3636, "step": 8610 }, { "epoch": 22.986666666666668, "grad_norm": 0.224609375, "learning_rate": 0.0004998552463071636, "loss": 0.3803, "step": 8620 }, { "epoch": 23.0, "eval_loss": 0.4175701141357422, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6359, "eval_samples_per_second": 1.375, "eval_steps_per_second": 0.086, "step": 8625 }, { "epoch": 23.013333333333332, "grad_norm": 0.201171875, "learning_rate": 0.0004998548895419853, "loss": 0.3677, "step": 8630 }, { "epoch": 23.04, "grad_norm": 0.275390625, "learning_rate": 0.0004998545323378276, "loss": 0.3934, "step": 8640 }, { "epoch": 23.066666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004998541746946908, "loss": 0.3781, "step": 8650 }, { "epoch": 23.093333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004998538166125757, "loss": 0.3764, "step": 8660 }, { "epoch": 23.12, "grad_norm": 0.193359375, "learning_rate": 0.0004998534580914829, "loss": 0.3713, "step": 8670 }, { "epoch": 23.14666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004998530991314131, "loss": 0.3739, "step": 8680 }, { "epoch": 23.173333333333332, "grad_norm": 0.212890625, "learning_rate": 0.0004998527397323668, "loss": 0.3709, "step": 8690 }, { "epoch": 23.2, "grad_norm": 0.251953125, "learning_rate": 0.0004998523798943447, "loss": 0.3667, "step": 8700 }, { "epoch": 23.226666666666667, "grad_norm": 0.28125, "learning_rate": 0.0004998520196173474, "loss": 0.3622, "step": 8710 }, { "epoch": 23.253333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004998516589013756, "loss": 0.3643, "step": 8720 }, { "epoch": 23.28, "grad_norm": 0.2158203125, "learning_rate": 0.0004998512977464298, "loss": 0.3827, "step": 8730 }, { "epoch": 23.306666666666665, "grad_norm": 0.1865234375, "learning_rate": 0.0004998509361525108, "loss": 0.3625, "step": 8740 }, { "epoch": 23.333333333333332, "grad_norm": 0.263671875, "learning_rate": 0.0004998505741196192, "loss": 0.3766, "step": 8750 }, { "epoch": 23.36, "grad_norm": 0.2119140625, "learning_rate": 0.0004998502116477556, "loss": 0.3707, "step": 8760 }, { "epoch": 23.386666666666667, "grad_norm": 0.25, "learning_rate": 0.0004998498487369205, "loss": 0.3681, "step": 8770 }, { "epoch": 23.413333333333334, "grad_norm": 0.205078125, "learning_rate": 0.0004998494853871147, "loss": 0.3727, "step": 8780 }, { "epoch": 23.44, "grad_norm": 0.193359375, "learning_rate": 0.000499849121598339, "loss": 0.3776, "step": 8790 }, { "epoch": 23.466666666666665, "grad_norm": 0.19140625, "learning_rate": 0.0004998487573705937, "loss": 0.3829, "step": 8800 }, { "epoch": 23.493333333333332, "grad_norm": 0.208984375, "learning_rate": 0.0004998483927038795, "loss": 0.3721, "step": 8810 }, { "epoch": 23.52, "grad_norm": 0.19140625, "learning_rate": 0.0004998480275981973, "loss": 0.3733, "step": 8820 }, { "epoch": 23.546666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0004998476620535475, "loss": 0.3661, "step": 8830 }, { "epoch": 23.573333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004998472960699307, "loss": 0.3674, "step": 8840 }, { "epoch": 23.6, "grad_norm": 0.2177734375, "learning_rate": 0.0004998469296473479, "loss": 0.3595, "step": 8850 }, { "epoch": 23.626666666666665, "grad_norm": 0.181640625, "learning_rate": 0.0004998465627857993, "loss": 0.3562, "step": 8860 }, { "epoch": 23.653333333333332, "grad_norm": 0.16015625, "learning_rate": 0.0004998461954852858, "loss": 0.3709, "step": 8870 }, { "epoch": 23.68, "grad_norm": 0.1826171875, "learning_rate": 0.000499845827745808, "loss": 0.3599, "step": 8880 }, { "epoch": 23.706666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004998454595673666, "loss": 0.3604, "step": 8890 }, { "epoch": 23.733333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004998450909499621, "loss": 0.3787, "step": 8900 }, { "epoch": 23.76, "grad_norm": 0.1650390625, "learning_rate": 0.0004998447218935953, "loss": 0.3787, "step": 8910 }, { "epoch": 23.786666666666665, "grad_norm": 0.1884765625, "learning_rate": 0.0004998443523982666, "loss": 0.3788, "step": 8920 }, { "epoch": 23.813333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.000499843982463977, "loss": 0.3611, "step": 8930 }, { "epoch": 23.84, "grad_norm": 0.2255859375, "learning_rate": 0.000499843612090727, "loss": 0.3623, "step": 8940 }, { "epoch": 23.866666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004998432412785171, "loss": 0.3623, "step": 8950 }, { "epoch": 23.893333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.0004998428700273481, "loss": 0.3606, "step": 8960 }, { "epoch": 23.92, "grad_norm": 0.189453125, "learning_rate": 0.0004998424983372207, "loss": 0.367, "step": 8970 }, { "epoch": 23.946666666666665, "grad_norm": 0.185546875, "learning_rate": 0.0004998421262081355, "loss": 0.364, "step": 8980 }, { "epoch": 23.973333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004998417536400931, "loss": 0.3752, "step": 8990 }, { "epoch": 24.0, "grad_norm": 0.2099609375, "learning_rate": 0.0004998413806330943, "loss": 0.3626, "step": 9000 }, { "epoch": 24.0, "eval_loss": 0.41412800550460815, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8414, "eval_samples_per_second": 1.476, "eval_steps_per_second": 0.092, "step": 9000 }, { "epoch": 24.026666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004998410071871394, "loss": 0.3841, "step": 9010 }, { "epoch": 24.053333333333335, "grad_norm": 0.1748046875, "learning_rate": 0.0004998406333022295, "loss": 0.3891, "step": 9020 }, { "epoch": 24.08, "grad_norm": 0.2138671875, "learning_rate": 0.000499840258978365, "loss": 0.3745, "step": 9030 }, { "epoch": 24.106666666666666, "grad_norm": 0.16796875, "learning_rate": 0.0004998398842155467, "loss": 0.3738, "step": 9040 }, { "epoch": 24.133333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0004998395090137751, "loss": 0.3697, "step": 9050 }, { "epoch": 24.16, "grad_norm": 0.1796875, "learning_rate": 0.000499839133373051, "loss": 0.3734, "step": 9060 }, { "epoch": 24.186666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004998387572933749, "loss": 0.3676, "step": 9070 }, { "epoch": 24.213333333333335, "grad_norm": 0.20703125, "learning_rate": 0.0004998383807747476, "loss": 0.3583, "step": 9080 }, { "epoch": 24.24, "grad_norm": 0.1943359375, "learning_rate": 0.0004998380038171697, "loss": 0.365, "step": 9090 }, { "epoch": 24.266666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.0004998376264206419, "loss": 0.3725, "step": 9100 }, { "epoch": 24.293333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004998372485851649, "loss": 0.3663, "step": 9110 }, { "epoch": 24.32, "grad_norm": 0.2109375, "learning_rate": 0.0004998368703107392, "loss": 0.3706, "step": 9120 }, { "epoch": 24.346666666666668, "grad_norm": 0.275390625, "learning_rate": 0.0004998364915973657, "loss": 0.3741, "step": 9130 }, { "epoch": 24.373333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0004998361124450448, "loss": 0.3659, "step": 9140 }, { "epoch": 24.4, "grad_norm": 0.201171875, "learning_rate": 0.0004998357328537775, "loss": 0.3668, "step": 9150 }, { "epoch": 24.426666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004998353528235641, "loss": 0.371, "step": 9160 }, { "epoch": 24.453333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004998349723544054, "loss": 0.3798, "step": 9170 }, { "epoch": 24.48, "grad_norm": 0.1962890625, "learning_rate": 0.0004998345914463023, "loss": 0.3783, "step": 9180 }, { "epoch": 24.506666666666668, "grad_norm": 0.1806640625, "learning_rate": 0.0004998342100992552, "loss": 0.3717, "step": 9190 }, { "epoch": 24.533333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0004998338283132647, "loss": 0.366, "step": 9200 }, { "epoch": 24.56, "grad_norm": 0.18359375, "learning_rate": 0.0004998334460883318, "loss": 0.3649, "step": 9210 }, { "epoch": 24.586666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004998330634244569, "loss": 0.3645, "step": 9220 }, { "epoch": 24.613333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0004998326803216409, "loss": 0.3529, "step": 9230 }, { "epoch": 24.64, "grad_norm": 0.2578125, "learning_rate": 0.0004998322967798842, "loss": 0.3592, "step": 9240 }, { "epoch": 24.666666666666668, "grad_norm": 0.3984375, "learning_rate": 0.0004998319127991876, "loss": 0.3739, "step": 9250 }, { "epoch": 24.693333333333335, "grad_norm": 0.314453125, "learning_rate": 0.0004998315283795518, "loss": 0.3539, "step": 9260 }, { "epoch": 24.72, "grad_norm": 0.2138671875, "learning_rate": 0.0004998311435209775, "loss": 0.3696, "step": 9270 }, { "epoch": 24.746666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.0004998307582234653, "loss": 0.3717, "step": 9280 }, { "epoch": 24.773333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004998303724870159, "loss": 0.3827, "step": 9290 }, { "epoch": 24.8, "grad_norm": 0.1884765625, "learning_rate": 0.00049982998631163, "loss": 0.3691, "step": 9300 }, { "epoch": 24.826666666666668, "grad_norm": 0.365234375, "learning_rate": 0.0004998295996973083, "loss": 0.3584, "step": 9310 }, { "epoch": 24.85333333333333, "grad_norm": 0.609375, "learning_rate": 0.0004998292126440515, "loss": 0.3624, "step": 9320 }, { "epoch": 24.88, "grad_norm": 0.5546875, "learning_rate": 0.0004998288251518602, "loss": 0.3588, "step": 9330 }, { "epoch": 24.906666666666666, "grad_norm": 0.322265625, "learning_rate": 0.000499828437220735, "loss": 0.363, "step": 9340 }, { "epoch": 24.933333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004998280488506768, "loss": 0.3634, "step": 9350 }, { "epoch": 24.96, "grad_norm": 0.1728515625, "learning_rate": 0.000499827660041686, "loss": 0.3608, "step": 9360 }, { "epoch": 24.986666666666668, "grad_norm": 0.236328125, "learning_rate": 0.0004998272707937637, "loss": 0.3782, "step": 9370 }, { "epoch": 25.0, "eval_loss": 0.4149629771709442, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0913, "eval_samples_per_second": 1.443, "eval_steps_per_second": 0.09, "step": 9375 }, { "epoch": 25.013333333333332, "grad_norm": 0.283203125, "learning_rate": 0.0004998268811069102, "loss": 0.3653, "step": 9380 }, { "epoch": 25.04, "grad_norm": 0.1748046875, "learning_rate": 0.0004998264909811263, "loss": 0.3912, "step": 9390 }, { "epoch": 25.066666666666666, "grad_norm": 0.25, "learning_rate": 0.0004998261004164128, "loss": 0.3758, "step": 9400 }, { "epoch": 25.093333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004998257094127702, "loss": 0.3746, "step": 9410 }, { "epoch": 25.12, "grad_norm": 0.1845703125, "learning_rate": 0.0004998253179701994, "loss": 0.3687, "step": 9420 }, { "epoch": 25.14666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004998249260887009, "loss": 0.3708, "step": 9430 }, { "epoch": 25.173333333333332, "grad_norm": 0.279296875, "learning_rate": 0.0004998245337682754, "loss": 0.3691, "step": 9440 }, { "epoch": 25.2, "grad_norm": 0.2392578125, "learning_rate": 0.0004998241410089238, "loss": 0.3639, "step": 9450 }, { "epoch": 25.226666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0004998237478106466, "loss": 0.3585, "step": 9460 }, { "epoch": 25.253333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004998233541734444, "loss": 0.3598, "step": 9470 }, { "epoch": 25.28, "grad_norm": 0.2177734375, "learning_rate": 0.0004998229600973181, "loss": 0.3786, "step": 9480 }, { "epoch": 25.306666666666665, "grad_norm": 0.2060546875, "learning_rate": 0.0004998225655822683, "loss": 0.3576, "step": 9490 }, { "epoch": 25.333333333333332, "grad_norm": 0.189453125, "learning_rate": 0.0004998221706282957, "loss": 0.3736, "step": 9500 }, { "epoch": 25.36, "grad_norm": 0.193359375, "learning_rate": 0.0004998217752354011, "loss": 0.3667, "step": 9510 }, { "epoch": 25.386666666666667, "grad_norm": 0.328125, "learning_rate": 0.000499821379403585, "loss": 0.3635, "step": 9520 }, { "epoch": 25.413333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004998209831328481, "loss": 0.3687, "step": 9530 }, { "epoch": 25.44, "grad_norm": 0.33984375, "learning_rate": 0.0004998205864231914, "loss": 0.3735, "step": 9540 }, { "epoch": 25.466666666666665, "grad_norm": 0.1787109375, "learning_rate": 0.0004998201892746153, "loss": 0.3797, "step": 9550 }, { "epoch": 25.493333333333332, "grad_norm": 0.2216796875, "learning_rate": 0.0004998197916871205, "loss": 0.3682, "step": 9560 }, { "epoch": 25.52, "grad_norm": 0.1806640625, "learning_rate": 0.0004998193936607079, "loss": 0.3704, "step": 9570 }, { "epoch": 25.546666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004998189951953779, "loss": 0.3621, "step": 9580 }, { "epoch": 25.573333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004998185962911316, "loss": 0.3643, "step": 9590 }, { "epoch": 25.6, "grad_norm": 0.251953125, "learning_rate": 0.0004998181969479693, "loss": 0.3557, "step": 9600 }, { "epoch": 25.626666666666665, "grad_norm": 0.171875, "learning_rate": 0.000499817797165892, "loss": 0.3532, "step": 9610 }, { "epoch": 25.653333333333332, "grad_norm": 0.251953125, "learning_rate": 0.0004998173969449002, "loss": 0.3683, "step": 9620 }, { "epoch": 25.68, "grad_norm": 0.1728515625, "learning_rate": 0.0004998169962849948, "loss": 0.3569, "step": 9630 }, { "epoch": 25.706666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004998165951861762, "loss": 0.3571, "step": 9640 }, { "epoch": 25.733333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004998161936484454, "loss": 0.3752, "step": 9650 }, { "epoch": 25.76, "grad_norm": 0.263671875, "learning_rate": 0.000499815791671803, "loss": 0.3759, "step": 9660 }, { "epoch": 25.786666666666665, "grad_norm": 0.390625, "learning_rate": 0.0004998153892562498, "loss": 0.3752, "step": 9670 }, { "epoch": 25.813333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004998149864017863, "loss": 0.3582, "step": 9680 }, { "epoch": 25.84, "grad_norm": 0.353515625, "learning_rate": 0.0004998145831084133, "loss": 0.3585, "step": 9690 }, { "epoch": 25.866666666666667, "grad_norm": 0.296875, "learning_rate": 0.0004998141793761316, "loss": 0.3595, "step": 9700 }, { "epoch": 25.893333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004998137752049419, "loss": 0.3572, "step": 9710 }, { "epoch": 25.92, "grad_norm": 0.197265625, "learning_rate": 0.0004998133705948447, "loss": 0.3635, "step": 9720 }, { "epoch": 25.946666666666665, "grad_norm": 0.240234375, "learning_rate": 0.000499812965545841, "loss": 0.3615, "step": 9730 }, { "epoch": 25.973333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004998125600579313, "loss": 0.3718, "step": 9740 }, { "epoch": 26.0, "grad_norm": 0.294921875, "learning_rate": 0.0004998121541311164, "loss": 0.359, "step": 9750 }, { "epoch": 26.0, "eval_loss": 0.4148820638656616, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5592, "eval_samples_per_second": 1.515, "eval_steps_per_second": 0.095, "step": 9750 }, { "epoch": 26.026666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.000499811747765397, "loss": 0.3804, "step": 9760 }, { "epoch": 26.053333333333335, "grad_norm": 0.1728515625, "learning_rate": 0.0004998113409607738, "loss": 0.3861, "step": 9770 }, { "epoch": 26.08, "grad_norm": 0.1904296875, "learning_rate": 0.0004998109337172475, "loss": 0.3709, "step": 9780 }, { "epoch": 26.106666666666666, "grad_norm": 0.197265625, "learning_rate": 0.000499810526034819, "loss": 0.3705, "step": 9790 }, { "epoch": 26.133333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004998101179134886, "loss": 0.3664, "step": 9800 }, { "epoch": 26.16, "grad_norm": 0.3203125, "learning_rate": 0.0004998097093532574, "loss": 0.3714, "step": 9810 }, { "epoch": 26.186666666666667, "grad_norm": 0.5234375, "learning_rate": 0.000499809300354126, "loss": 0.3649, "step": 9820 }, { "epoch": 26.213333333333335, "grad_norm": 0.232421875, "learning_rate": 0.0004998088909160952, "loss": 0.3551, "step": 9830 }, { "epoch": 26.24, "grad_norm": 0.189453125, "learning_rate": 0.0004998084810391656, "loss": 0.3608, "step": 9840 }, { "epoch": 26.266666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004998080707233378, "loss": 0.3681, "step": 9850 }, { "epoch": 26.293333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004998076599686128, "loss": 0.3622, "step": 9860 }, { "epoch": 26.32, "grad_norm": 0.2578125, "learning_rate": 0.0004998072487749912, "loss": 0.3669, "step": 9870 }, { "epoch": 26.346666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0004998068371424736, "loss": 0.37, "step": 9880 }, { "epoch": 26.373333333333335, "grad_norm": 0.6484375, "learning_rate": 0.000499806425071061, "loss": 0.3618, "step": 9890 }, { "epoch": 26.4, "grad_norm": 0.30859375, "learning_rate": 0.0004998060125607539, "loss": 0.3637, "step": 9900 }, { "epoch": 26.426666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.000499805599611553, "loss": 0.368, "step": 9910 }, { "epoch": 26.453333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004998051862234593, "loss": 0.3766, "step": 9920 }, { "epoch": 26.48, "grad_norm": 0.4140625, "learning_rate": 0.0004998047723964731, "loss": 0.3748, "step": 9930 }, { "epoch": 26.506666666666668, "grad_norm": 0.4609375, "learning_rate": 0.0004998043581305956, "loss": 0.3682, "step": 9940 }, { "epoch": 26.533333333333335, "grad_norm": 0.193359375, "learning_rate": 0.0004998039434258271, "loss": 0.3625, "step": 9950 }, { "epoch": 26.56, "grad_norm": 0.244140625, "learning_rate": 0.0004998035282821687, "loss": 0.3618, "step": 9960 }, { "epoch": 26.586666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004998031126996208, "loss": 0.3608, "step": 9970 }, { "epoch": 26.613333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004998026966781844, "loss": 0.3496, "step": 9980 }, { "epoch": 26.64, "grad_norm": 0.203125, "learning_rate": 0.00049980228021786, "loss": 0.3551, "step": 9990 }, { "epoch": 26.666666666666668, "grad_norm": 0.208984375, "learning_rate": 0.0004998018633186486, "loss": 0.3695, "step": 10000 }, { "epoch": 26.693333333333335, "grad_norm": 0.154296875, "learning_rate": 0.0004998014459805507, "loss": 0.3495, "step": 10010 }, { "epoch": 26.72, "grad_norm": 0.205078125, "learning_rate": 0.0004998010282035671, "loss": 0.3668, "step": 10020 }, { "epoch": 26.746666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004998006099876985, "loss": 0.3681, "step": 10030 }, { "epoch": 26.773333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004998001913329457, "loss": 0.38, "step": 10040 }, { "epoch": 26.8, "grad_norm": 0.2080078125, "learning_rate": 0.0004997997722393095, "loss": 0.3655, "step": 10050 }, { "epoch": 26.826666666666668, "grad_norm": 0.30078125, "learning_rate": 0.0004997993527067905, "loss": 0.3552, "step": 10060 }, { "epoch": 26.85333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0004997989327353894, "loss": 0.3579, "step": 10070 }, { "epoch": 26.88, "grad_norm": 0.443359375, "learning_rate": 0.0004997985123251072, "loss": 0.3558, "step": 10080 }, { "epoch": 26.906666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004997980914759444, "loss": 0.36, "step": 10090 }, { "epoch": 26.933333333333334, "grad_norm": 0.158203125, "learning_rate": 0.0004997976701879018, "loss": 0.3604, "step": 10100 }, { "epoch": 26.96, "grad_norm": 0.30078125, "learning_rate": 0.0004997972484609802, "loss": 0.3584, "step": 10110 }, { "epoch": 26.986666666666668, "grad_norm": 0.30859375, "learning_rate": 0.0004997968262951801, "loss": 0.3739, "step": 10120 }, { "epoch": 27.0, "eval_loss": 0.4139934778213501, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7838, "eval_samples_per_second": 1.484, "eval_steps_per_second": 0.093, "step": 10125 }, { "epoch": 27.013333333333332, "grad_norm": 0.28125, "learning_rate": 0.0004997964036905026, "loss": 0.3626, "step": 10130 }, { "epoch": 27.04, "grad_norm": 0.21875, "learning_rate": 0.0004997959806469482, "loss": 0.3874, "step": 10140 }, { "epoch": 27.066666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004997955571645178, "loss": 0.3725, "step": 10150 }, { "epoch": 27.093333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004997951332432119, "loss": 0.3701, "step": 10160 }, { "epoch": 27.12, "grad_norm": 0.1708984375, "learning_rate": 0.0004997947088830315, "loss": 0.3657, "step": 10170 }, { "epoch": 27.14666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004997942840839773, "loss": 0.3689, "step": 10180 }, { "epoch": 27.173333333333332, "grad_norm": 0.259765625, "learning_rate": 0.0004997938588460498, "loss": 0.3659, "step": 10190 }, { "epoch": 27.2, "grad_norm": 0.181640625, "learning_rate": 0.0004997934331692501, "loss": 0.3597, "step": 10200 }, { "epoch": 27.226666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004997930070535789, "loss": 0.3554, "step": 10210 }, { "epoch": 27.253333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004997925804990367, "loss": 0.3566, "step": 10220 }, { "epoch": 27.28, "grad_norm": 0.236328125, "learning_rate": 0.0004997921535056243, "loss": 0.3749, "step": 10230 }, { "epoch": 27.306666666666665, "grad_norm": 0.2119140625, "learning_rate": 0.0004997917260733427, "loss": 0.3551, "step": 10240 }, { "epoch": 27.333333333333332, "grad_norm": 0.208984375, "learning_rate": 0.0004997912982021924, "loss": 0.3693, "step": 10250 }, { "epoch": 27.36, "grad_norm": 0.232421875, "learning_rate": 0.0004997908698921743, "loss": 0.3629, "step": 10260 }, { "epoch": 27.386666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0004997904411432891, "loss": 0.3599, "step": 10270 }, { "epoch": 27.413333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004997900119555374, "loss": 0.3657, "step": 10280 }, { "epoch": 27.44, "grad_norm": 0.1845703125, "learning_rate": 0.0004997895823289203, "loss": 0.3703, "step": 10290 }, { "epoch": 27.466666666666665, "grad_norm": 0.193359375, "learning_rate": 0.0004997891522634382, "loss": 0.3767, "step": 10300 }, { "epoch": 27.493333333333332, "grad_norm": 0.2275390625, "learning_rate": 0.0004997887217590921, "loss": 0.3648, "step": 10310 }, { "epoch": 27.52, "grad_norm": 0.1943359375, "learning_rate": 0.0004997882908158827, "loss": 0.3671, "step": 10320 }, { "epoch": 27.546666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004997878594338107, "loss": 0.3592, "step": 10330 }, { "epoch": 27.573333333333334, "grad_norm": 0.1533203125, "learning_rate": 0.0004997874276128768, "loss": 0.3612, "step": 10340 }, { "epoch": 27.6, "grad_norm": 0.1806640625, "learning_rate": 0.0004997869953530819, "loss": 0.353, "step": 10350 }, { "epoch": 27.626666666666665, "grad_norm": 0.1669921875, "learning_rate": 0.0004997865626544266, "loss": 0.3497, "step": 10360 }, { "epoch": 27.653333333333332, "grad_norm": 0.18359375, "learning_rate": 0.000499786129516912, "loss": 0.3649, "step": 10370 }, { "epoch": 27.68, "grad_norm": 0.255859375, "learning_rate": 0.0004997856959405384, "loss": 0.3534, "step": 10380 }, { "epoch": 27.706666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004997852619253068, "loss": 0.354, "step": 10390 }, { "epoch": 27.733333333333334, "grad_norm": 0.201171875, "learning_rate": 0.000499784827471218, "loss": 0.3717, "step": 10400 }, { "epoch": 27.76, "grad_norm": 0.291015625, "learning_rate": 0.0004997843925782728, "loss": 0.3729, "step": 10410 }, { "epoch": 27.786666666666665, "grad_norm": 0.228515625, "learning_rate": 0.0004997839572464717, "loss": 0.3725, "step": 10420 }, { "epoch": 27.813333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004997835214758157, "loss": 0.3549, "step": 10430 }, { "epoch": 27.84, "grad_norm": 0.2451171875, "learning_rate": 0.0004997830852663056, "loss": 0.3555, "step": 10440 }, { "epoch": 27.866666666666667, "grad_norm": 0.205078125, "learning_rate": 0.000499782648617942, "loss": 0.3555, "step": 10450 }, { "epoch": 27.893333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0004997822115307257, "loss": 0.3539, "step": 10460 }, { "epoch": 27.92, "grad_norm": 0.197265625, "learning_rate": 0.0004997817740046576, "loss": 0.3604, "step": 10470 }, { "epoch": 27.946666666666665, "grad_norm": 0.24609375, "learning_rate": 0.0004997813360397383, "loss": 0.3579, "step": 10480 }, { "epoch": 27.973333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004997808976359687, "loss": 0.368, "step": 10490 }, { "epoch": 28.0, "grad_norm": 0.2119140625, "learning_rate": 0.0004997804587933495, "loss": 0.3557, "step": 10500 }, { "epoch": 28.0, "eval_loss": 0.4157242476940155, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4797, "eval_samples_per_second": 1.527, "eval_steps_per_second": 0.095, "step": 10500 }, { "epoch": 28.026666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004997800195118814, "loss": 0.3777, "step": 10510 }, { "epoch": 28.053333333333335, "grad_norm": 0.1865234375, "learning_rate": 0.0004997795797915653, "loss": 0.3831, "step": 10520 }, { "epoch": 28.08, "grad_norm": 0.287109375, "learning_rate": 0.000499779139632402, "loss": 0.3687, "step": 10530 }, { "epoch": 28.106666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0004997786990343921, "loss": 0.3681, "step": 10540 }, { "epoch": 28.133333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004997782579975365, "loss": 0.3631, "step": 10550 }, { "epoch": 28.16, "grad_norm": 0.1865234375, "learning_rate": 0.000499777816521836, "loss": 0.3677, "step": 10560 }, { "epoch": 28.186666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004997773746072913, "loss": 0.3609, "step": 10570 }, { "epoch": 28.213333333333335, "grad_norm": 0.1826171875, "learning_rate": 0.0004997769322539032, "loss": 0.3518, "step": 10580 }, { "epoch": 28.24, "grad_norm": 0.255859375, "learning_rate": 0.0004997764894616725, "loss": 0.3573, "step": 10590 }, { "epoch": 28.266666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004997760462305999, "loss": 0.3638, "step": 10600 }, { "epoch": 28.293333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004997756025606863, "loss": 0.3586, "step": 10610 }, { "epoch": 28.32, "grad_norm": 0.185546875, "learning_rate": 0.0004997751584519324, "loss": 0.3635, "step": 10620 }, { "epoch": 28.346666666666668, "grad_norm": 0.302734375, "learning_rate": 0.000499774713904339, "loss": 0.3666, "step": 10630 }, { "epoch": 28.373333333333335, "grad_norm": 0.2060546875, "learning_rate": 0.000499774268917907, "loss": 0.3592, "step": 10640 }, { "epoch": 28.4, "grad_norm": 0.2578125, "learning_rate": 0.0004997738234926369, "loss": 0.3603, "step": 10650 }, { "epoch": 28.426666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0004997733776285297, "loss": 0.3646, "step": 10660 }, { "epoch": 28.453333333333333, "grad_norm": 0.60546875, "learning_rate": 0.0004997729313255861, "loss": 0.3732, "step": 10670 }, { "epoch": 28.48, "grad_norm": 0.275390625, "learning_rate": 0.0004997724845838069, "loss": 0.3705, "step": 10680 }, { "epoch": 28.506666666666668, "grad_norm": 0.185546875, "learning_rate": 0.0004997720374031928, "loss": 0.3647, "step": 10690 }, { "epoch": 28.533333333333335, "grad_norm": 0.1796875, "learning_rate": 0.0004997715897837449, "loss": 0.3592, "step": 10700 }, { "epoch": 28.56, "grad_norm": 0.212890625, "learning_rate": 0.0004997711417254637, "loss": 0.3581, "step": 10710 }, { "epoch": 28.586666666666666, "grad_norm": 0.171875, "learning_rate": 0.00049977069322835, "loss": 0.3579, "step": 10720 }, { "epoch": 28.613333333333333, "grad_norm": 0.1484375, "learning_rate": 0.0004997702442924046, "loss": 0.3467, "step": 10730 }, { "epoch": 28.64, "grad_norm": 0.185546875, "learning_rate": 0.0004997697949176284, "loss": 0.3524, "step": 10740 }, { "epoch": 28.666666666666668, "grad_norm": 0.1875, "learning_rate": 0.0004997693451040221, "loss": 0.3668, "step": 10750 }, { "epoch": 28.693333333333335, "grad_norm": 0.1884765625, "learning_rate": 0.0004997688948515866, "loss": 0.3477, "step": 10760 }, { "epoch": 28.72, "grad_norm": 0.185546875, "learning_rate": 0.0004997684441603225, "loss": 0.3629, "step": 10770 }, { "epoch": 28.746666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004997679930302307, "loss": 0.3651, "step": 10780 }, { "epoch": 28.773333333333333, "grad_norm": 0.20703125, "learning_rate": 0.000499767541461312, "loss": 0.3767, "step": 10790 }, { "epoch": 28.8, "grad_norm": 0.30859375, "learning_rate": 0.0004997670894535672, "loss": 0.363, "step": 10800 }, { "epoch": 28.826666666666668, "grad_norm": 0.61328125, "learning_rate": 0.0004997666370069971, "loss": 0.3519, "step": 10810 }, { "epoch": 28.85333333333333, "grad_norm": 0.515625, "learning_rate": 0.0004997661841216024, "loss": 0.3557, "step": 10820 }, { "epoch": 28.88, "grad_norm": 0.279296875, "learning_rate": 0.000499765730797384, "loss": 0.352, "step": 10830 }, { "epoch": 28.906666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004997652770343426, "loss": 0.3573, "step": 10840 }, { "epoch": 28.933333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004997648228324791, "loss": 0.3574, "step": 10850 }, { "epoch": 28.96, "grad_norm": 0.2578125, "learning_rate": 0.0004997643681917943, "loss": 0.355, "step": 10860 }, { "epoch": 28.986666666666668, "grad_norm": 0.177734375, "learning_rate": 0.000499763913112289, "loss": 0.3716, "step": 10870 }, { "epoch": 29.0, "eval_loss": 0.41430604457855225, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4434, "eval_samples_per_second": 1.398, "eval_steps_per_second": 0.087, "step": 10875 }, { "epoch": 29.013333333333332, "grad_norm": 0.2333984375, "learning_rate": 0.0004997634575939639, "loss": 0.3591, "step": 10880 }, { "epoch": 29.04, "grad_norm": 0.294921875, "learning_rate": 0.0004997630016368198, "loss": 0.3847, "step": 10890 }, { "epoch": 29.066666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.0004997625452408576, "loss": 0.3696, "step": 10900 }, { "epoch": 29.093333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004997620884060781, "loss": 0.3669, "step": 10910 }, { "epoch": 29.12, "grad_norm": 0.267578125, "learning_rate": 0.0004997616311324819, "loss": 0.3636, "step": 10920 }, { "epoch": 29.14666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004997611734200701, "loss": 0.3658, "step": 10930 }, { "epoch": 29.173333333333332, "grad_norm": 0.244140625, "learning_rate": 0.0004997607152688434, "loss": 0.3626, "step": 10940 }, { "epoch": 29.2, "grad_norm": 0.220703125, "learning_rate": 0.0004997602566788025, "loss": 0.3575, "step": 10950 }, { "epoch": 29.226666666666667, "grad_norm": 0.400390625, "learning_rate": 0.0004997597976499483, "loss": 0.3522, "step": 10960 }, { "epoch": 29.253333333333334, "grad_norm": 0.375, "learning_rate": 0.0004997593381822816, "loss": 0.3533, "step": 10970 }, { "epoch": 29.28, "grad_norm": 0.2119140625, "learning_rate": 0.0004997588782758031, "loss": 0.3718, "step": 10980 }, { "epoch": 29.306666666666665, "grad_norm": 0.19140625, "learning_rate": 0.0004997584179305138, "loss": 0.3514, "step": 10990 }, { "epoch": 29.333333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004997579571464144, "loss": 0.3662, "step": 11000 }, { "epoch": 29.36, "grad_norm": 0.2236328125, "learning_rate": 0.0004997574959235057, "loss": 0.3595, "step": 11010 }, { "epoch": 29.386666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004997570342617885, "loss": 0.3571, "step": 11020 }, { "epoch": 29.413333333333334, "grad_norm": 0.16015625, "learning_rate": 0.0004997565721612636, "loss": 0.3622, "step": 11030 }, { "epoch": 29.44, "grad_norm": 0.19921875, "learning_rate": 0.000499756109621932, "loss": 0.3673, "step": 11040 }, { "epoch": 29.466666666666665, "grad_norm": 0.1787109375, "learning_rate": 0.0004997556466437943, "loss": 0.3739, "step": 11050 }, { "epoch": 29.493333333333332, "grad_norm": 0.2099609375, "learning_rate": 0.0004997551832268514, "loss": 0.3617, "step": 11060 }, { "epoch": 29.52, "grad_norm": 0.2060546875, "learning_rate": 0.0004997547193711041, "loss": 0.3642, "step": 11070 }, { "epoch": 29.546666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004997542550765531, "loss": 0.3556, "step": 11080 }, { "epoch": 29.573333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004997537903431994, "loss": 0.358, "step": 11090 }, { "epoch": 29.6, "grad_norm": 0.185546875, "learning_rate": 0.0004997533251710438, "loss": 0.3504, "step": 11100 }, { "epoch": 29.626666666666665, "grad_norm": 0.2177734375, "learning_rate": 0.0004997528595600869, "loss": 0.3473, "step": 11110 }, { "epoch": 29.653333333333332, "grad_norm": 0.1865234375, "learning_rate": 0.0004997523935103298, "loss": 0.3616, "step": 11120 }, { "epoch": 29.68, "grad_norm": 0.1748046875, "learning_rate": 0.0004997519270217731, "loss": 0.3508, "step": 11130 }, { "epoch": 29.706666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004997514600944177, "loss": 0.351, "step": 11140 }, { "epoch": 29.733333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004997509927282646, "loss": 0.3687, "step": 11150 }, { "epoch": 29.76, "grad_norm": 0.1865234375, "learning_rate": 0.0004997505249233144, "loss": 0.3687, "step": 11160 }, { "epoch": 29.786666666666665, "grad_norm": 0.20703125, "learning_rate": 0.0004997500566795679, "loss": 0.3695, "step": 11170 }, { "epoch": 29.813333333333333, "grad_norm": 0.251953125, "learning_rate": 0.000499749587997026, "loss": 0.3524, "step": 11180 }, { "epoch": 29.84, "grad_norm": 0.197265625, "learning_rate": 0.0004997491188756896, "loss": 0.3527, "step": 11190 }, { "epoch": 29.866666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004997486493155594, "loss": 0.3532, "step": 11200 }, { "epoch": 29.893333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004997481793166362, "loss": 0.3516, "step": 11210 }, { "epoch": 29.92, "grad_norm": 0.1953125, "learning_rate": 0.0004997477088789211, "loss": 0.3579, "step": 11220 }, { "epoch": 29.946666666666665, "grad_norm": 0.220703125, "learning_rate": 0.0004997472380024146, "loss": 0.3553, "step": 11230 }, { "epoch": 29.973333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004997467666871176, "loss": 0.3653, "step": 11240 }, { "epoch": 30.0, "grad_norm": 0.2177734375, "learning_rate": 0.000499746294933031, "loss": 0.3532, "step": 11250 }, { "epoch": 30.0, "eval_loss": 0.41142600774765015, "eval_model_preparation_time": 0.0029, "eval_runtime": 9.256, "eval_samples_per_second": 1.729, "eval_steps_per_second": 0.108, "step": 11250 }, { "epoch": 30.026666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0004997458227401556, "loss": 0.3756, "step": 11260 }, { "epoch": 30.053333333333335, "grad_norm": 0.201171875, "learning_rate": 0.0004997453501084924, "loss": 0.381, "step": 11270 }, { "epoch": 30.08, "grad_norm": 0.2041015625, "learning_rate": 0.0004997448770380419, "loss": 0.3647, "step": 11280 }, { "epoch": 30.106666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004997444035288052, "loss": 0.3641, "step": 11290 }, { "epoch": 30.133333333333333, "grad_norm": 0.19921875, "learning_rate": 0.000499743929580783, "loss": 0.3599, "step": 11300 }, { "epoch": 30.16, "grad_norm": 0.185546875, "learning_rate": 0.0004997434551939761, "loss": 0.3657, "step": 11310 }, { "epoch": 30.186666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004997429803683855, "loss": 0.3583, "step": 11320 }, { "epoch": 30.213333333333335, "grad_norm": 0.21484375, "learning_rate": 0.0004997425051040119, "loss": 0.3496, "step": 11330 }, { "epoch": 30.24, "grad_norm": 0.205078125, "learning_rate": 0.0004997420294008562, "loss": 0.354, "step": 11340 }, { "epoch": 30.266666666666666, "grad_norm": 0.185546875, "learning_rate": 0.000499741553258919, "loss": 0.3612, "step": 11350 }, { "epoch": 30.293333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004997410766782016, "loss": 0.3556, "step": 11360 }, { "epoch": 30.32, "grad_norm": 0.1875, "learning_rate": 0.0004997405996587045, "loss": 0.3603, "step": 11370 }, { "epoch": 30.346666666666668, "grad_norm": 0.27734375, "learning_rate": 0.0004997401222004285, "loss": 0.3632, "step": 11380 }, { "epoch": 30.373333333333335, "grad_norm": 0.248046875, "learning_rate": 0.0004997396443033746, "loss": 0.3557, "step": 11390 }, { "epoch": 30.4, "grad_norm": 0.2041015625, "learning_rate": 0.0004997391659675437, "loss": 0.3572, "step": 11400 }, { "epoch": 30.426666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004997386871929365, "loss": 0.3621, "step": 11410 }, { "epoch": 30.453333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004997382079795537, "loss": 0.3701, "step": 11420 }, { "epoch": 30.48, "grad_norm": 0.1904296875, "learning_rate": 0.0004997377283273965, "loss": 0.3683, "step": 11430 }, { "epoch": 30.506666666666668, "grad_norm": 0.173828125, "learning_rate": 0.0004997372482364654, "loss": 0.3617, "step": 11440 }, { "epoch": 30.533333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0004997367677067616, "loss": 0.3571, "step": 11450 }, { "epoch": 30.56, "grad_norm": 0.203125, "learning_rate": 0.0004997362867382856, "loss": 0.3553, "step": 11460 }, { "epoch": 30.586666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004997358053310386, "loss": 0.3543, "step": 11470 }, { "epoch": 30.613333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004997353234850211, "loss": 0.344, "step": 11480 }, { "epoch": 30.64, "grad_norm": 0.17578125, "learning_rate": 0.0004997348412002341, "loss": 0.3498, "step": 11490 }, { "epoch": 30.666666666666668, "grad_norm": 0.2001953125, "learning_rate": 0.0004997343584766784, "loss": 0.3648, "step": 11500 }, { "epoch": 30.693333333333335, "grad_norm": 0.220703125, "learning_rate": 0.0004997338753143549, "loss": 0.3441, "step": 11510 }, { "epoch": 30.72, "grad_norm": 0.1982421875, "learning_rate": 0.0004997333917132644, "loss": 0.3607, "step": 11520 }, { "epoch": 30.746666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004997329076734077, "loss": 0.362, "step": 11530 }, { "epoch": 30.773333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004997324231947859, "loss": 0.3735, "step": 11540 }, { "epoch": 30.8, "grad_norm": 0.236328125, "learning_rate": 0.0004997319382773996, "loss": 0.3597, "step": 11550 }, { "epoch": 30.826666666666668, "grad_norm": 0.171875, "learning_rate": 0.0004997314529212498, "loss": 0.3492, "step": 11560 }, { "epoch": 30.85333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004997309671263372, "loss": 0.353, "step": 11570 }, { "epoch": 30.88, "grad_norm": 0.1728515625, "learning_rate": 0.0004997304808926628, "loss": 0.3497, "step": 11580 }, { "epoch": 30.906666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004997299942202274, "loss": 0.3539, "step": 11590 }, { "epoch": 30.933333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004997295071090317, "loss": 0.3543, "step": 11600 }, { "epoch": 30.96, "grad_norm": 0.392578125, "learning_rate": 0.0004997290195590769, "loss": 0.3519, "step": 11610 }, { "epoch": 30.986666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.0004997285315703635, "loss": 0.3687, "step": 11620 }, { "epoch": 31.0, "eval_loss": 0.41124141216278076, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2435, "eval_samples_per_second": 1.423, "eval_steps_per_second": 0.089, "step": 11625 }, { "epoch": 31.013333333333332, "grad_norm": 0.2216796875, "learning_rate": 0.0004997280431428926, "loss": 0.3563, "step": 11630 }, { "epoch": 31.04, "grad_norm": 0.193359375, "learning_rate": 0.000499727554276665, "loss": 0.3824, "step": 11640 }, { "epoch": 31.066666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004997270649716815, "loss": 0.3671, "step": 11650 }, { "epoch": 31.093333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.000499726575227943, "loss": 0.3646, "step": 11660 }, { "epoch": 31.12, "grad_norm": 0.248046875, "learning_rate": 0.0004997260850454503, "loss": 0.3604, "step": 11670 }, { "epoch": 31.14666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004997255944242044, "loss": 0.3625, "step": 11680 }, { "epoch": 31.173333333333332, "grad_norm": 0.232421875, "learning_rate": 0.0004997251033642061, "loss": 0.3596, "step": 11690 }, { "epoch": 31.2, "grad_norm": 0.1923828125, "learning_rate": 0.0004997246118654562, "loss": 0.354, "step": 11700 }, { "epoch": 31.226666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004997241199279555, "loss": 0.35, "step": 11710 }, { "epoch": 31.253333333333334, "grad_norm": 0.17578125, "learning_rate": 0.000499723627551705, "loss": 0.35, "step": 11720 }, { "epoch": 31.28, "grad_norm": 0.271484375, "learning_rate": 0.0004997231347367057, "loss": 0.3687, "step": 11730 }, { "epoch": 31.306666666666665, "grad_norm": 0.16796875, "learning_rate": 0.0004997226414829582, "loss": 0.3493, "step": 11740 }, { "epoch": 31.333333333333332, "grad_norm": 0.1884765625, "learning_rate": 0.0004997221477904634, "loss": 0.3636, "step": 11750 }, { "epoch": 31.36, "grad_norm": 0.2001953125, "learning_rate": 0.0004997216536592224, "loss": 0.3565, "step": 11760 }, { "epoch": 31.386666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004997211590892358, "loss": 0.354, "step": 11770 }, { "epoch": 31.413333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0004997206640805045, "loss": 0.3598, "step": 11780 }, { "epoch": 31.44, "grad_norm": 0.197265625, "learning_rate": 0.0004997201686330296, "loss": 0.3651, "step": 11790 }, { "epoch": 31.466666666666665, "grad_norm": 0.197265625, "learning_rate": 0.0004997196727468116, "loss": 0.3706, "step": 11800 }, { "epoch": 31.493333333333332, "grad_norm": 0.197265625, "learning_rate": 0.0004997191764218518, "loss": 0.3592, "step": 11810 }, { "epoch": 31.52, "grad_norm": 0.2001953125, "learning_rate": 0.0004997186796581507, "loss": 0.3615, "step": 11820 }, { "epoch": 31.546666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004997181824557094, "loss": 0.3529, "step": 11830 }, { "epoch": 31.573333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004997176848145288, "loss": 0.3549, "step": 11840 }, { "epoch": 31.6, "grad_norm": 0.240234375, "learning_rate": 0.0004997171867346094, "loss": 0.3482, "step": 11850 }, { "epoch": 31.626666666666665, "grad_norm": 0.1875, "learning_rate": 0.0004997166882159526, "loss": 0.3442, "step": 11860 }, { "epoch": 31.653333333333332, "grad_norm": 0.166015625, "learning_rate": 0.0004997161892585589, "loss": 0.3595, "step": 11870 }, { "epoch": 31.68, "grad_norm": 0.1982421875, "learning_rate": 0.0004997156898624294, "loss": 0.3482, "step": 11880 }, { "epoch": 31.706666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004997151900275648, "loss": 0.3482, "step": 11890 }, { "epoch": 31.733333333333334, "grad_norm": 0.181640625, "learning_rate": 0.000499714689753966, "loss": 0.366, "step": 11900 }, { "epoch": 31.76, "grad_norm": 0.1982421875, "learning_rate": 0.0004997141890416341, "loss": 0.367, "step": 11910 }, { "epoch": 31.786666666666665, "grad_norm": 0.2041015625, "learning_rate": 0.0004997136878905697, "loss": 0.367, "step": 11920 }, { "epoch": 31.813333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0004997131863007739, "loss": 0.3502, "step": 11930 }, { "epoch": 31.84, "grad_norm": 0.337890625, "learning_rate": 0.0004997126842722474, "loss": 0.3496, "step": 11940 }, { "epoch": 31.866666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0004997121818049911, "loss": 0.3502, "step": 11950 }, { "epoch": 31.893333333333334, "grad_norm": 0.177734375, "learning_rate": 0.000499711678899006, "loss": 0.3493, "step": 11960 }, { "epoch": 31.92, "grad_norm": 0.2080078125, "learning_rate": 0.000499711175554293, "loss": 0.3549, "step": 11970 }, { "epoch": 31.946666666666665, "grad_norm": 0.1923828125, "learning_rate": 0.0004997106717708528, "loss": 0.3532, "step": 11980 }, { "epoch": 31.973333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004997101675486865, "loss": 0.3625, "step": 11990 }, { "epoch": 32.0, "grad_norm": 0.494140625, "learning_rate": 0.0004997096628877949, "loss": 0.35, "step": 12000 }, { "epoch": 32.0, "eval_loss": 0.41305193305015564, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.3974, "eval_samples_per_second": 1.194, "eval_steps_per_second": 0.075, "step": 12000 }, { "epoch": 32.026666666666664, "grad_norm": 0.2412109375, "learning_rate": 0.0004997091577881787, "loss": 0.3721, "step": 12010 }, { "epoch": 32.053333333333335, "grad_norm": 0.2021484375, "learning_rate": 0.0004997086522498391, "loss": 0.3779, "step": 12020 }, { "epoch": 32.08, "grad_norm": 0.1962890625, "learning_rate": 0.0004997081462727767, "loss": 0.3628, "step": 12030 }, { "epoch": 32.10666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0004997076398569928, "loss": 0.3623, "step": 12040 }, { "epoch": 32.13333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004997071330024878, "loss": 0.3576, "step": 12050 }, { "epoch": 32.16, "grad_norm": 0.173828125, "learning_rate": 0.0004997066257092629, "loss": 0.3628, "step": 12060 }, { "epoch": 32.18666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004997061179773188, "loss": 0.3561, "step": 12070 }, { "epoch": 32.21333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004997056098066566, "loss": 0.347, "step": 12080 }, { "epoch": 32.24, "grad_norm": 0.228515625, "learning_rate": 0.000499705101197277, "loss": 0.3519, "step": 12090 }, { "epoch": 32.266666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004997045921491812, "loss": 0.3584, "step": 12100 }, { "epoch": 32.29333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004997040826623697, "loss": 0.3532, "step": 12110 }, { "epoch": 32.32, "grad_norm": 0.177734375, "learning_rate": 0.0004997035727368435, "loss": 0.3581, "step": 12120 }, { "epoch": 32.346666666666664, "grad_norm": 0.251953125, "learning_rate": 0.0004997030623726037, "loss": 0.3604, "step": 12130 }, { "epoch": 32.373333333333335, "grad_norm": 0.5, "learning_rate": 0.000499702551569651, "loss": 0.3533, "step": 12140 }, { "epoch": 32.4, "grad_norm": 0.197265625, "learning_rate": 0.0004997020403279865, "loss": 0.3548, "step": 12150 }, { "epoch": 32.42666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004997015286476108, "loss": 0.3592, "step": 12160 }, { "epoch": 32.45333333333333, "grad_norm": 0.318359375, "learning_rate": 0.000499701016528525, "loss": 0.3678, "step": 12170 }, { "epoch": 32.48, "grad_norm": 0.2255859375, "learning_rate": 0.00049970050397073, "loss": 0.3652, "step": 12180 }, { "epoch": 32.50666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004996999909742267, "loss": 0.3597, "step": 12190 }, { "epoch": 32.53333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004996994775390159, "loss": 0.354, "step": 12200 }, { "epoch": 32.56, "grad_norm": 0.193359375, "learning_rate": 0.0004996989636650986, "loss": 0.3527, "step": 12210 }, { "epoch": 32.586666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004996984493524755, "loss": 0.3517, "step": 12220 }, { "epoch": 32.61333333333333, "grad_norm": 0.154296875, "learning_rate": 0.0004996979346011479, "loss": 0.3418, "step": 12230 }, { "epoch": 32.64, "grad_norm": 0.1767578125, "learning_rate": 0.0004996974194111163, "loss": 0.347, "step": 12240 }, { "epoch": 32.666666666666664, "grad_norm": 0.291015625, "learning_rate": 0.0004996969037823819, "loss": 0.3617, "step": 12250 }, { "epoch": 32.693333333333335, "grad_norm": 0.1796875, "learning_rate": 0.0004996963877149454, "loss": 0.3413, "step": 12260 }, { "epoch": 32.72, "grad_norm": 0.3046875, "learning_rate": 0.0004996958712088079, "loss": 0.3578, "step": 12270 }, { "epoch": 32.74666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004996953542639701, "loss": 0.36, "step": 12280 }, { "epoch": 32.77333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004996948368804331, "loss": 0.3714, "step": 12290 }, { "epoch": 32.8, "grad_norm": 0.255859375, "learning_rate": 0.0004996943190581976, "loss": 0.3574, "step": 12300 }, { "epoch": 32.82666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0004996938007972647, "loss": 0.3463, "step": 12310 }, { "epoch": 32.85333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004996932820976352, "loss": 0.3501, "step": 12320 }, { "epoch": 32.88, "grad_norm": 0.185546875, "learning_rate": 0.0004996927629593101, "loss": 0.3476, "step": 12330 }, { "epoch": 32.906666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004996922433822903, "loss": 0.352, "step": 12340 }, { "epoch": 32.93333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004996917233665766, "loss": 0.3523, "step": 12350 }, { "epoch": 32.96, "grad_norm": 0.2099609375, "learning_rate": 0.0004996912029121701, "loss": 0.3501, "step": 12360 }, { "epoch": 32.986666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.0004996906820190714, "loss": 0.3663, "step": 12370 }, { "epoch": 33.0, "eval_loss": 0.4094735085964203, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5299, "eval_samples_per_second": 1.277, "eval_steps_per_second": 0.08, "step": 12375 }, { "epoch": 33.013333333333335, "grad_norm": 0.17578125, "learning_rate": 0.0004996901606872817, "loss": 0.3539, "step": 12380 }, { "epoch": 33.04, "grad_norm": 0.1572265625, "learning_rate": 0.0004996896389168018, "loss": 0.3795, "step": 12390 }, { "epoch": 33.06666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0004996891167076328, "loss": 0.3641, "step": 12400 }, { "epoch": 33.093333333333334, "grad_norm": 0.328125, "learning_rate": 0.0004996885940597754, "loss": 0.3617, "step": 12410 }, { "epoch": 33.12, "grad_norm": 0.205078125, "learning_rate": 0.0004996880709732305, "loss": 0.3577, "step": 12420 }, { "epoch": 33.14666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0004996875474479991, "loss": 0.3599, "step": 12430 }, { "epoch": 33.17333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004996870234840823, "loss": 0.3575, "step": 12440 }, { "epoch": 33.2, "grad_norm": 0.2080078125, "learning_rate": 0.0004996864990814806, "loss": 0.3514, "step": 12450 }, { "epoch": 33.22666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004996859742401954, "loss": 0.3472, "step": 12460 }, { "epoch": 33.25333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004996854489602273, "loss": 0.3478, "step": 12470 }, { "epoch": 33.28, "grad_norm": 0.306640625, "learning_rate": 0.0004996849232415773, "loss": 0.3666, "step": 12480 }, { "epoch": 33.306666666666665, "grad_norm": 0.369140625, "learning_rate": 0.0004996843970842463, "loss": 0.3468, "step": 12490 }, { "epoch": 33.333333333333336, "grad_norm": 0.388671875, "learning_rate": 0.0004996838704882353, "loss": 0.3619, "step": 12500 }, { "epoch": 33.36, "grad_norm": 0.24609375, "learning_rate": 0.0004996833434535451, "loss": 0.3538, "step": 12510 }, { "epoch": 33.38666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004996828159801769, "loss": 0.3514, "step": 12520 }, { "epoch": 33.413333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004996822880681313, "loss": 0.3573, "step": 12530 }, { "epoch": 33.44, "grad_norm": 0.205078125, "learning_rate": 0.0004996817597174094, "loss": 0.3617, "step": 12540 }, { "epoch": 33.46666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004996812309280121, "loss": 0.3678, "step": 12550 }, { "epoch": 33.49333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004996807016999403, "loss": 0.3562, "step": 12560 }, { "epoch": 33.52, "grad_norm": 0.2294921875, "learning_rate": 0.0004996801720331949, "loss": 0.3594, "step": 12570 }, { "epoch": 33.54666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004996796419277769, "loss": 0.3508, "step": 12580 }, { "epoch": 33.57333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004996791113836874, "loss": 0.3529, "step": 12590 }, { "epoch": 33.6, "grad_norm": 0.2099609375, "learning_rate": 0.0004996785804009269, "loss": 0.3453, "step": 12600 }, { "epoch": 33.626666666666665, "grad_norm": 0.224609375, "learning_rate": 0.0004996780489794967, "loss": 0.3417, "step": 12610 }, { "epoch": 33.653333333333336, "grad_norm": 0.1796875, "learning_rate": 0.0004996775171193977, "loss": 0.3577, "step": 12620 }, { "epoch": 33.68, "grad_norm": 0.185546875, "learning_rate": 0.0004996769848206305, "loss": 0.3459, "step": 12630 }, { "epoch": 33.70666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0004996764520831965, "loss": 0.3455, "step": 12640 }, { "epoch": 33.733333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004996759189070963, "loss": 0.3638, "step": 12650 }, { "epoch": 33.76, "grad_norm": 0.1806640625, "learning_rate": 0.000499675385292331, "loss": 0.3638, "step": 12660 }, { "epoch": 33.78666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004996748512389015, "loss": 0.3644, "step": 12670 }, { "epoch": 33.81333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0004996743167468088, "loss": 0.3474, "step": 12680 }, { "epoch": 33.84, "grad_norm": 0.1689453125, "learning_rate": 0.0004996737818160536, "loss": 0.3468, "step": 12690 }, { "epoch": 33.86666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004996732464466371, "loss": 0.3476, "step": 12700 }, { "epoch": 33.89333333333333, "grad_norm": 0.25, "learning_rate": 0.0004996727106385602, "loss": 0.3474, "step": 12710 }, { "epoch": 33.92, "grad_norm": 0.40234375, "learning_rate": 0.0004996721743918237, "loss": 0.3524, "step": 12720 }, { "epoch": 33.946666666666665, "grad_norm": 0.35546875, "learning_rate": 0.0004996716377064287, "loss": 0.3506, "step": 12730 }, { "epoch": 33.973333333333336, "grad_norm": 0.40234375, "learning_rate": 0.0004996711005823761, "loss": 0.3597, "step": 12740 }, { "epoch": 34.0, "grad_norm": 0.31640625, "learning_rate": 0.0004996705630196667, "loss": 0.3476, "step": 12750 }, { "epoch": 34.0, "eval_loss": 0.40946313738822937, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.0588, "eval_samples_per_second": 1.591, "eval_steps_per_second": 0.099, "step": 12750 }, { "epoch": 34.026666666666664, "grad_norm": 0.19140625, "learning_rate": 0.0004996700250183017, "loss": 0.3703, "step": 12760 }, { "epoch": 34.053333333333335, "grad_norm": 0.1953125, "learning_rate": 0.0004996694865782818, "loss": 0.376, "step": 12770 }, { "epoch": 34.08, "grad_norm": 0.2255859375, "learning_rate": 0.0004996689476996081, "loss": 0.36, "step": 12780 }, { "epoch": 34.10666666666667, "grad_norm": 0.462890625, "learning_rate": 0.0004996684083822815, "loss": 0.3603, "step": 12790 }, { "epoch": 34.13333333333333, "grad_norm": 0.439453125, "learning_rate": 0.000499667868626303, "loss": 0.3551, "step": 12800 }, { "epoch": 34.16, "grad_norm": 0.310546875, "learning_rate": 0.0004996673284316735, "loss": 0.3604, "step": 12810 }, { "epoch": 34.18666666666667, "grad_norm": 0.51171875, "learning_rate": 0.0004996667877983939, "loss": 0.3538, "step": 12820 }, { "epoch": 34.21333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004996662467264652, "loss": 0.3437, "step": 12830 }, { "epoch": 34.24, "grad_norm": 0.1953125, "learning_rate": 0.0004996657052158883, "loss": 0.35, "step": 12840 }, { "epoch": 34.266666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004996651632666642, "loss": 0.3561, "step": 12850 }, { "epoch": 34.29333333333334, "grad_norm": 0.259765625, "learning_rate": 0.000499664620878794, "loss": 0.3509, "step": 12860 }, { "epoch": 34.32, "grad_norm": 0.359375, "learning_rate": 0.0004996640780522784, "loss": 0.3558, "step": 12870 }, { "epoch": 34.346666666666664, "grad_norm": 0.2490234375, "learning_rate": 0.0004996635347871185, "loss": 0.3586, "step": 12880 }, { "epoch": 34.373333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.0004996629910833151, "loss": 0.3503, "step": 12890 }, { "epoch": 34.4, "grad_norm": 0.2060546875, "learning_rate": 0.0004996624469408694, "loss": 0.3517, "step": 12900 }, { "epoch": 34.42666666666667, "grad_norm": 0.1494140625, "learning_rate": 0.0004996619023597822, "loss": 0.3561, "step": 12910 }, { "epoch": 34.45333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004996613573400545, "loss": 0.3645, "step": 12920 }, { "epoch": 34.48, "grad_norm": 0.314453125, "learning_rate": 0.0004996608118816871, "loss": 0.3623, "step": 12930 }, { "epoch": 34.50666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004996602659846812, "loss": 0.3568, "step": 12940 }, { "epoch": 34.53333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004996597196490377, "loss": 0.3519, "step": 12950 }, { "epoch": 34.56, "grad_norm": 0.1962890625, "learning_rate": 0.0004996591728747574, "loss": 0.3501, "step": 12960 }, { "epoch": 34.586666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004996586256618415, "loss": 0.3499, "step": 12970 }, { "epoch": 34.61333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004996580780102908, "loss": 0.3395, "step": 12980 }, { "epoch": 34.64, "grad_norm": 0.1826171875, "learning_rate": 0.0004996575299201063, "loss": 0.3447, "step": 12990 }, { "epoch": 34.666666666666664, "grad_norm": 0.21484375, "learning_rate": 0.0004996569813912889, "loss": 0.3591, "step": 13000 }, { "epoch": 34.693333333333335, "grad_norm": 0.27734375, "learning_rate": 0.0004996564324238397, "loss": 0.3398, "step": 13010 }, { "epoch": 34.72, "grad_norm": 0.189453125, "learning_rate": 0.0004996558830177595, "loss": 0.3554, "step": 13020 }, { "epoch": 34.74666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004996553331730495, "loss": 0.3576, "step": 13030 }, { "epoch": 34.77333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004996547828897104, "loss": 0.3691, "step": 13040 }, { "epoch": 34.8, "grad_norm": 0.17578125, "learning_rate": 0.0004996542321677433, "loss": 0.355, "step": 13050 }, { "epoch": 34.82666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0004996536810071493, "loss": 0.3441, "step": 13060 }, { "epoch": 34.85333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004996531294079291, "loss": 0.3475, "step": 13070 }, { "epoch": 34.88, "grad_norm": 0.1787109375, "learning_rate": 0.0004996525773700838, "loss": 0.3455, "step": 13080 }, { "epoch": 34.906666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004996520248936144, "loss": 0.3497, "step": 13090 }, { "epoch": 34.93333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004996514719785217, "loss": 0.3496, "step": 13100 }, { "epoch": 34.96, "grad_norm": 0.2734375, "learning_rate": 0.000499650918624807, "loss": 0.3477, "step": 13110 }, { "epoch": 34.986666666666665, "grad_norm": 0.203125, "learning_rate": 0.000499650364832471, "loss": 0.3631, "step": 13120 }, { "epoch": 35.0, "eval_loss": 0.40721866488456726, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9703, "eval_samples_per_second": 1.337, "eval_steps_per_second": 0.084, "step": 13125 }, { "epoch": 35.013333333333335, "grad_norm": 0.1845703125, "learning_rate": 0.0004996498106015147, "loss": 0.3518, "step": 13130 }, { "epoch": 35.04, "grad_norm": 0.2041015625, "learning_rate": 0.0004996492559319392, "loss": 0.3771, "step": 13140 }, { "epoch": 35.06666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004996487008237454, "loss": 0.3618, "step": 13150 }, { "epoch": 35.093333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004996481452769343, "loss": 0.3598, "step": 13160 }, { "epoch": 35.12, "grad_norm": 0.1845703125, "learning_rate": 0.0004996475892915067, "loss": 0.3551, "step": 13170 }, { "epoch": 35.14666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004996470328674639, "loss": 0.3573, "step": 13180 }, { "epoch": 35.17333333333333, "grad_norm": 0.302734375, "learning_rate": 0.0004996464760048066, "loss": 0.3549, "step": 13190 }, { "epoch": 35.2, "grad_norm": 0.25, "learning_rate": 0.0004996459187035359, "loss": 0.3494, "step": 13200 }, { "epoch": 35.22666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004996453609636529, "loss": 0.3452, "step": 13210 }, { "epoch": 35.25333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004996448027851583, "loss": 0.3455, "step": 13220 }, { "epoch": 35.28, "grad_norm": 0.2236328125, "learning_rate": 0.0004996442441680532, "loss": 0.364, "step": 13230 }, { "epoch": 35.306666666666665, "grad_norm": 0.171875, "learning_rate": 0.0004996436851123387, "loss": 0.3446, "step": 13240 }, { "epoch": 35.333333333333336, "grad_norm": 0.193359375, "learning_rate": 0.0004996431256180156, "loss": 0.3591, "step": 13250 }, { "epoch": 35.36, "grad_norm": 0.2431640625, "learning_rate": 0.000499642565685085, "loss": 0.3517, "step": 13260 }, { "epoch": 35.38666666666666, "grad_norm": 0.3359375, "learning_rate": 0.000499642005313548, "loss": 0.3491, "step": 13270 }, { "epoch": 35.413333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004996414445034052, "loss": 0.3541, "step": 13280 }, { "epoch": 35.44, "grad_norm": 0.2109375, "learning_rate": 0.000499640883254658, "loss": 0.3599, "step": 13290 }, { "epoch": 35.46666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0004996403215673072, "loss": 0.3655, "step": 13300 }, { "epoch": 35.49333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004996397594413537, "loss": 0.3538, "step": 13310 }, { "epoch": 35.52, "grad_norm": 0.1767578125, "learning_rate": 0.0004996391968767986, "loss": 0.3572, "step": 13320 }, { "epoch": 35.54666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.000499638633873643, "loss": 0.3481, "step": 13330 }, { "epoch": 35.57333333333333, "grad_norm": 0.248046875, "learning_rate": 0.0004996380704318876, "loss": 0.3506, "step": 13340 }, { "epoch": 35.6, "grad_norm": 0.1787109375, "learning_rate": 0.0004996375065515336, "loss": 0.3437, "step": 13350 }, { "epoch": 35.626666666666665, "grad_norm": 0.2255859375, "learning_rate": 0.000499636942232582, "loss": 0.3399, "step": 13360 }, { "epoch": 35.653333333333336, "grad_norm": 0.375, "learning_rate": 0.0004996363774750337, "loss": 0.354, "step": 13370 }, { "epoch": 35.68, "grad_norm": 0.193359375, "learning_rate": 0.0004996358122788897, "loss": 0.3432, "step": 13380 }, { "epoch": 35.70666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004996352466441511, "loss": 0.3441, "step": 13390 }, { "epoch": 35.733333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004996346805708188, "loss": 0.362, "step": 13400 }, { "epoch": 35.76, "grad_norm": 0.16796875, "learning_rate": 0.0004996341140588937, "loss": 0.3622, "step": 13410 }, { "epoch": 35.78666666666667, "grad_norm": 0.154296875, "learning_rate": 0.0004996335471083769, "loss": 0.3617, "step": 13420 }, { "epoch": 35.81333333333333, "grad_norm": 0.337890625, "learning_rate": 0.0004996329797192695, "loss": 0.3449, "step": 13430 }, { "epoch": 35.84, "grad_norm": 0.271484375, "learning_rate": 0.0004996324118915724, "loss": 0.3453, "step": 13440 }, { "epoch": 35.86666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004996318436252865, "loss": 0.345, "step": 13450 }, { "epoch": 35.89333333333333, "grad_norm": 0.3125, "learning_rate": 0.0004996312749204131, "loss": 0.3449, "step": 13460 }, { "epoch": 35.92, "grad_norm": 0.625, "learning_rate": 0.0004996307057769528, "loss": 0.3495, "step": 13470 }, { "epoch": 35.946666666666665, "grad_norm": 0.3125, "learning_rate": 0.0004996301361949068, "loss": 0.3483, "step": 13480 }, { "epoch": 35.973333333333336, "grad_norm": 0.1943359375, "learning_rate": 0.0004996295661742761, "loss": 0.3578, "step": 13490 }, { "epoch": 36.0, "grad_norm": 0.2236328125, "learning_rate": 0.0004996289957150617, "loss": 0.3454, "step": 13500 }, { "epoch": 36.0, "eval_loss": 0.40985241532325745, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.1707, "eval_samples_per_second": 1.573, "eval_steps_per_second": 0.098, "step": 13500 }, { "epoch": 36.026666666666664, "grad_norm": 0.208984375, "learning_rate": 0.0004996284248172647, "loss": 0.368, "step": 13510 }, { "epoch": 36.053333333333335, "grad_norm": 0.171875, "learning_rate": 0.0004996278534808859, "loss": 0.3739, "step": 13520 }, { "epoch": 36.08, "grad_norm": 0.1728515625, "learning_rate": 0.0004996272817059264, "loss": 0.3585, "step": 13530 }, { "epoch": 36.10666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004996267094923873, "loss": 0.3578, "step": 13540 }, { "epoch": 36.13333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0004996261368402695, "loss": 0.3529, "step": 13550 }, { "epoch": 36.16, "grad_norm": 0.2158203125, "learning_rate": 0.0004996255637495739, "loss": 0.3585, "step": 13560 }, { "epoch": 36.18666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004996249902203016, "loss": 0.3517, "step": 13570 }, { "epoch": 36.21333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004996244162524538, "loss": 0.3421, "step": 13580 }, { "epoch": 36.24, "grad_norm": 0.279296875, "learning_rate": 0.0004996238418460313, "loss": 0.3468, "step": 13590 }, { "epoch": 36.266666666666666, "grad_norm": 0.423828125, "learning_rate": 0.0004996232670010351, "loss": 0.3544, "step": 13600 }, { "epoch": 36.29333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004996226917174663, "loss": 0.3487, "step": 13610 }, { "epoch": 36.32, "grad_norm": 0.19140625, "learning_rate": 0.0004996221159953258, "loss": 0.354, "step": 13620 }, { "epoch": 36.346666666666664, "grad_norm": 0.22265625, "learning_rate": 0.0004996215398346147, "loss": 0.3563, "step": 13630 }, { "epoch": 36.373333333333335, "grad_norm": 0.328125, "learning_rate": 0.0004996209632353342, "loss": 0.3487, "step": 13640 }, { "epoch": 36.4, "grad_norm": 0.275390625, "learning_rate": 0.0004996203861974849, "loss": 0.3496, "step": 13650 }, { "epoch": 36.42666666666667, "grad_norm": 0.189453125, "learning_rate": 0.000499619808721068, "loss": 0.3541, "step": 13660 }, { "epoch": 36.45333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004996192308060846, "loss": 0.3631, "step": 13670 }, { "epoch": 36.48, "grad_norm": 0.2001953125, "learning_rate": 0.0004996186524525356, "loss": 0.3606, "step": 13680 }, { "epoch": 36.50666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004996180736604221, "loss": 0.3551, "step": 13690 }, { "epoch": 36.53333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004996174944297451, "loss": 0.3495, "step": 13700 }, { "epoch": 36.56, "grad_norm": 0.1796875, "learning_rate": 0.0004996169147605057, "loss": 0.348, "step": 13710 }, { "epoch": 36.586666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004996163346527048, "loss": 0.3477, "step": 13720 }, { "epoch": 36.61333333333333, "grad_norm": 0.1640625, "learning_rate": 0.0004996157541063433, "loss": 0.3375, "step": 13730 }, { "epoch": 36.64, "grad_norm": 0.1845703125, "learning_rate": 0.0004996151731214225, "loss": 0.3427, "step": 13740 }, { "epoch": 36.666666666666664, "grad_norm": 0.1953125, "learning_rate": 0.0004996145916979431, "loss": 0.3576, "step": 13750 }, { "epoch": 36.693333333333335, "grad_norm": 0.18359375, "learning_rate": 0.0004996140098359064, "loss": 0.3371, "step": 13760 }, { "epoch": 36.72, "grad_norm": 0.2080078125, "learning_rate": 0.0004996134275353135, "loss": 0.3532, "step": 13770 }, { "epoch": 36.74666666666667, "grad_norm": 0.185546875, "learning_rate": 0.000499612844796165, "loss": 0.3554, "step": 13780 }, { "epoch": 36.77333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004996122616184623, "loss": 0.3672, "step": 13790 }, { "epoch": 36.8, "grad_norm": 0.2421875, "learning_rate": 0.0004996116780022062, "loss": 0.3525, "step": 13800 }, { "epoch": 36.82666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004996110939473979, "loss": 0.3417, "step": 13810 }, { "epoch": 36.85333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004996105094540384, "loss": 0.3454, "step": 13820 }, { "epoch": 36.88, "grad_norm": 0.240234375, "learning_rate": 0.0004996099245221286, "loss": 0.3429, "step": 13830 }, { "epoch": 36.906666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004996093391516696, "loss": 0.3472, "step": 13840 }, { "epoch": 36.93333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004996087533426625, "loss": 0.3474, "step": 13850 }, { "epoch": 36.96, "grad_norm": 0.1787109375, "learning_rate": 0.0004996081670951082, "loss": 0.3461, "step": 13860 }, { "epoch": 36.986666666666665, "grad_norm": 0.255859375, "learning_rate": 0.0004996075804090078, "loss": 0.3611, "step": 13870 }, { "epoch": 37.0, "eval_loss": 0.40963074564933777, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5766, "eval_samples_per_second": 1.513, "eval_steps_per_second": 0.095, "step": 13875 }, { "epoch": 37.013333333333335, "grad_norm": 0.2734375, "learning_rate": 0.0004996069932843622, "loss": 0.3492, "step": 13880 }, { "epoch": 37.04, "grad_norm": 0.4765625, "learning_rate": 0.0004996064057211727, "loss": 0.3754, "step": 13890 }, { "epoch": 37.06666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004996058177194401, "loss": 0.3597, "step": 13900 }, { "epoch": 37.093333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004996052292791656, "loss": 0.3575, "step": 13910 }, { "epoch": 37.12, "grad_norm": 0.255859375, "learning_rate": 0.0004996046404003501, "loss": 0.3528, "step": 13920 }, { "epoch": 37.14666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004996040510829948, "loss": 0.3551, "step": 13930 }, { "epoch": 37.17333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004996034613271006, "loss": 0.3537, "step": 13940 }, { "epoch": 37.2, "grad_norm": 0.2158203125, "learning_rate": 0.0004996028711326684, "loss": 0.347, "step": 13950 }, { "epoch": 37.22666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004996022804996995, "loss": 0.3426, "step": 13960 }, { "epoch": 37.25333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004996016894281949, "loss": 0.3431, "step": 13970 }, { "epoch": 37.28, "grad_norm": 0.2353515625, "learning_rate": 0.0004996010979181555, "loss": 0.3617, "step": 13980 }, { "epoch": 37.306666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.0004996005059695823, "loss": 0.342, "step": 13990 }, { "epoch": 37.333333333333336, "grad_norm": 0.1787109375, "learning_rate": 0.0004995999135824766, "loss": 0.3574, "step": 14000 }, { "epoch": 37.36, "grad_norm": 0.2119140625, "learning_rate": 0.0004995993207568393, "loss": 0.3495, "step": 14010 }, { "epoch": 37.38666666666666, "grad_norm": 0.2333984375, "learning_rate": 0.0004995987274926713, "loss": 0.3459, "step": 14020 }, { "epoch": 37.413333333333334, "grad_norm": 0.2265625, "learning_rate": 0.0004995981337899739, "loss": 0.3522, "step": 14030 }, { "epoch": 37.44, "grad_norm": 0.1806640625, "learning_rate": 0.000499597539648748, "loss": 0.3571, "step": 14040 }, { "epoch": 37.46666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004995969450689946, "loss": 0.3633, "step": 14050 }, { "epoch": 37.49333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004995963500507148, "loss": 0.3514, "step": 14060 }, { "epoch": 37.52, "grad_norm": 0.53515625, "learning_rate": 0.0004995957545939097, "loss": 0.3549, "step": 14070 }, { "epoch": 37.54666666666667, "grad_norm": 0.306640625, "learning_rate": 0.0004995951586985803, "loss": 0.3457, "step": 14080 }, { "epoch": 37.57333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004995945623647277, "loss": 0.3484, "step": 14090 }, { "epoch": 37.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004995939655923528, "loss": 0.3411, "step": 14100 }, { "epoch": 37.626666666666665, "grad_norm": 0.2265625, "learning_rate": 0.0004995933683814568, "loss": 0.3379, "step": 14110 }, { "epoch": 37.653333333333336, "grad_norm": 0.1826171875, "learning_rate": 0.0004995927707320407, "loss": 0.3524, "step": 14120 }, { "epoch": 37.68, "grad_norm": 0.1884765625, "learning_rate": 0.0004995921726441055, "loss": 0.3411, "step": 14130 }, { "epoch": 37.70666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004995915741176524, "loss": 0.3415, "step": 14140 }, { "epoch": 37.733333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0004995909751526822, "loss": 0.359, "step": 14150 }, { "epoch": 37.76, "grad_norm": 0.185546875, "learning_rate": 0.0004995903757491961, "loss": 0.3599, "step": 14160 }, { "epoch": 37.78666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004995897759071952, "loss": 0.3604, "step": 14170 }, { "epoch": 37.81333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004995891756266805, "loss": 0.3431, "step": 14180 }, { "epoch": 37.84, "grad_norm": 0.29296875, "learning_rate": 0.0004995885749076531, "loss": 0.3428, "step": 14190 }, { "epoch": 37.86666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.000499587973750114, "loss": 0.3434, "step": 14200 }, { "epoch": 37.89333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004995873721540642, "loss": 0.3425, "step": 14210 }, { "epoch": 37.92, "grad_norm": 0.2060546875, "learning_rate": 0.0004995867701195048, "loss": 0.3475, "step": 14220 }, { "epoch": 37.946666666666665, "grad_norm": 0.28515625, "learning_rate": 0.000499586167646437, "loss": 0.3458, "step": 14230 }, { "epoch": 37.973333333333336, "grad_norm": 0.2197265625, "learning_rate": 0.0004995855647348617, "loss": 0.3553, "step": 14240 }, { "epoch": 38.0, "grad_norm": 0.2451171875, "learning_rate": 0.00049958496138478, "loss": 0.343, "step": 14250 }, { "epoch": 38.0, "eval_loss": 0.4083141088485718, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9174, "eval_samples_per_second": 1.343, "eval_steps_per_second": 0.084, "step": 14250 }, { "epoch": 38.026666666666664, "grad_norm": 0.19140625, "learning_rate": 0.000499584357596193, "loss": 0.3654, "step": 14260 }, { "epoch": 38.053333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0004995837533691016, "loss": 0.3714, "step": 14270 }, { "epoch": 38.08, "grad_norm": 0.162109375, "learning_rate": 0.000499583148703507, "loss": 0.3556, "step": 14280 }, { "epoch": 38.10666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004995825435994104, "loss": 0.356, "step": 14290 }, { "epoch": 38.13333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004995819380568126, "loss": 0.3502, "step": 14300 }, { "epoch": 38.16, "grad_norm": 0.212890625, "learning_rate": 0.0004995813320757148, "loss": 0.3554, "step": 14310 }, { "epoch": 38.18666666666667, "grad_norm": 0.3515625, "learning_rate": 0.000499580725656118, "loss": 0.3497, "step": 14320 }, { "epoch": 38.21333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004995801187980233, "loss": 0.3392, "step": 14330 }, { "epoch": 38.24, "grad_norm": 0.1953125, "learning_rate": 0.0004995795115014319, "loss": 0.3451, "step": 14340 }, { "epoch": 38.266666666666666, "grad_norm": 0.2890625, "learning_rate": 0.0004995789037663446, "loss": 0.351, "step": 14350 }, { "epoch": 38.29333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004995782955927627, "loss": 0.346, "step": 14360 }, { "epoch": 38.32, "grad_norm": 0.1806640625, "learning_rate": 0.000499577686980687, "loss": 0.3516, "step": 14370 }, { "epoch": 38.346666666666664, "grad_norm": 0.25, "learning_rate": 0.0004995770779301189, "loss": 0.3539, "step": 14380 }, { "epoch": 38.373333333333335, "grad_norm": 0.32421875, "learning_rate": 0.0004995764684410593, "loss": 0.3454, "step": 14390 }, { "epoch": 38.4, "grad_norm": 0.1728515625, "learning_rate": 0.0004995758585135092, "loss": 0.3471, "step": 14400 }, { "epoch": 38.42666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.00049957524814747, "loss": 0.352, "step": 14410 }, { "epoch": 38.45333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004995746373429423, "loss": 0.361, "step": 14420 }, { "epoch": 38.48, "grad_norm": 0.2392578125, "learning_rate": 0.0004995740260999274, "loss": 0.3579, "step": 14430 }, { "epoch": 38.50666666666667, "grad_norm": 0.25, "learning_rate": 0.0004995734144184265, "loss": 0.3526, "step": 14440 }, { "epoch": 38.53333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0004995728022984404, "loss": 0.3475, "step": 14450 }, { "epoch": 38.56, "grad_norm": 0.203125, "learning_rate": 0.0004995721897399704, "loss": 0.3453, "step": 14460 }, { "epoch": 38.586666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004995715767430175, "loss": 0.3462, "step": 14470 }, { "epoch": 38.61333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004995709633075828, "loss": 0.3356, "step": 14480 }, { "epoch": 38.64, "grad_norm": 0.1787109375, "learning_rate": 0.0004995703494336673, "loss": 0.341, "step": 14490 }, { "epoch": 38.666666666666664, "grad_norm": 0.2578125, "learning_rate": 0.0004995697351212722, "loss": 0.3548, "step": 14500 }, { "epoch": 38.693333333333335, "grad_norm": 0.171875, "learning_rate": 0.0004995691203703984, "loss": 0.3351, "step": 14510 }, { "epoch": 38.72, "grad_norm": 0.283203125, "learning_rate": 0.0004995685051810471, "loss": 0.3516, "step": 14520 }, { "epoch": 38.74666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004995678895532195, "loss": 0.3525, "step": 14530 }, { "epoch": 38.77333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004995672734869165, "loss": 0.3652, "step": 14540 }, { "epoch": 38.8, "grad_norm": 0.2041015625, "learning_rate": 0.0004995666569821392, "loss": 0.3509, "step": 14550 }, { "epoch": 38.82666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004995660400388888, "loss": 0.3392, "step": 14560 }, { "epoch": 38.85333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004995654226571663, "loss": 0.3435, "step": 14570 }, { "epoch": 38.88, "grad_norm": 0.2294921875, "learning_rate": 0.0004995648048369727, "loss": 0.3413, "step": 14580 }, { "epoch": 38.906666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004995641865783093, "loss": 0.345, "step": 14590 }, { "epoch": 38.93333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004995635678811769, "loss": 0.3454, "step": 14600 }, { "epoch": 38.96, "grad_norm": 0.17578125, "learning_rate": 0.0004995629487455768, "loss": 0.3441, "step": 14610 }, { "epoch": 38.986666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0004995623291715101, "loss": 0.3588, "step": 14620 }, { "epoch": 39.0, "eval_loss": 0.40940627455711365, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2182, "eval_samples_per_second": 1.426, "eval_steps_per_second": 0.089, "step": 14625 }, { "epoch": 39.013333333333335, "grad_norm": 0.30859375, "learning_rate": 0.0004995617091589779, "loss": 0.3473, "step": 14630 }, { "epoch": 39.04, "grad_norm": 0.1826171875, "learning_rate": 0.0004995610887079811, "loss": 0.3736, "step": 14640 }, { "epoch": 39.06666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004995604678185209, "loss": 0.358, "step": 14650 }, { "epoch": 39.093333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004995598464905984, "loss": 0.3561, "step": 14660 }, { "epoch": 39.12, "grad_norm": 0.2177734375, "learning_rate": 0.0004995592247242147, "loss": 0.3512, "step": 14670 }, { "epoch": 39.14666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004995586025193709, "loss": 0.3532, "step": 14680 }, { "epoch": 39.17333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004995579798760681, "loss": 0.3515, "step": 14690 }, { "epoch": 39.2, "grad_norm": 0.189453125, "learning_rate": 0.0004995573567943073, "loss": 0.3454, "step": 14700 }, { "epoch": 39.22666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004995567332740896, "loss": 0.3409, "step": 14710 }, { "epoch": 39.25333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004995561093154163, "loss": 0.3408, "step": 14720 }, { "epoch": 39.28, "grad_norm": 0.265625, "learning_rate": 0.0004995554849182883, "loss": 0.3605, "step": 14730 }, { "epoch": 39.306666666666665, "grad_norm": 0.1982421875, "learning_rate": 0.0004995548600827067, "loss": 0.3401, "step": 14740 }, { "epoch": 39.333333333333336, "grad_norm": 0.1748046875, "learning_rate": 0.0004995542348086728, "loss": 0.3547, "step": 14750 }, { "epoch": 39.36, "grad_norm": 0.1982421875, "learning_rate": 0.0004995536090961875, "loss": 0.3464, "step": 14760 }, { "epoch": 39.38666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0004995529829452518, "loss": 0.3441, "step": 14770 }, { "epoch": 39.413333333333334, "grad_norm": 0.1640625, "learning_rate": 0.000499552356355867, "loss": 0.3495, "step": 14780 }, { "epoch": 39.44, "grad_norm": 0.248046875, "learning_rate": 0.0004995517293280342, "loss": 0.3556, "step": 14790 }, { "epoch": 39.46666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004995511018617544, "loss": 0.3608, "step": 14800 }, { "epoch": 39.49333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004995504739570288, "loss": 0.3495, "step": 14810 }, { "epoch": 39.52, "grad_norm": 0.1826171875, "learning_rate": 0.0004995498456138584, "loss": 0.3527, "step": 14820 }, { "epoch": 39.54666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004995492168322444, "loss": 0.3438, "step": 14830 }, { "epoch": 39.57333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004995485876121879, "loss": 0.3465, "step": 14840 }, { "epoch": 39.6, "grad_norm": 0.1953125, "learning_rate": 0.0004995479579536899, "loss": 0.3395, "step": 14850 }, { "epoch": 39.626666666666665, "grad_norm": 0.173828125, "learning_rate": 0.0004995473278567517, "loss": 0.3361, "step": 14860 }, { "epoch": 39.653333333333336, "grad_norm": 0.1728515625, "learning_rate": 0.0004995466973213741, "loss": 0.3504, "step": 14870 }, { "epoch": 39.68, "grad_norm": 0.162109375, "learning_rate": 0.0004995460663475584, "loss": 0.3388, "step": 14880 }, { "epoch": 39.70666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004995454349353058, "loss": 0.3397, "step": 14890 }, { "epoch": 39.733333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004995448030846172, "loss": 0.3581, "step": 14900 }, { "epoch": 39.76, "grad_norm": 0.2119140625, "learning_rate": 0.0004995441707954939, "loss": 0.3577, "step": 14910 }, { "epoch": 39.78666666666667, "grad_norm": 0.171875, "learning_rate": 0.000499543538067937, "loss": 0.3585, "step": 14920 }, { "epoch": 39.81333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0004995429049019474, "loss": 0.3416, "step": 14930 }, { "epoch": 39.84, "grad_norm": 0.22265625, "learning_rate": 0.0004995422712975264, "loss": 0.3408, "step": 14940 }, { "epoch": 39.86666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004995416372546751, "loss": 0.3413, "step": 14950 }, { "epoch": 39.89333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004995410027733945, "loss": 0.3407, "step": 14960 }, { "epoch": 39.92, "grad_norm": 0.2578125, "learning_rate": 0.0004995403678536859, "loss": 0.3455, "step": 14970 }, { "epoch": 39.946666666666665, "grad_norm": 0.212890625, "learning_rate": 0.0004995397324955503, "loss": 0.344, "step": 14980 }, { "epoch": 39.973333333333336, "grad_norm": 0.263671875, "learning_rate": 0.0004995390966989888, "loss": 0.3538, "step": 14990 }, { "epoch": 40.0, "grad_norm": 0.2060546875, "learning_rate": 0.0004995384604640025, "loss": 0.3412, "step": 15000 }, { "epoch": 40.0, "eval_loss": 0.4093421399593353, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.3136, "eval_samples_per_second": 1.299, "eval_steps_per_second": 0.081, "step": 15000 }, { "epoch": 40.026666666666664, "grad_norm": 0.171875, "learning_rate": 0.0004995378237905926, "loss": 0.3639, "step": 15010 }, { "epoch": 40.053333333333335, "grad_norm": 0.21875, "learning_rate": 0.0004995371866787601, "loss": 0.3692, "step": 15020 }, { "epoch": 40.08, "grad_norm": 0.2119140625, "learning_rate": 0.0004995365491285063, "loss": 0.354, "step": 15030 }, { "epoch": 40.10666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004995359111398323, "loss": 0.3542, "step": 15040 }, { "epoch": 40.13333333333333, "grad_norm": 0.255859375, "learning_rate": 0.000499535272712739, "loss": 0.3482, "step": 15050 }, { "epoch": 40.16, "grad_norm": 0.2138671875, "learning_rate": 0.0004995346338472277, "loss": 0.354, "step": 15060 }, { "epoch": 40.18666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004995339945432994, "loss": 0.3475, "step": 15070 }, { "epoch": 40.21333333333333, "grad_norm": 0.234375, "learning_rate": 0.0004995333548009554, "loss": 0.3381, "step": 15080 }, { "epoch": 40.24, "grad_norm": 0.1923828125, "learning_rate": 0.0004995327146201968, "loss": 0.3427, "step": 15090 }, { "epoch": 40.266666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.0004995320740010245, "loss": 0.3497, "step": 15100 }, { "epoch": 40.29333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004995314329434399, "loss": 0.344, "step": 15110 }, { "epoch": 40.32, "grad_norm": 0.158203125, "learning_rate": 0.0004995307914474439, "loss": 0.3499, "step": 15120 }, { "epoch": 40.346666666666664, "grad_norm": 0.2333984375, "learning_rate": 0.0004995301495130378, "loss": 0.3513, "step": 15130 }, { "epoch": 40.373333333333335, "grad_norm": 0.1826171875, "learning_rate": 0.0004995295071402227, "loss": 0.3434, "step": 15140 }, { "epoch": 40.4, "grad_norm": 0.201171875, "learning_rate": 0.0004995288643289996, "loss": 0.3454, "step": 15150 }, { "epoch": 40.42666666666667, "grad_norm": 0.265625, "learning_rate": 0.0004995282210793698, "loss": 0.3499, "step": 15160 }, { "epoch": 40.45333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004995275773913343, "loss": 0.3588, "step": 15170 }, { "epoch": 40.48, "grad_norm": 0.177734375, "learning_rate": 0.0004995269332648943, "loss": 0.3559, "step": 15180 }, { "epoch": 40.50666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.000499526288700051, "loss": 0.3507, "step": 15190 }, { "epoch": 40.53333333333333, "grad_norm": 0.1611328125, "learning_rate": 0.0004995256436968053, "loss": 0.3458, "step": 15200 }, { "epoch": 40.56, "grad_norm": 0.2177734375, "learning_rate": 0.0004995249982551585, "loss": 0.3437, "step": 15210 }, { "epoch": 40.586666666666666, "grad_norm": 0.1552734375, "learning_rate": 0.0004995243523751118, "loss": 0.3445, "step": 15220 }, { "epoch": 40.61333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004995237060566662, "loss": 0.334, "step": 15230 }, { "epoch": 40.64, "grad_norm": 0.1787109375, "learning_rate": 0.0004995230592998228, "loss": 0.3387, "step": 15240 }, { "epoch": 40.666666666666664, "grad_norm": 0.1708984375, "learning_rate": 0.0004995224121045831, "loss": 0.3533, "step": 15250 }, { "epoch": 40.693333333333335, "grad_norm": 0.185546875, "learning_rate": 0.0004995217644709478, "loss": 0.3331, "step": 15260 }, { "epoch": 40.72, "grad_norm": 0.3046875, "learning_rate": 0.000499521116398918, "loss": 0.3494, "step": 15270 }, { "epoch": 40.74666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004995204678884952, "loss": 0.3513, "step": 15280 }, { "epoch": 40.77333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004995198189396804, "loss": 0.3623, "step": 15290 }, { "epoch": 40.8, "grad_norm": 0.21875, "learning_rate": 0.0004995191695524747, "loss": 0.3488, "step": 15300 }, { "epoch": 40.82666666666667, "grad_norm": 0.28125, "learning_rate": 0.0004995185197268793, "loss": 0.3377, "step": 15310 }, { "epoch": 40.85333333333333, "grad_norm": 0.375, "learning_rate": 0.0004995178694628952, "loss": 0.3417, "step": 15320 }, { "epoch": 40.88, "grad_norm": 0.34375, "learning_rate": 0.0004995172187605237, "loss": 0.3391, "step": 15330 }, { "epoch": 40.906666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0004995165676197658, "loss": 0.3434, "step": 15340 }, { "epoch": 40.93333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004995159160406228, "loss": 0.3432, "step": 15350 }, { "epoch": 40.96, "grad_norm": 0.1943359375, "learning_rate": 0.0004995152640230958, "loss": 0.3418, "step": 15360 }, { "epoch": 40.986666666666665, "grad_norm": 0.208984375, "learning_rate": 0.0004995146115671858, "loss": 0.3569, "step": 15370 }, { "epoch": 41.0, "eval_loss": 0.4083143472671509, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9679, "eval_samples_per_second": 1.337, "eval_steps_per_second": 0.084, "step": 15375 }, { "epoch": 41.013333333333335, "grad_norm": 0.2236328125, "learning_rate": 0.0004995139586728941, "loss": 0.3453, "step": 15380 }, { "epoch": 41.04, "grad_norm": 0.2099609375, "learning_rate": 0.0004995133053402219, "loss": 0.371, "step": 15390 }, { "epoch": 41.06666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004995126515691702, "loss": 0.3561, "step": 15400 }, { "epoch": 41.093333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004995119973597402, "loss": 0.3541, "step": 15410 }, { "epoch": 41.12, "grad_norm": 0.205078125, "learning_rate": 0.000499511342711933, "loss": 0.349, "step": 15420 }, { "epoch": 41.14666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.0004995106876257498, "loss": 0.351, "step": 15430 }, { "epoch": 41.17333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004995100321011919, "loss": 0.3499, "step": 15440 }, { "epoch": 41.2, "grad_norm": 0.2021484375, "learning_rate": 0.0004995093761382602, "loss": 0.343, "step": 15450 }, { "epoch": 41.22666666666667, "grad_norm": 0.220703125, "learning_rate": 0.000499508719736956, "loss": 0.3384, "step": 15460 }, { "epoch": 41.25333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004995080628972804, "loss": 0.3387, "step": 15470 }, { "epoch": 41.28, "grad_norm": 0.22265625, "learning_rate": 0.0004995074056192345, "loss": 0.3572, "step": 15480 }, { "epoch": 41.306666666666665, "grad_norm": 0.1708984375, "learning_rate": 0.0004995067479028197, "loss": 0.3378, "step": 15490 }, { "epoch": 41.333333333333336, "grad_norm": 0.2109375, "learning_rate": 0.0004995060897480368, "loss": 0.3533, "step": 15500 }, { "epoch": 41.36, "grad_norm": 0.212890625, "learning_rate": 0.0004995054311548872, "loss": 0.3449, "step": 15510 }, { "epoch": 41.38666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.000499504772123372, "loss": 0.3426, "step": 15520 }, { "epoch": 41.413333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004995041126534923, "loss": 0.3479, "step": 15530 }, { "epoch": 41.44, "grad_norm": 0.263671875, "learning_rate": 0.0004995034527452494, "loss": 0.3542, "step": 15540 }, { "epoch": 41.46666666666667, "grad_norm": 0.296875, "learning_rate": 0.0004995027923986443, "loss": 0.359, "step": 15550 }, { "epoch": 41.49333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004995021316136783, "loss": 0.3481, "step": 15560 }, { "epoch": 41.52, "grad_norm": 0.19140625, "learning_rate": 0.0004995014703903524, "loss": 0.3513, "step": 15570 }, { "epoch": 41.54666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004995008087286679, "loss": 0.3421, "step": 15580 }, { "epoch": 41.57333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004995001466286259, "loss": 0.3445, "step": 15590 }, { "epoch": 41.6, "grad_norm": 0.1923828125, "learning_rate": 0.0004994994840902276, "loss": 0.3374, "step": 15600 }, { "epoch": 41.626666666666665, "grad_norm": 0.2060546875, "learning_rate": 0.000499498821113474, "loss": 0.3336, "step": 15610 }, { "epoch": 41.653333333333336, "grad_norm": 0.193359375, "learning_rate": 0.0004994981576983666, "loss": 0.3487, "step": 15620 }, { "epoch": 41.68, "grad_norm": 0.2236328125, "learning_rate": 0.0004994974938449063, "loss": 0.3375, "step": 15630 }, { "epoch": 41.70666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004994968295530943, "loss": 0.3375, "step": 15640 }, { "epoch": 41.733333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004994961648229318, "loss": 0.3551, "step": 15650 }, { "epoch": 41.76, "grad_norm": 0.23046875, "learning_rate": 0.00049949549965442, "loss": 0.3563, "step": 15660 }, { "epoch": 41.78666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.00049949483404756, "loss": 0.3566, "step": 15670 }, { "epoch": 41.81333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004994941680023532, "loss": 0.3387, "step": 15680 }, { "epoch": 41.84, "grad_norm": 0.291015625, "learning_rate": 0.0004994935015188004, "loss": 0.3383, "step": 15690 }, { "epoch": 41.86666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.000499492834596903, "loss": 0.3395, "step": 15700 }, { "epoch": 41.89333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.000499492167236662, "loss": 0.3391, "step": 15710 }, { "epoch": 41.92, "grad_norm": 0.19921875, "learning_rate": 0.0004994914994380789, "loss": 0.343, "step": 15720 }, { "epoch": 41.946666666666665, "grad_norm": 0.328125, "learning_rate": 0.0004994908312011546, "loss": 0.3422, "step": 15730 }, { "epoch": 41.973333333333336, "grad_norm": 0.2333984375, "learning_rate": 0.0004994901625258902, "loss": 0.3522, "step": 15740 }, { "epoch": 42.0, "grad_norm": 0.2041015625, "learning_rate": 0.0004994894934122871, "loss": 0.3395, "step": 15750 }, { "epoch": 42.0, "eval_loss": 0.4096122086048126, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7777, "eval_samples_per_second": 1.485, "eval_steps_per_second": 0.093, "step": 15750 }, { "epoch": 42.026666666666664, "grad_norm": 0.21875, "learning_rate": 0.0004994888238603465, "loss": 0.3614, "step": 15760 }, { "epoch": 42.053333333333335, "grad_norm": 0.27734375, "learning_rate": 0.0004994881538700694, "loss": 0.3669, "step": 15770 }, { "epoch": 42.08, "grad_norm": 0.1787109375, "learning_rate": 0.000499487483441457, "loss": 0.3521, "step": 15780 }, { "epoch": 42.10666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004994868125745107, "loss": 0.3519, "step": 15790 }, { "epoch": 42.13333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004994861412692313, "loss": 0.3465, "step": 15800 }, { "epoch": 42.16, "grad_norm": 0.1982421875, "learning_rate": 0.0004994854695256202, "loss": 0.3516, "step": 15810 }, { "epoch": 42.18666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004994847973436786, "loss": 0.3463, "step": 15820 }, { "epoch": 42.21333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004994841247234077, "loss": 0.3361, "step": 15830 }, { "epoch": 42.24, "grad_norm": 0.478515625, "learning_rate": 0.0004994834516648085, "loss": 0.3412, "step": 15840 }, { "epoch": 42.266666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0004994827781678824, "loss": 0.3472, "step": 15850 }, { "epoch": 42.29333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004994821042326305, "loss": 0.3425, "step": 15860 }, { "epoch": 42.32, "grad_norm": 0.271484375, "learning_rate": 0.000499481429859054, "loss": 0.3478, "step": 15870 }, { "epoch": 42.346666666666664, "grad_norm": 0.224609375, "learning_rate": 0.0004994807550471541, "loss": 0.3497, "step": 15880 }, { "epoch": 42.373333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0004994800797969318, "loss": 0.3422, "step": 15890 }, { "epoch": 42.4, "grad_norm": 0.193359375, "learning_rate": 0.0004994794041083885, "loss": 0.3431, "step": 15900 }, { "epoch": 42.42666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004994787279815254, "loss": 0.3485, "step": 15910 }, { "epoch": 42.45333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004994780514163434, "loss": 0.3568, "step": 15920 }, { "epoch": 42.48, "grad_norm": 0.185546875, "learning_rate": 0.0004994773744128441, "loss": 0.3541, "step": 15930 }, { "epoch": 42.50666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004994766969710284, "loss": 0.3489, "step": 15940 }, { "epoch": 42.53333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004994760190908976, "loss": 0.3434, "step": 15950 }, { "epoch": 42.56, "grad_norm": 0.330078125, "learning_rate": 0.0004994753407724528, "loss": 0.3414, "step": 15960 }, { "epoch": 42.586666666666666, "grad_norm": 0.1728515625, "learning_rate": 0.0004994746620156954, "loss": 0.3416, "step": 15970 }, { "epoch": 42.61333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004994739828206263, "loss": 0.3324, "step": 15980 }, { "epoch": 42.64, "grad_norm": 0.181640625, "learning_rate": 0.000499473303187247, "loss": 0.3365, "step": 15990 }, { "epoch": 42.666666666666664, "grad_norm": 0.1806640625, "learning_rate": 0.0004994726231155583, "loss": 0.3513, "step": 16000 }, { "epoch": 42.693333333333335, "grad_norm": 0.2490234375, "learning_rate": 0.0004994719426055619, "loss": 0.3316, "step": 16010 }, { "epoch": 42.72, "grad_norm": 0.2578125, "learning_rate": 0.0004994712616572585, "loss": 0.348, "step": 16020 }, { "epoch": 42.74666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004994705802706496, "loss": 0.3497, "step": 16030 }, { "epoch": 42.77333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0004994698984457364, "loss": 0.3604, "step": 16040 }, { "epoch": 42.8, "grad_norm": 0.40625, "learning_rate": 0.0004994692161825199, "loss": 0.3471, "step": 16050 }, { "epoch": 42.82666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004994685334810015, "loss": 0.3363, "step": 16060 }, { "epoch": 42.85333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004994678503411823, "loss": 0.3394, "step": 16070 }, { "epoch": 42.88, "grad_norm": 0.1748046875, "learning_rate": 0.0004994671667630636, "loss": 0.3377, "step": 16080 }, { "epoch": 42.906666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004994664827466464, "loss": 0.3415, "step": 16090 }, { "epoch": 42.93333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004994657982919322, "loss": 0.3422, "step": 16100 }, { "epoch": 42.96, "grad_norm": 0.29296875, "learning_rate": 0.0004994651133989219, "loss": 0.3404, "step": 16110 }, { "epoch": 42.986666666666665, "grad_norm": 0.294921875, "learning_rate": 0.0004994644280676168, "loss": 0.356, "step": 16120 }, { "epoch": 43.0, "eval_loss": 0.4065290689468384, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6701, "eval_samples_per_second": 1.5, "eval_steps_per_second": 0.094, "step": 16125 }, { "epoch": 43.013333333333335, "grad_norm": 0.296875, "learning_rate": 0.0004994637422980181, "loss": 0.3439, "step": 16130 }, { "epoch": 43.04, "grad_norm": 0.1787109375, "learning_rate": 0.0004994630560901271, "loss": 0.3698, "step": 16140 }, { "epoch": 43.06666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004994623694439449, "loss": 0.3537, "step": 16150 }, { "epoch": 43.093333333333334, "grad_norm": 0.25, "learning_rate": 0.0004994616823594728, "loss": 0.3516, "step": 16160 }, { "epoch": 43.12, "grad_norm": 0.2001953125, "learning_rate": 0.0004994609948367119, "loss": 0.3479, "step": 16170 }, { "epoch": 43.14666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004994603068756636, "loss": 0.35, "step": 16180 }, { "epoch": 43.17333333333333, "grad_norm": 0.375, "learning_rate": 0.0004994596184763288, "loss": 0.3478, "step": 16190 }, { "epoch": 43.2, "grad_norm": 0.318359375, "learning_rate": 0.0004994589296387089, "loss": 0.3414, "step": 16200 }, { "epoch": 43.22666666666667, "grad_norm": 0.298828125, "learning_rate": 0.0004994582403628052, "loss": 0.3368, "step": 16210 }, { "epoch": 43.25333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004994575506486187, "loss": 0.3371, "step": 16220 }, { "epoch": 43.28, "grad_norm": 0.2890625, "learning_rate": 0.0004994568604961508, "loss": 0.356, "step": 16230 }, { "epoch": 43.306666666666665, "grad_norm": 0.201171875, "learning_rate": 0.0004994561699054027, "loss": 0.3357, "step": 16240 }, { "epoch": 43.333333333333336, "grad_norm": 0.2412109375, "learning_rate": 0.0004994554788763753, "loss": 0.3514, "step": 16250 }, { "epoch": 43.36, "grad_norm": 0.326171875, "learning_rate": 0.0004994547874090702, "loss": 0.343, "step": 16260 }, { "epoch": 43.38666666666666, "grad_norm": 0.388671875, "learning_rate": 0.0004994540955034886, "loss": 0.3406, "step": 16270 }, { "epoch": 43.413333333333334, "grad_norm": 0.25, "learning_rate": 0.0004994534031596313, "loss": 0.3465, "step": 16280 }, { "epoch": 43.44, "grad_norm": 0.26953125, "learning_rate": 0.0004994527103774999, "loss": 0.3518, "step": 16290 }, { "epoch": 43.46666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.0004994520171570957, "loss": 0.3569, "step": 16300 }, { "epoch": 43.49333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004994513234984195, "loss": 0.3458, "step": 16310 }, { "epoch": 43.52, "grad_norm": 0.232421875, "learning_rate": 0.0004994506294014729, "loss": 0.349, "step": 16320 }, { "epoch": 43.54666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004994499348662569, "loss": 0.3402, "step": 16330 }, { "epoch": 43.57333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004994492398927728, "loss": 0.3427, "step": 16340 }, { "epoch": 43.6, "grad_norm": 0.1767578125, "learning_rate": 0.0004994485444810218, "loss": 0.3361, "step": 16350 }, { "epoch": 43.626666666666665, "grad_norm": 0.2333984375, "learning_rate": 0.0004994478486310052, "loss": 0.3328, "step": 16360 }, { "epoch": 43.653333333333336, "grad_norm": 0.2060546875, "learning_rate": 0.0004994471523427242, "loss": 0.3465, "step": 16370 }, { "epoch": 43.68, "grad_norm": 0.302734375, "learning_rate": 0.0004994464556161799, "loss": 0.3361, "step": 16380 }, { "epoch": 43.70666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004994457584513736, "loss": 0.336, "step": 16390 }, { "epoch": 43.733333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0004994450608483066, "loss": 0.3537, "step": 16400 }, { "epoch": 43.76, "grad_norm": 0.1962890625, "learning_rate": 0.00049944436280698, "loss": 0.3545, "step": 16410 }, { "epoch": 43.78666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004994436643273951, "loss": 0.355, "step": 16420 }, { "epoch": 43.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004994429654095531, "loss": 0.3373, "step": 16430 }, { "epoch": 43.84, "grad_norm": 0.236328125, "learning_rate": 0.0004994422660534553, "loss": 0.337, "step": 16440 }, { "epoch": 43.86666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004994415662591029, "loss": 0.3379, "step": 16450 }, { "epoch": 43.89333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.000499440866026497, "loss": 0.3374, "step": 16460 }, { "epoch": 43.92, "grad_norm": 0.2353515625, "learning_rate": 0.0004994401653556389, "loss": 0.3418, "step": 16470 }, { "epoch": 43.946666666666665, "grad_norm": 0.177734375, "learning_rate": 0.00049943946424653, "loss": 0.3409, "step": 16480 }, { "epoch": 43.973333333333336, "grad_norm": 0.31640625, "learning_rate": 0.0004994387626991712, "loss": 0.3502, "step": 16490 }, { "epoch": 44.0, "grad_norm": 0.2412109375, "learning_rate": 0.000499438060713564, "loss": 0.3382, "step": 16500 }, { "epoch": 44.0, "eval_loss": 0.40632036328315735, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8182, "eval_samples_per_second": 1.354, "eval_steps_per_second": 0.085, "step": 16500 }, { "epoch": 44.026666666666664, "grad_norm": 0.2138671875, "learning_rate": 0.0004994373582897096, "loss": 0.3597, "step": 16510 }, { "epoch": 44.053333333333335, "grad_norm": 0.224609375, "learning_rate": 0.0004994366554276092, "loss": 0.366, "step": 16520 }, { "epoch": 44.08, "grad_norm": 0.2158203125, "learning_rate": 0.000499435952127264, "loss": 0.3505, "step": 16530 }, { "epoch": 44.10666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004994352483886753, "loss": 0.3507, "step": 16540 }, { "epoch": 44.13333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004994345442118443, "loss": 0.3446, "step": 16550 }, { "epoch": 44.16, "grad_norm": 0.228515625, "learning_rate": 0.0004994338395967722, "loss": 0.3508, "step": 16560 }, { "epoch": 44.18666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004994331345434602, "loss": 0.344, "step": 16570 }, { "epoch": 44.21333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004994324290519096, "loss": 0.334, "step": 16580 }, { "epoch": 44.24, "grad_norm": 0.181640625, "learning_rate": 0.0004994317231221218, "loss": 0.3391, "step": 16590 }, { "epoch": 44.266666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004994310167540978, "loss": 0.3457, "step": 16600 }, { "epoch": 44.29333333333334, "grad_norm": 0.33203125, "learning_rate": 0.000499430309947839, "loss": 0.34, "step": 16610 }, { "epoch": 44.32, "grad_norm": 0.1748046875, "learning_rate": 0.0004994296027033466, "loss": 0.3463, "step": 16620 }, { "epoch": 44.346666666666664, "grad_norm": 0.1943359375, "learning_rate": 0.0004994288950206217, "loss": 0.3478, "step": 16630 }, { "epoch": 44.373333333333335, "grad_norm": 0.193359375, "learning_rate": 0.0004994281868996658, "loss": 0.3395, "step": 16640 }, { "epoch": 44.4, "grad_norm": 0.2421875, "learning_rate": 0.0004994274783404798, "loss": 0.3408, "step": 16650 }, { "epoch": 44.42666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004994267693430654, "loss": 0.3469, "step": 16660 }, { "epoch": 44.45333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004994260599074234, "loss": 0.3556, "step": 16670 }, { "epoch": 44.48, "grad_norm": 0.2119140625, "learning_rate": 0.0004994253500335553, "loss": 0.3514, "step": 16680 }, { "epoch": 44.50666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004994246397214623, "loss": 0.3468, "step": 16690 }, { "epoch": 44.53333333333333, "grad_norm": 0.16015625, "learning_rate": 0.0004994239289711456, "loss": 0.3416, "step": 16700 }, { "epoch": 44.56, "grad_norm": 0.1728515625, "learning_rate": 0.0004994232177826065, "loss": 0.3396, "step": 16710 }, { "epoch": 44.586666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0004994225061558463, "loss": 0.3406, "step": 16720 }, { "epoch": 44.61333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004994217940908662, "loss": 0.331, "step": 16730 }, { "epoch": 44.64, "grad_norm": 0.220703125, "learning_rate": 0.0004994210815876673, "loss": 0.3355, "step": 16740 }, { "epoch": 44.666666666666664, "grad_norm": 0.2255859375, "learning_rate": 0.0004994203686462511, "loss": 0.3493, "step": 16750 }, { "epoch": 44.693333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0004994196552666187, "loss": 0.3298, "step": 16760 }, { "epoch": 44.72, "grad_norm": 0.2080078125, "learning_rate": 0.0004994189414487714, "loss": 0.3456, "step": 16770 }, { "epoch": 44.74666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004994182271927105, "loss": 0.3486, "step": 16780 }, { "epoch": 44.77333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004994175124984372, "loss": 0.3596, "step": 16790 }, { "epoch": 44.8, "grad_norm": 0.1728515625, "learning_rate": 0.0004994167973659526, "loss": 0.3449, "step": 16800 }, { "epoch": 44.82666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004994160817952582, "loss": 0.3346, "step": 16810 }, { "epoch": 44.85333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004994153657863553, "loss": 0.3377, "step": 16820 }, { "epoch": 44.88, "grad_norm": 0.255859375, "learning_rate": 0.0004994146493392448, "loss": 0.3356, "step": 16830 }, { "epoch": 44.906666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0004994139324539284, "loss": 0.3398, "step": 16840 }, { "epoch": 44.93333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004994132151304071, "loss": 0.3399, "step": 16850 }, { "epoch": 44.96, "grad_norm": 0.2109375, "learning_rate": 0.0004994124973686821, "loss": 0.3398, "step": 16860 }, { "epoch": 44.986666666666665, "grad_norm": 0.28515625, "learning_rate": 0.0004994117791687549, "loss": 0.3537, "step": 16870 }, { "epoch": 45.0, "eval_loss": 0.40891388058662415, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8358, "eval_samples_per_second": 1.352, "eval_steps_per_second": 0.084, "step": 16875 }, { "epoch": 45.013333333333335, "grad_norm": 0.22265625, "learning_rate": 0.0004994110605306266, "loss": 0.342, "step": 16880 }, { "epoch": 45.04, "grad_norm": 0.1943359375, "learning_rate": 0.0004994103414542985, "loss": 0.368, "step": 16890 }, { "epoch": 45.06666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004994096219397718, "loss": 0.3527, "step": 16900 }, { "epoch": 45.093333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0004994089019870479, "loss": 0.3504, "step": 16910 }, { "epoch": 45.12, "grad_norm": 0.302734375, "learning_rate": 0.0004994081815961279, "loss": 0.3465, "step": 16920 }, { "epoch": 45.14666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004994074607670132, "loss": 0.348, "step": 16930 }, { "epoch": 45.17333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.000499406739499705, "loss": 0.3464, "step": 16940 }, { "epoch": 45.2, "grad_norm": 0.330078125, "learning_rate": 0.0004994060177942047, "loss": 0.3394, "step": 16950 }, { "epoch": 45.22666666666667, "grad_norm": 0.2490234375, "learning_rate": 0.0004994052956505133, "loss": 0.335, "step": 16960 }, { "epoch": 45.25333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0004994045730686323, "loss": 0.3355, "step": 16970 }, { "epoch": 45.28, "grad_norm": 0.275390625, "learning_rate": 0.0004994038500485628, "loss": 0.3539, "step": 16980 }, { "epoch": 45.306666666666665, "grad_norm": 0.1796875, "learning_rate": 0.0004994031265903063, "loss": 0.3347, "step": 16990 }, { "epoch": 45.333333333333336, "grad_norm": 0.166015625, "learning_rate": 0.0004994024026938639, "loss": 0.3494, "step": 17000 }, { "epoch": 45.36, "grad_norm": 0.208984375, "learning_rate": 0.0004994016783592369, "loss": 0.3414, "step": 17010 }, { "epoch": 45.38666666666666, "grad_norm": 0.22265625, "learning_rate": 0.0004994009535864266, "loss": 0.3384, "step": 17020 }, { "epoch": 45.413333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004994002283754341, "loss": 0.344, "step": 17030 }, { "epoch": 45.44, "grad_norm": 0.1943359375, "learning_rate": 0.000499399502726261, "loss": 0.3505, "step": 17040 }, { "epoch": 45.46666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004993987766389083, "loss": 0.3555, "step": 17050 }, { "epoch": 45.49333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0004993980501133775, "loss": 0.344, "step": 17060 }, { "epoch": 45.52, "grad_norm": 0.1806640625, "learning_rate": 0.0004993973231496696, "loss": 0.3472, "step": 17070 }, { "epoch": 45.54666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004993965957477861, "loss": 0.3381, "step": 17080 }, { "epoch": 45.57333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004993958679077282, "loss": 0.3404, "step": 17090 }, { "epoch": 45.6, "grad_norm": 0.166015625, "learning_rate": 0.0004993951396294972, "loss": 0.3347, "step": 17100 }, { "epoch": 45.626666666666665, "grad_norm": 0.173828125, "learning_rate": 0.0004993944109130944, "loss": 0.3314, "step": 17110 }, { "epoch": 45.653333333333336, "grad_norm": 0.1826171875, "learning_rate": 0.000499393681758521, "loss": 0.345, "step": 17120 }, { "epoch": 45.68, "grad_norm": 0.2412109375, "learning_rate": 0.0004993929521657784, "loss": 0.3339, "step": 17130 }, { "epoch": 45.70666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004993922221348677, "loss": 0.3344, "step": 17140 }, { "epoch": 45.733333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0004993914916657903, "loss": 0.3518, "step": 17150 }, { "epoch": 45.76, "grad_norm": 0.220703125, "learning_rate": 0.0004993907607585476, "loss": 0.3527, "step": 17160 }, { "epoch": 45.78666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004993900294131406, "loss": 0.3538, "step": 17170 }, { "epoch": 45.81333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004993892976295709, "loss": 0.3357, "step": 17180 }, { "epoch": 45.84, "grad_norm": 0.2080078125, "learning_rate": 0.0004993885654078395, "loss": 0.335, "step": 17190 }, { "epoch": 45.86666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004993878327479479, "loss": 0.3366, "step": 17200 }, { "epoch": 45.89333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004993870996498973, "loss": 0.336, "step": 17210 }, { "epoch": 45.92, "grad_norm": 0.283203125, "learning_rate": 0.0004993863661136889, "loss": 0.3401, "step": 17220 }, { "epoch": 45.946666666666665, "grad_norm": 0.400390625, "learning_rate": 0.0004993856321393242, "loss": 0.3401, "step": 17230 }, { "epoch": 45.973333333333336, "grad_norm": 0.2080078125, "learning_rate": 0.0004993848977268043, "loss": 0.3484, "step": 17240 }, { "epoch": 46.0, "grad_norm": 0.21875, "learning_rate": 0.0004993841628761306, "loss": 0.3358, "step": 17250 }, { "epoch": 46.0, "eval_loss": 0.40796753764152527, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.2832, "eval_samples_per_second": 1.556, "eval_steps_per_second": 0.097, "step": 17250 }, { "epoch": 46.026666666666664, "grad_norm": 0.3046875, "learning_rate": 0.0004993834275873044, "loss": 0.3587, "step": 17260 }, { "epoch": 46.053333333333335, "grad_norm": 0.1708984375, "learning_rate": 0.0004993826918603268, "loss": 0.3647, "step": 17270 }, { "epoch": 46.08, "grad_norm": 0.1875, "learning_rate": 0.0004993819556951993, "loss": 0.3488, "step": 17280 }, { "epoch": 46.10666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004993812190919232, "loss": 0.3493, "step": 17290 }, { "epoch": 46.13333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004993804820504997, "loss": 0.343, "step": 17300 }, { "epoch": 46.16, "grad_norm": 0.23046875, "learning_rate": 0.0004993797445709301, "loss": 0.3492, "step": 17310 }, { "epoch": 46.18666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004993790066532156, "loss": 0.3436, "step": 17320 }, { "epoch": 46.21333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.0004993782682973577, "loss": 0.3323, "step": 17330 }, { "epoch": 46.24, "grad_norm": 0.26171875, "learning_rate": 0.0004993775295033577, "loss": 0.337, "step": 17340 }, { "epoch": 46.266666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004993767902712168, "loss": 0.3442, "step": 17350 }, { "epoch": 46.29333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004993760506009361, "loss": 0.3387, "step": 17360 }, { "epoch": 46.32, "grad_norm": 0.2041015625, "learning_rate": 0.0004993753104925174, "loss": 0.3454, "step": 17370 }, { "epoch": 46.346666666666664, "grad_norm": 0.2138671875, "learning_rate": 0.0004993745699459615, "loss": 0.3466, "step": 17380 }, { "epoch": 46.373333333333335, "grad_norm": 0.18359375, "learning_rate": 0.00049937382896127, "loss": 0.3381, "step": 17390 }, { "epoch": 46.4, "grad_norm": 0.1875, "learning_rate": 0.0004993730875384441, "loss": 0.3401, "step": 17400 }, { "epoch": 46.42666666666667, "grad_norm": 0.166015625, "learning_rate": 0.000499372345677485, "loss": 0.3458, "step": 17410 }, { "epoch": 46.45333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004993716033783942, "loss": 0.3537, "step": 17420 }, { "epoch": 46.48, "grad_norm": 0.2314453125, "learning_rate": 0.0004993708606411729, "loss": 0.3503, "step": 17430 }, { "epoch": 46.50666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004993701174658224, "loss": 0.3456, "step": 17440 }, { "epoch": 46.53333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004993693738523442, "loss": 0.3407, "step": 17450 }, { "epoch": 46.56, "grad_norm": 0.2236328125, "learning_rate": 0.0004993686298007393, "loss": 0.3385, "step": 17460 }, { "epoch": 46.586666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004993678853110091, "loss": 0.3395, "step": 17470 }, { "epoch": 46.61333333333333, "grad_norm": 0.1875, "learning_rate": 0.000499367140383155, "loss": 0.3289, "step": 17480 }, { "epoch": 46.64, "grad_norm": 0.2265625, "learning_rate": 0.0004993663950171781, "loss": 0.334, "step": 17490 }, { "epoch": 46.666666666666664, "grad_norm": 0.1865234375, "learning_rate": 0.0004993656492130801, "loss": 0.3484, "step": 17500 }, { "epoch": 46.693333333333335, "grad_norm": 0.208984375, "learning_rate": 0.000499364902970862, "loss": 0.3287, "step": 17510 }, { "epoch": 46.72, "grad_norm": 0.2236328125, "learning_rate": 0.0004993641562905252, "loss": 0.3442, "step": 17520 }, { "epoch": 46.74666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.000499363409172071, "loss": 0.3461, "step": 17530 }, { "epoch": 46.77333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004993626616155007, "loss": 0.3576, "step": 17540 }, { "epoch": 46.8, "grad_norm": 0.2314453125, "learning_rate": 0.0004993619136208158, "loss": 0.3435, "step": 17550 }, { "epoch": 46.82666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004993611651880173, "loss": 0.3321, "step": 17560 }, { "epoch": 46.85333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004993604163171065, "loss": 0.3361, "step": 17570 }, { "epoch": 46.88, "grad_norm": 0.181640625, "learning_rate": 0.000499359667008085, "loss": 0.3342, "step": 17580 }, { "epoch": 46.906666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.000499358917260954, "loss": 0.3381, "step": 17590 }, { "epoch": 46.93333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004993581670757149, "loss": 0.3381, "step": 17600 }, { "epoch": 46.96, "grad_norm": 0.16015625, "learning_rate": 0.0004993574164523688, "loss": 0.3371, "step": 17610 }, { "epoch": 46.986666666666665, "grad_norm": 0.271484375, "learning_rate": 0.0004993566653909171, "loss": 0.3517, "step": 17620 }, { "epoch": 47.0, "eval_loss": 0.40723633766174316, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9721, "eval_samples_per_second": 1.336, "eval_steps_per_second": 0.084, "step": 17625 }, { "epoch": 47.013333333333335, "grad_norm": 0.2138671875, "learning_rate": 0.0004993559138913614, "loss": 0.3404, "step": 17630 }, { "epoch": 47.04, "grad_norm": 0.20703125, "learning_rate": 0.0004993551619537026, "loss": 0.3667, "step": 17640 }, { "epoch": 47.06666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.0004993544095779422, "loss": 0.3511, "step": 17650 }, { "epoch": 47.093333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004993536567640816, "loss": 0.3493, "step": 17660 }, { "epoch": 47.12, "grad_norm": 0.20703125, "learning_rate": 0.000499352903512122, "loss": 0.3441, "step": 17670 }, { "epoch": 47.14666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004993521498220648, "loss": 0.3466, "step": 17680 }, { "epoch": 47.17333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004993513956939113, "loss": 0.3447, "step": 17690 }, { "epoch": 47.2, "grad_norm": 0.2041015625, "learning_rate": 0.0004993506411276628, "loss": 0.338, "step": 17700 }, { "epoch": 47.22666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004993498861233206, "loss": 0.3341, "step": 17710 }, { "epoch": 47.25333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004993491306808862, "loss": 0.3342, "step": 17720 }, { "epoch": 47.28, "grad_norm": 0.263671875, "learning_rate": 0.0004993483748003607, "loss": 0.3522, "step": 17730 }, { "epoch": 47.306666666666665, "grad_norm": 0.1787109375, "learning_rate": 0.0004993476184817456, "loss": 0.333, "step": 17740 }, { "epoch": 47.333333333333336, "grad_norm": 0.201171875, "learning_rate": 0.000499346861725042, "loss": 0.3481, "step": 17750 }, { "epoch": 47.36, "grad_norm": 0.2001953125, "learning_rate": 0.0004993461045302515, "loss": 0.3402, "step": 17760 }, { "epoch": 47.38666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004993453468973754, "loss": 0.3372, "step": 17770 }, { "epoch": 47.413333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004993445888264149, "loss": 0.3428, "step": 17780 }, { "epoch": 47.44, "grad_norm": 0.2099609375, "learning_rate": 0.0004993438303173714, "loss": 0.3484, "step": 17790 }, { "epoch": 47.46666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004993430713702462, "loss": 0.354, "step": 17800 }, { "epoch": 47.49333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004993423119850405, "loss": 0.3426, "step": 17810 }, { "epoch": 47.52, "grad_norm": 0.1669921875, "learning_rate": 0.0004993415521617559, "loss": 0.3459, "step": 17820 }, { "epoch": 47.54666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004993407919003937, "loss": 0.337, "step": 17830 }, { "epoch": 47.57333333333333, "grad_norm": 0.17578125, "learning_rate": 0.000499340031200955, "loss": 0.3405, "step": 17840 }, { "epoch": 47.6, "grad_norm": 0.1923828125, "learning_rate": 0.0004993392700634413, "loss": 0.334, "step": 17850 }, { "epoch": 47.626666666666665, "grad_norm": 0.2119140625, "learning_rate": 0.0004993385084878541, "loss": 0.3299, "step": 17860 }, { "epoch": 47.653333333333336, "grad_norm": 0.1787109375, "learning_rate": 0.0004993377464741944, "loss": 0.3444, "step": 17870 }, { "epoch": 47.68, "grad_norm": 0.19140625, "learning_rate": 0.0004993369840224638, "loss": 0.3326, "step": 17880 }, { "epoch": 47.70666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004993362211326636, "loss": 0.3332, "step": 17890 }, { "epoch": 47.733333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0004993354578047949, "loss": 0.3504, "step": 17900 }, { "epoch": 47.76, "grad_norm": 0.1923828125, "learning_rate": 0.0004993346940388593, "loss": 0.3518, "step": 17910 }, { "epoch": 47.78666666666667, "grad_norm": 0.224609375, "learning_rate": 0.000499333929834858, "loss": 0.3523, "step": 17920 }, { "epoch": 47.81333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004993331651927926, "loss": 0.3336, "step": 17930 }, { "epoch": 47.84, "grad_norm": 0.267578125, "learning_rate": 0.0004993324001126641, "loss": 0.3339, "step": 17940 }, { "epoch": 47.86666666666667, "grad_norm": 0.1640625, "learning_rate": 0.000499331634594474, "loss": 0.3348, "step": 17950 }, { "epoch": 47.89333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004993308686382237, "loss": 0.3339, "step": 17960 }, { "epoch": 47.92, "grad_norm": 0.291015625, "learning_rate": 0.0004993301022439145, "loss": 0.3385, "step": 17970 }, { "epoch": 47.946666666666665, "grad_norm": 0.236328125, "learning_rate": 0.0004993293354115477, "loss": 0.3379, "step": 17980 }, { "epoch": 47.973333333333336, "grad_norm": 0.25, "learning_rate": 0.0004993285681411246, "loss": 0.3467, "step": 17990 }, { "epoch": 48.0, "grad_norm": 0.19921875, "learning_rate": 0.0004993278004326467, "loss": 0.3343, "step": 18000 }, { "epoch": 48.0, "eval_loss": 0.4061015844345093, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7684, "eval_samples_per_second": 1.36, "eval_steps_per_second": 0.085, "step": 18000 }, { "epoch": 48.026666666666664, "grad_norm": 0.2236328125, "learning_rate": 0.0004993270322861153, "loss": 0.3565, "step": 18010 }, { "epoch": 48.053333333333335, "grad_norm": 0.2041015625, "learning_rate": 0.0004993262637015317, "loss": 0.3629, "step": 18020 }, { "epoch": 48.08, "grad_norm": 0.283203125, "learning_rate": 0.0004993254946788974, "loss": 0.3474, "step": 18030 }, { "epoch": 48.10666666666667, "grad_norm": 0.1591796875, "learning_rate": 0.0004993247252182134, "loss": 0.3478, "step": 18040 }, { "epoch": 48.13333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0004993239553194814, "loss": 0.3416, "step": 18050 }, { "epoch": 48.16, "grad_norm": 0.29296875, "learning_rate": 0.0004993231849827026, "loss": 0.3481, "step": 18060 }, { "epoch": 48.18666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004993224142078785, "loss": 0.3414, "step": 18070 }, { "epoch": 48.21333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004993216429950102, "loss": 0.3309, "step": 18080 }, { "epoch": 48.24, "grad_norm": 0.208984375, "learning_rate": 0.0004993208713440992, "loss": 0.336, "step": 18090 }, { "epoch": 48.266666666666666, "grad_norm": 0.19921875, "learning_rate": 0.000499320099255147, "loss": 0.3426, "step": 18100 }, { "epoch": 48.29333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004993193267281546, "loss": 0.3372, "step": 18110 }, { "epoch": 48.32, "grad_norm": 0.2197265625, "learning_rate": 0.0004993185537631237, "loss": 0.3429, "step": 18120 }, { "epoch": 48.346666666666664, "grad_norm": 0.2451171875, "learning_rate": 0.0004993177803600555, "loss": 0.3446, "step": 18130 }, { "epoch": 48.373333333333335, "grad_norm": 0.224609375, "learning_rate": 0.0004993170065189514, "loss": 0.3367, "step": 18140 }, { "epoch": 48.4, "grad_norm": 0.19921875, "learning_rate": 0.0004993162322398127, "loss": 0.3381, "step": 18150 }, { "epoch": 48.42666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004993154575226408, "loss": 0.3442, "step": 18160 }, { "epoch": 48.45333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004993146823674371, "loss": 0.3527, "step": 18170 }, { "epoch": 48.48, "grad_norm": 0.275390625, "learning_rate": 0.000499313906774203, "loss": 0.3487, "step": 18180 }, { "epoch": 48.50666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004993131307429397, "loss": 0.344, "step": 18190 }, { "epoch": 48.53333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0004993123542736486, "loss": 0.3391, "step": 18200 }, { "epoch": 48.56, "grad_norm": 0.2255859375, "learning_rate": 0.0004993115773663313, "loss": 0.3369, "step": 18210 }, { "epoch": 48.586666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004993108000209888, "loss": 0.338, "step": 18220 }, { "epoch": 48.61333333333333, "grad_norm": 0.15625, "learning_rate": 0.0004993100222376226, "loss": 0.3282, "step": 18230 }, { "epoch": 48.64, "grad_norm": 0.17578125, "learning_rate": 0.0004993092440162343, "loss": 0.3318, "step": 18240 }, { "epoch": 48.666666666666664, "grad_norm": 0.1806640625, "learning_rate": 0.000499308465356825, "loss": 0.3467, "step": 18250 }, { "epoch": 48.693333333333335, "grad_norm": 0.265625, "learning_rate": 0.0004993076862593961, "loss": 0.3269, "step": 18260 }, { "epoch": 48.72, "grad_norm": 0.2041015625, "learning_rate": 0.0004993069067239491, "loss": 0.3427, "step": 18270 }, { "epoch": 48.74666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004993061267504852, "loss": 0.345, "step": 18280 }, { "epoch": 48.77333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004993053463390059, "loss": 0.3562, "step": 18290 }, { "epoch": 48.8, "grad_norm": 0.2333984375, "learning_rate": 0.0004993045654895125, "loss": 0.3423, "step": 18300 }, { "epoch": 48.82666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004993037842020065, "loss": 0.3311, "step": 18310 }, { "epoch": 48.85333333333333, "grad_norm": 0.296875, "learning_rate": 0.000499303002476489, "loss": 0.3349, "step": 18320 }, { "epoch": 48.88, "grad_norm": 0.2890625, "learning_rate": 0.0004993022203129617, "loss": 0.3335, "step": 18330 }, { "epoch": 48.906666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.0004993014377114259, "loss": 0.3363, "step": 18340 }, { "epoch": 48.93333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004993006546718827, "loss": 0.3366, "step": 18350 }, { "epoch": 48.96, "grad_norm": 0.212890625, "learning_rate": 0.0004992998711943337, "loss": 0.3363, "step": 18360 }, { "epoch": 48.986666666666665, "grad_norm": 0.279296875, "learning_rate": 0.0004992990872787803, "loss": 0.3501, "step": 18370 }, { "epoch": 49.0, "eval_loss": 0.4071054458618164, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9547, "eval_samples_per_second": 1.338, "eval_steps_per_second": 0.084, "step": 18375 }, { "epoch": 49.013333333333335, "grad_norm": 0.173828125, "learning_rate": 0.0004992983029252239, "loss": 0.3387, "step": 18380 }, { "epoch": 49.04, "grad_norm": 0.2060546875, "learning_rate": 0.0004992975181336656, "loss": 0.3657, "step": 18390 }, { "epoch": 49.06666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0004992967329041072, "loss": 0.3495, "step": 18400 }, { "epoch": 49.093333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004992959472365497, "loss": 0.3475, "step": 18410 }, { "epoch": 49.12, "grad_norm": 0.171875, "learning_rate": 0.0004992951611309947, "loss": 0.3434, "step": 18420 }, { "epoch": 49.14666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004992943745874435, "loss": 0.3454, "step": 18430 }, { "epoch": 49.17333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0004992935876058975, "loss": 0.3439, "step": 18440 }, { "epoch": 49.2, "grad_norm": 0.19921875, "learning_rate": 0.0004992928001863582, "loss": 0.3363, "step": 18450 }, { "epoch": 49.22666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004992920123288267, "loss": 0.3323, "step": 18460 }, { "epoch": 49.25333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004992912240333047, "loss": 0.3325, "step": 18470 }, { "epoch": 49.28, "grad_norm": 0.2197265625, "learning_rate": 0.0004992904352997934, "loss": 0.3512, "step": 18480 }, { "epoch": 49.306666666666665, "grad_norm": 0.255859375, "learning_rate": 0.0004992896461282942, "loss": 0.3315, "step": 18490 }, { "epoch": 49.333333333333336, "grad_norm": 0.1923828125, "learning_rate": 0.0004992888565188085, "loss": 0.3467, "step": 18500 }, { "epoch": 49.36, "grad_norm": 0.2021484375, "learning_rate": 0.0004992880664713377, "loss": 0.3387, "step": 18510 }, { "epoch": 49.38666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004992872759858832, "loss": 0.3356, "step": 18520 }, { "epoch": 49.413333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0004992864850624464, "loss": 0.3421, "step": 18530 }, { "epoch": 49.44, "grad_norm": 0.23046875, "learning_rate": 0.0004992856937010286, "loss": 0.3472, "step": 18540 }, { "epoch": 49.46666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004992849019016313, "loss": 0.3522, "step": 18550 }, { "epoch": 49.49333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004992841096642559, "loss": 0.3407, "step": 18560 }, { "epoch": 49.52, "grad_norm": 0.1689453125, "learning_rate": 0.0004992833169889038, "loss": 0.3442, "step": 18570 }, { "epoch": 49.54666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0004992825238755761, "loss": 0.3358, "step": 18580 }, { "epoch": 49.57333333333333, "grad_norm": 0.341796875, "learning_rate": 0.0004992817303242745, "loss": 0.3383, "step": 18590 }, { "epoch": 49.6, "grad_norm": 0.19921875, "learning_rate": 0.0004992809363350005, "loss": 0.3322, "step": 18600 }, { "epoch": 49.626666666666665, "grad_norm": 0.181640625, "learning_rate": 0.0004992801419077551, "loss": 0.3284, "step": 18610 }, { "epoch": 49.653333333333336, "grad_norm": 0.185546875, "learning_rate": 0.00049927934704254, "loss": 0.342, "step": 18620 }, { "epoch": 49.68, "grad_norm": 0.1923828125, "learning_rate": 0.0004992785517393566, "loss": 0.3306, "step": 18630 }, { "epoch": 49.70666666666666, "grad_norm": 0.25390625, "learning_rate": 0.000499277755998206, "loss": 0.3313, "step": 18640 }, { "epoch": 49.733333333333334, "grad_norm": 0.224609375, "learning_rate": 0.00049927695981909, "loss": 0.3479, "step": 18650 }, { "epoch": 49.76, "grad_norm": 0.2109375, "learning_rate": 0.0004992761632020097, "loss": 0.3502, "step": 18660 }, { "epoch": 49.78666666666667, "grad_norm": 0.25, "learning_rate": 0.0004992753661469666, "loss": 0.3502, "step": 18670 }, { "epoch": 49.81333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004992745686539621, "loss": 0.3325, "step": 18680 }, { "epoch": 49.84, "grad_norm": 0.212890625, "learning_rate": 0.0004992737707229976, "loss": 0.3327, "step": 18690 }, { "epoch": 49.86666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004992729723540746, "loss": 0.3335, "step": 18700 }, { "epoch": 49.89333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004992721735471942, "loss": 0.3329, "step": 18710 }, { "epoch": 49.92, "grad_norm": 0.197265625, "learning_rate": 0.0004992713743023582, "loss": 0.3374, "step": 18720 }, { "epoch": 49.946666666666665, "grad_norm": 0.2373046875, "learning_rate": 0.0004992705746195679, "loss": 0.3361, "step": 18730 }, { "epoch": 49.973333333333336, "grad_norm": 0.21875, "learning_rate": 0.0004992697744988243, "loss": 0.345, "step": 18740 }, { "epoch": 50.0, "grad_norm": 0.2109375, "learning_rate": 0.0004992689739401294, "loss": 0.3336, "step": 18750 }, { "epoch": 50.0, "eval_loss": 0.40903565287590027, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4349, "eval_samples_per_second": 1.399, "eval_steps_per_second": 0.087, "step": 18750 }, { "epoch": 50.026666666666664, "grad_norm": 0.255859375, "learning_rate": 0.0004992681729434843, "loss": 0.3557, "step": 18760 }, { "epoch": 50.053333333333335, "grad_norm": 0.201171875, "learning_rate": 0.0004992673715088902, "loss": 0.3613, "step": 18770 }, { "epoch": 50.08, "grad_norm": 0.2041015625, "learning_rate": 0.000499266569636349, "loss": 0.3469, "step": 18780 }, { "epoch": 50.10666666666667, "grad_norm": 0.1630859375, "learning_rate": 0.0004992657673258619, "loss": 0.3464, "step": 18790 }, { "epoch": 50.13333333333333, "grad_norm": 0.228515625, "learning_rate": 0.00049926496457743, "loss": 0.34, "step": 18800 }, { "epoch": 50.16, "grad_norm": 0.208984375, "learning_rate": 0.0004992641613910552, "loss": 0.3459, "step": 18810 }, { "epoch": 50.18666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0004992633577667386, "loss": 0.3402, "step": 18820 }, { "epoch": 50.21333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004992625537044817, "loss": 0.3294, "step": 18830 }, { "epoch": 50.24, "grad_norm": 0.208984375, "learning_rate": 0.0004992617492042859, "loss": 0.3346, "step": 18840 }, { "epoch": 50.266666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004992609442661526, "loss": 0.3409, "step": 18850 }, { "epoch": 50.29333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004992601388900834, "loss": 0.3358, "step": 18860 }, { "epoch": 50.32, "grad_norm": 0.173828125, "learning_rate": 0.0004992593330760794, "loss": 0.3414, "step": 18870 }, { "epoch": 50.346666666666664, "grad_norm": 0.19921875, "learning_rate": 0.0004992585268241422, "loss": 0.3429, "step": 18880 }, { "epoch": 50.373333333333335, "grad_norm": 0.23828125, "learning_rate": 0.0004992577201342732, "loss": 0.3353, "step": 18890 }, { "epoch": 50.4, "grad_norm": 0.22265625, "learning_rate": 0.0004992569130064738, "loss": 0.3366, "step": 18900 }, { "epoch": 50.42666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004992561054407454, "loss": 0.3426, "step": 18910 }, { "epoch": 50.45333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004992552974370895, "loss": 0.3512, "step": 18920 }, { "epoch": 50.48, "grad_norm": 0.2109375, "learning_rate": 0.0004992544889955074, "loss": 0.3478, "step": 18930 }, { "epoch": 50.50666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004992536801160007, "loss": 0.3423, "step": 18940 }, { "epoch": 50.53333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004992528707985706, "loss": 0.3372, "step": 18950 }, { "epoch": 50.56, "grad_norm": 0.259765625, "learning_rate": 0.0004992520610432186, "loss": 0.335, "step": 18960 }, { "epoch": 50.586666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004992512508499462, "loss": 0.337, "step": 18970 }, { "epoch": 50.61333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004992504402187548, "loss": 0.3266, "step": 18980 }, { "epoch": 50.64, "grad_norm": 0.1923828125, "learning_rate": 0.0004992496291496457, "loss": 0.3307, "step": 18990 }, { "epoch": 50.666666666666664, "grad_norm": 0.22265625, "learning_rate": 0.0004992488176426205, "loss": 0.3462, "step": 19000 }, { "epoch": 50.693333333333335, "grad_norm": 0.2099609375, "learning_rate": 0.0004992480056976805, "loss": 0.3253, "step": 19010 }, { "epoch": 50.72, "grad_norm": 0.2021484375, "learning_rate": 0.0004992471933148271, "loss": 0.3409, "step": 19020 }, { "epoch": 50.74666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.000499246380494062, "loss": 0.3434, "step": 19030 }, { "epoch": 50.77333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004992455672353863, "loss": 0.3547, "step": 19040 }, { "epoch": 50.8, "grad_norm": 0.1865234375, "learning_rate": 0.0004992447535388016, "loss": 0.3408, "step": 19050 }, { "epoch": 50.82666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004992439394043092, "loss": 0.3292, "step": 19060 }, { "epoch": 50.85333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004992431248319107, "loss": 0.3337, "step": 19070 }, { "epoch": 50.88, "grad_norm": 0.265625, "learning_rate": 0.0004992423098216075, "loss": 0.3315, "step": 19080 }, { "epoch": 50.906666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004992414943734008, "loss": 0.3357, "step": 19090 }, { "epoch": 50.93333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004992406784872924, "loss": 0.3352, "step": 19100 }, { "epoch": 50.96, "grad_norm": 0.177734375, "learning_rate": 0.0004992398621632834, "loss": 0.3343, "step": 19110 }, { "epoch": 50.986666666666665, "grad_norm": 0.2255859375, "learning_rate": 0.0004992390454013754, "loss": 0.3482, "step": 19120 }, { "epoch": 51.0, "eval_loss": 0.40625494718551636, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3657, "eval_samples_per_second": 1.408, "eval_steps_per_second": 0.088, "step": 19125 }, { "epoch": 51.013333333333335, "grad_norm": 0.189453125, "learning_rate": 0.00049923822820157, "loss": 0.3377, "step": 19130 }, { "epoch": 51.04, "grad_norm": 0.2001953125, "learning_rate": 0.0004992374105638682, "loss": 0.3636, "step": 19140 }, { "epoch": 51.06666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0004992365924882718, "loss": 0.3479, "step": 19150 }, { "epoch": 51.093333333333334, "grad_norm": 0.478515625, "learning_rate": 0.0004992357739747822, "loss": 0.346, "step": 19160 }, { "epoch": 51.12, "grad_norm": 0.25390625, "learning_rate": 0.0004992349550234006, "loss": 0.3415, "step": 19170 }, { "epoch": 51.14666666666667, "grad_norm": 0.16015625, "learning_rate": 0.0004992341356341287, "loss": 0.3437, "step": 19180 }, { "epoch": 51.17333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004992333158069679, "loss": 0.3418, "step": 19190 }, { "epoch": 51.2, "grad_norm": 0.1962890625, "learning_rate": 0.0004992324955419194, "loss": 0.3352, "step": 19200 }, { "epoch": 51.22666666666667, "grad_norm": 0.20703125, "learning_rate": 0.000499231674838985, "loss": 0.3309, "step": 19210 }, { "epoch": 51.25333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004992308536981658, "loss": 0.3307, "step": 19220 }, { "epoch": 51.28, "grad_norm": 0.2265625, "learning_rate": 0.0004992300321194636, "loss": 0.3491, "step": 19230 }, { "epoch": 51.306666666666665, "grad_norm": 0.2060546875, "learning_rate": 0.0004992292101028794, "loss": 0.3296, "step": 19240 }, { "epoch": 51.333333333333336, "grad_norm": 0.2421875, "learning_rate": 0.0004992283876484152, "loss": 0.3453, "step": 19250 }, { "epoch": 51.36, "grad_norm": 0.193359375, "learning_rate": 0.0004992275647560719, "loss": 0.3372, "step": 19260 }, { "epoch": 51.38666666666666, "grad_norm": 0.24609375, "learning_rate": 0.0004992267414258512, "loss": 0.3341, "step": 19270 }, { "epoch": 51.413333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004992259176577547, "loss": 0.3396, "step": 19280 }, { "epoch": 51.44, "grad_norm": 0.265625, "learning_rate": 0.0004992250934517836, "loss": 0.3457, "step": 19290 }, { "epoch": 51.46666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004992242688079394, "loss": 0.3505, "step": 19300 }, { "epoch": 51.49333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0004992234437262235, "loss": 0.3394, "step": 19310 }, { "epoch": 51.52, "grad_norm": 0.205078125, "learning_rate": 0.0004992226182066376, "loss": 0.3431, "step": 19320 }, { "epoch": 51.54666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004992217922491828, "loss": 0.3338, "step": 19330 }, { "epoch": 51.57333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004992209658538608, "loss": 0.3363, "step": 19340 }, { "epoch": 51.6, "grad_norm": 0.2109375, "learning_rate": 0.0004992201390206731, "loss": 0.3306, "step": 19350 }, { "epoch": 51.626666666666665, "grad_norm": 0.1826171875, "learning_rate": 0.0004992193117496209, "loss": 0.3271, "step": 19360 }, { "epoch": 51.653333333333336, "grad_norm": 0.173828125, "learning_rate": 0.0004992184840407058, "loss": 0.3412, "step": 19370 }, { "epoch": 51.68, "grad_norm": 0.1982421875, "learning_rate": 0.0004992176558939293, "loss": 0.3295, "step": 19380 }, { "epoch": 51.70666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0004992168273092927, "loss": 0.3304, "step": 19390 }, { "epoch": 51.733333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004992159982867976, "loss": 0.3472, "step": 19400 }, { "epoch": 51.76, "grad_norm": 0.1845703125, "learning_rate": 0.0004992151688264455, "loss": 0.3481, "step": 19410 }, { "epoch": 51.78666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004992143389282377, "loss": 0.3487, "step": 19420 }, { "epoch": 51.81333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004992135085921756, "loss": 0.3311, "step": 19430 }, { "epoch": 51.84, "grad_norm": 0.296875, "learning_rate": 0.0004992126778182609, "loss": 0.3311, "step": 19440 }, { "epoch": 51.86666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004992118466064949, "loss": 0.3322, "step": 19450 }, { "epoch": 51.89333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004992110149568791, "loss": 0.3315, "step": 19460 }, { "epoch": 51.92, "grad_norm": 0.193359375, "learning_rate": 0.000499210182869415, "loss": 0.335, "step": 19470 }, { "epoch": 51.946666666666665, "grad_norm": 0.25390625, "learning_rate": 0.000499209350344104, "loss": 0.3345, "step": 19480 }, { "epoch": 51.973333333333336, "grad_norm": 0.26171875, "learning_rate": 0.0004992085173809477, "loss": 0.3439, "step": 19490 }, { "epoch": 52.0, "grad_norm": 0.20703125, "learning_rate": 0.0004992076839799472, "loss": 0.332, "step": 19500 }, { "epoch": 52.0, "eval_loss": 0.40581172704696655, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2418, "eval_samples_per_second": 1.423, "eval_steps_per_second": 0.089, "step": 19500 }, { "epoch": 52.026666666666664, "grad_norm": 0.33203125, "learning_rate": 0.0004992068501411044, "loss": 0.3544, "step": 19510 }, { "epoch": 52.053333333333335, "grad_norm": 0.416015625, "learning_rate": 0.0004992060158644205, "loss": 0.3602, "step": 19520 }, { "epoch": 52.08, "grad_norm": 0.2158203125, "learning_rate": 0.0004992051811498971, "loss": 0.3441, "step": 19530 }, { "epoch": 52.10666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004992043459975356, "loss": 0.3452, "step": 19540 }, { "epoch": 52.13333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004992035104073374, "loss": 0.3386, "step": 19550 }, { "epoch": 52.16, "grad_norm": 0.2412109375, "learning_rate": 0.0004992026743793043, "loss": 0.3445, "step": 19560 }, { "epoch": 52.18666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0004992018379134372, "loss": 0.3386, "step": 19570 }, { "epoch": 52.21333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004992010010097381, "loss": 0.3283, "step": 19580 }, { "epoch": 52.24, "grad_norm": 0.1806640625, "learning_rate": 0.0004992001636682082, "loss": 0.333, "step": 19590 }, { "epoch": 52.266666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.000499199325888849, "loss": 0.3394, "step": 19600 }, { "epoch": 52.29333333333334, "grad_norm": 0.197265625, "learning_rate": 0.000499198487671662, "loss": 0.3335, "step": 19610 }, { "epoch": 52.32, "grad_norm": 0.1904296875, "learning_rate": 0.0004991976490166486, "loss": 0.3403, "step": 19620 }, { "epoch": 52.346666666666664, "grad_norm": 0.2119140625, "learning_rate": 0.0004991968099238105, "loss": 0.3416, "step": 19630 }, { "epoch": 52.373333333333335, "grad_norm": 0.2255859375, "learning_rate": 0.000499195970393149, "loss": 0.3334, "step": 19640 }, { "epoch": 52.4, "grad_norm": 0.2265625, "learning_rate": 0.0004991951304246654, "loss": 0.335, "step": 19650 }, { "epoch": 52.42666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004991942900183615, "loss": 0.3408, "step": 19660 }, { "epoch": 52.45333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004991934491742388, "loss": 0.3488, "step": 19670 }, { "epoch": 52.48, "grad_norm": 0.19140625, "learning_rate": 0.0004991926078922984, "loss": 0.3456, "step": 19680 }, { "epoch": 52.50666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004991917661725421, "loss": 0.3416, "step": 19690 }, { "epoch": 52.53333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004991909240149714, "loss": 0.3368, "step": 19700 }, { "epoch": 52.56, "grad_norm": 0.1796875, "learning_rate": 0.0004991900814195875, "loss": 0.3341, "step": 19710 }, { "epoch": 52.586666666666666, "grad_norm": 0.20703125, "learning_rate": 0.000499189238386392, "loss": 0.3352, "step": 19720 }, { "epoch": 52.61333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004991883949153864, "loss": 0.3256, "step": 19730 }, { "epoch": 52.64, "grad_norm": 0.1953125, "learning_rate": 0.0004991875510065724, "loss": 0.33, "step": 19740 }, { "epoch": 52.666666666666664, "grad_norm": 0.189453125, "learning_rate": 0.0004991867066599512, "loss": 0.3446, "step": 19750 }, { "epoch": 52.693333333333335, "grad_norm": 0.1748046875, "learning_rate": 0.0004991858618755244, "loss": 0.3237, "step": 19760 }, { "epoch": 52.72, "grad_norm": 0.255859375, "learning_rate": 0.0004991850166532934, "loss": 0.3399, "step": 19770 }, { "epoch": 52.74666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004991841709932598, "loss": 0.3416, "step": 19780 }, { "epoch": 52.77333333333333, "grad_norm": 0.25, "learning_rate": 0.0004991833248954248, "loss": 0.3533, "step": 19790 }, { "epoch": 52.8, "grad_norm": 0.2158203125, "learning_rate": 0.0004991824783597904, "loss": 0.3396, "step": 19800 }, { "epoch": 52.82666666666667, "grad_norm": 0.248046875, "learning_rate": 0.0004991816313863577, "loss": 0.3283, "step": 19810 }, { "epoch": 52.85333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004991807839751282, "loss": 0.3324, "step": 19820 }, { "epoch": 52.88, "grad_norm": 0.16796875, "learning_rate": 0.0004991799361261036, "loss": 0.331, "step": 19830 }, { "epoch": 52.906666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004991790878392852, "loss": 0.3342, "step": 19840 }, { "epoch": 52.93333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004991782391146746, "loss": 0.335, "step": 19850 }, { "epoch": 52.96, "grad_norm": 0.197265625, "learning_rate": 0.0004991773899522732, "loss": 0.3331, "step": 19860 }, { "epoch": 52.986666666666665, "grad_norm": 0.2421875, "learning_rate": 0.0004991765403520826, "loss": 0.3475, "step": 19870 }, { "epoch": 53.0, "eval_loss": 0.4069804549217224, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1372, "eval_samples_per_second": 1.437, "eval_steps_per_second": 0.09, "step": 19875 }, { "epoch": 53.013333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.0004991756903141043, "loss": 0.3358, "step": 19880 }, { "epoch": 53.04, "grad_norm": 0.234375, "learning_rate": 0.0004991748398383395, "loss": 0.3624, "step": 19890 }, { "epoch": 53.06666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004991739889247901, "loss": 0.3469, "step": 19900 }, { "epoch": 53.093333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004991731375734573, "loss": 0.3448, "step": 19910 }, { "epoch": 53.12, "grad_norm": 0.212890625, "learning_rate": 0.0004991722857843428, "loss": 0.3407, "step": 19920 }, { "epoch": 53.14666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004991714335574479, "loss": 0.3422, "step": 19930 }, { "epoch": 53.17333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004991705808927744, "loss": 0.3406, "step": 19940 }, { "epoch": 53.2, "grad_norm": 0.1875, "learning_rate": 0.0004991697277903234, "loss": 0.3343, "step": 19950 }, { "epoch": 53.22666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004991688742500967, "loss": 0.3294, "step": 19960 }, { "epoch": 53.25333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004991680202720958, "loss": 0.3296, "step": 19970 }, { "epoch": 53.28, "grad_norm": 0.28125, "learning_rate": 0.000499167165856322, "loss": 0.3479, "step": 19980 }, { "epoch": 53.306666666666665, "grad_norm": 0.236328125, "learning_rate": 0.0004991663110027768, "loss": 0.3287, "step": 19990 }, { "epoch": 53.333333333333336, "grad_norm": 0.2021484375, "learning_rate": 0.0004991654557114619, "loss": 0.3441, "step": 20000 }, { "epoch": 53.36, "grad_norm": 0.2001953125, "learning_rate": 0.0004991645999823787, "loss": 0.3358, "step": 20010 }, { "epoch": 53.38666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004991637438155288, "loss": 0.3331, "step": 20020 }, { "epoch": 53.413333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004991628872109135, "loss": 0.3384, "step": 20030 }, { "epoch": 53.44, "grad_norm": 0.1865234375, "learning_rate": 0.0004991620301685345, "loss": 0.3447, "step": 20040 }, { "epoch": 53.46666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004991611726883931, "loss": 0.3498, "step": 20050 }, { "epoch": 53.49333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.000499160314770491, "loss": 0.3388, "step": 20060 }, { "epoch": 53.52, "grad_norm": 0.185546875, "learning_rate": 0.0004991594564148296, "loss": 0.3418, "step": 20070 }, { "epoch": 53.54666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004991585976214106, "loss": 0.3327, "step": 20080 }, { "epoch": 53.57333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004991577383902353, "loss": 0.3353, "step": 20090 }, { "epoch": 53.6, "grad_norm": 0.19921875, "learning_rate": 0.0004991568787213051, "loss": 0.3292, "step": 20100 }, { "epoch": 53.626666666666665, "grad_norm": 0.19921875, "learning_rate": 0.0004991560186146218, "loss": 0.326, "step": 20110 }, { "epoch": 53.653333333333336, "grad_norm": 0.1796875, "learning_rate": 0.0004991551580701869, "loss": 0.3395, "step": 20120 }, { "epoch": 53.68, "grad_norm": 0.1650390625, "learning_rate": 0.0004991542970880017, "loss": 0.3281, "step": 20130 }, { "epoch": 53.70666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004991534356680677, "loss": 0.3293, "step": 20140 }, { "epoch": 53.733333333333334, "grad_norm": 0.234375, "learning_rate": 0.0004991525738103866, "loss": 0.3459, "step": 20150 }, { "epoch": 53.76, "grad_norm": 0.189453125, "learning_rate": 0.0004991517115149599, "loss": 0.347, "step": 20160 }, { "epoch": 53.78666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004991508487817891, "loss": 0.3474, "step": 20170 }, { "epoch": 53.81333333333333, "grad_norm": 0.28125, "learning_rate": 0.0004991499856108755, "loss": 0.33, "step": 20180 }, { "epoch": 53.84, "grad_norm": 0.216796875, "learning_rate": 0.0004991491220022209, "loss": 0.3298, "step": 20190 }, { "epoch": 53.86666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004991482579558267, "loss": 0.3308, "step": 20200 }, { "epoch": 53.89333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004991473934716944, "loss": 0.3304, "step": 20210 }, { "epoch": 53.92, "grad_norm": 0.2060546875, "learning_rate": 0.0004991465285498256, "loss": 0.3339, "step": 20220 }, { "epoch": 53.946666666666665, "grad_norm": 0.2255859375, "learning_rate": 0.0004991456631902216, "loss": 0.333, "step": 20230 }, { "epoch": 53.973333333333336, "grad_norm": 0.6015625, "learning_rate": 0.0004991447973928842, "loss": 0.343, "step": 20240 }, { "epoch": 54.0, "grad_norm": 0.1767578125, "learning_rate": 0.0004991439311578148, "loss": 0.3307, "step": 20250 }, { "epoch": 54.0, "eval_loss": 0.40484169125556946, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3487, "eval_samples_per_second": 1.41, "eval_steps_per_second": 0.088, "step": 20250 }, { "epoch": 54.026666666666664, "grad_norm": 0.1865234375, "learning_rate": 0.0004991430644850149, "loss": 0.3539, "step": 20260 }, { "epoch": 54.053333333333335, "grad_norm": 0.208984375, "learning_rate": 0.0004991421973744861, "loss": 0.3588, "step": 20270 }, { "epoch": 54.08, "grad_norm": 0.255859375, "learning_rate": 0.0004991413298262298, "loss": 0.3441, "step": 20280 }, { "epoch": 54.10666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004991404618402476, "loss": 0.3439, "step": 20290 }, { "epoch": 54.13333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004991395934165411, "loss": 0.3371, "step": 20300 }, { "epoch": 54.16, "grad_norm": 0.1845703125, "learning_rate": 0.0004991387245551116, "loss": 0.3435, "step": 20310 }, { "epoch": 54.18666666666667, "grad_norm": 0.22265625, "learning_rate": 0.000499137855255961, "loss": 0.3379, "step": 20320 }, { "epoch": 54.21333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004991369855190904, "loss": 0.3267, "step": 20330 }, { "epoch": 54.24, "grad_norm": 0.2421875, "learning_rate": 0.0004991361153445017, "loss": 0.3317, "step": 20340 }, { "epoch": 54.266666666666666, "grad_norm": 0.208984375, "learning_rate": 0.000499135244732196, "loss": 0.3386, "step": 20350 }, { "epoch": 54.29333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004991343736821753, "loss": 0.3334, "step": 20360 }, { "epoch": 54.32, "grad_norm": 0.208984375, "learning_rate": 0.0004991335021944409, "loss": 0.3389, "step": 20370 }, { "epoch": 54.346666666666664, "grad_norm": 0.244140625, "learning_rate": 0.0004991326302689942, "loss": 0.3403, "step": 20380 }, { "epoch": 54.373333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0004991317579058371, "loss": 0.3323, "step": 20390 }, { "epoch": 54.4, "grad_norm": 0.236328125, "learning_rate": 0.0004991308851049707, "loss": 0.3339, "step": 20400 }, { "epoch": 54.42666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004991300118663969, "loss": 0.3398, "step": 20410 }, { "epoch": 54.45333333333333, "grad_norm": 0.224609375, "learning_rate": 0.000499129138190117, "loss": 0.348, "step": 20420 }, { "epoch": 54.48, "grad_norm": 0.2255859375, "learning_rate": 0.0004991282640761326, "loss": 0.3442, "step": 20430 }, { "epoch": 54.50666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004991273895244454, "loss": 0.3399, "step": 20440 }, { "epoch": 54.53333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004991265145350566, "loss": 0.335, "step": 20450 }, { "epoch": 54.56, "grad_norm": 0.1923828125, "learning_rate": 0.000499125639107968, "loss": 0.3319, "step": 20460 }, { "epoch": 54.586666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004991247632431811, "loss": 0.3338, "step": 20470 }, { "epoch": 54.61333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004991238869406973, "loss": 0.3244, "step": 20480 }, { "epoch": 54.64, "grad_norm": 0.291015625, "learning_rate": 0.0004991230102005184, "loss": 0.3285, "step": 20490 }, { "epoch": 54.666666666666664, "grad_norm": 0.248046875, "learning_rate": 0.0004991221330226456, "loss": 0.3428, "step": 20500 }, { "epoch": 54.693333333333335, "grad_norm": 0.2490234375, "learning_rate": 0.0004991212554070807, "loss": 0.3232, "step": 20510 }, { "epoch": 54.72, "grad_norm": 0.248046875, "learning_rate": 0.0004991203773538252, "loss": 0.3388, "step": 20520 }, { "epoch": 54.74666666666667, "grad_norm": 0.296875, "learning_rate": 0.0004991194988628806, "loss": 0.3409, "step": 20530 }, { "epoch": 54.77333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004991186199342485, "loss": 0.352, "step": 20540 }, { "epoch": 54.8, "grad_norm": 0.2119140625, "learning_rate": 0.0004991177405679302, "loss": 0.3382, "step": 20550 }, { "epoch": 54.82666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0004991168607639276, "loss": 0.3271, "step": 20560 }, { "epoch": 54.85333333333333, "grad_norm": 0.1953125, "learning_rate": 0.000499115980522242, "loss": 0.331, "step": 20570 }, { "epoch": 54.88, "grad_norm": 0.1767578125, "learning_rate": 0.0004991150998428751, "loss": 0.3288, "step": 20580 }, { "epoch": 54.906666666666666, "grad_norm": 0.33984375, "learning_rate": 0.0004991142187258284, "loss": 0.3323, "step": 20590 }, { "epoch": 54.93333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004991133371711035, "loss": 0.3329, "step": 20600 }, { "epoch": 54.96, "grad_norm": 0.283203125, "learning_rate": 0.0004991124551787016, "loss": 0.3325, "step": 20610 }, { "epoch": 54.986666666666665, "grad_norm": 0.26171875, "learning_rate": 0.0004991115727486248, "loss": 0.3468, "step": 20620 }, { "epoch": 55.0, "eval_loss": 0.4052978754043579, "eval_model_preparation_time": 0.0029, "eval_runtime": 14.2674, "eval_samples_per_second": 1.121, "eval_steps_per_second": 0.07, "step": 20625 }, { "epoch": 55.013333333333335, "grad_norm": 0.2333984375, "learning_rate": 0.0004991106898808743, "loss": 0.3355, "step": 20630 }, { "epoch": 55.04, "grad_norm": 0.26953125, "learning_rate": 0.0004991098065754516, "loss": 0.3618, "step": 20640 }, { "epoch": 55.06666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0004991089228323586, "loss": 0.346, "step": 20650 }, { "epoch": 55.093333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004991080386515964, "loss": 0.3437, "step": 20660 }, { "epoch": 55.12, "grad_norm": 0.1845703125, "learning_rate": 0.0004991071540331669, "loss": 0.3394, "step": 20670 }, { "epoch": 55.14666666666667, "grad_norm": 0.30078125, "learning_rate": 0.0004991062689770715, "loss": 0.3407, "step": 20680 }, { "epoch": 55.17333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.000499105383483312, "loss": 0.34, "step": 20690 }, { "epoch": 55.2, "grad_norm": 0.1865234375, "learning_rate": 0.0004991044975518894, "loss": 0.3327, "step": 20700 }, { "epoch": 55.22666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004991036111828058, "loss": 0.3281, "step": 20710 }, { "epoch": 55.25333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004991027243760627, "loss": 0.3282, "step": 20720 }, { "epoch": 55.28, "grad_norm": 0.24609375, "learning_rate": 0.0004991018371316613, "loss": 0.3472, "step": 20730 }, { "epoch": 55.306666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0004991009494496034, "loss": 0.3274, "step": 20740 }, { "epoch": 55.333333333333336, "grad_norm": 0.2080078125, "learning_rate": 0.0004991000613298906, "loss": 0.3426, "step": 20750 }, { "epoch": 55.36, "grad_norm": 0.2890625, "learning_rate": 0.0004990991727725244, "loss": 0.3346, "step": 20760 }, { "epoch": 55.38666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0004990982837775064, "loss": 0.3313, "step": 20770 }, { "epoch": 55.413333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004990973943448381, "loss": 0.3375, "step": 20780 }, { "epoch": 55.44, "grad_norm": 0.2021484375, "learning_rate": 0.0004990965044745211, "loss": 0.3428, "step": 20790 }, { "epoch": 55.46666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004990956141665569, "loss": 0.348, "step": 20800 }, { "epoch": 55.49333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004990947234209471, "loss": 0.3371, "step": 20810 }, { "epoch": 55.52, "grad_norm": 0.1875, "learning_rate": 0.0004990938322376933, "loss": 0.3406, "step": 20820 }, { "epoch": 55.54666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004990929406167972, "loss": 0.3316, "step": 20830 }, { "epoch": 55.57333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.00049909204855826, "loss": 0.3339, "step": 20840 }, { "epoch": 55.6, "grad_norm": 0.20703125, "learning_rate": 0.0004990911560620835, "loss": 0.3283, "step": 20850 }, { "epoch": 55.626666666666665, "grad_norm": 0.201171875, "learning_rate": 0.0004990902631282693, "loss": 0.3247, "step": 20860 }, { "epoch": 55.653333333333336, "grad_norm": 0.17578125, "learning_rate": 0.000499089369756819, "loss": 0.3387, "step": 20870 }, { "epoch": 55.68, "grad_norm": 0.1767578125, "learning_rate": 0.000499088475947734, "loss": 0.3271, "step": 20880 }, { "epoch": 55.70666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004990875817010159, "loss": 0.3277, "step": 20890 }, { "epoch": 55.733333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004990866870166664, "loss": 0.3443, "step": 20900 }, { "epoch": 55.76, "grad_norm": 0.189453125, "learning_rate": 0.000499085791894687, "loss": 0.3463, "step": 20910 }, { "epoch": 55.78666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004990848963350793, "loss": 0.3455, "step": 20920 }, { "epoch": 55.81333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004990840003378448, "loss": 0.3279, "step": 20930 }, { "epoch": 55.84, "grad_norm": 0.1787109375, "learning_rate": 0.0004990831039029851, "loss": 0.3281, "step": 20940 }, { "epoch": 55.86666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004990822070305018, "loss": 0.3299, "step": 20950 }, { "epoch": 55.89333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004990813097203964, "loss": 0.3288, "step": 20960 }, { "epoch": 55.92, "grad_norm": 0.21875, "learning_rate": 0.0004990804119726708, "loss": 0.3334, "step": 20970 }, { "epoch": 55.946666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004990795137873261, "loss": 0.3328, "step": 20980 }, { "epoch": 55.973333333333336, "grad_norm": 0.33203125, "learning_rate": 0.0004990786151643641, "loss": 0.3414, "step": 20990 }, { "epoch": 56.0, "grad_norm": 0.19921875, "learning_rate": 0.0004990777161037865, "loss": 0.3295, "step": 21000 }, { "epoch": 56.0, "eval_loss": 0.4048375189304352, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9392, "eval_samples_per_second": 1.463, "eval_steps_per_second": 0.091, "step": 21000 }, { "epoch": 56.026666666666664, "grad_norm": 0.26953125, "learning_rate": 0.0004990768166055947, "loss": 0.3519, "step": 21010 }, { "epoch": 56.053333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.0004990759166697903, "loss": 0.3573, "step": 21020 }, { "epoch": 56.08, "grad_norm": 0.193359375, "learning_rate": 0.0004990750162963749, "loss": 0.3427, "step": 21030 }, { "epoch": 56.10666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004990741154853502, "loss": 0.3432, "step": 21040 }, { "epoch": 56.13333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004990732142367177, "loss": 0.3361, "step": 21050 }, { "epoch": 56.16, "grad_norm": 0.20703125, "learning_rate": 0.0004990723125504789, "loss": 0.3424, "step": 21060 }, { "epoch": 56.18666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004990714104266355, "loss": 0.3364, "step": 21070 }, { "epoch": 56.21333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.000499070507865189, "loss": 0.326, "step": 21080 }, { "epoch": 56.24, "grad_norm": 0.2041015625, "learning_rate": 0.0004990696048661411, "loss": 0.3308, "step": 21090 }, { "epoch": 56.266666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004990687014294932, "loss": 0.3368, "step": 21100 }, { "epoch": 56.29333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004990677975552471, "loss": 0.3318, "step": 21110 }, { "epoch": 56.32, "grad_norm": 0.177734375, "learning_rate": 0.0004990668932434042, "loss": 0.3384, "step": 21120 }, { "epoch": 56.346666666666664, "grad_norm": 0.25390625, "learning_rate": 0.0004990659884939662, "loss": 0.3394, "step": 21130 }, { "epoch": 56.373333333333335, "grad_norm": 0.2216796875, "learning_rate": 0.0004990650833069346, "loss": 0.3311, "step": 21140 }, { "epoch": 56.4, "grad_norm": 0.24609375, "learning_rate": 0.0004990641776823113, "loss": 0.3325, "step": 21150 }, { "epoch": 56.42666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004990632716200975, "loss": 0.3381, "step": 21160 }, { "epoch": 56.45333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0004990623651202949, "loss": 0.3469, "step": 21170 }, { "epoch": 56.48, "grad_norm": 0.2119140625, "learning_rate": 0.0004990614581829051, "loss": 0.3426, "step": 21180 }, { "epoch": 56.50666666666667, "grad_norm": 0.1640625, "learning_rate": 0.0004990605508079298, "loss": 0.3388, "step": 21190 }, { "epoch": 56.53333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004990596429953704, "loss": 0.3339, "step": 21200 }, { "epoch": 56.56, "grad_norm": 0.30859375, "learning_rate": 0.0004990587347452288, "loss": 0.3317, "step": 21210 }, { "epoch": 56.586666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004990578260575063, "loss": 0.3328, "step": 21220 }, { "epoch": 56.61333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004990569169322046, "loss": 0.3235, "step": 21230 }, { "epoch": 56.64, "grad_norm": 0.1865234375, "learning_rate": 0.0004990560073693253, "loss": 0.3265, "step": 21240 }, { "epoch": 56.666666666666664, "grad_norm": 0.2158203125, "learning_rate": 0.0004990550973688701, "loss": 0.3421, "step": 21250 }, { "epoch": 56.693333333333335, "grad_norm": 0.1865234375, "learning_rate": 0.0004990541869308405, "loss": 0.3218, "step": 21260 }, { "epoch": 56.72, "grad_norm": 0.2294921875, "learning_rate": 0.000499053276055238, "loss": 0.3378, "step": 21270 }, { "epoch": 56.74666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004990523647420643, "loss": 0.3398, "step": 21280 }, { "epoch": 56.77333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.000499051452991321, "loss": 0.3511, "step": 21290 }, { "epoch": 56.8, "grad_norm": 0.212890625, "learning_rate": 0.0004990505408030097, "loss": 0.3371, "step": 21300 }, { "epoch": 56.82666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004990496281771321, "loss": 0.3256, "step": 21310 }, { "epoch": 56.85333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004990487151136896, "loss": 0.3301, "step": 21320 }, { "epoch": 56.88, "grad_norm": 0.171875, "learning_rate": 0.0004990478016126841, "loss": 0.3292, "step": 21330 }, { "epoch": 56.906666666666666, "grad_norm": 0.26171875, "learning_rate": 0.0004990468876741168, "loss": 0.3309, "step": 21340 }, { "epoch": 56.93333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004990459732979897, "loss": 0.3316, "step": 21350 }, { "epoch": 56.96, "grad_norm": 0.2080078125, "learning_rate": 0.000499045058484304, "loss": 0.3309, "step": 21360 }, { "epoch": 56.986666666666665, "grad_norm": 0.248046875, "learning_rate": 0.0004990441432330617, "loss": 0.3448, "step": 21370 }, { "epoch": 57.0, "eval_loss": 0.40479955077171326, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.877, "eval_samples_per_second": 1.243, "eval_steps_per_second": 0.078, "step": 21375 }, { "epoch": 57.013333333333335, "grad_norm": 0.328125, "learning_rate": 0.0004990432275442643, "loss": 0.3334, "step": 21380 }, { "epoch": 57.04, "grad_norm": 0.1845703125, "learning_rate": 0.0004990423114179133, "loss": 0.36, "step": 21390 }, { "epoch": 57.06666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004990413948540103, "loss": 0.3444, "step": 21400 }, { "epoch": 57.093333333333334, "grad_norm": 0.2255859375, "learning_rate": 0.000499040477852557, "loss": 0.3424, "step": 21410 }, { "epoch": 57.12, "grad_norm": 0.18359375, "learning_rate": 0.0004990395604135549, "loss": 0.3381, "step": 21420 }, { "epoch": 57.14666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004990386425370058, "loss": 0.3398, "step": 21430 }, { "epoch": 57.17333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004990377242229113, "loss": 0.3382, "step": 21440 }, { "epoch": 57.2, "grad_norm": 0.189453125, "learning_rate": 0.0004990368054712728, "loss": 0.3316, "step": 21450 }, { "epoch": 57.22666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004990358862820921, "loss": 0.3271, "step": 21460 }, { "epoch": 57.25333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0004990349666553706, "loss": 0.3274, "step": 21470 }, { "epoch": 57.28, "grad_norm": 0.2236328125, "learning_rate": 0.0004990340465911103, "loss": 0.3458, "step": 21480 }, { "epoch": 57.306666666666665, "grad_norm": 0.20703125, "learning_rate": 0.0004990331260893125, "loss": 0.3263, "step": 21490 }, { "epoch": 57.333333333333336, "grad_norm": 0.357421875, "learning_rate": 0.0004990322051499789, "loss": 0.3415, "step": 21500 }, { "epoch": 57.36, "grad_norm": 0.322265625, "learning_rate": 0.0004990312837731111, "loss": 0.3335, "step": 21510 }, { "epoch": 57.38666666666666, "grad_norm": 0.30078125, "learning_rate": 0.0004990303619587106, "loss": 0.3301, "step": 21520 }, { "epoch": 57.413333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0004990294397067794, "loss": 0.3362, "step": 21530 }, { "epoch": 57.44, "grad_norm": 0.474609375, "learning_rate": 0.0004990285170173188, "loss": 0.3427, "step": 21540 }, { "epoch": 57.46666666666667, "grad_norm": 0.34375, "learning_rate": 0.0004990275938903304, "loss": 0.3472, "step": 21550 }, { "epoch": 57.49333333333333, "grad_norm": 0.33203125, "learning_rate": 0.000499026670325816, "loss": 0.3358, "step": 21560 }, { "epoch": 57.52, "grad_norm": 0.46875, "learning_rate": 0.0004990257463237771, "loss": 0.3397, "step": 21570 }, { "epoch": 57.54666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004990248218842155, "loss": 0.3304, "step": 21580 }, { "epoch": 57.57333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004990238970071325, "loss": 0.3333, "step": 21590 }, { "epoch": 57.6, "grad_norm": 0.1787109375, "learning_rate": 0.00049902297169253, "loss": 0.3275, "step": 21600 }, { "epoch": 57.626666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004990220459404097, "loss": 0.3238, "step": 21610 }, { "epoch": 57.653333333333336, "grad_norm": 0.1845703125, "learning_rate": 0.0004990211197507729, "loss": 0.3372, "step": 21620 }, { "epoch": 57.68, "grad_norm": 0.2392578125, "learning_rate": 0.0004990201931236215, "loss": 0.3261, "step": 21630 }, { "epoch": 57.70666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004990192660589568, "loss": 0.3269, "step": 21640 }, { "epoch": 57.733333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004990183385567809, "loss": 0.3434, "step": 21650 }, { "epoch": 57.76, "grad_norm": 0.2373046875, "learning_rate": 0.000499017410617095, "loss": 0.3448, "step": 21660 }, { "epoch": 57.78666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004990164822399011, "loss": 0.3448, "step": 21670 }, { "epoch": 57.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004990155534252005, "loss": 0.3271, "step": 21680 }, { "epoch": 57.84, "grad_norm": 0.2255859375, "learning_rate": 0.0004990146241729951, "loss": 0.327, "step": 21690 }, { "epoch": 57.86666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004990136944832863, "loss": 0.328, "step": 21700 }, { "epoch": 57.89333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004990127643560759, "loss": 0.3283, "step": 21710 }, { "epoch": 57.92, "grad_norm": 0.2080078125, "learning_rate": 0.0004990118337913654, "loss": 0.3314, "step": 21720 }, { "epoch": 57.946666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004990109027891566, "loss": 0.3313, "step": 21730 }, { "epoch": 57.973333333333336, "grad_norm": 0.265625, "learning_rate": 0.000499009971349451, "loss": 0.3395, "step": 21740 }, { "epoch": 58.0, "grad_norm": 0.21875, "learning_rate": 0.0004990090394722502, "loss": 0.3279, "step": 21750 }, { "epoch": 58.0, "eval_loss": 0.40562504529953003, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5229, "eval_samples_per_second": 1.389, "eval_steps_per_second": 0.087, "step": 21750 }, { "epoch": 58.026666666666664, "grad_norm": 0.1923828125, "learning_rate": 0.0004990081071575562, "loss": 0.3505, "step": 21760 }, { "epoch": 58.053333333333335, "grad_norm": 0.1865234375, "learning_rate": 0.0004990071744053701, "loss": 0.3566, "step": 21770 }, { "epoch": 58.08, "grad_norm": 0.1953125, "learning_rate": 0.0004990062412156939, "loss": 0.3414, "step": 21780 }, { "epoch": 58.10666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004990053075885291, "loss": 0.3422, "step": 21790 }, { "epoch": 58.13333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004990043735238774, "loss": 0.3349, "step": 21800 }, { "epoch": 58.16, "grad_norm": 0.177734375, "learning_rate": 0.0004990034390217404, "loss": 0.3412, "step": 21810 }, { "epoch": 58.18666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004990025040821198, "loss": 0.3353, "step": 21820 }, { "epoch": 58.21333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004990015687050171, "loss": 0.3246, "step": 21830 }, { "epoch": 58.24, "grad_norm": 0.19921875, "learning_rate": 0.0004990006328904342, "loss": 0.3292, "step": 21840 }, { "epoch": 58.266666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004989996966383725, "loss": 0.3366, "step": 21850 }, { "epoch": 58.29333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0004989987599488337, "loss": 0.3311, "step": 21860 }, { "epoch": 58.32, "grad_norm": 0.173828125, "learning_rate": 0.0004989978228218196, "loss": 0.337, "step": 21870 }, { "epoch": 58.346666666666664, "grad_norm": 0.20703125, "learning_rate": 0.0004989968852573317, "loss": 0.3385, "step": 21880 }, { "epoch": 58.373333333333335, "grad_norm": 0.232421875, "learning_rate": 0.0004989959472553716, "loss": 0.3305, "step": 21890 }, { "epoch": 58.4, "grad_norm": 0.1806640625, "learning_rate": 0.000498995008815941, "loss": 0.3316, "step": 21900 }, { "epoch": 58.42666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0004989940699390416, "loss": 0.3372, "step": 21910 }, { "epoch": 58.45333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004989931306246751, "loss": 0.3457, "step": 21920 }, { "epoch": 58.48, "grad_norm": 0.2041015625, "learning_rate": 0.000498992190872843, "loss": 0.342, "step": 21930 }, { "epoch": 58.50666666666667, "grad_norm": 0.1630859375, "learning_rate": 0.000498991250683547, "loss": 0.338, "step": 21940 }, { "epoch": 58.53333333333333, "grad_norm": 0.166015625, "learning_rate": 0.0004989903100567889, "loss": 0.3329, "step": 21950 }, { "epoch": 58.56, "grad_norm": 0.27734375, "learning_rate": 0.0004989893689925701, "loss": 0.3307, "step": 21960 }, { "epoch": 58.586666666666666, "grad_norm": 0.1728515625, "learning_rate": 0.0004989884274908924, "loss": 0.3317, "step": 21970 }, { "epoch": 58.61333333333333, "grad_norm": 0.166015625, "learning_rate": 0.0004989874855517575, "loss": 0.3222, "step": 21980 }, { "epoch": 58.64, "grad_norm": 0.1865234375, "learning_rate": 0.000498986543175167, "loss": 0.3259, "step": 21990 }, { "epoch": 58.666666666666664, "grad_norm": 0.1806640625, "learning_rate": 0.0004989856003611225, "loss": 0.3407, "step": 22000 }, { "epoch": 58.693333333333335, "grad_norm": 0.1806640625, "learning_rate": 0.0004989846571096257, "loss": 0.3209, "step": 22010 }, { "epoch": 58.72, "grad_norm": 0.33984375, "learning_rate": 0.0004989837134206783, "loss": 0.3362, "step": 22020 }, { "epoch": 58.74666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004989827692942817, "loss": 0.3383, "step": 22030 }, { "epoch": 58.77333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.000498981824730438, "loss": 0.3495, "step": 22040 }, { "epoch": 58.8, "grad_norm": 0.2333984375, "learning_rate": 0.0004989808797291487, "loss": 0.336, "step": 22050 }, { "epoch": 58.82666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004989799342904152, "loss": 0.3244, "step": 22060 }, { "epoch": 58.85333333333333, "grad_norm": 0.166015625, "learning_rate": 0.0004989789884142395, "loss": 0.3284, "step": 22070 }, { "epoch": 58.88, "grad_norm": 0.2001953125, "learning_rate": 0.0004989780421006231, "loss": 0.3271, "step": 22080 }, { "epoch": 58.906666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004989770953495676, "loss": 0.3296, "step": 22090 }, { "epoch": 58.93333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004989761481610748, "loss": 0.3302, "step": 22100 }, { "epoch": 58.96, "grad_norm": 0.189453125, "learning_rate": 0.0004989752005351462, "loss": 0.3296, "step": 22110 }, { "epoch": 58.986666666666665, "grad_norm": 0.4375, "learning_rate": 0.0004989742524717837, "loss": 0.3439, "step": 22120 }, { "epoch": 59.0, "eval_loss": 0.40387922525405884, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5654, "eval_samples_per_second": 1.383, "eval_steps_per_second": 0.086, "step": 22125 }, { "epoch": 59.013333333333335, "grad_norm": 0.21875, "learning_rate": 0.0004989733039709888, "loss": 0.3325, "step": 22130 }, { "epoch": 59.04, "grad_norm": 0.484375, "learning_rate": 0.0004989723550327633, "loss": 0.3588, "step": 22140 }, { "epoch": 59.06666666666667, "grad_norm": 0.310546875, "learning_rate": 0.0004989714056571087, "loss": 0.3436, "step": 22150 }, { "epoch": 59.093333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0004989704558440266, "loss": 0.341, "step": 22160 }, { "epoch": 59.12, "grad_norm": 0.208984375, "learning_rate": 0.000498969505593519, "loss": 0.3368, "step": 22170 }, { "epoch": 59.14666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004989685549055873, "loss": 0.3388, "step": 22180 }, { "epoch": 59.17333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004989676037802333, "loss": 0.3371, "step": 22190 }, { "epoch": 59.2, "grad_norm": 0.1884765625, "learning_rate": 0.0004989666522174586, "loss": 0.3304, "step": 22200 }, { "epoch": 59.22666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004989657002172649, "loss": 0.3258, "step": 22210 }, { "epoch": 59.25333333333333, "grad_norm": 0.1611328125, "learning_rate": 0.0004989647477796538, "loss": 0.326, "step": 22220 }, { "epoch": 59.28, "grad_norm": 0.2177734375, "learning_rate": 0.0004989637949046272, "loss": 0.344, "step": 22230 }, { "epoch": 59.306666666666665, "grad_norm": 0.181640625, "learning_rate": 0.0004989628415921864, "loss": 0.3253, "step": 22240 }, { "epoch": 59.333333333333336, "grad_norm": 0.1875, "learning_rate": 0.0004989618878423334, "loss": 0.3402, "step": 22250 }, { "epoch": 59.36, "grad_norm": 0.1806640625, "learning_rate": 0.0004989609336550698, "loss": 0.332, "step": 22260 }, { "epoch": 59.38666666666666, "grad_norm": 0.28125, "learning_rate": 0.0004989599790303972, "loss": 0.3293, "step": 22270 }, { "epoch": 59.413333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004989590239683172, "loss": 0.3351, "step": 22280 }, { "epoch": 59.44, "grad_norm": 0.3359375, "learning_rate": 0.0004989580684688318, "loss": 0.3407, "step": 22290 }, { "epoch": 59.46666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004989571125319424, "loss": 0.3451, "step": 22300 }, { "epoch": 59.49333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004989561561576508, "loss": 0.3345, "step": 22310 }, { "epoch": 59.52, "grad_norm": 0.26171875, "learning_rate": 0.0004989551993459585, "loss": 0.3381, "step": 22320 }, { "epoch": 59.54666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004989542420968673, "loss": 0.329, "step": 22330 }, { "epoch": 59.57333333333333, "grad_norm": 0.203125, "learning_rate": 0.000498953284410379, "loss": 0.3312, "step": 22340 }, { "epoch": 59.6, "grad_norm": 0.2119140625, "learning_rate": 0.0004989523262864952, "loss": 0.3259, "step": 22350 }, { "epoch": 59.626666666666665, "grad_norm": 0.1865234375, "learning_rate": 0.0004989513677252175, "loss": 0.3221, "step": 22360 }, { "epoch": 59.653333333333336, "grad_norm": 0.2021484375, "learning_rate": 0.0004989504087265477, "loss": 0.3369, "step": 22370 }, { "epoch": 59.68, "grad_norm": 0.197265625, "learning_rate": 0.0004989494492904875, "loss": 0.3249, "step": 22380 }, { "epoch": 59.70666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004989484894170383, "loss": 0.3256, "step": 22390 }, { "epoch": 59.733333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004989475291062021, "loss": 0.3426, "step": 22400 }, { "epoch": 59.76, "grad_norm": 0.1904296875, "learning_rate": 0.0004989465683579806, "loss": 0.3433, "step": 22410 }, { "epoch": 59.78666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004989456071723753, "loss": 0.3444, "step": 22420 }, { "epoch": 59.81333333333333, "grad_norm": 0.3828125, "learning_rate": 0.0004989446455493879, "loss": 0.3267, "step": 22430 }, { "epoch": 59.84, "grad_norm": 0.224609375, "learning_rate": 0.0004989436834890202, "loss": 0.3265, "step": 22440 }, { "epoch": 59.86666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004989427209912739, "loss": 0.3283, "step": 22450 }, { "epoch": 59.89333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004989417580561507, "loss": 0.3269, "step": 22460 }, { "epoch": 59.92, "grad_norm": 0.1865234375, "learning_rate": 0.000498940794683652, "loss": 0.3307, "step": 22470 }, { "epoch": 59.946666666666665, "grad_norm": 0.19921875, "learning_rate": 0.0004989398308737799, "loss": 0.3306, "step": 22480 }, { "epoch": 59.973333333333336, "grad_norm": 0.337890625, "learning_rate": 0.0004989388666265358, "loss": 0.3391, "step": 22490 }, { "epoch": 60.0, "grad_norm": 0.22265625, "learning_rate": 0.0004989379019419216, "loss": 0.3274, "step": 22500 }, { "epoch": 60.0, "eval_loss": 0.4045378565788269, "eval_model_preparation_time": 0.0029, "eval_runtime": 9.5897, "eval_samples_per_second": 1.668, "eval_steps_per_second": 0.104, "step": 22500 }, { "epoch": 60.026666666666664, "grad_norm": 0.26953125, "learning_rate": 0.0004989369368199389, "loss": 0.3492, "step": 22510 }, { "epoch": 60.053333333333335, "grad_norm": 0.173828125, "learning_rate": 0.0004989359712605895, "loss": 0.3554, "step": 22520 }, { "epoch": 60.08, "grad_norm": 0.302734375, "learning_rate": 0.0004989350052638748, "loss": 0.3394, "step": 22530 }, { "epoch": 60.10666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004989340388297967, "loss": 0.3408, "step": 22540 }, { "epoch": 60.13333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.000498933071958357, "loss": 0.3335, "step": 22550 }, { "epoch": 60.16, "grad_norm": 0.1884765625, "learning_rate": 0.0004989321046495572, "loss": 0.3395, "step": 22560 }, { "epoch": 60.18666666666667, "grad_norm": 0.15625, "learning_rate": 0.0004989311369033993, "loss": 0.3339, "step": 22570 }, { "epoch": 60.21333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004989301687198846, "loss": 0.3237, "step": 22580 }, { "epoch": 60.24, "grad_norm": 0.1806640625, "learning_rate": 0.000498929200099015, "loss": 0.3284, "step": 22590 }, { "epoch": 60.266666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004989282310407923, "loss": 0.3344, "step": 22600 }, { "epoch": 60.29333333333334, "grad_norm": 0.294921875, "learning_rate": 0.000498927261545218, "loss": 0.33, "step": 22610 }, { "epoch": 60.32, "grad_norm": 0.17578125, "learning_rate": 0.000498926291612294, "loss": 0.3365, "step": 22620 }, { "epoch": 60.346666666666664, "grad_norm": 0.1884765625, "learning_rate": 0.0004989253212420218, "loss": 0.3366, "step": 22630 }, { "epoch": 60.373333333333335, "grad_norm": 0.2431640625, "learning_rate": 0.0004989243504344032, "loss": 0.3291, "step": 22640 }, { "epoch": 60.4, "grad_norm": 0.2197265625, "learning_rate": 0.00049892337918944, "loss": 0.3308, "step": 22650 }, { "epoch": 60.42666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004989224075071338, "loss": 0.3358, "step": 22660 }, { "epoch": 60.45333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004989214353874862, "loss": 0.3447, "step": 22670 }, { "epoch": 60.48, "grad_norm": 0.228515625, "learning_rate": 0.0004989204628304992, "loss": 0.3409, "step": 22680 }, { "epoch": 60.50666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004989194898361743, "loss": 0.3364, "step": 22690 }, { "epoch": 60.53333333333333, "grad_norm": 0.150390625, "learning_rate": 0.0004989185164045132, "loss": 0.3317, "step": 22700 }, { "epoch": 60.56, "grad_norm": 0.1884765625, "learning_rate": 0.0004989175425355178, "loss": 0.329, "step": 22710 }, { "epoch": 60.586666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004989165682291895, "loss": 0.3303, "step": 22720 }, { "epoch": 60.61333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004989155934855303, "loss": 0.3217, "step": 22730 }, { "epoch": 60.64, "grad_norm": 0.16015625, "learning_rate": 0.0004989146183045417, "loss": 0.3251, "step": 22740 }, { "epoch": 60.666666666666664, "grad_norm": 0.224609375, "learning_rate": 0.0004989136426862257, "loss": 0.3398, "step": 22750 }, { "epoch": 60.693333333333335, "grad_norm": 0.1748046875, "learning_rate": 0.0004989126666305836, "loss": 0.3191, "step": 22760 }, { "epoch": 60.72, "grad_norm": 0.2041015625, "learning_rate": 0.0004989116901376175, "loss": 0.3353, "step": 22770 }, { "epoch": 60.74666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004989107132073289, "loss": 0.3371, "step": 22780 }, { "epoch": 60.77333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004989097358397195, "loss": 0.3488, "step": 22790 }, { "epoch": 60.8, "grad_norm": 0.2080078125, "learning_rate": 0.0004989087580347912, "loss": 0.3343, "step": 22800 }, { "epoch": 60.82666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004989077797925457, "loss": 0.3234, "step": 22810 }, { "epoch": 60.85333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004989068011129845, "loss": 0.3272, "step": 22820 }, { "epoch": 60.88, "grad_norm": 0.2421875, "learning_rate": 0.0004989058219961094, "loss": 0.3256, "step": 22830 }, { "epoch": 60.906666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0004989048424419222, "loss": 0.3289, "step": 22840 }, { "epoch": 60.93333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004989038624504246, "loss": 0.3294, "step": 22850 }, { "epoch": 60.96, "grad_norm": 0.224609375, "learning_rate": 0.0004989028820216184, "loss": 0.3288, "step": 22860 }, { "epoch": 60.986666666666665, "grad_norm": 0.259765625, "learning_rate": 0.0004989019011555052, "loss": 0.343, "step": 22870 }, { "epoch": 61.0, "eval_loss": 0.40400707721710205, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.8448, "eval_samples_per_second": 1.246, "eval_steps_per_second": 0.078, "step": 22875 }, { "epoch": 61.013333333333335, "grad_norm": 0.2109375, "learning_rate": 0.0004989009198520867, "loss": 0.3317, "step": 22880 }, { "epoch": 61.04, "grad_norm": 0.1923828125, "learning_rate": 0.0004988999381113647, "loss": 0.3585, "step": 22890 }, { "epoch": 61.06666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004988989559333408, "loss": 0.3423, "step": 22900 }, { "epoch": 61.093333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.000498897973318017, "loss": 0.3398, "step": 22910 }, { "epoch": 61.12, "grad_norm": 0.1796875, "learning_rate": 0.0004988969902653948, "loss": 0.3356, "step": 22920 }, { "epoch": 61.14666666666667, "grad_norm": 0.201171875, "learning_rate": 0.000498896006775476, "loss": 0.3372, "step": 22930 }, { "epoch": 61.17333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004988950228482623, "loss": 0.336, "step": 22940 }, { "epoch": 61.2, "grad_norm": 0.193359375, "learning_rate": 0.0004988940384837554, "loss": 0.3293, "step": 22950 }, { "epoch": 61.22666666666667, "grad_norm": 0.193359375, "learning_rate": 0.000498893053681957, "loss": 0.3245, "step": 22960 }, { "epoch": 61.25333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.000498892068442869, "loss": 0.3247, "step": 22970 }, { "epoch": 61.28, "grad_norm": 0.23046875, "learning_rate": 0.0004988910827664931, "loss": 0.3432, "step": 22980 }, { "epoch": 61.306666666666665, "grad_norm": 0.1767578125, "learning_rate": 0.0004988900966528309, "loss": 0.3244, "step": 22990 }, { "epoch": 61.333333333333336, "grad_norm": 0.201171875, "learning_rate": 0.0004988891101018842, "loss": 0.3393, "step": 23000 }, { "epoch": 61.36, "grad_norm": 0.208984375, "learning_rate": 0.0004988881231136548, "loss": 0.3305, "step": 23010 }, { "epoch": 61.38666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0004988871356881441, "loss": 0.3279, "step": 23020 }, { "epoch": 61.413333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004988861478253543, "loss": 0.3339, "step": 23030 }, { "epoch": 61.44, "grad_norm": 0.2578125, "learning_rate": 0.000498885159525287, "loss": 0.3401, "step": 23040 }, { "epoch": 61.46666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004988841707879438, "loss": 0.3444, "step": 23050 }, { "epoch": 61.49333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004988831816133265, "loss": 0.334, "step": 23060 }, { "epoch": 61.52, "grad_norm": 0.1640625, "learning_rate": 0.0004988821920014369, "loss": 0.3373, "step": 23070 }, { "epoch": 61.54666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004988812019522766, "loss": 0.3283, "step": 23080 }, { "epoch": 61.57333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004988802114658474, "loss": 0.3306, "step": 23090 }, { "epoch": 61.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004988792205421511, "loss": 0.3255, "step": 23100 }, { "epoch": 61.626666666666665, "grad_norm": 0.2158203125, "learning_rate": 0.0004988782291811895, "loss": 0.3215, "step": 23110 }, { "epoch": 61.653333333333336, "grad_norm": 0.1708984375, "learning_rate": 0.0004988772373829641, "loss": 0.3355, "step": 23120 }, { "epoch": 61.68, "grad_norm": 0.17578125, "learning_rate": 0.0004988762451474768, "loss": 0.3241, "step": 23130 }, { "epoch": 61.70666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004988752524747295, "loss": 0.3246, "step": 23140 }, { "epoch": 61.733333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004988742593647237, "loss": 0.3417, "step": 23150 }, { "epoch": 61.76, "grad_norm": 0.328125, "learning_rate": 0.0004988732658174611, "loss": 0.3426, "step": 23160 }, { "epoch": 61.78666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0004988722718329437, "loss": 0.3426, "step": 23170 }, { "epoch": 61.81333333333333, "grad_norm": 0.2109375, "learning_rate": 0.000498871277411173, "loss": 0.325, "step": 23180 }, { "epoch": 61.84, "grad_norm": 0.2578125, "learning_rate": 0.000498870282552151, "loss": 0.3251, "step": 23190 }, { "epoch": 61.86666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004988692872558791, "loss": 0.3263, "step": 23200 }, { "epoch": 61.89333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004988682915223595, "loss": 0.3264, "step": 23210 }, { "epoch": 61.92, "grad_norm": 0.212890625, "learning_rate": 0.0004988672953515936, "loss": 0.33, "step": 23220 }, { "epoch": 61.946666666666665, "grad_norm": 0.251953125, "learning_rate": 0.0004988662987435832, "loss": 0.3298, "step": 23230 }, { "epoch": 61.973333333333336, "grad_norm": 0.2158203125, "learning_rate": 0.0004988653016983302, "loss": 0.3383, "step": 23240 }, { "epoch": 62.0, "grad_norm": 0.1787109375, "learning_rate": 0.0004988643042158361, "loss": 0.3265, "step": 23250 }, { "epoch": 62.0, "eval_loss": 0.4039948582649231, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8642, "eval_samples_per_second": 1.349, "eval_steps_per_second": 0.084, "step": 23250 }, { "epoch": 62.026666666666664, "grad_norm": 0.1953125, "learning_rate": 0.000498863306296103, "loss": 0.3485, "step": 23260 }, { "epoch": 62.053333333333335, "grad_norm": 0.1796875, "learning_rate": 0.0004988623079391324, "loss": 0.3547, "step": 23270 }, { "epoch": 62.08, "grad_norm": 0.19921875, "learning_rate": 0.0004988613091449261, "loss": 0.3388, "step": 23280 }, { "epoch": 62.10666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.000498860309913486, "loss": 0.3397, "step": 23290 }, { "epoch": 62.13333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004988593102448136, "loss": 0.333, "step": 23300 }, { "epoch": 62.16, "grad_norm": 0.1904296875, "learning_rate": 0.0004988583101389108, "loss": 0.3394, "step": 23310 }, { "epoch": 62.18666666666667, "grad_norm": 0.1611328125, "learning_rate": 0.0004988573095957794, "loss": 0.3333, "step": 23320 }, { "epoch": 62.21333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.000498856308615421, "loss": 0.3226, "step": 23330 }, { "epoch": 62.24, "grad_norm": 0.1962890625, "learning_rate": 0.0004988553071978375, "loss": 0.3271, "step": 23340 }, { "epoch": 62.266666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004988543053430307, "loss": 0.3343, "step": 23350 }, { "epoch": 62.29333333333334, "grad_norm": 0.1728515625, "learning_rate": 0.0004988533030510021, "loss": 0.3289, "step": 23360 }, { "epoch": 62.32, "grad_norm": 0.181640625, "learning_rate": 0.0004988523003217537, "loss": 0.3349, "step": 23370 }, { "epoch": 62.346666666666664, "grad_norm": 0.1884765625, "learning_rate": 0.0004988512971552873, "loss": 0.3357, "step": 23380 }, { "epoch": 62.373333333333335, "grad_norm": 0.212890625, "learning_rate": 0.0004988502935516046, "loss": 0.3281, "step": 23390 }, { "epoch": 62.4, "grad_norm": 0.22265625, "learning_rate": 0.0004988492895107072, "loss": 0.3285, "step": 23400 }, { "epoch": 62.42666666666667, "grad_norm": 0.25, "learning_rate": 0.000498848285032597, "loss": 0.3348, "step": 23410 }, { "epoch": 62.45333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004988472801172758, "loss": 0.3438, "step": 23420 }, { "epoch": 62.48, "grad_norm": 0.2080078125, "learning_rate": 0.0004988462747647453, "loss": 0.3401, "step": 23430 }, { "epoch": 62.50666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004988452689750073, "loss": 0.3357, "step": 23440 }, { "epoch": 62.53333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004988442627480636, "loss": 0.3307, "step": 23450 }, { "epoch": 62.56, "grad_norm": 0.1962890625, "learning_rate": 0.0004988432560839159, "loss": 0.3276, "step": 23460 }, { "epoch": 62.586666666666666, "grad_norm": 0.185546875, "learning_rate": 0.000498842248982566, "loss": 0.3301, "step": 23470 }, { "epoch": 62.61333333333333, "grad_norm": 0.16015625, "learning_rate": 0.0004988412414440156, "loss": 0.3207, "step": 23480 }, { "epoch": 62.64, "grad_norm": 0.1689453125, "learning_rate": 0.0004988402334682666, "loss": 0.3242, "step": 23490 }, { "epoch": 62.666666666666664, "grad_norm": 0.181640625, "learning_rate": 0.0004988392250553207, "loss": 0.3386, "step": 23500 }, { "epoch": 62.693333333333335, "grad_norm": 0.21875, "learning_rate": 0.0004988382162051796, "loss": 0.3182, "step": 23510 }, { "epoch": 62.72, "grad_norm": 0.23828125, "learning_rate": 0.0004988372069178452, "loss": 0.3346, "step": 23520 }, { "epoch": 62.74666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004988361971933192, "loss": 0.3363, "step": 23530 }, { "epoch": 62.77333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004988351870316034, "loss": 0.3478, "step": 23540 }, { "epoch": 62.8, "grad_norm": 0.185546875, "learning_rate": 0.0004988341764326996, "loss": 0.3342, "step": 23550 }, { "epoch": 62.82666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004988331653966095, "loss": 0.3228, "step": 23560 }, { "epoch": 62.85333333333333, "grad_norm": 0.228515625, "learning_rate": 0.000498832153923335, "loss": 0.3262, "step": 23570 }, { "epoch": 62.88, "grad_norm": 0.171875, "learning_rate": 0.0004988311420128777, "loss": 0.3251, "step": 23580 }, { "epoch": 62.906666666666666, "grad_norm": 0.302734375, "learning_rate": 0.0004988301296652395, "loss": 0.3284, "step": 23590 }, { "epoch": 62.93333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004988291168804222, "loss": 0.3282, "step": 23600 }, { "epoch": 62.96, "grad_norm": 0.169921875, "learning_rate": 0.0004988281036584275, "loss": 0.3276, "step": 23610 }, { "epoch": 62.986666666666665, "grad_norm": 0.244140625, "learning_rate": 0.0004988270899992572, "loss": 0.3413, "step": 23620 }, { "epoch": 63.0, "eval_loss": 0.4038945436477661, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.9667, "eval_samples_per_second": 1.146, "eval_steps_per_second": 0.072, "step": 23625 }, { "epoch": 63.013333333333335, "grad_norm": 0.240234375, "learning_rate": 0.0004988260759029131, "loss": 0.33, "step": 23630 }, { "epoch": 63.04, "grad_norm": 0.1982421875, "learning_rate": 0.000498825061369397, "loss": 0.3571, "step": 23640 }, { "epoch": 63.06666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004988240463987108, "loss": 0.3413, "step": 23650 }, { "epoch": 63.093333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.000498823030990856, "loss": 0.3394, "step": 23660 }, { "epoch": 63.12, "grad_norm": 0.1962890625, "learning_rate": 0.0004988220151458344, "loss": 0.335, "step": 23670 }, { "epoch": 63.14666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.000498820998863648, "loss": 0.3362, "step": 23680 }, { "epoch": 63.17333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004988199821442986, "loss": 0.336, "step": 23690 }, { "epoch": 63.2, "grad_norm": 0.205078125, "learning_rate": 0.0004988189649877878, "loss": 0.3286, "step": 23700 }, { "epoch": 63.22666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004988179473941175, "loss": 0.3234, "step": 23710 }, { "epoch": 63.25333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004988169293632894, "loss": 0.3234, "step": 23720 }, { "epoch": 63.28, "grad_norm": 0.2119140625, "learning_rate": 0.0004988159108953054, "loss": 0.3426, "step": 23730 }, { "epoch": 63.306666666666665, "grad_norm": 0.1923828125, "learning_rate": 0.0004988148919901672, "loss": 0.3228, "step": 23740 }, { "epoch": 63.333333333333336, "grad_norm": 0.177734375, "learning_rate": 0.0004988138726478767, "loss": 0.3382, "step": 23750 }, { "epoch": 63.36, "grad_norm": 0.1962890625, "learning_rate": 0.0004988128528684354, "loss": 0.3298, "step": 23760 }, { "epoch": 63.38666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004988118326518456, "loss": 0.3263, "step": 23770 }, { "epoch": 63.413333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004988108119981086, "loss": 0.3327, "step": 23780 }, { "epoch": 63.44, "grad_norm": 0.251953125, "learning_rate": 0.0004988097909072266, "loss": 0.339, "step": 23790 }, { "epoch": 63.46666666666667, "grad_norm": 0.205078125, "learning_rate": 0.000498808769379201, "loss": 0.3432, "step": 23800 }, { "epoch": 63.49333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004988077474140339, "loss": 0.3322, "step": 23810 }, { "epoch": 63.52, "grad_norm": 0.1708984375, "learning_rate": 0.0004988067250117268, "loss": 0.3361, "step": 23820 }, { "epoch": 63.54666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004988057021722819, "loss": 0.3269, "step": 23830 }, { "epoch": 63.57333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004988046788957007, "loss": 0.3293, "step": 23840 }, { "epoch": 63.6, "grad_norm": 0.1962890625, "learning_rate": 0.000498803655181985, "loss": 0.3242, "step": 23850 }, { "epoch": 63.626666666666665, "grad_norm": 0.1845703125, "learning_rate": 0.0004988026310311366, "loss": 0.3207, "step": 23860 }, { "epoch": 63.653333333333336, "grad_norm": 0.1728515625, "learning_rate": 0.0004988016064431575, "loss": 0.3347, "step": 23870 }, { "epoch": 63.68, "grad_norm": 0.169921875, "learning_rate": 0.0004988005814180494, "loss": 0.3231, "step": 23880 }, { "epoch": 63.70666666666666, "grad_norm": 0.298828125, "learning_rate": 0.000498799555955814, "loss": 0.3242, "step": 23890 }, { "epoch": 63.733333333333334, "grad_norm": 0.3125, "learning_rate": 0.0004987985300564531, "loss": 0.3404, "step": 23900 }, { "epoch": 63.76, "grad_norm": 0.55078125, "learning_rate": 0.0004987975037199688, "loss": 0.342, "step": 23910 }, { "epoch": 63.78666666666667, "grad_norm": 0.5703125, "learning_rate": 0.0004987964769463624, "loss": 0.3424, "step": 23920 }, { "epoch": 63.81333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004987954497356362, "loss": 0.3243, "step": 23930 }, { "epoch": 63.84, "grad_norm": 0.1953125, "learning_rate": 0.0004987944220877917, "loss": 0.3239, "step": 23940 }, { "epoch": 63.86666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004987933940028308, "loss": 0.325, "step": 23950 }, { "epoch": 63.89333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004987923654807552, "loss": 0.3254, "step": 23960 }, { "epoch": 63.92, "grad_norm": 0.2080078125, "learning_rate": 0.000498791336521567, "loss": 0.3277, "step": 23970 }, { "epoch": 63.946666666666665, "grad_norm": 0.32421875, "learning_rate": 0.0004987903071252676, "loss": 0.3286, "step": 23980 }, { "epoch": 63.973333333333336, "grad_norm": 0.28125, "learning_rate": 0.0004987892772918592, "loss": 0.3372, "step": 23990 }, { "epoch": 64.0, "grad_norm": 0.236328125, "learning_rate": 0.0004987882470213433, "loss": 0.3251, "step": 24000 }, { "epoch": 64.0, "eval_loss": 0.40351033210754395, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9, "eval_samples_per_second": 1.345, "eval_steps_per_second": 0.084, "step": 24000 }, { "epoch": 64.02666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0004987872163137219, "loss": 0.3472, "step": 24010 }, { "epoch": 64.05333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004987861851689968, "loss": 0.3538, "step": 24020 }, { "epoch": 64.08, "grad_norm": 0.29296875, "learning_rate": 0.0004987851535871696, "loss": 0.3379, "step": 24030 }, { "epoch": 64.10666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004987841215682424, "loss": 0.3388, "step": 24040 }, { "epoch": 64.13333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0004987830891122169, "loss": 0.3322, "step": 24050 }, { "epoch": 64.16, "grad_norm": 0.1650390625, "learning_rate": 0.0004987820562190949, "loss": 0.3377, "step": 24060 }, { "epoch": 64.18666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004987810228888782, "loss": 0.3323, "step": 24070 }, { "epoch": 64.21333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004987799891215685, "loss": 0.3213, "step": 24080 }, { "epoch": 64.24, "grad_norm": 0.208984375, "learning_rate": 0.0004987789549171679, "loss": 0.3264, "step": 24090 }, { "epoch": 64.26666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.000498777920275678, "loss": 0.3322, "step": 24100 }, { "epoch": 64.29333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004987768851971008, "loss": 0.3278, "step": 24110 }, { "epoch": 64.32, "grad_norm": 0.177734375, "learning_rate": 0.0004987758496814379, "loss": 0.3339, "step": 24120 }, { "epoch": 64.34666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004987748137286912, "loss": 0.3343, "step": 24130 }, { "epoch": 64.37333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0004987737773388625, "loss": 0.3268, "step": 24140 }, { "epoch": 64.4, "grad_norm": 0.197265625, "learning_rate": 0.0004987727405119538, "loss": 0.3273, "step": 24150 }, { "epoch": 64.42666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004987717032479668, "loss": 0.3336, "step": 24160 }, { "epoch": 64.45333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004987706655469032, "loss": 0.3429, "step": 24170 }, { "epoch": 64.48, "grad_norm": 0.2109375, "learning_rate": 0.000498769627408765, "loss": 0.3386, "step": 24180 }, { "epoch": 64.50666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004987685888335539, "loss": 0.3347, "step": 24190 }, { "epoch": 64.53333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004987675498212717, "loss": 0.3296, "step": 24200 }, { "epoch": 64.56, "grad_norm": 0.1767578125, "learning_rate": 0.0004987665103719205, "loss": 0.3269, "step": 24210 }, { "epoch": 64.58666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004987654704855018, "loss": 0.3281, "step": 24220 }, { "epoch": 64.61333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004987644301620175, "loss": 0.3199, "step": 24230 }, { "epoch": 64.64, "grad_norm": 0.16796875, "learning_rate": 0.0004987633894014696, "loss": 0.3229, "step": 24240 }, { "epoch": 64.66666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004987623482038598, "loss": 0.3379, "step": 24250 }, { "epoch": 64.69333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004987613065691899, "loss": 0.3186, "step": 24260 }, { "epoch": 64.72, "grad_norm": 0.291015625, "learning_rate": 0.0004987602644974618, "loss": 0.3333, "step": 24270 }, { "epoch": 64.74666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0004987592219886773, "loss": 0.3359, "step": 24280 }, { "epoch": 64.77333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004987581790428383, "loss": 0.3468, "step": 24290 }, { "epoch": 64.8, "grad_norm": 0.2392578125, "learning_rate": 0.0004987571356599464, "loss": 0.3325, "step": 24300 }, { "epoch": 64.82666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004987560918400037, "loss": 0.3214, "step": 24310 }, { "epoch": 64.85333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004987550475830119, "loss": 0.3257, "step": 24320 }, { "epoch": 64.88, "grad_norm": 0.201171875, "learning_rate": 0.000498754002888973, "loss": 0.3242, "step": 24330 }, { "epoch": 64.90666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004987529577578885, "loss": 0.3273, "step": 24340 }, { "epoch": 64.93333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004987519121897605, "loss": 0.3279, "step": 24350 }, { "epoch": 64.96, "grad_norm": 0.1875, "learning_rate": 0.0004987508661845909, "loss": 0.3265, "step": 24360 }, { "epoch": 64.98666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004987498197423813, "loss": 0.3407, "step": 24370 }, { "epoch": 65.0, "eval_loss": 0.4037664532661438, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5042, "eval_samples_per_second": 1.391, "eval_steps_per_second": 0.087, "step": 24375 }, { "epoch": 65.01333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0004987487728631338, "loss": 0.3293, "step": 24380 }, { "epoch": 65.04, "grad_norm": 0.2177734375, "learning_rate": 0.0004987477255468499, "loss": 0.3561, "step": 24390 }, { "epoch": 65.06666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004987466777935318, "loss": 0.3405, "step": 24400 }, { "epoch": 65.09333333333333, "grad_norm": 0.275390625, "learning_rate": 0.000498745629603181, "loss": 0.3377, "step": 24410 }, { "epoch": 65.12, "grad_norm": 0.1806640625, "learning_rate": 0.0004987445809757997, "loss": 0.3341, "step": 24420 }, { "epoch": 65.14666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004987435319113895, "loss": 0.3358, "step": 24430 }, { "epoch": 65.17333333333333, "grad_norm": 0.345703125, "learning_rate": 0.0004987424824099522, "loss": 0.3343, "step": 24440 }, { "epoch": 65.2, "grad_norm": 0.1591796875, "learning_rate": 0.0004987414324714899, "loss": 0.3279, "step": 24450 }, { "epoch": 65.22666666666667, "grad_norm": 0.25, "learning_rate": 0.0004987403820960042, "loss": 0.3228, "step": 24460 }, { "epoch": 65.25333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.000498739331283497, "loss": 0.3226, "step": 24470 }, { "epoch": 65.28, "grad_norm": 0.28125, "learning_rate": 0.0004987382800339702, "loss": 0.3418, "step": 24480 }, { "epoch": 65.30666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004987372283474257, "loss": 0.322, "step": 24490 }, { "epoch": 65.33333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004987361762238652, "loss": 0.3373, "step": 24500 }, { "epoch": 65.36, "grad_norm": 0.2021484375, "learning_rate": 0.0004987351236632907, "loss": 0.3287, "step": 24510 }, { "epoch": 65.38666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004987340706657039, "loss": 0.3264, "step": 24520 }, { "epoch": 65.41333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004987330172311067, "loss": 0.3314, "step": 24530 }, { "epoch": 65.44, "grad_norm": 0.1953125, "learning_rate": 0.0004987319633595011, "loss": 0.3382, "step": 24540 }, { "epoch": 65.46666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004987309090508887, "loss": 0.3428, "step": 24550 }, { "epoch": 65.49333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004987298543052715, "loss": 0.3313, "step": 24560 }, { "epoch": 65.52, "grad_norm": 0.1787109375, "learning_rate": 0.0004987287991226514, "loss": 0.3351, "step": 24570 }, { "epoch": 65.54666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004987277435030302, "loss": 0.3264, "step": 24580 }, { "epoch": 65.57333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004987266874464097, "loss": 0.3286, "step": 24590 }, { "epoch": 65.6, "grad_norm": 0.1787109375, "learning_rate": 0.0004987256309527917, "loss": 0.3237, "step": 24600 }, { "epoch": 65.62666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004987245740221783, "loss": 0.3196, "step": 24610 }, { "epoch": 65.65333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0004987235166545712, "loss": 0.3334, "step": 24620 }, { "epoch": 65.68, "grad_norm": 0.1943359375, "learning_rate": 0.0004987224588499722, "loss": 0.3221, "step": 24630 }, { "epoch": 65.70666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0004987214006083832, "loss": 0.3231, "step": 24640 }, { "epoch": 65.73333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0004987203419298061, "loss": 0.3398, "step": 24650 }, { "epoch": 65.76, "grad_norm": 0.21484375, "learning_rate": 0.0004987192828142428, "loss": 0.3407, "step": 24660 }, { "epoch": 65.78666666666666, "grad_norm": 0.384765625, "learning_rate": 0.000498718223261695, "loss": 0.3411, "step": 24670 }, { "epoch": 65.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004987171632721649, "loss": 0.3231, "step": 24680 }, { "epoch": 65.84, "grad_norm": 0.1904296875, "learning_rate": 0.0004987161028456539, "loss": 0.323, "step": 24690 }, { "epoch": 65.86666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004987150419821642, "loss": 0.3245, "step": 24700 }, { "epoch": 65.89333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004987139806816974, "loss": 0.3246, "step": 24710 }, { "epoch": 65.92, "grad_norm": 0.2490234375, "learning_rate": 0.0004987129189442558, "loss": 0.3276, "step": 24720 }, { "epoch": 65.94666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004987118567698407, "loss": 0.3277, "step": 24730 }, { "epoch": 65.97333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004987107941584545, "loss": 0.3358, "step": 24740 }, { "epoch": 66.0, "grad_norm": 0.4140625, "learning_rate": 0.0004987097311100986, "loss": 0.3241, "step": 24750 }, { "epoch": 66.0, "eval_loss": 0.40279388427734375, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4516, "eval_samples_per_second": 1.397, "eval_steps_per_second": 0.087, "step": 24750 }, { "epoch": 66.02666666666667, "grad_norm": 0.333984375, "learning_rate": 0.0004987086676247753, "loss": 0.3464, "step": 24760 }, { "epoch": 66.05333333333333, "grad_norm": 0.453125, "learning_rate": 0.0004987076037024861, "loss": 0.3522, "step": 24770 }, { "epoch": 66.08, "grad_norm": 0.3046875, "learning_rate": 0.0004987065393432331, "loss": 0.3369, "step": 24780 }, { "epoch": 66.10666666666667, "grad_norm": 0.310546875, "learning_rate": 0.000498705474547018, "loss": 0.3381, "step": 24790 }, { "epoch": 66.13333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0004987044093138429, "loss": 0.3315, "step": 24800 }, { "epoch": 66.16, "grad_norm": 0.18359375, "learning_rate": 0.0004987033436437095, "loss": 0.3366, "step": 24810 }, { "epoch": 66.18666666666667, "grad_norm": 0.42578125, "learning_rate": 0.0004987022775366196, "loss": 0.3316, "step": 24820 }, { "epoch": 66.21333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004987012109925752, "loss": 0.3209, "step": 24830 }, { "epoch": 66.24, "grad_norm": 0.22265625, "learning_rate": 0.0004987001440115783, "loss": 0.3255, "step": 24840 }, { "epoch": 66.26666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004986990765936305, "loss": 0.3316, "step": 24850 }, { "epoch": 66.29333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004986980087387339, "loss": 0.327, "step": 24860 }, { "epoch": 66.32, "grad_norm": 0.185546875, "learning_rate": 0.0004986969404468903, "loss": 0.3334, "step": 24870 }, { "epoch": 66.34666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004986958717181015, "loss": 0.3339, "step": 24880 }, { "epoch": 66.37333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004986948025523694, "loss": 0.3259, "step": 24890 }, { "epoch": 66.4, "grad_norm": 0.224609375, "learning_rate": 0.000498693732949696, "loss": 0.3271, "step": 24900 }, { "epoch": 66.42666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.000498692662910083, "loss": 0.333, "step": 24910 }, { "epoch": 66.45333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004986915924335325, "loss": 0.3417, "step": 24920 }, { "epoch": 66.48, "grad_norm": 0.18359375, "learning_rate": 0.0004986905215200461, "loss": 0.3376, "step": 24930 }, { "epoch": 66.50666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004986894501696259, "loss": 0.3332, "step": 24940 }, { "epoch": 66.53333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004986883783822738, "loss": 0.3286, "step": 24950 }, { "epoch": 66.56, "grad_norm": 0.19921875, "learning_rate": 0.0004986873061579915, "loss": 0.3264, "step": 24960 }, { "epoch": 66.58666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.000498686233496781, "loss": 0.3281, "step": 24970 }, { "epoch": 66.61333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004986851603986443, "loss": 0.3186, "step": 24980 }, { "epoch": 66.64, "grad_norm": 0.1767578125, "learning_rate": 0.000498684086863583, "loss": 0.3221, "step": 24990 }, { "epoch": 66.66666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004986830128915992, "loss": 0.3369, "step": 25000 }, { "epoch": 66.69333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004986819384826947, "loss": 0.3165, "step": 25010 }, { "epoch": 66.72, "grad_norm": 0.296875, "learning_rate": 0.0004986808636368715, "loss": 0.3327, "step": 25020 }, { "epoch": 66.74666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004986797883541314, "loss": 0.3342, "step": 25030 }, { "epoch": 66.77333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0004986787126344762, "loss": 0.3453, "step": 25040 }, { "epoch": 66.8, "grad_norm": 0.2275390625, "learning_rate": 0.0004986776364779079, "loss": 0.3319, "step": 25050 }, { "epoch": 66.82666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004986765598844284, "loss": 0.3208, "step": 25060 }, { "epoch": 66.85333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004986754828540395, "loss": 0.3244, "step": 25070 }, { "epoch": 66.88, "grad_norm": 0.185546875, "learning_rate": 0.0004986744053867432, "loss": 0.3234, "step": 25080 }, { "epoch": 66.90666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004986733274825415, "loss": 0.3257, "step": 25090 }, { "epoch": 66.93333333333334, "grad_norm": 0.1796875, "learning_rate": 0.000498672249141436, "loss": 0.3266, "step": 25100 }, { "epoch": 66.96, "grad_norm": 0.1611328125, "learning_rate": 0.0004986711703634288, "loss": 0.3255, "step": 25110 }, { "epoch": 66.98666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004986700911485217, "loss": 0.34, "step": 25120 }, { "epoch": 67.0, "eval_loss": 0.4035235345363617, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0382, "eval_samples_per_second": 1.45, "eval_steps_per_second": 0.091, "step": 25125 }, { "epoch": 67.01333333333334, "grad_norm": 0.228515625, "learning_rate": 0.0004986690114967166, "loss": 0.3286, "step": 25130 }, { "epoch": 67.04, "grad_norm": 0.359375, "learning_rate": 0.0004986679314080154, "loss": 0.3558, "step": 25140 }, { "epoch": 67.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0004986668508824201, "loss": 0.3398, "step": 25150 }, { "epoch": 67.09333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004986657699199326, "loss": 0.3373, "step": 25160 }, { "epoch": 67.12, "grad_norm": 0.25, "learning_rate": 0.0004986646885205546, "loss": 0.3332, "step": 25170 }, { "epoch": 67.14666666666666, "grad_norm": 0.546875, "learning_rate": 0.0004986636066842882, "loss": 0.3344, "step": 25180 }, { "epoch": 67.17333333333333, "grad_norm": 0.51171875, "learning_rate": 0.0004986625244111353, "loss": 0.3337, "step": 25190 }, { "epoch": 67.2, "grad_norm": 0.515625, "learning_rate": 0.0004986614417010975, "loss": 0.3266, "step": 25200 }, { "epoch": 67.22666666666667, "grad_norm": 0.34375, "learning_rate": 0.0004986603585541771, "loss": 0.3216, "step": 25210 }, { "epoch": 67.25333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004986592749703758, "loss": 0.3217, "step": 25220 }, { "epoch": 67.28, "grad_norm": 0.21875, "learning_rate": 0.0004986581909496954, "loss": 0.3398, "step": 25230 }, { "epoch": 67.30666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004986571064921381, "loss": 0.321, "step": 25240 }, { "epoch": 67.33333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004986560215977056, "loss": 0.3362, "step": 25250 }, { "epoch": 67.36, "grad_norm": 0.1865234375, "learning_rate": 0.0004986549362663999, "loss": 0.3282, "step": 25260 }, { "epoch": 67.38666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004986538504982228, "loss": 0.3248, "step": 25270 }, { "epoch": 67.41333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004986527642931763, "loss": 0.331, "step": 25280 }, { "epoch": 67.44, "grad_norm": 0.3046875, "learning_rate": 0.0004986516776512623, "loss": 0.3371, "step": 25290 }, { "epoch": 67.46666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0004986505905724825, "loss": 0.3413, "step": 25300 }, { "epoch": 67.49333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004986495030568392, "loss": 0.3306, "step": 25310 }, { "epoch": 67.52, "grad_norm": 0.201171875, "learning_rate": 0.000498648415104334, "loss": 0.3343, "step": 25320 }, { "epoch": 67.54666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004986473267149691, "loss": 0.3256, "step": 25330 }, { "epoch": 67.57333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.000498646237888746, "loss": 0.3279, "step": 25340 }, { "epoch": 67.6, "grad_norm": 0.197265625, "learning_rate": 0.0004986451486256669, "loss": 0.3229, "step": 25350 }, { "epoch": 67.62666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004986440589257338, "loss": 0.3197, "step": 25360 }, { "epoch": 67.65333333333334, "grad_norm": 0.171875, "learning_rate": 0.0004986429687889482, "loss": 0.333, "step": 25370 }, { "epoch": 67.68, "grad_norm": 0.1845703125, "learning_rate": 0.0004986418782153125, "loss": 0.3215, "step": 25380 }, { "epoch": 67.70666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004986407872048283, "loss": 0.3217, "step": 25390 }, { "epoch": 67.73333333333333, "grad_norm": 0.2890625, "learning_rate": 0.0004986396957574977, "loss": 0.3385, "step": 25400 }, { "epoch": 67.76, "grad_norm": 0.244140625, "learning_rate": 0.0004986386038733225, "loss": 0.3395, "step": 25410 }, { "epoch": 67.78666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004986375115523045, "loss": 0.3401, "step": 25420 }, { "epoch": 67.81333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.000498636418794446, "loss": 0.3222, "step": 25430 }, { "epoch": 67.84, "grad_norm": 0.197265625, "learning_rate": 0.0004986353255997485, "loss": 0.3213, "step": 25440 }, { "epoch": 67.86666666666666, "grad_norm": 0.171875, "learning_rate": 0.0004986342319682142, "loss": 0.3234, "step": 25450 }, { "epoch": 67.89333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.000498633137899845, "loss": 0.3235, "step": 25460 }, { "epoch": 67.92, "grad_norm": 0.2275390625, "learning_rate": 0.0004986320433946427, "loss": 0.3259, "step": 25470 }, { "epoch": 67.94666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004986309484526093, "loss": 0.3268, "step": 25480 }, { "epoch": 67.97333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004986298530737467, "loss": 0.3351, "step": 25490 }, { "epoch": 68.0, "grad_norm": 0.2099609375, "learning_rate": 0.0004986287572580568, "loss": 0.3234, "step": 25500 }, { "epoch": 68.0, "eval_loss": 0.4041942358016968, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3187, "eval_samples_per_second": 1.414, "eval_steps_per_second": 0.088, "step": 25500 }, { "epoch": 68.02666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0004986276610055416, "loss": 0.3453, "step": 25510 }, { "epoch": 68.05333333333333, "grad_norm": 0.17578125, "learning_rate": 0.000498626564316203, "loss": 0.3513, "step": 25520 }, { "epoch": 68.08, "grad_norm": 0.28515625, "learning_rate": 0.0004986254671900429, "loss": 0.3359, "step": 25530 }, { "epoch": 68.10666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0004986243696270631, "loss": 0.337, "step": 25540 }, { "epoch": 68.13333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004986232716272658, "loss": 0.3296, "step": 25550 }, { "epoch": 68.16, "grad_norm": 0.2421875, "learning_rate": 0.0004986221731906527, "loss": 0.3366, "step": 25560 }, { "epoch": 68.18666666666667, "grad_norm": 0.255859375, "learning_rate": 0.000498621074317226, "loss": 0.3302, "step": 25570 }, { "epoch": 68.21333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004986199750069872, "loss": 0.3195, "step": 25580 }, { "epoch": 68.24, "grad_norm": 0.287109375, "learning_rate": 0.0004986188752599386, "loss": 0.3237, "step": 25590 }, { "epoch": 68.26666666666667, "grad_norm": 0.271484375, "learning_rate": 0.000498617775076082, "loss": 0.3306, "step": 25600 }, { "epoch": 68.29333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004986166744554194, "loss": 0.3252, "step": 25610 }, { "epoch": 68.32, "grad_norm": 0.173828125, "learning_rate": 0.0004986155733979526, "loss": 0.3319, "step": 25620 }, { "epoch": 68.34666666666666, "grad_norm": 0.1962890625, "learning_rate": 0.0004986144719036836, "loss": 0.3319, "step": 25630 }, { "epoch": 68.37333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004986133699726146, "loss": 0.3243, "step": 25640 }, { "epoch": 68.4, "grad_norm": 0.19921875, "learning_rate": 0.000498612267604747, "loss": 0.3266, "step": 25650 }, { "epoch": 68.42666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004986111648000831, "loss": 0.3327, "step": 25660 }, { "epoch": 68.45333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004986100615586249, "loss": 0.341, "step": 25670 }, { "epoch": 68.48, "grad_norm": 0.2236328125, "learning_rate": 0.000498608957880374, "loss": 0.3365, "step": 25680 }, { "epoch": 68.50666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004986078537653327, "loss": 0.3325, "step": 25690 }, { "epoch": 68.53333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004986067492135027, "loss": 0.3278, "step": 25700 }, { "epoch": 68.56, "grad_norm": 0.27734375, "learning_rate": 0.0004986056442248861, "loss": 0.325, "step": 25710 }, { "epoch": 68.58666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004986045387994847, "loss": 0.327, "step": 25720 }, { "epoch": 68.61333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004986034329373004, "loss": 0.3184, "step": 25730 }, { "epoch": 68.64, "grad_norm": 0.1865234375, "learning_rate": 0.0004986023266383354, "loss": 0.3211, "step": 25740 }, { "epoch": 68.66666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004986012199025914, "loss": 0.3363, "step": 25750 }, { "epoch": 68.69333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004986001127300705, "loss": 0.3158, "step": 25760 }, { "epoch": 68.72, "grad_norm": 0.2138671875, "learning_rate": 0.0004985990051207745, "loss": 0.3311, "step": 25770 }, { "epoch": 68.74666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004985978970747055, "loss": 0.3338, "step": 25780 }, { "epoch": 68.77333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004985967885918653, "loss": 0.3455, "step": 25790 }, { "epoch": 68.8, "grad_norm": 0.2197265625, "learning_rate": 0.000498595679672256, "loss": 0.3307, "step": 25800 }, { "epoch": 68.82666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004985945703158794, "loss": 0.3191, "step": 25810 }, { "epoch": 68.85333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0004985934605227375, "loss": 0.3242, "step": 25820 }, { "epoch": 68.88, "grad_norm": 0.22265625, "learning_rate": 0.0004985923502928324, "loss": 0.322, "step": 25830 }, { "epoch": 68.90666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004985912396261659, "loss": 0.3252, "step": 25840 }, { "epoch": 68.93333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004985901285227399, "loss": 0.3252, "step": 25850 }, { "epoch": 68.96, "grad_norm": 0.201171875, "learning_rate": 0.0004985890169825563, "loss": 0.3256, "step": 25860 }, { "epoch": 68.98666666666666, "grad_norm": 0.26171875, "learning_rate": 0.0004985879050056173, "loss": 0.339, "step": 25870 }, { "epoch": 69.0, "eval_loss": 0.40402182936668396, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5596, "eval_samples_per_second": 1.274, "eval_steps_per_second": 0.08, "step": 25875 }, { "epoch": 69.01333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004985867925919249, "loss": 0.3279, "step": 25880 }, { "epoch": 69.04, "grad_norm": 0.283203125, "learning_rate": 0.0004985856797414806, "loss": 0.3538, "step": 25890 }, { "epoch": 69.06666666666666, "grad_norm": 0.416015625, "learning_rate": 0.0004985845664542867, "loss": 0.3386, "step": 25900 }, { "epoch": 69.09333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004985834527303452, "loss": 0.3367, "step": 25910 }, { "epoch": 69.12, "grad_norm": 0.173828125, "learning_rate": 0.000498582338569658, "loss": 0.3318, "step": 25920 }, { "epoch": 69.14666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004985812239722268, "loss": 0.3341, "step": 25930 }, { "epoch": 69.17333333333333, "grad_norm": 0.330078125, "learning_rate": 0.000498580108938054, "loss": 0.3331, "step": 25940 }, { "epoch": 69.2, "grad_norm": 0.2197265625, "learning_rate": 0.0004985789934671411, "loss": 0.3262, "step": 25950 }, { "epoch": 69.22666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004985778775594904, "loss": 0.3207, "step": 25960 }, { "epoch": 69.25333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004985767612151038, "loss": 0.321, "step": 25970 }, { "epoch": 69.28, "grad_norm": 0.203125, "learning_rate": 0.0004985756444339831, "loss": 0.3388, "step": 25980 }, { "epoch": 69.30666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.0004985745272161303, "loss": 0.3206, "step": 25990 }, { "epoch": 69.33333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004985734095615476, "loss": 0.3352, "step": 26000 }, { "epoch": 69.36, "grad_norm": 0.2392578125, "learning_rate": 0.0004985722914702367, "loss": 0.3267, "step": 26010 }, { "epoch": 69.38666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004985711729421998, "loss": 0.3244, "step": 26020 }, { "epoch": 69.41333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004985700539774386, "loss": 0.3297, "step": 26030 }, { "epoch": 69.44, "grad_norm": 0.279296875, "learning_rate": 0.0004985689345759552, "loss": 0.3365, "step": 26040 }, { "epoch": 69.46666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004985678147377515, "loss": 0.3406, "step": 26050 }, { "epoch": 69.49333333333334, "grad_norm": 0.244140625, "learning_rate": 0.0004985666944628297, "loss": 0.3293, "step": 26060 }, { "epoch": 69.52, "grad_norm": 0.158203125, "learning_rate": 0.0004985655737511915, "loss": 0.333, "step": 26070 }, { "epoch": 69.54666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004985644526028388, "loss": 0.3243, "step": 26080 }, { "epoch": 69.57333333333334, "grad_norm": 0.17578125, "learning_rate": 0.000498563331017774, "loss": 0.3272, "step": 26090 }, { "epoch": 69.6, "grad_norm": 0.171875, "learning_rate": 0.0004985622089959987, "loss": 0.3221, "step": 26100 }, { "epoch": 69.62666666666667, "grad_norm": 0.171875, "learning_rate": 0.000498561086537515, "loss": 0.3186, "step": 26110 }, { "epoch": 69.65333333333334, "grad_norm": 0.1728515625, "learning_rate": 0.0004985599636423248, "loss": 0.3317, "step": 26120 }, { "epoch": 69.68, "grad_norm": 0.1962890625, "learning_rate": 0.00049855884031043, "loss": 0.32, "step": 26130 }, { "epoch": 69.70666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0004985577165418329, "loss": 0.3212, "step": 26140 }, { "epoch": 69.73333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004985565923365351, "loss": 0.3378, "step": 26150 }, { "epoch": 69.76, "grad_norm": 0.1923828125, "learning_rate": 0.0004985554676945389, "loss": 0.3389, "step": 26160 }, { "epoch": 69.78666666666666, "grad_norm": 0.162109375, "learning_rate": 0.0004985543426158461, "loss": 0.3386, "step": 26170 }, { "epoch": 69.81333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0004985532171004586, "loss": 0.3214, "step": 26180 }, { "epoch": 69.84, "grad_norm": 0.1767578125, "learning_rate": 0.0004985520911483785, "loss": 0.3209, "step": 26190 }, { "epoch": 69.86666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004985509647596079, "loss": 0.3224, "step": 26200 }, { "epoch": 69.89333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004985498379341484, "loss": 0.3226, "step": 26210 }, { "epoch": 69.92, "grad_norm": 0.2109375, "learning_rate": 0.0004985487106720024, "loss": 0.3246, "step": 26220 }, { "epoch": 69.94666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004985475829731716, "loss": 0.3254, "step": 26230 }, { "epoch": 69.97333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004985464548376581, "loss": 0.334, "step": 26240 }, { "epoch": 70.0, "grad_norm": 0.1787109375, "learning_rate": 0.0004985453262654637, "loss": 0.3216, "step": 26250 }, { "epoch": 70.0, "eval_loss": 0.4038293659687042, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1246, "eval_samples_per_second": 1.438, "eval_steps_per_second": 0.09, "step": 26250 }, { "epoch": 70.02666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004985441972565907, "loss": 0.3448, "step": 26260 }, { "epoch": 70.05333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004985430678110409, "loss": 0.3515, "step": 26270 }, { "epoch": 70.08, "grad_norm": 0.296875, "learning_rate": 0.0004985419379288163, "loss": 0.3352, "step": 26280 }, { "epoch": 70.10666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004985408076099188, "loss": 0.3363, "step": 26290 }, { "epoch": 70.13333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0004985396768543507, "loss": 0.3291, "step": 26300 }, { "epoch": 70.16, "grad_norm": 0.2421875, "learning_rate": 0.0004985385456621136, "loss": 0.3347, "step": 26310 }, { "epoch": 70.18666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004985374140332096, "loss": 0.3291, "step": 26320 }, { "epoch": 70.21333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004985362819676408, "loss": 0.3192, "step": 26330 }, { "epoch": 70.24, "grad_norm": 0.2138671875, "learning_rate": 0.0004985351494654092, "loss": 0.3237, "step": 26340 }, { "epoch": 70.26666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004985340165265165, "loss": 0.3296, "step": 26350 }, { "epoch": 70.29333333333334, "grad_norm": 0.1669921875, "learning_rate": 0.0004985328831509651, "loss": 0.3252, "step": 26360 }, { "epoch": 70.32, "grad_norm": 0.2021484375, "learning_rate": 0.0004985317493387568, "loss": 0.3319, "step": 26370 }, { "epoch": 70.34666666666666, "grad_norm": 0.310546875, "learning_rate": 0.0004985306150898935, "loss": 0.3318, "step": 26380 }, { "epoch": 70.37333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004985294804043774, "loss": 0.3246, "step": 26390 }, { "epoch": 70.4, "grad_norm": 0.1904296875, "learning_rate": 0.0004985283452822103, "loss": 0.3252, "step": 26400 }, { "epoch": 70.42666666666666, "grad_norm": 0.3203125, "learning_rate": 0.0004985272097233942, "loss": 0.3312, "step": 26410 }, { "epoch": 70.45333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004985260737279312, "loss": 0.3398, "step": 26420 }, { "epoch": 70.48, "grad_norm": 0.259765625, "learning_rate": 0.0004985249372958234, "loss": 0.3355, "step": 26430 }, { "epoch": 70.50666666666666, "grad_norm": 0.1650390625, "learning_rate": 0.0004985238004270726, "loss": 0.3316, "step": 26440 }, { "epoch": 70.53333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004985226631216807, "loss": 0.3273, "step": 26450 }, { "epoch": 70.56, "grad_norm": 0.181640625, "learning_rate": 0.00049852152537965, "loss": 0.3243, "step": 26460 }, { "epoch": 70.58666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004985203872009823, "loss": 0.3264, "step": 26470 }, { "epoch": 70.61333333333333, "grad_norm": 0.15234375, "learning_rate": 0.0004985192485856797, "loss": 0.3167, "step": 26480 }, { "epoch": 70.64, "grad_norm": 0.181640625, "learning_rate": 0.0004985181095337441, "loss": 0.3204, "step": 26490 }, { "epoch": 70.66666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004985169700451776, "loss": 0.3354, "step": 26500 }, { "epoch": 70.69333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004985158301199821, "loss": 0.3152, "step": 26510 }, { "epoch": 70.72, "grad_norm": 0.3515625, "learning_rate": 0.0004985146897581597, "loss": 0.3316, "step": 26520 }, { "epoch": 70.74666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004985135489597124, "loss": 0.3322, "step": 26530 }, { "epoch": 70.77333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004985124077246421, "loss": 0.3433, "step": 26540 }, { "epoch": 70.8, "grad_norm": 0.2001953125, "learning_rate": 0.0004985112660529509, "loss": 0.3294, "step": 26550 }, { "epoch": 70.82666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004985101239446408, "loss": 0.3186, "step": 26560 }, { "epoch": 70.85333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004985089813997138, "loss": 0.3226, "step": 26570 }, { "epoch": 70.88, "grad_norm": 0.1923828125, "learning_rate": 0.0004985078384181718, "loss": 0.321, "step": 26580 }, { "epoch": 70.90666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.000498506695000017, "loss": 0.3244, "step": 26590 }, { "epoch": 70.93333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.0004985055511452513, "loss": 0.3252, "step": 26600 }, { "epoch": 70.96, "grad_norm": 0.3125, "learning_rate": 0.0004985044068538766, "loss": 0.3242, "step": 26610 }, { "epoch": 70.98666666666666, "grad_norm": 0.24609375, "learning_rate": 0.0004985032621258952, "loss": 0.3377, "step": 26620 }, { "epoch": 71.0, "eval_loss": 0.40259572863578796, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.6997, "eval_samples_per_second": 1.26, "eval_steps_per_second": 0.079, "step": 26625 }, { "epoch": 71.01333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0004985021169613089, "loss": 0.3268, "step": 26630 }, { "epoch": 71.04, "grad_norm": 0.201171875, "learning_rate": 0.0004985009713601196, "loss": 0.3532, "step": 26640 }, { "epoch": 71.06666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004984998253223296, "loss": 0.3375, "step": 26650 }, { "epoch": 71.09333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004984986788479407, "loss": 0.3353, "step": 26660 }, { "epoch": 71.12, "grad_norm": 0.185546875, "learning_rate": 0.0004984975319369551, "loss": 0.3315, "step": 26670 }, { "epoch": 71.14666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004984963845893746, "loss": 0.3331, "step": 26680 }, { "epoch": 71.17333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004984952368052015, "loss": 0.3314, "step": 26690 }, { "epoch": 71.2, "grad_norm": 0.1904296875, "learning_rate": 0.0004984940885844375, "loss": 0.3241, "step": 26700 }, { "epoch": 71.22666666666667, "grad_norm": 0.294921875, "learning_rate": 0.0004984929399270847, "loss": 0.3194, "step": 26710 }, { "epoch": 71.25333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004984917908331454, "loss": 0.32, "step": 26720 }, { "epoch": 71.28, "grad_norm": 0.2265625, "learning_rate": 0.0004984906413026211, "loss": 0.338, "step": 26730 }, { "epoch": 71.30666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004984894913355143, "loss": 0.3199, "step": 26740 }, { "epoch": 71.33333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004984883409318268, "loss": 0.3347, "step": 26750 }, { "epoch": 71.36, "grad_norm": 0.275390625, "learning_rate": 0.0004984871900915606, "loss": 0.3258, "step": 26760 }, { "epoch": 71.38666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004984860388147178, "loss": 0.3231, "step": 26770 }, { "epoch": 71.41333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004984848871013005, "loss": 0.3288, "step": 26780 }, { "epoch": 71.44, "grad_norm": 0.318359375, "learning_rate": 0.0004984837349513106, "loss": 0.3358, "step": 26790 }, { "epoch": 71.46666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004984825823647501, "loss": 0.34, "step": 26800 }, { "epoch": 71.49333333333334, "grad_norm": 0.263671875, "learning_rate": 0.0004984814293416211, "loss": 0.3282, "step": 26810 }, { "epoch": 71.52, "grad_norm": 0.2099609375, "learning_rate": 0.0004984802758819255, "loss": 0.3324, "step": 26820 }, { "epoch": 71.54666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004984791219856656, "loss": 0.3233, "step": 26830 }, { "epoch": 71.57333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004984779676528432, "loss": 0.3255, "step": 26840 }, { "epoch": 71.6, "grad_norm": 0.1708984375, "learning_rate": 0.0004984768128834603, "loss": 0.321, "step": 26850 }, { "epoch": 71.62666666666667, "grad_norm": 0.203125, "learning_rate": 0.000498475657677519, "loss": 0.3172, "step": 26860 }, { "epoch": 71.65333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004984745020350215, "loss": 0.3314, "step": 26870 }, { "epoch": 71.68, "grad_norm": 0.20703125, "learning_rate": 0.0004984733459559694, "loss": 0.3195, "step": 26880 }, { "epoch": 71.70666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004984721894403652, "loss": 0.3202, "step": 26890 }, { "epoch": 71.73333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004984710324882107, "loss": 0.3372, "step": 26900 }, { "epoch": 71.76, "grad_norm": 0.171875, "learning_rate": 0.000498469875099508, "loss": 0.3381, "step": 26910 }, { "epoch": 71.78666666666666, "grad_norm": 0.185546875, "learning_rate": 0.000498468717274259, "loss": 0.3387, "step": 26920 }, { "epoch": 71.81333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004984675590124659, "loss": 0.3207, "step": 26930 }, { "epoch": 71.84, "grad_norm": 0.18359375, "learning_rate": 0.0004984664003141307, "loss": 0.3201, "step": 26940 }, { "epoch": 71.86666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0004984652411792553, "loss": 0.3218, "step": 26950 }, { "epoch": 71.89333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004984640816078419, "loss": 0.3216, "step": 26960 }, { "epoch": 71.92, "grad_norm": 0.2109375, "learning_rate": 0.0004984629215998925, "loss": 0.3243, "step": 26970 }, { "epoch": 71.94666666666667, "grad_norm": 0.265625, "learning_rate": 0.0004984617611554092, "loss": 0.3241, "step": 26980 }, { "epoch": 71.97333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004984606002743938, "loss": 0.3334, "step": 26990 }, { "epoch": 72.0, "grad_norm": 0.2080078125, "learning_rate": 0.0004984594389568486, "loss": 0.3211, "step": 27000 }, { "epoch": 72.0, "eval_loss": 0.40322139859199524, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5525, "eval_samples_per_second": 1.516, "eval_steps_per_second": 0.095, "step": 27000 }, { "epoch": 72.02666666666667, "grad_norm": 0.3359375, "learning_rate": 0.0004984582772027755, "loss": 0.3439, "step": 27010 }, { "epoch": 72.05333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0004984571150121765, "loss": 0.3507, "step": 27020 }, { "epoch": 72.08, "grad_norm": 0.1943359375, "learning_rate": 0.0004984559523850538, "loss": 0.3343, "step": 27030 }, { "epoch": 72.10666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004984547893214093, "loss": 0.3355, "step": 27040 }, { "epoch": 72.13333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004984536258212452, "loss": 0.3276, "step": 27050 }, { "epoch": 72.16, "grad_norm": 0.1875, "learning_rate": 0.0004984524618845634, "loss": 0.3345, "step": 27060 }, { "epoch": 72.18666666666667, "grad_norm": 0.3046875, "learning_rate": 0.0004984512975113659, "loss": 0.3287, "step": 27070 }, { "epoch": 72.21333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.000498450132701655, "loss": 0.3178, "step": 27080 }, { "epoch": 72.24, "grad_norm": 0.17578125, "learning_rate": 0.0004984489674554326, "loss": 0.3223, "step": 27090 }, { "epoch": 72.26666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004984478017727006, "loss": 0.3289, "step": 27100 }, { "epoch": 72.29333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004984466356534612, "loss": 0.3234, "step": 27110 }, { "epoch": 72.32, "grad_norm": 0.1708984375, "learning_rate": 0.0004984454690977165, "loss": 0.3306, "step": 27120 }, { "epoch": 72.34666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0004984443021054685, "loss": 0.3309, "step": 27130 }, { "epoch": 72.37333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004984431346767191, "loss": 0.3224, "step": 27140 }, { "epoch": 72.4, "grad_norm": 0.1943359375, "learning_rate": 0.0004984419668114705, "loss": 0.324, "step": 27150 }, { "epoch": 72.42666666666666, "grad_norm": 0.1630859375, "learning_rate": 0.0004984407985097248, "loss": 0.3299, "step": 27160 }, { "epoch": 72.45333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004984396297714839, "loss": 0.3385, "step": 27170 }, { "epoch": 72.48, "grad_norm": 0.19140625, "learning_rate": 0.0004984384605967501, "loss": 0.3354, "step": 27180 }, { "epoch": 72.50666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004984372909855252, "loss": 0.3308, "step": 27190 }, { "epoch": 72.53333333333333, "grad_norm": 0.1591796875, "learning_rate": 0.0004984361209378113, "loss": 0.3256, "step": 27200 }, { "epoch": 72.56, "grad_norm": 0.251953125, "learning_rate": 0.0004984349504536105, "loss": 0.324, "step": 27210 }, { "epoch": 72.58666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.000498433779532925, "loss": 0.3256, "step": 27220 }, { "epoch": 72.61333333333333, "grad_norm": 0.1533203125, "learning_rate": 0.0004984326081757567, "loss": 0.3164, "step": 27230 }, { "epoch": 72.64, "grad_norm": 0.1591796875, "learning_rate": 0.0004984314363821076, "loss": 0.3194, "step": 27240 }, { "epoch": 72.66666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004984302641519798, "loss": 0.335, "step": 27250 }, { "epoch": 72.69333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004984290914853754, "loss": 0.3142, "step": 27260 }, { "epoch": 72.72, "grad_norm": 0.314453125, "learning_rate": 0.0004984279183822965, "loss": 0.3298, "step": 27270 }, { "epoch": 72.74666666666667, "grad_norm": 0.171875, "learning_rate": 0.000498426744842745, "loss": 0.3318, "step": 27280 }, { "epoch": 72.77333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004984255708667233, "loss": 0.3431, "step": 27290 }, { "epoch": 72.8, "grad_norm": 0.2001953125, "learning_rate": 0.0004984243964542331, "loss": 0.3287, "step": 27300 }, { "epoch": 72.82666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004984232216052766, "loss": 0.3182, "step": 27310 }, { "epoch": 72.85333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0004984220463198559, "loss": 0.322, "step": 27320 }, { "epoch": 72.88, "grad_norm": 0.1875, "learning_rate": 0.000498420870597973, "loss": 0.3209, "step": 27330 }, { "epoch": 72.90666666666667, "grad_norm": 0.2109375, "learning_rate": 0.00049841969443963, "loss": 0.3234, "step": 27340 }, { "epoch": 72.93333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004984185178448289, "loss": 0.324, "step": 27350 }, { "epoch": 72.96, "grad_norm": 0.1640625, "learning_rate": 0.0004984173408135719, "loss": 0.3231, "step": 27360 }, { "epoch": 72.98666666666666, "grad_norm": 0.177734375, "learning_rate": 0.000498416163345861, "loss": 0.3366, "step": 27370 }, { "epoch": 73.0, "eval_loss": 0.4043694734573364, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8094, "eval_samples_per_second": 1.355, "eval_steps_per_second": 0.085, "step": 27375 }, { "epoch": 73.01333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0004984149854416984, "loss": 0.3257, "step": 27380 }, { "epoch": 73.04, "grad_norm": 0.2080078125, "learning_rate": 0.0004984138071010859, "loss": 0.3523, "step": 27390 }, { "epoch": 73.06666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004984126283240257, "loss": 0.3368, "step": 27400 }, { "epoch": 73.09333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004984114491105199, "loss": 0.335, "step": 27410 }, { "epoch": 73.12, "grad_norm": 0.25, "learning_rate": 0.0004984102694605705, "loss": 0.3306, "step": 27420 }, { "epoch": 73.14666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004984090893741797, "loss": 0.3318, "step": 27430 }, { "epoch": 73.17333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004984079088513494, "loss": 0.3313, "step": 27440 }, { "epoch": 73.2, "grad_norm": 0.197265625, "learning_rate": 0.000498406727892082, "loss": 0.3242, "step": 27450 }, { "epoch": 73.22666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0004984055464963791, "loss": 0.3195, "step": 27460 }, { "epoch": 73.25333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004984043646642431, "loss": 0.3192, "step": 27470 }, { "epoch": 73.28, "grad_norm": 0.244140625, "learning_rate": 0.0004984031823956761, "loss": 0.3374, "step": 27480 }, { "epoch": 73.30666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004984019996906799, "loss": 0.3184, "step": 27490 }, { "epoch": 73.33333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004984008165492569, "loss": 0.3335, "step": 27500 }, { "epoch": 73.36, "grad_norm": 0.2119140625, "learning_rate": 0.0004983996329714089, "loss": 0.3252, "step": 27510 }, { "epoch": 73.38666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004983984489571381, "loss": 0.322, "step": 27520 }, { "epoch": 73.41333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004983972645064467, "loss": 0.3287, "step": 27530 }, { "epoch": 73.44, "grad_norm": 0.2890625, "learning_rate": 0.0004983960796193366, "loss": 0.3352, "step": 27540 }, { "epoch": 73.46666666666667, "grad_norm": 0.173828125, "learning_rate": 0.00049839489429581, "loss": 0.3391, "step": 27550 }, { "epoch": 73.49333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0004983937085358689, "loss": 0.328, "step": 27560 }, { "epoch": 73.52, "grad_norm": 0.1748046875, "learning_rate": 0.0004983925223395155, "loss": 0.332, "step": 27570 }, { "epoch": 73.54666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004983913357067517, "loss": 0.3226, "step": 27580 }, { "epoch": 73.57333333333334, "grad_norm": 0.205078125, "learning_rate": 0.0004983901486375797, "loss": 0.3253, "step": 27590 }, { "epoch": 73.6, "grad_norm": 0.2890625, "learning_rate": 0.0004983889611320017, "loss": 0.3204, "step": 27600 }, { "epoch": 73.62666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004983877731900196, "loss": 0.3162, "step": 27610 }, { "epoch": 73.65333333333334, "grad_norm": 0.22265625, "learning_rate": 0.0004983865848116355, "loss": 0.3303, "step": 27620 }, { "epoch": 73.68, "grad_norm": 0.1943359375, "learning_rate": 0.0004983853959968515, "loss": 0.3185, "step": 27630 }, { "epoch": 73.70666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004983842067456698, "loss": 0.3193, "step": 27640 }, { "epoch": 73.73333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004983830170580924, "loss": 0.3361, "step": 27650 }, { "epoch": 73.76, "grad_norm": 0.1845703125, "learning_rate": 0.0004983818269341213, "loss": 0.3365, "step": 27660 }, { "epoch": 73.78666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004983806363737589, "loss": 0.3372, "step": 27670 }, { "epoch": 73.81333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004983794453770069, "loss": 0.3198, "step": 27680 }, { "epoch": 73.84, "grad_norm": 0.208984375, "learning_rate": 0.0004983782539438677, "loss": 0.32, "step": 27690 }, { "epoch": 73.86666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004983770620743432, "loss": 0.321, "step": 27700 }, { "epoch": 73.89333333333333, "grad_norm": 0.158203125, "learning_rate": 0.0004983758697684357, "loss": 0.3209, "step": 27710 }, { "epoch": 73.92, "grad_norm": 0.181640625, "learning_rate": 0.000498374677026147, "loss": 0.3232, "step": 27720 }, { "epoch": 73.94666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004983734838474794, "loss": 0.3244, "step": 27730 }, { "epoch": 73.97333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.000498372290232435, "loss": 0.3325, "step": 27740 }, { "epoch": 74.0, "grad_norm": 0.17578125, "learning_rate": 0.0004983710961810157, "loss": 0.3206, "step": 27750 }, { "epoch": 74.0, "eval_loss": 0.4034038484096527, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9137, "eval_samples_per_second": 1.466, "eval_steps_per_second": 0.092, "step": 27750 }, { "epoch": 74.02666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004983699016932239, "loss": 0.3428, "step": 27760 }, { "epoch": 74.05333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0004983687067690616, "loss": 0.3491, "step": 27770 }, { "epoch": 74.08, "grad_norm": 0.1640625, "learning_rate": 0.0004983675114085306, "loss": 0.333, "step": 27780 }, { "epoch": 74.10666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004983663156116335, "loss": 0.3349, "step": 27790 }, { "epoch": 74.13333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004983651193783721, "loss": 0.3271, "step": 27800 }, { "epoch": 74.16, "grad_norm": 0.2451171875, "learning_rate": 0.0004983639227087484, "loss": 0.3336, "step": 27810 }, { "epoch": 74.18666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004983627256027647, "loss": 0.3276, "step": 27820 }, { "epoch": 74.21333333333334, "grad_norm": 0.224609375, "learning_rate": 0.0004983615280604231, "loss": 0.3172, "step": 27830 }, { "epoch": 74.24, "grad_norm": 0.2275390625, "learning_rate": 0.0004983603300817257, "loss": 0.3218, "step": 27840 }, { "epoch": 74.26666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004983591316666746, "loss": 0.3279, "step": 27850 }, { "epoch": 74.29333333333334, "grad_norm": 0.2353515625, "learning_rate": 0.0004983579328152718, "loss": 0.3233, "step": 27860 }, { "epoch": 74.32, "grad_norm": 0.185546875, "learning_rate": 0.0004983567335275195, "loss": 0.3297, "step": 27870 }, { "epoch": 74.34666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004983555338034197, "loss": 0.3301, "step": 27880 }, { "epoch": 74.37333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004983543336429746, "loss": 0.3226, "step": 27890 }, { "epoch": 74.4, "grad_norm": 0.212890625, "learning_rate": 0.0004983531330461864, "loss": 0.3237, "step": 27900 }, { "epoch": 74.42666666666666, "grad_norm": 0.25390625, "learning_rate": 0.000498351932013057, "loss": 0.3289, "step": 27910 }, { "epoch": 74.45333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004983507305435887, "loss": 0.3379, "step": 27920 }, { "epoch": 74.48, "grad_norm": 0.2041015625, "learning_rate": 0.0004983495286377834, "loss": 0.3341, "step": 27930 }, { "epoch": 74.50666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004983483262956435, "loss": 0.3299, "step": 27940 }, { "epoch": 74.53333333333333, "grad_norm": 0.1533203125, "learning_rate": 0.0004983471235171708, "loss": 0.3259, "step": 27950 }, { "epoch": 74.56, "grad_norm": 0.1806640625, "learning_rate": 0.0004983459203023677, "loss": 0.3221, "step": 27960 }, { "epoch": 74.58666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004983447166512361, "loss": 0.3248, "step": 27970 }, { "epoch": 74.61333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004983435125637783, "loss": 0.3155, "step": 27980 }, { "epoch": 74.64, "grad_norm": 0.1806640625, "learning_rate": 0.0004983423080399962, "loss": 0.3181, "step": 27990 }, { "epoch": 74.66666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004983411030798921, "loss": 0.3335, "step": 28000 }, { "epoch": 74.69333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.000498339897683468, "loss": 0.3127, "step": 28010 }, { "epoch": 74.72, "grad_norm": 0.25390625, "learning_rate": 0.0004983386918507261, "loss": 0.33, "step": 28020 }, { "epoch": 74.74666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004983374855816684, "loss": 0.3306, "step": 28030 }, { "epoch": 74.77333333333333, "grad_norm": 0.275390625, "learning_rate": 0.0004983362788762972, "loss": 0.3421, "step": 28040 }, { "epoch": 74.8, "grad_norm": 0.2216796875, "learning_rate": 0.0004983350717346145, "loss": 0.3285, "step": 28050 }, { "epoch": 74.82666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004983338641566225, "loss": 0.3171, "step": 28060 }, { "epoch": 74.85333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004983326561423231, "loss": 0.3212, "step": 28070 }, { "epoch": 74.88, "grad_norm": 0.25390625, "learning_rate": 0.0004983314476917186, "loss": 0.3198, "step": 28080 }, { "epoch": 74.90666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004983302388048112, "loss": 0.3221, "step": 28090 }, { "epoch": 74.93333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004983290294816029, "loss": 0.3233, "step": 28100 }, { "epoch": 74.96, "grad_norm": 0.1826171875, "learning_rate": 0.0004983278197220959, "loss": 0.322, "step": 28110 }, { "epoch": 74.98666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004983266095262922, "loss": 0.3356, "step": 28120 }, { "epoch": 75.0, "eval_loss": 0.40281620621681213, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5513, "eval_samples_per_second": 1.516, "eval_steps_per_second": 0.095, "step": 28125 }, { "epoch": 75.01333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.000498325398894194, "loss": 0.3252, "step": 28130 }, { "epoch": 75.04, "grad_norm": 0.162109375, "learning_rate": 0.0004983241878258035, "loss": 0.3518, "step": 28140 }, { "epoch": 75.06666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0004983229763211227, "loss": 0.3363, "step": 28150 }, { "epoch": 75.09333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004983217643801538, "loss": 0.3338, "step": 28160 }, { "epoch": 75.12, "grad_norm": 0.185546875, "learning_rate": 0.000498320552002899, "loss": 0.3298, "step": 28170 }, { "epoch": 75.14666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004983193391893603, "loss": 0.3312, "step": 28180 }, { "epoch": 75.17333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0004983181259395399, "loss": 0.33, "step": 28190 }, { "epoch": 75.2, "grad_norm": 0.1904296875, "learning_rate": 0.0004983169122534401, "loss": 0.3232, "step": 28200 }, { "epoch": 75.22666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004983156981310624, "loss": 0.3181, "step": 28210 }, { "epoch": 75.25333333333333, "grad_norm": 0.234375, "learning_rate": 0.0004983144835724097, "loss": 0.3186, "step": 28220 }, { "epoch": 75.28, "grad_norm": 0.21484375, "learning_rate": 0.0004983132685774838, "loss": 0.3371, "step": 28230 }, { "epoch": 75.30666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004983120531462868, "loss": 0.318, "step": 28240 }, { "epoch": 75.33333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004983108372788209, "loss": 0.3321, "step": 28250 }, { "epoch": 75.36, "grad_norm": 0.2119140625, "learning_rate": 0.0004983096209750881, "loss": 0.324, "step": 28260 }, { "epoch": 75.38666666666667, "grad_norm": 0.318359375, "learning_rate": 0.0004983084042350909, "loss": 0.3209, "step": 28270 }, { "epoch": 75.41333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004983071870588309, "loss": 0.327, "step": 28280 }, { "epoch": 75.44, "grad_norm": 0.181640625, "learning_rate": 0.0004983059694463107, "loss": 0.3342, "step": 28290 }, { "epoch": 75.46666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004983047513975323, "loss": 0.3382, "step": 28300 }, { "epoch": 75.49333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004983035329124977, "loss": 0.3271, "step": 28310 }, { "epoch": 75.52, "grad_norm": 0.158203125, "learning_rate": 0.0004983023139912093, "loss": 0.3304, "step": 28320 }, { "epoch": 75.54666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004983010946336689, "loss": 0.3218, "step": 28330 }, { "epoch": 75.57333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0004982998748398789, "loss": 0.3249, "step": 28340 }, { "epoch": 75.6, "grad_norm": 0.28125, "learning_rate": 0.0004982986546098415, "loss": 0.3196, "step": 28350 }, { "epoch": 75.62666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004982974339435587, "loss": 0.3154, "step": 28360 }, { "epoch": 75.65333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004982962128410325, "loss": 0.3295, "step": 28370 }, { "epoch": 75.68, "grad_norm": 0.1767578125, "learning_rate": 0.0004982949913022655, "loss": 0.3178, "step": 28380 }, { "epoch": 75.70666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0004982937693272593, "loss": 0.3187, "step": 28390 }, { "epoch": 75.73333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004982925469160163, "loss": 0.335, "step": 28400 }, { "epoch": 75.76, "grad_norm": 0.189453125, "learning_rate": 0.0004982913240685388, "loss": 0.3361, "step": 28410 }, { "epoch": 75.78666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004982901007848287, "loss": 0.3365, "step": 28420 }, { "epoch": 75.81333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.0004982888770648883, "loss": 0.3193, "step": 28430 }, { "epoch": 75.84, "grad_norm": 0.208984375, "learning_rate": 0.0004982876529087197, "loss": 0.3187, "step": 28440 }, { "epoch": 75.86666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004982864283163251, "loss": 0.3203, "step": 28450 }, { "epoch": 75.89333333333333, "grad_norm": 0.15625, "learning_rate": 0.0004982852032877066, "loss": 0.3207, "step": 28460 }, { "epoch": 75.92, "grad_norm": 0.1943359375, "learning_rate": 0.0004982839778228663, "loss": 0.3222, "step": 28470 }, { "epoch": 75.94666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004982827519218064, "loss": 0.3237, "step": 28480 }, { "epoch": 75.97333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004982815255845291, "loss": 0.332, "step": 28490 }, { "epoch": 76.0, "grad_norm": 0.1845703125, "learning_rate": 0.0004982802988110365, "loss": 0.32, "step": 28500 }, { "epoch": 76.0, "eval_loss": 0.4025021493434906, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7303, "eval_samples_per_second": 1.491, "eval_steps_per_second": 0.093, "step": 28500 }, { "epoch": 76.02666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004982790716013308, "loss": 0.3423, "step": 28510 }, { "epoch": 76.05333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004982778439554141, "loss": 0.3485, "step": 28520 }, { "epoch": 76.08, "grad_norm": 0.181640625, "learning_rate": 0.0004982766158732886, "loss": 0.3321, "step": 28530 }, { "epoch": 76.10666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004982753873549564, "loss": 0.3334, "step": 28540 }, { "epoch": 76.13333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004982741584004198, "loss": 0.3263, "step": 28550 }, { "epoch": 76.16, "grad_norm": 0.1806640625, "learning_rate": 0.0004982729290096808, "loss": 0.333, "step": 28560 }, { "epoch": 76.18666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004982716991827417, "loss": 0.3275, "step": 28570 }, { "epoch": 76.21333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004982704689196044, "loss": 0.3168, "step": 28580 }, { "epoch": 76.24, "grad_norm": 0.2197265625, "learning_rate": 0.0004982692382202714, "loss": 0.3211, "step": 28590 }, { "epoch": 76.26666666666667, "grad_norm": 0.24609375, "learning_rate": 0.0004982680070847446, "loss": 0.327, "step": 28600 }, { "epoch": 76.29333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0004982667755130263, "loss": 0.322, "step": 28610 }, { "epoch": 76.32, "grad_norm": 0.205078125, "learning_rate": 0.0004982655435051187, "loss": 0.3293, "step": 28620 }, { "epoch": 76.34666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0004982643110610238, "loss": 0.3287, "step": 28630 }, { "epoch": 76.37333333333333, "grad_norm": 0.267578125, "learning_rate": 0.000498263078180744, "loss": 0.3216, "step": 28640 }, { "epoch": 76.4, "grad_norm": 0.2109375, "learning_rate": 0.0004982618448642812, "loss": 0.3233, "step": 28650 }, { "epoch": 76.42666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004982606111116378, "loss": 0.3292, "step": 28660 }, { "epoch": 76.45333333333333, "grad_norm": 0.30078125, "learning_rate": 0.0004982593769228158, "loss": 0.3377, "step": 28670 }, { "epoch": 76.48, "grad_norm": 0.2255859375, "learning_rate": 0.0004982581422978174, "loss": 0.3336, "step": 28680 }, { "epoch": 76.50666666666666, "grad_norm": 0.169921875, "learning_rate": 0.0004982569072366448, "loss": 0.3295, "step": 28690 }, { "epoch": 76.53333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0004982556717393003, "loss": 0.3252, "step": 28700 }, { "epoch": 76.56, "grad_norm": 0.259765625, "learning_rate": 0.0004982544358057858, "loss": 0.3219, "step": 28710 }, { "epoch": 76.58666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0004982531994361037, "loss": 0.324, "step": 28720 }, { "epoch": 76.61333333333333, "grad_norm": 0.1591796875, "learning_rate": 0.0004982519626302561, "loss": 0.3157, "step": 28730 }, { "epoch": 76.64, "grad_norm": 0.248046875, "learning_rate": 0.000498250725388245, "loss": 0.3181, "step": 28740 }, { "epoch": 76.66666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0004982494877100729, "loss": 0.3334, "step": 28750 }, { "epoch": 76.69333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004982482495957418, "loss": 0.3126, "step": 28760 }, { "epoch": 76.72, "grad_norm": 0.486328125, "learning_rate": 0.0004982470110452537, "loss": 0.3283, "step": 28770 }, { "epoch": 76.74666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004982457720586112, "loss": 0.3305, "step": 28780 }, { "epoch": 76.77333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004982445326358161, "loss": 0.3414, "step": 28790 }, { "epoch": 76.8, "grad_norm": 0.203125, "learning_rate": 0.0004982432927768708, "loss": 0.3275, "step": 28800 }, { "epoch": 76.82666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0004982420524817773, "loss": 0.3168, "step": 28810 }, { "epoch": 76.85333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004982408117505378, "loss": 0.3207, "step": 28820 }, { "epoch": 76.88, "grad_norm": 0.2333984375, "learning_rate": 0.0004982395705831548, "loss": 0.3189, "step": 28830 }, { "epoch": 76.90666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004982383289796299, "loss": 0.3219, "step": 28840 }, { "epoch": 76.93333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004982370869399659, "loss": 0.3226, "step": 28850 }, { "epoch": 76.96, "grad_norm": 0.263671875, "learning_rate": 0.0004982358444641646, "loss": 0.3217, "step": 28860 }, { "epoch": 76.98666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004982346015522282, "loss": 0.3359, "step": 28870 }, { "epoch": 77.0, "eval_loss": 0.4006229043006897, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4451, "eval_samples_per_second": 1.398, "eval_steps_per_second": 0.087, "step": 28875 }, { "epoch": 77.01333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004982333582041591, "loss": 0.3243, "step": 28880 }, { "epoch": 77.04, "grad_norm": 0.158203125, "learning_rate": 0.0004982321144199592, "loss": 0.3507, "step": 28890 }, { "epoch": 77.06666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004982308701996309, "loss": 0.3354, "step": 28900 }, { "epoch": 77.09333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004982296255431763, "loss": 0.3332, "step": 28910 }, { "epoch": 77.12, "grad_norm": 0.2060546875, "learning_rate": 0.0004982283804505976, "loss": 0.3288, "step": 28920 }, { "epoch": 77.14666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.000498227134921897, "loss": 0.3306, "step": 28930 }, { "epoch": 77.17333333333333, "grad_norm": 0.333984375, "learning_rate": 0.0004982258889570766, "loss": 0.3292, "step": 28940 }, { "epoch": 77.2, "grad_norm": 0.5, "learning_rate": 0.0004982246425561388, "loss": 0.3231, "step": 28950 }, { "epoch": 77.22666666666667, "grad_norm": 0.357421875, "learning_rate": 0.0004982233957190856, "loss": 0.3179, "step": 28960 }, { "epoch": 77.25333333333333, "grad_norm": 0.28125, "learning_rate": 0.0004982221484459193, "loss": 0.3173, "step": 28970 }, { "epoch": 77.28, "grad_norm": 0.23828125, "learning_rate": 0.000498220900736642, "loss": 0.3364, "step": 28980 }, { "epoch": 77.30666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004982196525912559, "loss": 0.3173, "step": 28990 }, { "epoch": 77.33333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004982184040097633, "loss": 0.3312, "step": 29000 }, { "epoch": 77.36, "grad_norm": 0.19140625, "learning_rate": 0.0004982171549921663, "loss": 0.3231, "step": 29010 }, { "epoch": 77.38666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0004982159055384671, "loss": 0.3209, "step": 29020 }, { "epoch": 77.41333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0004982146556486678, "loss": 0.3267, "step": 29030 }, { "epoch": 77.44, "grad_norm": 0.279296875, "learning_rate": 0.0004982134053227709, "loss": 0.333, "step": 29040 }, { "epoch": 77.46666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004982121545607783, "loss": 0.3378, "step": 29050 }, { "epoch": 77.49333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004982109033626923, "loss": 0.3268, "step": 29060 }, { "epoch": 77.52, "grad_norm": 0.171875, "learning_rate": 0.000498209651728515, "loss": 0.3298, "step": 29070 }, { "epoch": 77.54666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004982083996582489, "loss": 0.3207, "step": 29080 }, { "epoch": 77.57333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004982071471518959, "loss": 0.3236, "step": 29090 }, { "epoch": 77.6, "grad_norm": 0.267578125, "learning_rate": 0.0004982058942094583, "loss": 0.319, "step": 29100 }, { "epoch": 77.62666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004982046408309381, "loss": 0.3146, "step": 29110 }, { "epoch": 77.65333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004982033870163379, "loss": 0.3285, "step": 29120 }, { "epoch": 77.68, "grad_norm": 0.1826171875, "learning_rate": 0.0004982021327656597, "loss": 0.3167, "step": 29130 }, { "epoch": 77.70666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004982008780789058, "loss": 0.3173, "step": 29140 }, { "epoch": 77.73333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004981996229560782, "loss": 0.3346, "step": 29150 }, { "epoch": 77.76, "grad_norm": 0.2021484375, "learning_rate": 0.0004981983673971791, "loss": 0.3357, "step": 29160 }, { "epoch": 77.78666666666666, "grad_norm": 0.185546875, "learning_rate": 0.000498197111402211, "loss": 0.3363, "step": 29170 }, { "epoch": 77.81333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004981958549711759, "loss": 0.3185, "step": 29180 }, { "epoch": 77.84, "grad_norm": 0.2080078125, "learning_rate": 0.000498194598104076, "loss": 0.3179, "step": 29190 }, { "epoch": 77.86666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.0004981933408009135, "loss": 0.3195, "step": 29200 }, { "epoch": 77.89333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004981920830616907, "loss": 0.3192, "step": 29210 }, { "epoch": 77.92, "grad_norm": 0.2099609375, "learning_rate": 0.0004981908248864097, "loss": 0.322, "step": 29220 }, { "epoch": 77.94666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.000498189566275073, "loss": 0.323, "step": 29230 }, { "epoch": 77.97333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004981883072276824, "loss": 0.3309, "step": 29240 }, { "epoch": 78.0, "grad_norm": 0.208984375, "learning_rate": 0.0004981870477442403, "loss": 0.3186, "step": 29250 }, { "epoch": 78.0, "eval_loss": 0.4010658264160156, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.7125, "eval_samples_per_second": 1.259, "eval_steps_per_second": 0.079, "step": 29250 }, { "epoch": 78.02666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004981857878247489, "loss": 0.3412, "step": 29260 }, { "epoch": 78.05333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004981845274692105, "loss": 0.3477, "step": 29270 }, { "epoch": 78.08, "grad_norm": 0.193359375, "learning_rate": 0.0004981832666776272, "loss": 0.3325, "step": 29280 }, { "epoch": 78.10666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004981820054500012, "loss": 0.3332, "step": 29290 }, { "epoch": 78.13333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004981807437863348, "loss": 0.3256, "step": 29300 }, { "epoch": 78.16, "grad_norm": 0.255859375, "learning_rate": 0.0004981794816866302, "loss": 0.3319, "step": 29310 }, { "epoch": 78.18666666666667, "grad_norm": 0.296875, "learning_rate": 0.0004981782191508895, "loss": 0.3264, "step": 29320 }, { "epoch": 78.21333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004981769561791152, "loss": 0.316, "step": 29330 }, { "epoch": 78.24, "grad_norm": 0.34765625, "learning_rate": 0.0004981756927713093, "loss": 0.3209, "step": 29340 }, { "epoch": 78.26666666666667, "grad_norm": 0.2578125, "learning_rate": 0.000498174428927474, "loss": 0.3265, "step": 29350 }, { "epoch": 78.29333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004981731646476116, "loss": 0.3213, "step": 29360 }, { "epoch": 78.32, "grad_norm": 0.201171875, "learning_rate": 0.0004981718999317242, "loss": 0.3283, "step": 29370 }, { "epoch": 78.34666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004981706347798143, "loss": 0.3286, "step": 29380 }, { "epoch": 78.37333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004981693691918839, "loss": 0.321, "step": 29390 }, { "epoch": 78.4, "grad_norm": 0.1884765625, "learning_rate": 0.0004981681031679352, "loss": 0.322, "step": 29400 }, { "epoch": 78.42666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004981668367079706, "loss": 0.3283, "step": 29410 }, { "epoch": 78.45333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004981655698119921, "loss": 0.3371, "step": 29420 }, { "epoch": 78.48, "grad_norm": 0.1826171875, "learning_rate": 0.0004981643024800021, "loss": 0.3329, "step": 29430 }, { "epoch": 78.50666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.0004981630347120028, "loss": 0.3286, "step": 29440 }, { "epoch": 78.53333333333333, "grad_norm": 0.1640625, "learning_rate": 0.0004981617665079964, "loss": 0.3235, "step": 29450 }, { "epoch": 78.56, "grad_norm": 0.2421875, "learning_rate": 0.0004981604978679851, "loss": 0.3213, "step": 29460 }, { "epoch": 78.58666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004981592287919711, "loss": 0.3229, "step": 29470 }, { "epoch": 78.61333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004981579592799567, "loss": 0.3148, "step": 29480 }, { "epoch": 78.64, "grad_norm": 0.1728515625, "learning_rate": 0.0004981566893319442, "loss": 0.3173, "step": 29490 }, { "epoch": 78.66666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004981554189479357, "loss": 0.3328, "step": 29500 }, { "epoch": 78.69333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004981541481279334, "loss": 0.3117, "step": 29510 }, { "epoch": 78.72, "grad_norm": 0.396484375, "learning_rate": 0.0004981528768719398, "loss": 0.3272, "step": 29520 }, { "epoch": 78.74666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004981516051799569, "loss": 0.3297, "step": 29530 }, { "epoch": 78.77333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004981503330519869, "loss": 0.3407, "step": 29540 }, { "epoch": 78.8, "grad_norm": 0.49609375, "learning_rate": 0.0004981490604880321, "loss": 0.3273, "step": 29550 }, { "epoch": 78.82666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004981477874880947, "loss": 0.3156, "step": 29560 }, { "epoch": 78.85333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.0004981465140521771, "loss": 0.3195, "step": 29570 }, { "epoch": 78.88, "grad_norm": 0.1875, "learning_rate": 0.0004981452401802814, "loss": 0.3186, "step": 29580 }, { "epoch": 78.90666666666667, "grad_norm": 0.279296875, "learning_rate": 0.00049814396587241, "loss": 0.321, "step": 29590 }, { "epoch": 78.93333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004981426911285648, "loss": 0.3216, "step": 29600 }, { "epoch": 78.96, "grad_norm": 0.169921875, "learning_rate": 0.0004981414159487483, "loss": 0.3209, "step": 29610 }, { "epoch": 78.98666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004981401403329627, "loss": 0.3346, "step": 29620 }, { "epoch": 79.0, "eval_loss": 0.40321120619773865, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.3524, "eval_samples_per_second": 1.295, "eval_steps_per_second": 0.081, "step": 29625 }, { "epoch": 79.01333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004981388642812102, "loss": 0.3239, "step": 29630 }, { "epoch": 79.04, "grad_norm": 0.1689453125, "learning_rate": 0.0004981375877934931, "loss": 0.3501, "step": 29640 }, { "epoch": 79.06666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004981363108698135, "loss": 0.3347, "step": 29650 }, { "epoch": 79.09333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004981350335101738, "loss": 0.3323, "step": 29660 }, { "epoch": 79.12, "grad_norm": 0.2138671875, "learning_rate": 0.0004981337557145763, "loss": 0.3276, "step": 29670 }, { "epoch": 79.14666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.000498132477483023, "loss": 0.3296, "step": 29680 }, { "epoch": 79.17333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0004981311988155164, "loss": 0.3286, "step": 29690 }, { "epoch": 79.2, "grad_norm": 0.2109375, "learning_rate": 0.0004981299197120587, "loss": 0.3216, "step": 29700 }, { "epoch": 79.22666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004981286401726519, "loss": 0.3168, "step": 29710 }, { "epoch": 79.25333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0004981273601972985, "loss": 0.3162, "step": 29720 }, { "epoch": 79.28, "grad_norm": 0.212890625, "learning_rate": 0.0004981260797860007, "loss": 0.335, "step": 29730 }, { "epoch": 79.30666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004981247989387607, "loss": 0.316, "step": 29740 }, { "epoch": 79.33333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004981235176555808, "loss": 0.3309, "step": 29750 }, { "epoch": 79.36, "grad_norm": 0.201171875, "learning_rate": 0.0004981222359364631, "loss": 0.3227, "step": 29760 }, { "epoch": 79.38666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004981209537814102, "loss": 0.3195, "step": 29770 }, { "epoch": 79.41333333333333, "grad_norm": 0.21484375, "learning_rate": 0.000498119671190424, "loss": 0.3253, "step": 29780 }, { "epoch": 79.44, "grad_norm": 0.1748046875, "learning_rate": 0.0004981183881635068, "loss": 0.332, "step": 29790 }, { "epoch": 79.46666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004981171047006611, "loss": 0.3369, "step": 29800 }, { "epoch": 79.49333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.000498115820801889, "loss": 0.3255, "step": 29810 }, { "epoch": 79.52, "grad_norm": 0.19140625, "learning_rate": 0.0004981145364671926, "loss": 0.3294, "step": 29820 }, { "epoch": 79.54666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004981132516965745, "loss": 0.32, "step": 29830 }, { "epoch": 79.57333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004981119664900366, "loss": 0.3228, "step": 29840 }, { "epoch": 79.6, "grad_norm": 0.1826171875, "learning_rate": 0.0004981106808475814, "loss": 0.3182, "step": 29850 }, { "epoch": 79.62666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004981093947692111, "loss": 0.314, "step": 29860 }, { "epoch": 79.65333333333334, "grad_norm": 0.20703125, "learning_rate": 0.000498108108254928, "loss": 0.3282, "step": 29870 }, { "epoch": 79.68, "grad_norm": 0.2041015625, "learning_rate": 0.0004981068213047341, "loss": 0.3159, "step": 29880 }, { "epoch": 79.70666666666666, "grad_norm": 0.22265625, "learning_rate": 0.000498105533918632, "loss": 0.3168, "step": 29890 }, { "epoch": 79.73333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004981042460966238, "loss": 0.3331, "step": 29900 }, { "epoch": 79.76, "grad_norm": 0.2294921875, "learning_rate": 0.0004981029578387118, "loss": 0.3346, "step": 29910 }, { "epoch": 79.78666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.0004981016691448982, "loss": 0.3351, "step": 29920 }, { "epoch": 79.81333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004981003800151854, "loss": 0.3179, "step": 29930 }, { "epoch": 79.84, "grad_norm": 0.2451171875, "learning_rate": 0.0004980990904495756, "loss": 0.3172, "step": 29940 }, { "epoch": 79.86666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004980978004480709, "loss": 0.3183, "step": 29950 }, { "epoch": 79.89333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004980965100106738, "loss": 0.3192, "step": 29960 }, { "epoch": 79.92, "grad_norm": 0.2158203125, "learning_rate": 0.0004980952191373865, "loss": 0.3212, "step": 29970 }, { "epoch": 79.94666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004980939278282112, "loss": 0.3223, "step": 29980 }, { "epoch": 79.97333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0004980926360831502, "loss": 0.3302, "step": 29990 }, { "epoch": 80.0, "grad_norm": 0.1953125, "learning_rate": 0.0004980913439022057, "loss": 0.3186, "step": 30000 }, { "epoch": 80.0, "eval_loss": 0.4013185203075409, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6065, "eval_samples_per_second": 1.509, "eval_steps_per_second": 0.094, "step": 30000 }, { "epoch": 80.02666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004980900512853803, "loss": 0.3407, "step": 30010 }, { "epoch": 80.05333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004980887582326758, "loss": 0.3472, "step": 30020 }, { "epoch": 80.08, "grad_norm": 0.2158203125, "learning_rate": 0.0004980874647440948, "loss": 0.3312, "step": 30030 }, { "epoch": 80.10666666666667, "grad_norm": 0.25, "learning_rate": 0.0004980861708196395, "loss": 0.3322, "step": 30040 }, { "epoch": 80.13333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004980848764593121, "loss": 0.325, "step": 30050 }, { "epoch": 80.16, "grad_norm": 0.27734375, "learning_rate": 0.000498083581663115, "loss": 0.3316, "step": 30060 }, { "epoch": 80.18666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004980822864310503, "loss": 0.3259, "step": 30070 }, { "epoch": 80.21333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004980809907631204, "loss": 0.3151, "step": 30080 }, { "epoch": 80.24, "grad_norm": 0.1875, "learning_rate": 0.0004980796946593275, "loss": 0.3204, "step": 30090 }, { "epoch": 80.26666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004980783981196739, "loss": 0.3259, "step": 30100 }, { "epoch": 80.29333333333334, "grad_norm": 0.220703125, "learning_rate": 0.000498077101144162, "loss": 0.3209, "step": 30110 }, { "epoch": 80.32, "grad_norm": 0.16796875, "learning_rate": 0.000498075803732794, "loss": 0.3278, "step": 30120 }, { "epoch": 80.34666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004980745058855721, "loss": 0.3279, "step": 30130 }, { "epoch": 80.37333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004980732076024986, "loss": 0.3199, "step": 30140 }, { "epoch": 80.4, "grad_norm": 0.193359375, "learning_rate": 0.0004980719088835759, "loss": 0.3214, "step": 30150 }, { "epoch": 80.42666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004980706097288062, "loss": 0.3276, "step": 30160 }, { "epoch": 80.45333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004980693101381917, "loss": 0.3361, "step": 30170 }, { "epoch": 80.48, "grad_norm": 0.2275390625, "learning_rate": 0.0004980680101117347, "loss": 0.3322, "step": 30180 }, { "epoch": 80.50666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004980667096494378, "loss": 0.3278, "step": 30190 }, { "epoch": 80.53333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004980654087513028, "loss": 0.323, "step": 30200 }, { "epoch": 80.56, "grad_norm": 0.33984375, "learning_rate": 0.0004980641074173323, "loss": 0.3201, "step": 30210 }, { "epoch": 80.58666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004980628056475286, "loss": 0.3225, "step": 30220 }, { "epoch": 80.61333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004980615034418938, "loss": 0.3139, "step": 30230 }, { "epoch": 80.64, "grad_norm": 0.177734375, "learning_rate": 0.0004980602008004303, "loss": 0.3163, "step": 30240 }, { "epoch": 80.66666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004980588977231404, "loss": 0.3315, "step": 30250 }, { "epoch": 80.69333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004980575942100262, "loss": 0.3111, "step": 30260 }, { "epoch": 80.72, "grad_norm": 0.306640625, "learning_rate": 0.0004980562902610904, "loss": 0.3269, "step": 30270 }, { "epoch": 80.74666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004980549858763349, "loss": 0.3283, "step": 30280 }, { "epoch": 80.77333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004980536810557622, "loss": 0.3401, "step": 30290 }, { "epoch": 80.8, "grad_norm": 0.2255859375, "learning_rate": 0.0004980523757993745, "loss": 0.3263, "step": 30300 }, { "epoch": 80.82666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004980510701071741, "loss": 0.3149, "step": 30310 }, { "epoch": 80.85333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004980497639791633, "loss": 0.3193, "step": 30320 }, { "epoch": 80.88, "grad_norm": 0.1962890625, "learning_rate": 0.0004980484574153444, "loss": 0.318, "step": 30330 }, { "epoch": 80.90666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004980471504157198, "loss": 0.321, "step": 30340 }, { "epoch": 80.93333333333334, "grad_norm": 0.166015625, "learning_rate": 0.0004980458429802916, "loss": 0.3209, "step": 30350 }, { "epoch": 80.96, "grad_norm": 0.2109375, "learning_rate": 0.0004980445351090623, "loss": 0.3203, "step": 30360 }, { "epoch": 80.98666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004980432268020341, "loss": 0.3333, "step": 30370 }, { "epoch": 81.0, "eval_loss": 0.4018370509147644, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.9021, "eval_samples_per_second": 1.24, "eval_steps_per_second": 0.078, "step": 30375 }, { "epoch": 81.01333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004980419180592091, "loss": 0.323, "step": 30380 }, { "epoch": 81.04, "grad_norm": 0.173828125, "learning_rate": 0.00049804060888059, "loss": 0.3494, "step": 30390 }, { "epoch": 81.06666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004980392992661788, "loss": 0.3341, "step": 30400 }, { "epoch": 81.09333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004980379892159779, "loss": 0.3314, "step": 30410 }, { "epoch": 81.12, "grad_norm": 0.1875, "learning_rate": 0.0004980366787299896, "loss": 0.3272, "step": 30420 }, { "epoch": 81.14666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004980353678082163, "loss": 0.3292, "step": 30430 }, { "epoch": 81.17333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0004980340564506601, "loss": 0.3279, "step": 30440 }, { "epoch": 81.2, "grad_norm": 0.59375, "learning_rate": 0.0004980327446573234, "loss": 0.321, "step": 30450 }, { "epoch": 81.22666666666667, "grad_norm": 0.431640625, "learning_rate": 0.0004980314324282085, "loss": 0.3155, "step": 30460 }, { "epoch": 81.25333333333333, "grad_norm": 0.4921875, "learning_rate": 0.0004980301197633176, "loss": 0.316, "step": 30470 }, { "epoch": 81.28, "grad_norm": 0.369140625, "learning_rate": 0.0004980288066626534, "loss": 0.3346, "step": 30480 }, { "epoch": 81.30666666666667, "grad_norm": 0.427734375, "learning_rate": 0.0004980274931262178, "loss": 0.3156, "step": 30490 }, { "epoch": 81.33333333333333, "grad_norm": 0.490234375, "learning_rate": 0.0004980261791540132, "loss": 0.3307, "step": 30500 }, { "epoch": 81.36, "grad_norm": 0.310546875, "learning_rate": 0.0004980248647460419, "loss": 0.3215, "step": 30510 }, { "epoch": 81.38666666666667, "grad_norm": 0.21875, "learning_rate": 0.0004980235499023064, "loss": 0.3191, "step": 30520 }, { "epoch": 81.41333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004980222346228088, "loss": 0.3253, "step": 30530 }, { "epoch": 81.44, "grad_norm": 0.228515625, "learning_rate": 0.0004980209189075515, "loss": 0.3318, "step": 30540 }, { "epoch": 81.46666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004980196027565367, "loss": 0.3359, "step": 30550 }, { "epoch": 81.49333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004980182861697668, "loss": 0.3249, "step": 30560 }, { "epoch": 81.52, "grad_norm": 0.220703125, "learning_rate": 0.0004980169691472442, "loss": 0.3284, "step": 30570 }, { "epoch": 81.54666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004980156516889711, "loss": 0.3197, "step": 30580 }, { "epoch": 81.57333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004980143337949499, "loss": 0.3226, "step": 30590 }, { "epoch": 81.6, "grad_norm": 0.18359375, "learning_rate": 0.0004980130154651828, "loss": 0.3182, "step": 30600 }, { "epoch": 81.62666666666667, "grad_norm": 0.296875, "learning_rate": 0.0004980116966996722, "loss": 0.3144, "step": 30610 }, { "epoch": 81.65333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004980103774984203, "loss": 0.3275, "step": 30620 }, { "epoch": 81.68, "grad_norm": 0.2080078125, "learning_rate": 0.0004980090578614296, "loss": 0.3163, "step": 30630 }, { "epoch": 81.70666666666666, "grad_norm": 0.326171875, "learning_rate": 0.0004980077377887024, "loss": 0.3164, "step": 30640 }, { "epoch": 81.73333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004980064172802408, "loss": 0.333, "step": 30650 }, { "epoch": 81.76, "grad_norm": 0.345703125, "learning_rate": 0.0004980050963360473, "loss": 0.3345, "step": 30660 }, { "epoch": 81.78666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004980037749561241, "loss": 0.3347, "step": 30670 }, { "epoch": 81.81333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0004980024531404738, "loss": 0.3172, "step": 30680 }, { "epoch": 81.84, "grad_norm": 0.2041015625, "learning_rate": 0.0004980011308890984, "loss": 0.3161, "step": 30690 }, { "epoch": 81.86666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0004979998082020004, "loss": 0.3185, "step": 30700 }, { "epoch": 81.89333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004979984850791822, "loss": 0.3179, "step": 30710 }, { "epoch": 81.92, "grad_norm": 0.197265625, "learning_rate": 0.0004979971615206457, "loss": 0.3204, "step": 30720 }, { "epoch": 81.94666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004979958375263937, "loss": 0.321, "step": 30730 }, { "epoch": 81.97333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004979945130964284, "loss": 0.3295, "step": 30740 }, { "epoch": 82.0, "grad_norm": 0.181640625, "learning_rate": 0.000497993188230752, "loss": 0.3182, "step": 30750 }, { "epoch": 82.0, "eval_loss": 0.4036901295185089, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1585, "eval_samples_per_second": 1.434, "eval_steps_per_second": 0.09, "step": 30750 }, { "epoch": 82.02666666666667, "grad_norm": 0.197265625, "learning_rate": 0.000497991862929367, "loss": 0.3399, "step": 30760 }, { "epoch": 82.05333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004979905371922756, "loss": 0.3466, "step": 30770 }, { "epoch": 82.08, "grad_norm": 0.349609375, "learning_rate": 0.0004979892110194801, "loss": 0.3305, "step": 30780 }, { "epoch": 82.10666666666667, "grad_norm": 0.22265625, "learning_rate": 0.000497987884410983, "loss": 0.3318, "step": 30790 }, { "epoch": 82.13333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0004979865573667865, "loss": 0.3233, "step": 30800 }, { "epoch": 82.16, "grad_norm": 0.20703125, "learning_rate": 0.0004979852298868929, "loss": 0.3305, "step": 30810 }, { "epoch": 82.18666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004979839019713046, "loss": 0.3249, "step": 30820 }, { "epoch": 82.21333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.000497982573620024, "loss": 0.3141, "step": 30830 }, { "epoch": 82.24, "grad_norm": 0.232421875, "learning_rate": 0.0004979812448330533, "loss": 0.3193, "step": 30840 }, { "epoch": 82.26666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004979799156103949, "loss": 0.3252, "step": 30850 }, { "epoch": 82.29333333333334, "grad_norm": 0.17578125, "learning_rate": 0.000497978585952051, "loss": 0.32, "step": 30860 }, { "epoch": 82.32, "grad_norm": 0.1865234375, "learning_rate": 0.0004979772558580243, "loss": 0.327, "step": 30870 }, { "epoch": 82.34666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004979759253283168, "loss": 0.3273, "step": 30880 }, { "epoch": 82.37333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004979745943629309, "loss": 0.3188, "step": 30890 }, { "epoch": 82.4, "grad_norm": 0.2236328125, "learning_rate": 0.000497973262961869, "loss": 0.3206, "step": 30900 }, { "epoch": 82.42666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004979719311251334, "loss": 0.3272, "step": 30910 }, { "epoch": 82.45333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004979705988527264, "loss": 0.3348, "step": 30920 }, { "epoch": 82.48, "grad_norm": 0.17578125, "learning_rate": 0.0004979692661446505, "loss": 0.3311, "step": 30930 }, { "epoch": 82.50666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004979679330009081, "loss": 0.3271, "step": 30940 }, { "epoch": 82.53333333333333, "grad_norm": 0.162109375, "learning_rate": 0.0004979665994215011, "loss": 0.3227, "step": 30950 }, { "epoch": 82.56, "grad_norm": 0.1884765625, "learning_rate": 0.0004979652654064322, "loss": 0.3199, "step": 30960 }, { "epoch": 82.58666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004979639309557037, "loss": 0.3219, "step": 30970 }, { "epoch": 82.61333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004979625960693179, "loss": 0.3131, "step": 30980 }, { "epoch": 82.64, "grad_norm": 0.1796875, "learning_rate": 0.0004979612607472772, "loss": 0.3158, "step": 30990 }, { "epoch": 82.66666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004979599249895839, "loss": 0.3313, "step": 31000 }, { "epoch": 82.69333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004979585887962402, "loss": 0.3103, "step": 31010 }, { "epoch": 82.72, "grad_norm": 0.265625, "learning_rate": 0.0004979572521672487, "loss": 0.3264, "step": 31020 }, { "epoch": 82.74666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004979559151026118, "loss": 0.3278, "step": 31030 }, { "epoch": 82.77333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004979545776023314, "loss": 0.34, "step": 31040 }, { "epoch": 82.8, "grad_norm": 0.251953125, "learning_rate": 0.0004979532396664104, "loss": 0.3258, "step": 31050 }, { "epoch": 82.82666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004979519012948508, "loss": 0.3142, "step": 31060 }, { "epoch": 82.85333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.000497950562487655, "loss": 0.3181, "step": 31070 }, { "epoch": 82.88, "grad_norm": 0.1923828125, "learning_rate": 0.0004979492232448254, "loss": 0.3173, "step": 31080 }, { "epoch": 82.90666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0004979478835663645, "loss": 0.3199, "step": 31090 }, { "epoch": 82.93333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004979465434522743, "loss": 0.3203, "step": 31100 }, { "epoch": 82.96, "grad_norm": 0.1865234375, "learning_rate": 0.0004979452029025576, "loss": 0.3203, "step": 31110 }, { "epoch": 82.98666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004979438619172162, "loss": 0.3325, "step": 31120 }, { "epoch": 83.0, "eval_loss": 0.4017693102359772, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1919, "eval_samples_per_second": 1.43, "eval_steps_per_second": 0.089, "step": 31125 }, { "epoch": 83.01333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.000497942520496253, "loss": 0.323, "step": 31130 }, { "epoch": 83.04, "grad_norm": 0.455078125, "learning_rate": 0.0004979411786396701, "loss": 0.3489, "step": 31140 }, { "epoch": 83.06666666666666, "grad_norm": 0.39453125, "learning_rate": 0.0004979398363474699, "loss": 0.3338, "step": 31150 }, { "epoch": 83.09333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004979384936196547, "loss": 0.3311, "step": 31160 }, { "epoch": 83.12, "grad_norm": 0.177734375, "learning_rate": 0.0004979371504562268, "loss": 0.3275, "step": 31170 }, { "epoch": 83.14666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004979358068571888, "loss": 0.3286, "step": 31180 }, { "epoch": 83.17333333333333, "grad_norm": 0.37109375, "learning_rate": 0.000497934462822543, "loss": 0.3275, "step": 31190 }, { "epoch": 83.2, "grad_norm": 0.21484375, "learning_rate": 0.0004979331183522915, "loss": 0.3204, "step": 31200 }, { "epoch": 83.22666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.000497931773446437, "loss": 0.3157, "step": 31210 }, { "epoch": 83.25333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0004979304281049815, "loss": 0.3158, "step": 31220 }, { "epoch": 83.28, "grad_norm": 0.22265625, "learning_rate": 0.0004979290823279278, "loss": 0.3337, "step": 31230 }, { "epoch": 83.30666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.000497927736115278, "loss": 0.315, "step": 31240 }, { "epoch": 83.33333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004979263894670345, "loss": 0.3291, "step": 31250 }, { "epoch": 83.36, "grad_norm": 0.201171875, "learning_rate": 0.0004979250423831996, "loss": 0.321, "step": 31260 }, { "epoch": 83.38666666666667, "grad_norm": 0.25, "learning_rate": 0.0004979236948637757, "loss": 0.3184, "step": 31270 }, { "epoch": 83.41333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004979223469087654, "loss": 0.3239, "step": 31280 }, { "epoch": 83.44, "grad_norm": 0.208984375, "learning_rate": 0.0004979209985181707, "loss": 0.3313, "step": 31290 }, { "epoch": 83.46666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004979196496919942, "loss": 0.3347, "step": 31300 }, { "epoch": 83.49333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004979183004302382, "loss": 0.3242, "step": 31310 }, { "epoch": 83.52, "grad_norm": 0.2060546875, "learning_rate": 0.0004979169507329051, "loss": 0.328, "step": 31320 }, { "epoch": 83.54666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004979156005999972, "loss": 0.3188, "step": 31330 }, { "epoch": 83.57333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004979142500315169, "loss": 0.322, "step": 31340 }, { "epoch": 83.6, "grad_norm": 0.1845703125, "learning_rate": 0.0004979128990274667, "loss": 0.3173, "step": 31350 }, { "epoch": 83.62666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.0004979115475878488, "loss": 0.3134, "step": 31360 }, { "epoch": 83.65333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004979101957126658, "loss": 0.3268, "step": 31370 }, { "epoch": 83.68, "grad_norm": 0.2001953125, "learning_rate": 0.0004979088434019197, "loss": 0.3151, "step": 31380 }, { "epoch": 83.70666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004979074906556133, "loss": 0.3167, "step": 31390 }, { "epoch": 83.73333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004979061374737485, "loss": 0.3323, "step": 31400 }, { "epoch": 83.76, "grad_norm": 0.2119140625, "learning_rate": 0.0004979047838563282, "loss": 0.3336, "step": 31410 }, { "epoch": 83.78666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004979034298033544, "loss": 0.3345, "step": 31420 }, { "epoch": 83.81333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.0004979020753148297, "loss": 0.3165, "step": 31430 }, { "epoch": 83.84, "grad_norm": 0.48828125, "learning_rate": 0.0004979007203907564, "loss": 0.316, "step": 31440 }, { "epoch": 83.86666666666666, "grad_norm": 0.38671875, "learning_rate": 0.0004978993650311368, "loss": 0.3174, "step": 31450 }, { "epoch": 83.89333333333333, "grad_norm": 0.361328125, "learning_rate": 0.0004978980092359734, "loss": 0.3176, "step": 31460 }, { "epoch": 83.92, "grad_norm": 0.28515625, "learning_rate": 0.0004978966530052685, "loss": 0.3199, "step": 31470 }, { "epoch": 83.94666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0004978952963390245, "loss": 0.3211, "step": 31480 }, { "epoch": 83.97333333333333, "grad_norm": 0.322265625, "learning_rate": 0.0004978939392372438, "loss": 0.3297, "step": 31490 }, { "epoch": 84.0, "grad_norm": 0.17578125, "learning_rate": 0.0004978925816999288, "loss": 0.3171, "step": 31500 }, { "epoch": 84.0, "eval_loss": 0.40279027819633484, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.2383, "eval_samples_per_second": 1.307, "eval_steps_per_second": 0.082, "step": 31500 }, { "epoch": 84.02666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004978912237270819, "loss": 0.3395, "step": 31510 }, { "epoch": 84.05333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004978898653187054, "loss": 0.3455, "step": 31520 }, { "epoch": 84.08, "grad_norm": 0.353515625, "learning_rate": 0.0004978885064748018, "loss": 0.3299, "step": 31530 }, { "epoch": 84.10666666666667, "grad_norm": 0.345703125, "learning_rate": 0.0004978871471953733, "loss": 0.3305, "step": 31540 }, { "epoch": 84.13333333333334, "grad_norm": 0.33984375, "learning_rate": 0.0004978857874804226, "loss": 0.3236, "step": 31550 }, { "epoch": 84.16, "grad_norm": 0.208984375, "learning_rate": 0.0004978844273299518, "loss": 0.3295, "step": 31560 }, { "epoch": 84.18666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004978830667439634, "loss": 0.3247, "step": 31570 }, { "epoch": 84.21333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004978817057224598, "loss": 0.3134, "step": 31580 }, { "epoch": 84.24, "grad_norm": 0.1884765625, "learning_rate": 0.0004978803442654433, "loss": 0.3181, "step": 31590 }, { "epoch": 84.26666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004978789823729165, "loss": 0.3241, "step": 31600 }, { "epoch": 84.29333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004978776200448816, "loss": 0.3197, "step": 31610 }, { "epoch": 84.32, "grad_norm": 0.171875, "learning_rate": 0.000497876257281341, "loss": 0.326, "step": 31620 }, { "epoch": 84.34666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004978748940822973, "loss": 0.3268, "step": 31630 }, { "epoch": 84.37333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004978735304477526, "loss": 0.3187, "step": 31640 }, { "epoch": 84.4, "grad_norm": 0.232421875, "learning_rate": 0.0004978721663777095, "loss": 0.3197, "step": 31650 }, { "epoch": 84.42666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004978708018721703, "loss": 0.3263, "step": 31660 }, { "epoch": 84.45333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004978694369311375, "loss": 0.3344, "step": 31670 }, { "epoch": 84.48, "grad_norm": 0.1748046875, "learning_rate": 0.0004978680715546134, "loss": 0.3307, "step": 31680 }, { "epoch": 84.50666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0004978667057426004, "loss": 0.3266, "step": 31690 }, { "epoch": 84.53333333333333, "grad_norm": 0.32421875, "learning_rate": 0.000497865339495101, "loss": 0.3218, "step": 31700 }, { "epoch": 84.56, "grad_norm": 0.482421875, "learning_rate": 0.0004978639728121175, "loss": 0.3192, "step": 31710 }, { "epoch": 84.58666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004978626056936523, "loss": 0.3206, "step": 31720 }, { "epoch": 84.61333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0004978612381397079, "loss": 0.3119, "step": 31730 }, { "epoch": 84.64, "grad_norm": 0.25390625, "learning_rate": 0.0004978598701502865, "loss": 0.3152, "step": 31740 }, { "epoch": 84.66666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004978585017253907, "loss": 0.3305, "step": 31750 }, { "epoch": 84.69333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004978571328650229, "loss": 0.3089, "step": 31760 }, { "epoch": 84.72, "grad_norm": 0.2099609375, "learning_rate": 0.0004978557635691855, "loss": 0.3257, "step": 31770 }, { "epoch": 84.74666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004978543938378808, "loss": 0.3273, "step": 31780 }, { "epoch": 84.77333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004978530236711112, "loss": 0.3385, "step": 31790 }, { "epoch": 84.8, "grad_norm": 0.2490234375, "learning_rate": 0.0004978516530688791, "loss": 0.3249, "step": 31800 }, { "epoch": 84.82666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004978502820311872, "loss": 0.313, "step": 31810 }, { "epoch": 84.85333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004978489105580376, "loss": 0.3173, "step": 31820 }, { "epoch": 84.88, "grad_norm": 0.234375, "learning_rate": 0.0004978475386494327, "loss": 0.3165, "step": 31830 }, { "epoch": 84.90666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004978461663053751, "loss": 0.3193, "step": 31840 }, { "epoch": 84.93333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004978447935258671, "loss": 0.3194, "step": 31850 }, { "epoch": 84.96, "grad_norm": 0.1611328125, "learning_rate": 0.0004978434203109112, "loss": 0.3191, "step": 31860 }, { "epoch": 84.98666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004978420466605096, "loss": 0.3328, "step": 31870 }, { "epoch": 85.0, "eval_loss": 0.4018096923828125, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.1546, "eval_samples_per_second": 1.316, "eval_steps_per_second": 0.082, "step": 31875 }, { "epoch": 85.01333333333334, "grad_norm": 0.2109375, "learning_rate": 0.000497840672574665, "loss": 0.3213, "step": 31880 }, { "epoch": 85.04, "grad_norm": 0.1826171875, "learning_rate": 0.0004978392980533794, "loss": 0.3481, "step": 31890 }, { "epoch": 85.06666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004978379230966558, "loss": 0.3331, "step": 31900 }, { "epoch": 85.09333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004978365477044961, "loss": 0.3302, "step": 31910 }, { "epoch": 85.12, "grad_norm": 0.1962890625, "learning_rate": 0.000497835171876903, "loss": 0.3258, "step": 31920 }, { "epoch": 85.14666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004978337956138789, "loss": 0.3275, "step": 31930 }, { "epoch": 85.17333333333333, "grad_norm": 0.2578125, "learning_rate": 0.000497832418915426, "loss": 0.3268, "step": 31940 }, { "epoch": 85.2, "grad_norm": 0.2294921875, "learning_rate": 0.000497831041781547, "loss": 0.3198, "step": 31950 }, { "epoch": 85.22666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004978296642122441, "loss": 0.3154, "step": 31960 }, { "epoch": 85.25333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004978282862075199, "loss": 0.3142, "step": 31970 }, { "epoch": 85.28, "grad_norm": 0.2216796875, "learning_rate": 0.0004978269077673766, "loss": 0.3333, "step": 31980 }, { "epoch": 85.30666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004978255288918169, "loss": 0.314, "step": 31990 }, { "epoch": 85.33333333333333, "grad_norm": 0.248046875, "learning_rate": 0.000497824149580843, "loss": 0.3297, "step": 32000 }, { "epoch": 85.36, "grad_norm": 0.1875, "learning_rate": 0.0004978227698344574, "loss": 0.3204, "step": 32010 }, { "epoch": 85.38666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004978213896526625, "loss": 0.3179, "step": 32020 }, { "epoch": 85.41333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004978200090354608, "loss": 0.3232, "step": 32030 }, { "epoch": 85.44, "grad_norm": 0.26171875, "learning_rate": 0.0004978186279828548, "loss": 0.3306, "step": 32040 }, { "epoch": 85.46666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004978172464948465, "loss": 0.334, "step": 32050 }, { "epoch": 85.49333333333334, "grad_norm": 0.236328125, "learning_rate": 0.0004978158645714388, "loss": 0.3239, "step": 32060 }, { "epoch": 85.52, "grad_norm": 0.1669921875, "learning_rate": 0.0004978144822126339, "loss": 0.3274, "step": 32070 }, { "epoch": 85.54666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004978130994184344, "loss": 0.318, "step": 32080 }, { "epoch": 85.57333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004978117161888425, "loss": 0.3213, "step": 32090 }, { "epoch": 85.6, "grad_norm": 0.205078125, "learning_rate": 0.0004978103325238608, "loss": 0.3163, "step": 32100 }, { "epoch": 85.62666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004978089484234916, "loss": 0.3121, "step": 32110 }, { "epoch": 85.65333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004978075638877375, "loss": 0.3262, "step": 32120 }, { "epoch": 85.68, "grad_norm": 0.2099609375, "learning_rate": 0.0004978061789166009, "loss": 0.3144, "step": 32130 }, { "epoch": 85.70666666666666, "grad_norm": 0.248046875, "learning_rate": 0.000497804793510084, "loss": 0.3152, "step": 32140 }, { "epoch": 85.73333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004978034076681895, "loss": 0.3308, "step": 32150 }, { "epoch": 85.76, "grad_norm": 0.2275390625, "learning_rate": 0.0004978020213909197, "loss": 0.3322, "step": 32160 }, { "epoch": 85.78666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0004978006346782771, "loss": 0.3334, "step": 32170 }, { "epoch": 85.81333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.000497799247530264, "loss": 0.3159, "step": 32180 }, { "epoch": 85.84, "grad_norm": 0.234375, "learning_rate": 0.0004977978599468833, "loss": 0.3154, "step": 32190 }, { "epoch": 85.86666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004977964719281367, "loss": 0.3164, "step": 32200 }, { "epoch": 85.89333333333333, "grad_norm": 0.1708984375, "learning_rate": 0.0004977950834740273, "loss": 0.3171, "step": 32210 }, { "epoch": 85.92, "grad_norm": 0.1826171875, "learning_rate": 0.000497793694584557, "loss": 0.3192, "step": 32220 }, { "epoch": 85.94666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004977923052597288, "loss": 0.3203, "step": 32230 }, { "epoch": 85.97333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004977909154995446, "loss": 0.3287, "step": 32240 }, { "epoch": 86.0, "grad_norm": 0.2060546875, "learning_rate": 0.0004977895253040072, "loss": 0.3164, "step": 32250 }, { "epoch": 86.0, "eval_loss": 0.4031406044960022, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3148, "eval_samples_per_second": 1.414, "eval_steps_per_second": 0.088, "step": 32250 }, { "epoch": 86.02666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004977881346731189, "loss": 0.3386, "step": 32260 }, { "epoch": 86.05333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004977867436068823, "loss": 0.3451, "step": 32270 }, { "epoch": 86.08, "grad_norm": 0.18359375, "learning_rate": 0.0004977853521052995, "loss": 0.3293, "step": 32280 }, { "epoch": 86.10666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0004977839601683733, "loss": 0.3302, "step": 32290 }, { "epoch": 86.13333333333334, "grad_norm": 0.251953125, "learning_rate": 0.000497782567796106, "loss": 0.3232, "step": 32300 }, { "epoch": 86.16, "grad_norm": 0.2470703125, "learning_rate": 0.0004977811749885, "loss": 0.3294, "step": 32310 }, { "epoch": 86.18666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004977797817455579, "loss": 0.3237, "step": 32320 }, { "epoch": 86.21333333333334, "grad_norm": 0.28125, "learning_rate": 0.000497778388067282, "loss": 0.3127, "step": 32330 }, { "epoch": 86.24, "grad_norm": 0.1748046875, "learning_rate": 0.0004977769939536748, "loss": 0.3178, "step": 32340 }, { "epoch": 86.26666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004977755994047387, "loss": 0.3233, "step": 32350 }, { "epoch": 86.29333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004977742044204763, "loss": 0.3191, "step": 32360 }, { "epoch": 86.32, "grad_norm": 0.1826171875, "learning_rate": 0.00049777280900089, "loss": 0.3252, "step": 32370 }, { "epoch": 86.34666666666666, "grad_norm": 0.1796875, "learning_rate": 0.000497771413145982, "loss": 0.3253, "step": 32380 }, { "epoch": 86.37333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004977700168557551, "loss": 0.3181, "step": 32390 }, { "epoch": 86.4, "grad_norm": 0.2216796875, "learning_rate": 0.0004977686201302115, "loss": 0.3192, "step": 32400 }, { "epoch": 86.42666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004977672229693538, "loss": 0.3257, "step": 32410 }, { "epoch": 86.45333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004977658253731845, "loss": 0.3339, "step": 32420 }, { "epoch": 86.48, "grad_norm": 0.19140625, "learning_rate": 0.0004977644273417059, "loss": 0.33, "step": 32430 }, { "epoch": 86.50666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004977630288749205, "loss": 0.3257, "step": 32440 }, { "epoch": 86.53333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004977616299728308, "loss": 0.321, "step": 32450 }, { "epoch": 86.56, "grad_norm": 0.1884765625, "learning_rate": 0.0004977602306354393, "loss": 0.3181, "step": 32460 }, { "epoch": 86.58666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004977588308627484, "loss": 0.3203, "step": 32470 }, { "epoch": 86.61333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004977574306547605, "loss": 0.3123, "step": 32480 }, { "epoch": 86.64, "grad_norm": 0.181640625, "learning_rate": 0.0004977560300114781, "loss": 0.3142, "step": 32490 }, { "epoch": 86.66666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004977546289329038, "loss": 0.3299, "step": 32500 }, { "epoch": 86.69333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004977532274190398, "loss": 0.3092, "step": 32510 }, { "epoch": 86.72, "grad_norm": 0.2119140625, "learning_rate": 0.0004977518254698889, "loss": 0.3248, "step": 32520 }, { "epoch": 86.74666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004977504230854531, "loss": 0.327, "step": 32530 }, { "epoch": 86.77333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004977490202657353, "loss": 0.3383, "step": 32540 }, { "epoch": 86.8, "grad_norm": 0.177734375, "learning_rate": 0.0004977476170107377, "loss": 0.3238, "step": 32550 }, { "epoch": 86.82666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.000497746213320463, "loss": 0.3129, "step": 32560 }, { "epoch": 86.85333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004977448091949135, "loss": 0.317, "step": 32570 }, { "epoch": 86.88, "grad_norm": 0.1865234375, "learning_rate": 0.0004977434046340917, "loss": 0.3155, "step": 32580 }, { "epoch": 86.90666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004977419996380001, "loss": 0.3187, "step": 32590 }, { "epoch": 86.93333333333334, "grad_norm": 0.1533203125, "learning_rate": 0.000497740594206641, "loss": 0.3192, "step": 32600 }, { "epoch": 86.96, "grad_norm": 0.158203125, "learning_rate": 0.000497739188340017, "loss": 0.3181, "step": 32610 }, { "epoch": 86.98666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004977377820381306, "loss": 0.3318, "step": 32620 }, { "epoch": 87.0, "eval_loss": 0.3999280035495758, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.8655, "eval_samples_per_second": 1.244, "eval_steps_per_second": 0.078, "step": 32625 }, { "epoch": 87.01333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004977363753009843, "loss": 0.321, "step": 32630 }, { "epoch": 87.04, "grad_norm": 0.2109375, "learning_rate": 0.0004977349681285805, "loss": 0.3472, "step": 32640 }, { "epoch": 87.06666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004977335605209217, "loss": 0.3321, "step": 32650 }, { "epoch": 87.09333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004977321524780103, "loss": 0.3304, "step": 32660 }, { "epoch": 87.12, "grad_norm": 0.1826171875, "learning_rate": 0.0004977307439998489, "loss": 0.3263, "step": 32670 }, { "epoch": 87.14666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004977293350864399, "loss": 0.3266, "step": 32680 }, { "epoch": 87.17333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004977279257377856, "loss": 0.3255, "step": 32690 }, { "epoch": 87.2, "grad_norm": 0.1904296875, "learning_rate": 0.0004977265159538889, "loss": 0.3191, "step": 32700 }, { "epoch": 87.22666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004977251057347519, "loss": 0.3139, "step": 32710 }, { "epoch": 87.25333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004977236950803772, "loss": 0.3139, "step": 32720 }, { "epoch": 87.28, "grad_norm": 0.234375, "learning_rate": 0.0004977222839907673, "loss": 0.3322, "step": 32730 }, { "epoch": 87.30666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004977208724659248, "loss": 0.3132, "step": 32740 }, { "epoch": 87.33333333333333, "grad_norm": 0.24609375, "learning_rate": 0.000497719460505852, "loss": 0.328, "step": 32750 }, { "epoch": 87.36, "grad_norm": 0.2333984375, "learning_rate": 0.0004977180481105514, "loss": 0.3198, "step": 32760 }, { "epoch": 87.38666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004977166352800256, "loss": 0.3167, "step": 32770 }, { "epoch": 87.41333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004977152220142768, "loss": 0.3227, "step": 32780 }, { "epoch": 87.44, "grad_norm": 0.1884765625, "learning_rate": 0.0004977138083133078, "loss": 0.3291, "step": 32790 }, { "epoch": 87.46666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004977123941771209, "loss": 0.334, "step": 32800 }, { "epoch": 87.49333333333334, "grad_norm": 0.28125, "learning_rate": 0.0004977109796057188, "loss": 0.3234, "step": 32810 }, { "epoch": 87.52, "grad_norm": 0.2216796875, "learning_rate": 0.0004977095645991036, "loss": 0.3272, "step": 32820 }, { "epoch": 87.54666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004977081491572782, "loss": 0.3179, "step": 32830 }, { "epoch": 87.57333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004977067332802449, "loss": 0.3203, "step": 32840 }, { "epoch": 87.6, "grad_norm": 0.2041015625, "learning_rate": 0.0004977053169680062, "loss": 0.316, "step": 32850 }, { "epoch": 87.62666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004977039002205645, "loss": 0.3122, "step": 32860 }, { "epoch": 87.65333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004977024830379223, "loss": 0.3248, "step": 32870 }, { "epoch": 87.68, "grad_norm": 0.2138671875, "learning_rate": 0.0004977010654200822, "loss": 0.3133, "step": 32880 }, { "epoch": 87.70666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0004976996473670468, "loss": 0.3144, "step": 32890 }, { "epoch": 87.73333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0004976982288788183, "loss": 0.3308, "step": 32900 }, { "epoch": 87.76, "grad_norm": 0.2177734375, "learning_rate": 0.0004976968099553994, "loss": 0.3319, "step": 32910 }, { "epoch": 87.78666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004976953905967925, "loss": 0.3324, "step": 32920 }, { "epoch": 87.81333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004976939708030002, "loss": 0.315, "step": 32930 }, { "epoch": 87.84, "grad_norm": 0.1787109375, "learning_rate": 0.0004976925505740247, "loss": 0.3143, "step": 32940 }, { "epoch": 87.86666666666666, "grad_norm": 0.189453125, "learning_rate": 0.000497691129909869, "loss": 0.3161, "step": 32950 }, { "epoch": 87.89333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004976897088105351, "loss": 0.3163, "step": 32960 }, { "epoch": 87.92, "grad_norm": 0.2314453125, "learning_rate": 0.0004976882872760258, "loss": 0.3188, "step": 32970 }, { "epoch": 87.94666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004976868653063434, "loss": 0.3195, "step": 32980 }, { "epoch": 87.97333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004976854429014906, "loss": 0.3276, "step": 32990 }, { "epoch": 88.0, "grad_norm": 0.19140625, "learning_rate": 0.0004976840200614697, "loss": 0.3153, "step": 33000 }, { "epoch": 88.0, "eval_loss": 0.40317627787590027, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6833, "eval_samples_per_second": 1.369, "eval_steps_per_second": 0.086, "step": 33000 }, { "epoch": 88.02666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004976825967862834, "loss": 0.3382, "step": 33010 }, { "epoch": 88.05333333333333, "grad_norm": 0.1953125, "learning_rate": 0.000497681173075934, "loss": 0.3446, "step": 33020 }, { "epoch": 88.08, "grad_norm": 0.185546875, "learning_rate": 0.0004976797489304242, "loss": 0.3281, "step": 33030 }, { "epoch": 88.10666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004976783243497565, "loss": 0.3291, "step": 33040 }, { "epoch": 88.13333333333334, "grad_norm": 0.18359375, "learning_rate": 0.000497676899333933, "loss": 0.3222, "step": 33050 }, { "epoch": 88.16, "grad_norm": 0.31640625, "learning_rate": 0.0004976754738829568, "loss": 0.3286, "step": 33060 }, { "epoch": 88.18666666666667, "grad_norm": 0.322265625, "learning_rate": 0.00049767404799683, "loss": 0.3231, "step": 33070 }, { "epoch": 88.21333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004976726216755551, "loss": 0.3128, "step": 33080 }, { "epoch": 88.24, "grad_norm": 0.2109375, "learning_rate": 0.0004976711949191349, "loss": 0.3165, "step": 33090 }, { "epoch": 88.26666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004976697677275717, "loss": 0.3231, "step": 33100 }, { "epoch": 88.29333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004976683401008679, "loss": 0.3181, "step": 33110 }, { "epoch": 88.32, "grad_norm": 0.1552734375, "learning_rate": 0.0004976669120390262, "loss": 0.3246, "step": 33120 }, { "epoch": 88.34666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004976654835420492, "loss": 0.3243, "step": 33130 }, { "epoch": 88.37333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004976640546099392, "loss": 0.3174, "step": 33140 }, { "epoch": 88.4, "grad_norm": 0.2001953125, "learning_rate": 0.0004976626252426987, "loss": 0.3183, "step": 33150 }, { "epoch": 88.42666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004976611954403304, "loss": 0.3253, "step": 33160 }, { "epoch": 88.45333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004976597652028367, "loss": 0.3334, "step": 33170 }, { "epoch": 88.48, "grad_norm": 0.2431640625, "learning_rate": 0.0004976583345302199, "loss": 0.3288, "step": 33180 }, { "epoch": 88.50666666666666, "grad_norm": 0.166015625, "learning_rate": 0.000497656903422483, "loss": 0.325, "step": 33190 }, { "epoch": 88.53333333333333, "grad_norm": 0.177734375, "learning_rate": 0.000497655471879628, "loss": 0.3202, "step": 33200 }, { "epoch": 88.56, "grad_norm": 0.1904296875, "learning_rate": 0.0004976540399016578, "loss": 0.3169, "step": 33210 }, { "epoch": 88.58666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004976526074885748, "loss": 0.3202, "step": 33220 }, { "epoch": 88.61333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004976511746403814, "loss": 0.3113, "step": 33230 }, { "epoch": 88.64, "grad_norm": 0.1689453125, "learning_rate": 0.0004976497413570802, "loss": 0.3137, "step": 33240 }, { "epoch": 88.66666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004976483076386737, "loss": 0.3293, "step": 33250 }, { "epoch": 88.69333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004976468734851645, "loss": 0.3084, "step": 33260 }, { "epoch": 88.72, "grad_norm": 0.1904296875, "learning_rate": 0.0004976454388965551, "loss": 0.3243, "step": 33270 }, { "epoch": 88.74666666666667, "grad_norm": 0.19140625, "learning_rate": 0.000497644003872848, "loss": 0.3264, "step": 33280 }, { "epoch": 88.77333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004976425684140456, "loss": 0.337, "step": 33290 }, { "epoch": 88.8, "grad_norm": 0.1943359375, "learning_rate": 0.0004976411325201506, "loss": 0.3226, "step": 33300 }, { "epoch": 88.82666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004976396961911654, "loss": 0.3121, "step": 33310 }, { "epoch": 88.85333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0004976382594270927, "loss": 0.3163, "step": 33320 }, { "epoch": 88.88, "grad_norm": 0.1767578125, "learning_rate": 0.0004976368222279347, "loss": 0.3152, "step": 33330 }, { "epoch": 88.90666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004976353845936943, "loss": 0.3178, "step": 33340 }, { "epoch": 88.93333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004976339465243737, "loss": 0.3182, "step": 33350 }, { "epoch": 88.96, "grad_norm": 0.216796875, "learning_rate": 0.0004976325080199757, "loss": 0.3177, "step": 33360 }, { "epoch": 88.98666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004976310690805026, "loss": 0.331, "step": 33370 }, { "epoch": 89.0, "eval_loss": 0.4005465805530548, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.737, "eval_samples_per_second": 1.49, "eval_steps_per_second": 0.093, "step": 33375 }, { "epoch": 89.01333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004976296297059571, "loss": 0.3199, "step": 33380 }, { "epoch": 89.04, "grad_norm": 0.1943359375, "learning_rate": 0.0004976281898963417, "loss": 0.3465, "step": 33390 }, { "epoch": 89.06666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004976267496516587, "loss": 0.3318, "step": 33400 }, { "epoch": 89.09333333333333, "grad_norm": 0.353515625, "learning_rate": 0.0004976253089719109, "loss": 0.3287, "step": 33410 }, { "epoch": 89.12, "grad_norm": 0.197265625, "learning_rate": 0.0004976238678571008, "loss": 0.3246, "step": 33420 }, { "epoch": 89.14666666666666, "grad_norm": 0.1630859375, "learning_rate": 0.0004976224263072309, "loss": 0.3262, "step": 33430 }, { "epoch": 89.17333333333333, "grad_norm": 0.326171875, "learning_rate": 0.0004976209843223037, "loss": 0.3258, "step": 33440 }, { "epoch": 89.2, "grad_norm": 0.21875, "learning_rate": 0.0004976195419023218, "loss": 0.3186, "step": 33450 }, { "epoch": 89.22666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004976180990472875, "loss": 0.3135, "step": 33460 }, { "epoch": 89.25333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004976166557572037, "loss": 0.3135, "step": 33470 }, { "epoch": 89.28, "grad_norm": 0.21484375, "learning_rate": 0.0004976152120320726, "loss": 0.3321, "step": 33480 }, { "epoch": 89.30666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004976137678718971, "loss": 0.3135, "step": 33490 }, { "epoch": 89.33333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004976123232766793, "loss": 0.3271, "step": 33500 }, { "epoch": 89.36, "grad_norm": 0.2021484375, "learning_rate": 0.0004976108782464221, "loss": 0.3193, "step": 33510 }, { "epoch": 89.38666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004976094327811279, "loss": 0.3162, "step": 33520 }, { "epoch": 89.41333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004976079868807993, "loss": 0.3222, "step": 33530 }, { "epoch": 89.44, "grad_norm": 0.193359375, "learning_rate": 0.0004976065405454385, "loss": 0.3293, "step": 33540 }, { "epoch": 89.46666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004976050937750486, "loss": 0.3332, "step": 33550 }, { "epoch": 89.49333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004976036465696318, "loss": 0.3223, "step": 33560 }, { "epoch": 89.52, "grad_norm": 0.2119140625, "learning_rate": 0.0004976021989291907, "loss": 0.326, "step": 33570 }, { "epoch": 89.54666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004976007508537279, "loss": 0.3162, "step": 33580 }, { "epoch": 89.57333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004975993023432458, "loss": 0.3197, "step": 33590 }, { "epoch": 89.6, "grad_norm": 0.177734375, "learning_rate": 0.0004975978533977471, "loss": 0.315, "step": 33600 }, { "epoch": 89.62666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004975964040172343, "loss": 0.3113, "step": 33610 }, { "epoch": 89.65333333333334, "grad_norm": 0.234375, "learning_rate": 0.0004975949542017099, "loss": 0.3245, "step": 33620 }, { "epoch": 89.68, "grad_norm": 0.17578125, "learning_rate": 0.0004975935039511764, "loss": 0.3134, "step": 33630 }, { "epoch": 89.70666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004975920532656366, "loss": 0.314, "step": 33640 }, { "epoch": 89.73333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004975906021450928, "loss": 0.3299, "step": 33650 }, { "epoch": 89.76, "grad_norm": 0.306640625, "learning_rate": 0.0004975891505895477, "loss": 0.3316, "step": 33660 }, { "epoch": 89.78666666666666, "grad_norm": 0.2353515625, "learning_rate": 0.0004975876985990037, "loss": 0.3318, "step": 33670 }, { "epoch": 89.81333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0004975862461734634, "loss": 0.3142, "step": 33680 }, { "epoch": 89.84, "grad_norm": 0.19140625, "learning_rate": 0.0004975847933129294, "loss": 0.3135, "step": 33690 }, { "epoch": 89.86666666666666, "grad_norm": 0.232421875, "learning_rate": 0.0004975833400174042, "loss": 0.3152, "step": 33700 }, { "epoch": 89.89333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004975818862868905, "loss": 0.3156, "step": 33710 }, { "epoch": 89.92, "grad_norm": 0.203125, "learning_rate": 0.0004975804321213907, "loss": 0.3179, "step": 33720 }, { "epoch": 89.94666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004975789775209074, "loss": 0.3188, "step": 33730 }, { "epoch": 89.97333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004975775224854431, "loss": 0.3265, "step": 33740 }, { "epoch": 90.0, "grad_norm": 0.1962890625, "learning_rate": 0.0004975760670150004, "loss": 0.3149, "step": 33750 }, { "epoch": 90.0, "eval_loss": 0.4022298753261566, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9141, "eval_samples_per_second": 1.466, "eval_steps_per_second": 0.092, "step": 33750 }, { "epoch": 90.02666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004975746111095819, "loss": 0.3375, "step": 33760 }, { "epoch": 90.05333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004975731547691902, "loss": 0.344, "step": 33770 }, { "epoch": 90.08, "grad_norm": 0.2470703125, "learning_rate": 0.0004975716979938276, "loss": 0.3281, "step": 33780 }, { "epoch": 90.10666666666667, "grad_norm": 0.173828125, "learning_rate": 0.000497570240783497, "loss": 0.3287, "step": 33790 }, { "epoch": 90.13333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004975687831382008, "loss": 0.3208, "step": 33800 }, { "epoch": 90.16, "grad_norm": 0.1767578125, "learning_rate": 0.0004975673250579415, "loss": 0.3279, "step": 33810 }, { "epoch": 90.18666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004975658665427216, "loss": 0.3226, "step": 33820 }, { "epoch": 90.21333333333334, "grad_norm": 0.255859375, "learning_rate": 0.000497564407592544, "loss": 0.312, "step": 33830 }, { "epoch": 90.24, "grad_norm": 0.1875, "learning_rate": 0.000497562948207411, "loss": 0.3159, "step": 33840 }, { "epoch": 90.26666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004975614883873251, "loss": 0.3216, "step": 33850 }, { "epoch": 90.29333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004975600281322891, "loss": 0.3175, "step": 33860 }, { "epoch": 90.32, "grad_norm": 0.1806640625, "learning_rate": 0.0004975585674423054, "loss": 0.3243, "step": 33870 }, { "epoch": 90.34666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004975571063173766, "loss": 0.3234, "step": 33880 }, { "epoch": 90.37333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004975556447575054, "loss": 0.3166, "step": 33890 }, { "epoch": 90.4, "grad_norm": 0.208984375, "learning_rate": 0.0004975541827626941, "loss": 0.318, "step": 33900 }, { "epoch": 90.42666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.0004975527203329454, "loss": 0.3244, "step": 33910 }, { "epoch": 90.45333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004975512574682619, "loss": 0.3327, "step": 33920 }, { "epoch": 90.48, "grad_norm": 0.2392578125, "learning_rate": 0.0004975497941686462, "loss": 0.3288, "step": 33930 }, { "epoch": 90.50666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004975483304341009, "loss": 0.3246, "step": 33940 }, { "epoch": 90.53333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004975468662646285, "loss": 0.3196, "step": 33950 }, { "epoch": 90.56, "grad_norm": 0.173828125, "learning_rate": 0.0004975454016602314, "loss": 0.3171, "step": 33960 }, { "epoch": 90.58666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004975439366209124, "loss": 0.3198, "step": 33970 }, { "epoch": 90.61333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004975424711466741, "loss": 0.3109, "step": 33980 }, { "epoch": 90.64, "grad_norm": 0.1689453125, "learning_rate": 0.0004975410052375189, "loss": 0.3134, "step": 33990 }, { "epoch": 90.66666666666667, "grad_norm": 0.3125, "learning_rate": 0.0004975395388934495, "loss": 0.3289, "step": 34000 }, { "epoch": 90.69333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004975380721144684, "loss": 0.3075, "step": 34010 }, { "epoch": 90.72, "grad_norm": 0.3203125, "learning_rate": 0.0004975366049005783, "loss": 0.3237, "step": 34020 }, { "epoch": 90.74666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004975351372517817, "loss": 0.3249, "step": 34030 }, { "epoch": 90.77333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004975336691680811, "loss": 0.3367, "step": 34040 }, { "epoch": 90.8, "grad_norm": 0.2080078125, "learning_rate": 0.0004975322006494791, "loss": 0.3223, "step": 34050 }, { "epoch": 90.82666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004975307316959785, "loss": 0.3118, "step": 34060 }, { "epoch": 90.85333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004975292623075817, "loss": 0.316, "step": 34070 }, { "epoch": 90.88, "grad_norm": 0.1845703125, "learning_rate": 0.0004975277924842912, "loss": 0.3145, "step": 34080 }, { "epoch": 90.90666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0004975263222261097, "loss": 0.3176, "step": 34090 }, { "epoch": 90.93333333333334, "grad_norm": 0.1630859375, "learning_rate": 0.0004975248515330398, "loss": 0.3175, "step": 34100 }, { "epoch": 90.96, "grad_norm": 0.185546875, "learning_rate": 0.0004975233804050841, "loss": 0.3175, "step": 34110 }, { "epoch": 90.98666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.000497521908842245, "loss": 0.3301, "step": 34120 }, { "epoch": 91.0, "eval_loss": 0.4014798402786255, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3776, "eval_samples_per_second": 1.406, "eval_steps_per_second": 0.088, "step": 34125 }, { "epoch": 91.01333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004975204368445253, "loss": 0.3197, "step": 34130 }, { "epoch": 91.04, "grad_norm": 0.2734375, "learning_rate": 0.0004975189644119274, "loss": 0.3467, "step": 34140 }, { "epoch": 91.06666666666666, "grad_norm": 0.2236328125, "learning_rate": 0.0004975174915444542, "loss": 0.3311, "step": 34150 }, { "epoch": 91.09333333333333, "grad_norm": 0.17578125, "learning_rate": 0.000497516018242108, "loss": 0.3278, "step": 34160 }, { "epoch": 91.12, "grad_norm": 0.2099609375, "learning_rate": 0.0004975145445048913, "loss": 0.3236, "step": 34170 }, { "epoch": 91.14666666666666, "grad_norm": 0.189453125, "learning_rate": 0.000497513070332807, "loss": 0.3257, "step": 34180 }, { "epoch": 91.17333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004975115957258575, "loss": 0.3251, "step": 34190 }, { "epoch": 91.2, "grad_norm": 0.265625, "learning_rate": 0.0004975101206840455, "loss": 0.318, "step": 34200 }, { "epoch": 91.22666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004975086452073734, "loss": 0.3128, "step": 34210 }, { "epoch": 91.25333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004975071692958441, "loss": 0.3117, "step": 34220 }, { "epoch": 91.28, "grad_norm": 0.2314453125, "learning_rate": 0.0004975056929494599, "loss": 0.3311, "step": 34230 }, { "epoch": 91.30666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004975042161682235, "loss": 0.3123, "step": 34240 }, { "epoch": 91.33333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004975027389521376, "loss": 0.3272, "step": 34250 }, { "epoch": 91.36, "grad_norm": 0.185546875, "learning_rate": 0.0004975012613012047, "loss": 0.3181, "step": 34260 }, { "epoch": 91.38666666666667, "grad_norm": 0.234375, "learning_rate": 0.0004974997832154272, "loss": 0.3157, "step": 34270 }, { "epoch": 91.41333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004974983046948081, "loss": 0.3216, "step": 34280 }, { "epoch": 91.44, "grad_norm": 0.1943359375, "learning_rate": 0.0004974968257393497, "loss": 0.3285, "step": 34290 }, { "epoch": 91.46666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004974953463490546, "loss": 0.3323, "step": 34300 }, { "epoch": 91.49333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004974938665239256, "loss": 0.3217, "step": 34310 }, { "epoch": 91.52, "grad_norm": 0.193359375, "learning_rate": 0.0004974923862639652, "loss": 0.3255, "step": 34320 }, { "epoch": 91.54666666666667, "grad_norm": 0.197265625, "learning_rate": 0.000497490905569176, "loss": 0.316, "step": 34330 }, { "epoch": 91.57333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004974894244395605, "loss": 0.3192, "step": 34340 }, { "epoch": 91.6, "grad_norm": 0.1923828125, "learning_rate": 0.0004974879428751214, "loss": 0.315, "step": 34350 }, { "epoch": 91.62666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004974864608758613, "loss": 0.3108, "step": 34360 }, { "epoch": 91.65333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004974849784417829, "loss": 0.324, "step": 34370 }, { "epoch": 91.68, "grad_norm": 0.18359375, "learning_rate": 0.0004974834955728887, "loss": 0.3124, "step": 34380 }, { "epoch": 91.70666666666666, "grad_norm": 0.2353515625, "learning_rate": 0.0004974820122691812, "loss": 0.3138, "step": 34390 }, { "epoch": 91.73333333333333, "grad_norm": 0.244140625, "learning_rate": 0.000497480528530663, "loss": 0.3296, "step": 34400 }, { "epoch": 91.76, "grad_norm": 0.2294921875, "learning_rate": 0.000497479044357337, "loss": 0.331, "step": 34410 }, { "epoch": 91.78666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004974775597492056, "loss": 0.3317, "step": 34420 }, { "epoch": 91.81333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0004974760747062715, "loss": 0.3141, "step": 34430 }, { "epoch": 91.84, "grad_norm": 0.2021484375, "learning_rate": 0.0004974745892285372, "loss": 0.314, "step": 34440 }, { "epoch": 91.86666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004974731033160053, "loss": 0.315, "step": 34450 }, { "epoch": 91.89333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004974716169686785, "loss": 0.3149, "step": 34460 }, { "epoch": 91.92, "grad_norm": 0.189453125, "learning_rate": 0.0004974701301865593, "loss": 0.3176, "step": 34470 }, { "epoch": 91.94666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004974686429696505, "loss": 0.3181, "step": 34480 }, { "epoch": 91.97333333333333, "grad_norm": 0.2216796875, "learning_rate": 0.0004974671553179546, "loss": 0.3263, "step": 34490 }, { "epoch": 92.0, "grad_norm": 0.17578125, "learning_rate": 0.0004974656672314742, "loss": 0.3147, "step": 34500 }, { "epoch": 92.0, "eval_loss": 0.4021482467651367, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.26, "eval_samples_per_second": 1.207, "eval_steps_per_second": 0.075, "step": 34500 }, { "epoch": 92.02666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004974641787102119, "loss": 0.3374, "step": 34510 }, { "epoch": 92.05333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004974626897541703, "loss": 0.3432, "step": 34520 }, { "epoch": 92.08, "grad_norm": 0.208984375, "learning_rate": 0.0004974612003633521, "loss": 0.3278, "step": 34530 }, { "epoch": 92.10666666666667, "grad_norm": 0.23828125, "learning_rate": 0.0004974597105377599, "loss": 0.3289, "step": 34540 }, { "epoch": 92.13333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004974582202773964, "loss": 0.3208, "step": 34550 }, { "epoch": 92.16, "grad_norm": 0.181640625, "learning_rate": 0.0004974567295822639, "loss": 0.3279, "step": 34560 }, { "epoch": 92.18666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004974552384523654, "loss": 0.3219, "step": 34570 }, { "epoch": 92.21333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004974537468877033, "loss": 0.3109, "step": 34580 }, { "epoch": 92.24, "grad_norm": 0.197265625, "learning_rate": 0.0004974522548882803, "loss": 0.3153, "step": 34590 }, { "epoch": 92.26666666666667, "grad_norm": 0.201171875, "learning_rate": 0.000497450762454099, "loss": 0.3211, "step": 34600 }, { "epoch": 92.29333333333334, "grad_norm": 0.18359375, "learning_rate": 0.000497449269585162, "loss": 0.3168, "step": 34610 }, { "epoch": 92.32, "grad_norm": 0.177734375, "learning_rate": 0.0004974477762814719, "loss": 0.3241, "step": 34620 }, { "epoch": 92.34666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004974462825430314, "loss": 0.3234, "step": 34630 }, { "epoch": 92.37333333333333, "grad_norm": 0.201171875, "learning_rate": 0.000497444788369843, "loss": 0.3158, "step": 34640 }, { "epoch": 92.4, "grad_norm": 0.234375, "learning_rate": 0.0004974432937619095, "loss": 0.3174, "step": 34650 }, { "epoch": 92.42666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004974417987192335, "loss": 0.3234, "step": 34660 }, { "epoch": 92.45333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004974403032418174, "loss": 0.3322, "step": 34670 }, { "epoch": 92.48, "grad_norm": 0.1962890625, "learning_rate": 0.0004974388073296642, "loss": 0.3279, "step": 34680 }, { "epoch": 92.50666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004974373109827762, "loss": 0.3246, "step": 34690 }, { "epoch": 92.53333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004974358142011561, "loss": 0.3195, "step": 34700 }, { "epoch": 92.56, "grad_norm": 0.1845703125, "learning_rate": 0.0004974343169848067, "loss": 0.3165, "step": 34710 }, { "epoch": 92.58666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004974328193337304, "loss": 0.3183, "step": 34720 }, { "epoch": 92.61333333333333, "grad_norm": 0.212890625, "learning_rate": 0.00049743132124793, "loss": 0.3101, "step": 34730 }, { "epoch": 92.64, "grad_norm": 0.197265625, "learning_rate": 0.0004974298227274081, "loss": 0.3129, "step": 34740 }, { "epoch": 92.66666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004974283237721673, "loss": 0.328, "step": 34750 }, { "epoch": 92.69333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004974268243822102, "loss": 0.308, "step": 34760 }, { "epoch": 92.72, "grad_norm": 0.24609375, "learning_rate": 0.0004974253245575395, "loss": 0.3233, "step": 34770 }, { "epoch": 92.74666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0004974238242981578, "loss": 0.3247, "step": 34780 }, { "epoch": 92.77333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004974223236040677, "loss": 0.3357, "step": 34790 }, { "epoch": 92.8, "grad_norm": 0.19921875, "learning_rate": 0.000497420822475272, "loss": 0.3224, "step": 34800 }, { "epoch": 92.82666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004974193209117731, "loss": 0.3109, "step": 34810 }, { "epoch": 92.85333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004974178189135739, "loss": 0.3152, "step": 34820 }, { "epoch": 92.88, "grad_norm": 0.1767578125, "learning_rate": 0.0004974163164806767, "loss": 0.3142, "step": 34830 }, { "epoch": 92.90666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004974148136130845, "loss": 0.3167, "step": 34840 }, { "epoch": 92.93333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004974133103107998, "loss": 0.3176, "step": 34850 }, { "epoch": 92.96, "grad_norm": 0.162109375, "learning_rate": 0.0004974118065738251, "loss": 0.3171, "step": 34860 }, { "epoch": 92.98666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004974103024021631, "loss": 0.3297, "step": 34870 }, { "epoch": 93.0, "eval_loss": 0.40197426080703735, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5105, "eval_samples_per_second": 1.279, "eval_steps_per_second": 0.08, "step": 34875 }, { "epoch": 93.01333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004974087977958167, "loss": 0.319, "step": 34880 }, { "epoch": 93.04, "grad_norm": 0.259765625, "learning_rate": 0.0004974072927547882, "loss": 0.346, "step": 34890 }, { "epoch": 93.06666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004974057872790805, "loss": 0.3302, "step": 34900 }, { "epoch": 93.09333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.000497404281368696, "loss": 0.3278, "step": 34910 }, { "epoch": 93.12, "grad_norm": 0.2109375, "learning_rate": 0.0004974027750236376, "loss": 0.3241, "step": 34920 }, { "epoch": 93.14666666666666, "grad_norm": 0.34375, "learning_rate": 0.0004974012682439078, "loss": 0.3251, "step": 34930 }, { "epoch": 93.17333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004973997610295092, "loss": 0.325, "step": 34940 }, { "epoch": 93.2, "grad_norm": 0.17578125, "learning_rate": 0.0004973982533804447, "loss": 0.3173, "step": 34950 }, { "epoch": 93.22666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004973967452967166, "loss": 0.312, "step": 34960 }, { "epoch": 93.25333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004973952367783277, "loss": 0.3115, "step": 34970 }, { "epoch": 93.28, "grad_norm": 0.2216796875, "learning_rate": 0.0004973937278252808, "loss": 0.3302, "step": 34980 }, { "epoch": 93.30666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004973922184375784, "loss": 0.3119, "step": 34990 }, { "epoch": 93.33333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004973907086152231, "loss": 0.3267, "step": 35000 }, { "epoch": 93.36, "grad_norm": 0.24609375, "learning_rate": 0.0004973891983582178, "loss": 0.3178, "step": 35010 }, { "epoch": 93.38666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0004973876876665648, "loss": 0.3152, "step": 35020 }, { "epoch": 93.41333333333333, "grad_norm": 0.177734375, "learning_rate": 0.000497386176540267, "loss": 0.3207, "step": 35030 }, { "epoch": 93.44, "grad_norm": 0.27734375, "learning_rate": 0.000497384664979327, "loss": 0.3276, "step": 35040 }, { "epoch": 93.46666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004973831529837475, "loss": 0.3319, "step": 35050 }, { "epoch": 93.49333333333334, "grad_norm": 0.212890625, "learning_rate": 0.000497381640553531, "loss": 0.3215, "step": 35060 }, { "epoch": 93.52, "grad_norm": 0.181640625, "learning_rate": 0.0004973801276886803, "loss": 0.3249, "step": 35070 }, { "epoch": 93.54666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.000497378614389198, "loss": 0.316, "step": 35080 }, { "epoch": 93.57333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004973771006550868, "loss": 0.3186, "step": 35090 }, { "epoch": 93.6, "grad_norm": 0.228515625, "learning_rate": 0.0004973755864863494, "loss": 0.314, "step": 35100 }, { "epoch": 93.62666666666667, "grad_norm": 0.330078125, "learning_rate": 0.0004973740718829882, "loss": 0.3105, "step": 35110 }, { "epoch": 93.65333333333334, "grad_norm": 0.287109375, "learning_rate": 0.0004973725568450062, "loss": 0.3241, "step": 35120 }, { "epoch": 93.68, "grad_norm": 0.2392578125, "learning_rate": 0.000497371041372406, "loss": 0.3118, "step": 35130 }, { "epoch": 93.70666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004973695254651901, "loss": 0.3132, "step": 35140 }, { "epoch": 93.73333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0004973680091233612, "loss": 0.3296, "step": 35150 }, { "epoch": 93.76, "grad_norm": 0.2021484375, "learning_rate": 0.0004973664923469221, "loss": 0.3304, "step": 35160 }, { "epoch": 93.78666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004973649751358753, "loss": 0.3313, "step": 35170 }, { "epoch": 93.81333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004973634574902236, "loss": 0.3136, "step": 35180 }, { "epoch": 93.84, "grad_norm": 0.208984375, "learning_rate": 0.0004973619394099695, "loss": 0.3131, "step": 35190 }, { "epoch": 93.86666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004973604208951158, "loss": 0.3146, "step": 35200 }, { "epoch": 93.89333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004973589019456652, "loss": 0.3148, "step": 35210 }, { "epoch": 93.92, "grad_norm": 0.2451171875, "learning_rate": 0.0004973573825616203, "loss": 0.3165, "step": 35220 }, { "epoch": 93.94666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004973558627429838, "loss": 0.3177, "step": 35230 }, { "epoch": 93.97333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004973543424897583, "loss": 0.3254, "step": 35240 }, { "epoch": 94.0, "grad_norm": 0.173828125, "learning_rate": 0.0004973528218019466, "loss": 0.3141, "step": 35250 }, { "epoch": 94.0, "eval_loss": 0.4029242694377899, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1078, "eval_samples_per_second": 1.44, "eval_steps_per_second": 0.09, "step": 35250 }, { "epoch": 94.02666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004973513006795513, "loss": 0.3361, "step": 35260 }, { "epoch": 94.05333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.000497349779122575, "loss": 0.3424, "step": 35270 }, { "epoch": 94.08, "grad_norm": 0.2392578125, "learning_rate": 0.0004973482571310204, "loss": 0.3268, "step": 35280 }, { "epoch": 94.10666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004973467347048902, "loss": 0.3283, "step": 35290 }, { "epoch": 94.13333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004973452118441872, "loss": 0.3202, "step": 35300 }, { "epoch": 94.16, "grad_norm": 0.173828125, "learning_rate": 0.0004973436885489139, "loss": 0.3265, "step": 35310 }, { "epoch": 94.18666666666667, "grad_norm": 0.220703125, "learning_rate": 0.000497342164819073, "loss": 0.3214, "step": 35320 }, { "epoch": 94.21333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004973406406546673, "loss": 0.3104, "step": 35330 }, { "epoch": 94.24, "grad_norm": 0.2314453125, "learning_rate": 0.0004973391160556994, "loss": 0.3151, "step": 35340 }, { "epoch": 94.26666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004973375910221719, "loss": 0.3208, "step": 35350 }, { "epoch": 94.29333333333334, "grad_norm": 0.25, "learning_rate": 0.0004973360655540876, "loss": 0.3163, "step": 35360 }, { "epoch": 94.32, "grad_norm": 0.17578125, "learning_rate": 0.0004973345396514492, "loss": 0.3233, "step": 35370 }, { "epoch": 94.34666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004973330133142592, "loss": 0.3232, "step": 35380 }, { "epoch": 94.37333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004973314865425204, "loss": 0.315, "step": 35390 }, { "epoch": 94.4, "grad_norm": 0.255859375, "learning_rate": 0.0004973299593362355, "loss": 0.3169, "step": 35400 }, { "epoch": 94.42666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004973284316954072, "loss": 0.323, "step": 35410 }, { "epoch": 94.45333333333333, "grad_norm": 0.265625, "learning_rate": 0.000497326903620038, "loss": 0.3313, "step": 35420 }, { "epoch": 94.48, "grad_norm": 0.2021484375, "learning_rate": 0.0004973253751101308, "loss": 0.3271, "step": 35430 }, { "epoch": 94.50666666666666, "grad_norm": 0.1748046875, "learning_rate": 0.0004973238461656883, "loss": 0.3235, "step": 35440 }, { "epoch": 94.53333333333333, "grad_norm": 0.1572265625, "learning_rate": 0.0004973223167867131, "loss": 0.3189, "step": 35450 }, { "epoch": 94.56, "grad_norm": 0.185546875, "learning_rate": 0.0004973207869732078, "loss": 0.3157, "step": 35460 }, { "epoch": 94.58666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004973192567251753, "loss": 0.3183, "step": 35470 }, { "epoch": 94.61333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.000497317726042618, "loss": 0.3097, "step": 35480 }, { "epoch": 94.64, "grad_norm": 0.212890625, "learning_rate": 0.000497316194925539, "loss": 0.3119, "step": 35490 }, { "epoch": 94.66666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004973146633739405, "loss": 0.3273, "step": 35500 }, { "epoch": 94.69333333333333, "grad_norm": 0.28515625, "learning_rate": 0.0004973131313878255, "loss": 0.3065, "step": 35510 }, { "epoch": 94.72, "grad_norm": 0.19921875, "learning_rate": 0.0004973115989671967, "loss": 0.3223, "step": 35520 }, { "epoch": 94.74666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004973100661120566, "loss": 0.3241, "step": 35530 }, { "epoch": 94.77333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0004973085328224082, "loss": 0.3356, "step": 35540 }, { "epoch": 94.8, "grad_norm": 0.19140625, "learning_rate": 0.0004973069990982539, "loss": 0.322, "step": 35550 }, { "epoch": 94.82666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004973054649395963, "loss": 0.3104, "step": 35560 }, { "epoch": 94.85333333333334, "grad_norm": 0.28125, "learning_rate": 0.0004973039303464386, "loss": 0.3147, "step": 35570 }, { "epoch": 94.88, "grad_norm": 0.2314453125, "learning_rate": 0.0004973023953187831, "loss": 0.3139, "step": 35580 }, { "epoch": 94.90666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0004973008598566325, "loss": 0.3162, "step": 35590 }, { "epoch": 94.93333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0004972993239599897, "loss": 0.3164, "step": 35600 }, { "epoch": 94.96, "grad_norm": 0.1787109375, "learning_rate": 0.0004972977876288572, "loss": 0.3164, "step": 35610 }, { "epoch": 94.98666666666666, "grad_norm": 0.345703125, "learning_rate": 0.0004972962508632378, "loss": 0.3297, "step": 35620 }, { "epoch": 95.0, "eval_loss": 0.4011842608451843, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5909, "eval_samples_per_second": 1.511, "eval_steps_per_second": 0.094, "step": 35625 }, { "epoch": 95.01333333333334, "grad_norm": 0.2255859375, "learning_rate": 0.0004972947136631342, "loss": 0.3192, "step": 35630 }, { "epoch": 95.04, "grad_norm": 0.185546875, "learning_rate": 0.0004972931760285492, "loss": 0.3451, "step": 35640 }, { "epoch": 95.06666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004972916379594852, "loss": 0.3296, "step": 35650 }, { "epoch": 95.09333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004972900994559452, "loss": 0.327, "step": 35660 }, { "epoch": 95.12, "grad_norm": 0.1865234375, "learning_rate": 0.0004972885605179317, "loss": 0.3236, "step": 35670 }, { "epoch": 95.14666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004972870211454476, "loss": 0.3245, "step": 35680 }, { "epoch": 95.17333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004972854813384954, "loss": 0.3243, "step": 35690 }, { "epoch": 95.2, "grad_norm": 0.330078125, "learning_rate": 0.0004972839410970779, "loss": 0.3167, "step": 35700 }, { "epoch": 95.22666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.000497282400421198, "loss": 0.3113, "step": 35710 }, { "epoch": 95.25333333333333, "grad_norm": 0.21875, "learning_rate": 0.000497280859310858, "loss": 0.3112, "step": 35720 }, { "epoch": 95.28, "grad_norm": 0.2216796875, "learning_rate": 0.000497279317766061, "loss": 0.3295, "step": 35730 }, { "epoch": 95.30666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004972777757868094, "loss": 0.3113, "step": 35740 }, { "epoch": 95.33333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004972762333731062, "loss": 0.3261, "step": 35750 }, { "epoch": 95.36, "grad_norm": 0.2578125, "learning_rate": 0.0004972746905249538, "loss": 0.3166, "step": 35760 }, { "epoch": 95.38666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004972731472423551, "loss": 0.314, "step": 35770 }, { "epoch": 95.41333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004972716035253128, "loss": 0.3204, "step": 35780 }, { "epoch": 95.44, "grad_norm": 0.2353515625, "learning_rate": 0.0004972700593738296, "loss": 0.3275, "step": 35790 }, { "epoch": 95.46666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004972685147879082, "loss": 0.3312, "step": 35800 }, { "epoch": 95.49333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004972669697675512, "loss": 0.3206, "step": 35810 }, { "epoch": 95.52, "grad_norm": 0.224609375, "learning_rate": 0.0004972654243127616, "loss": 0.3239, "step": 35820 }, { "epoch": 95.54666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.000497263878423542, "loss": 0.3153, "step": 35830 }, { "epoch": 95.57333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004972623320998948, "loss": 0.3183, "step": 35840 }, { "epoch": 95.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004972607853418232, "loss": 0.3139, "step": 35850 }, { "epoch": 95.62666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004972592381493296, "loss": 0.3092, "step": 35860 }, { "epoch": 95.65333333333334, "grad_norm": 0.30078125, "learning_rate": 0.0004972576905224168, "loss": 0.3229, "step": 35870 }, { "epoch": 95.68, "grad_norm": 0.181640625, "learning_rate": 0.0004972561424610875, "loss": 0.3114, "step": 35880 }, { "epoch": 95.70666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004972545939653446, "loss": 0.3125, "step": 35890 }, { "epoch": 95.73333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004972530450351905, "loss": 0.3281, "step": 35900 }, { "epoch": 95.76, "grad_norm": 0.2255859375, "learning_rate": 0.0004972514956706282, "loss": 0.3295, "step": 35910 }, { "epoch": 95.78666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004972499458716602, "loss": 0.3304, "step": 35920 }, { "epoch": 95.81333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004972483956382895, "loss": 0.3131, "step": 35930 }, { "epoch": 95.84, "grad_norm": 0.19140625, "learning_rate": 0.0004972468449705186, "loss": 0.3124, "step": 35940 }, { "epoch": 95.86666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004972452938683503, "loss": 0.3141, "step": 35950 }, { "epoch": 95.89333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004972437423317874, "loss": 0.3143, "step": 35960 }, { "epoch": 95.92, "grad_norm": 0.2158203125, "learning_rate": 0.0004972421903608323, "loss": 0.316, "step": 35970 }, { "epoch": 95.94666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004972406379554882, "loss": 0.3178, "step": 35980 }, { "epoch": 95.97333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004972390851157574, "loss": 0.3252, "step": 35990 }, { "epoch": 96.0, "grad_norm": 0.181640625, "learning_rate": 0.000497237531841643, "loss": 0.3136, "step": 36000 }, { "epoch": 96.0, "eval_loss": 0.4026261568069458, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.8806, "eval_samples_per_second": 1.242, "eval_steps_per_second": 0.078, "step": 36000 }, { "epoch": 96.02666666666667, "grad_norm": 0.283203125, "learning_rate": 0.0004972359781331475, "loss": 0.336, "step": 36010 }, { "epoch": 96.05333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004972344239902736, "loss": 0.3417, "step": 36020 }, { "epoch": 96.08, "grad_norm": 0.337890625, "learning_rate": 0.0004972328694130241, "loss": 0.3263, "step": 36030 }, { "epoch": 96.10666666666667, "grad_norm": 0.359375, "learning_rate": 0.0004972313144014018, "loss": 0.327, "step": 36040 }, { "epoch": 96.13333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004972297589554094, "loss": 0.3192, "step": 36050 }, { "epoch": 96.16, "grad_norm": 0.19921875, "learning_rate": 0.0004972282030750496, "loss": 0.3263, "step": 36060 }, { "epoch": 96.18666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004972266467603251, "loss": 0.3218, "step": 36070 }, { "epoch": 96.21333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004972250900112387, "loss": 0.31, "step": 36080 }, { "epoch": 96.24, "grad_norm": 0.181640625, "learning_rate": 0.0004972235328277932, "loss": 0.3145, "step": 36090 }, { "epoch": 96.26666666666667, "grad_norm": 0.216796875, "learning_rate": 0.000497221975209991, "loss": 0.3204, "step": 36100 }, { "epoch": 96.29333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004972204171578353, "loss": 0.3158, "step": 36110 }, { "epoch": 96.32, "grad_norm": 0.1875, "learning_rate": 0.0004972188586713285, "loss": 0.3229, "step": 36120 }, { "epoch": 96.34666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004972172997504736, "loss": 0.322, "step": 36130 }, { "epoch": 96.37333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.000497215740395273, "loss": 0.3142, "step": 36140 }, { "epoch": 96.4, "grad_norm": 0.2333984375, "learning_rate": 0.0004972141806057299, "loss": 0.3159, "step": 36150 }, { "epoch": 96.42666666666666, "grad_norm": 0.17578125, "learning_rate": 0.0004972126203818466, "loss": 0.3224, "step": 36160 }, { "epoch": 96.45333333333333, "grad_norm": 0.189453125, "learning_rate": 0.000497211059723626, "loss": 0.3308, "step": 36170 }, { "epoch": 96.48, "grad_norm": 0.259765625, "learning_rate": 0.0004972094986310709, "loss": 0.3267, "step": 36180 }, { "epoch": 96.50666666666666, "grad_norm": 0.1796875, "learning_rate": 0.000497207937104184, "loss": 0.3235, "step": 36190 }, { "epoch": 96.53333333333333, "grad_norm": 0.205078125, "learning_rate": 0.000497206375142968, "loss": 0.3181, "step": 36200 }, { "epoch": 96.56, "grad_norm": 0.21875, "learning_rate": 0.0004972048127474258, "loss": 0.3151, "step": 36210 }, { "epoch": 96.58666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004972032499175599, "loss": 0.3175, "step": 36220 }, { "epoch": 96.61333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004972016866533734, "loss": 0.3093, "step": 36230 }, { "epoch": 96.64, "grad_norm": 0.189453125, "learning_rate": 0.0004972001229548687, "loss": 0.3116, "step": 36240 }, { "epoch": 96.66666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004971985588220487, "loss": 0.3269, "step": 36250 }, { "epoch": 96.69333333333333, "grad_norm": 0.18359375, "learning_rate": 0.000497196994254916, "loss": 0.306, "step": 36260 }, { "epoch": 96.72, "grad_norm": 0.25, "learning_rate": 0.0004971954292534736, "loss": 0.3222, "step": 36270 }, { "epoch": 96.74666666666667, "grad_norm": 0.19921875, "learning_rate": 0.000497193863817724, "loss": 0.3237, "step": 36280 }, { "epoch": 96.77333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004971922979476701, "loss": 0.3346, "step": 36290 }, { "epoch": 96.8, "grad_norm": 0.1923828125, "learning_rate": 0.0004971907316433147, "loss": 0.3212, "step": 36300 }, { "epoch": 96.82666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004971891649046606, "loss": 0.3099, "step": 36310 }, { "epoch": 96.85333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004971875977317102, "loss": 0.3141, "step": 36320 }, { "epoch": 96.88, "grad_norm": 0.1845703125, "learning_rate": 0.0004971860301244667, "loss": 0.3132, "step": 36330 }, { "epoch": 96.90666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004971844620829324, "loss": 0.3161, "step": 36340 }, { "epoch": 96.93333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004971828936071104, "loss": 0.3161, "step": 36350 }, { "epoch": 96.96, "grad_norm": 0.177734375, "learning_rate": 0.0004971813246970033, "loss": 0.3157, "step": 36360 }, { "epoch": 96.98666666666666, "grad_norm": 0.27734375, "learning_rate": 0.0004971797553526139, "loss": 0.3282, "step": 36370 }, { "epoch": 97.0, "eval_loss": 0.40192320942878723, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.548, "eval_samples_per_second": 1.386, "eval_steps_per_second": 0.087, "step": 36375 }, { "epoch": 97.01333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.000497178185573945, "loss": 0.3184, "step": 36380 }, { "epoch": 97.04, "grad_norm": 0.1884765625, "learning_rate": 0.0004971766153609994, "loss": 0.345, "step": 36390 }, { "epoch": 97.06666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004971750447137796, "loss": 0.3291, "step": 36400 }, { "epoch": 97.09333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004971734736322887, "loss": 0.3269, "step": 36410 }, { "epoch": 97.12, "grad_norm": 0.2265625, "learning_rate": 0.0004971719021165292, "loss": 0.3222, "step": 36420 }, { "epoch": 97.14666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0004971703301665041, "loss": 0.3231, "step": 36430 }, { "epoch": 97.17333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004971687577822159, "loss": 0.3234, "step": 36440 }, { "epoch": 97.2, "grad_norm": 0.2177734375, "learning_rate": 0.0004971671849636674, "loss": 0.3167, "step": 36450 }, { "epoch": 97.22666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004971656117108615, "loss": 0.311, "step": 36460 }, { "epoch": 97.25333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004971640380238009, "loss": 0.3113, "step": 36470 }, { "epoch": 97.28, "grad_norm": 0.263671875, "learning_rate": 0.0004971624639024885, "loss": 0.3292, "step": 36480 }, { "epoch": 97.30666666666667, "grad_norm": 0.25, "learning_rate": 0.0004971608893469268, "loss": 0.3109, "step": 36490 }, { "epoch": 97.33333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004971593143571188, "loss": 0.325, "step": 36500 }, { "epoch": 97.36, "grad_norm": 0.2373046875, "learning_rate": 0.0004971577389330671, "loss": 0.3171, "step": 36510 }, { "epoch": 97.38666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004971561630747746, "loss": 0.3144, "step": 36520 }, { "epoch": 97.41333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.000497154586782244, "loss": 0.3199, "step": 36530 }, { "epoch": 97.44, "grad_norm": 0.2060546875, "learning_rate": 0.0004971530100554781, "loss": 0.3265, "step": 36540 }, { "epoch": 97.46666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004971514328944796, "loss": 0.3315, "step": 36550 }, { "epoch": 97.49333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004971498552992514, "loss": 0.3205, "step": 36560 }, { "epoch": 97.52, "grad_norm": 0.2138671875, "learning_rate": 0.0004971482772697961, "loss": 0.3243, "step": 36570 }, { "epoch": 97.54666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004971466988061166, "loss": 0.3148, "step": 36580 }, { "epoch": 97.57333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004971451199082156, "loss": 0.3173, "step": 36590 }, { "epoch": 97.6, "grad_norm": 0.1884765625, "learning_rate": 0.000497143540576096, "loss": 0.3134, "step": 36600 }, { "epoch": 97.62666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004971419608097604, "loss": 0.3093, "step": 36610 }, { "epoch": 97.65333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004971403806092117, "loss": 0.3226, "step": 36620 }, { "epoch": 97.68, "grad_norm": 0.1875, "learning_rate": 0.0004971387999744526, "loss": 0.3106, "step": 36630 }, { "epoch": 97.70666666666666, "grad_norm": 0.234375, "learning_rate": 0.000497137218905486, "loss": 0.3116, "step": 36640 }, { "epoch": 97.73333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0004971356374023145, "loss": 0.3275, "step": 36650 }, { "epoch": 97.76, "grad_norm": 0.275390625, "learning_rate": 0.0004971340554649411, "loss": 0.3293, "step": 36660 }, { "epoch": 97.78666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004971324730933683, "loss": 0.3299, "step": 36670 }, { "epoch": 97.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004971308902875991, "loss": 0.312, "step": 36680 }, { "epoch": 97.84, "grad_norm": 0.212890625, "learning_rate": 0.0004971293070476362, "loss": 0.3119, "step": 36690 }, { "epoch": 97.86666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004971277233734824, "loss": 0.3135, "step": 36700 }, { "epoch": 97.89333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004971261392651405, "loss": 0.3131, "step": 36710 }, { "epoch": 97.92, "grad_norm": 0.2294921875, "learning_rate": 0.0004971245547226133, "loss": 0.3156, "step": 36720 }, { "epoch": 97.94666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004971229697459035, "loss": 0.3164, "step": 36730 }, { "epoch": 97.97333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004971213843350139, "loss": 0.3243, "step": 36740 }, { "epoch": 98.0, "grad_norm": 0.189453125, "learning_rate": 0.0004971197984899474, "loss": 0.3131, "step": 36750 }, { "epoch": 98.0, "eval_loss": 0.40003642439842224, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7399, "eval_samples_per_second": 1.49, "eval_steps_per_second": 0.093, "step": 36750 }, { "epoch": 98.02666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004971182122107065, "loss": 0.3351, "step": 36760 }, { "epoch": 98.05333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004971166254972944, "loss": 0.3416, "step": 36770 }, { "epoch": 98.08, "grad_norm": 0.197265625, "learning_rate": 0.0004971150383497136, "loss": 0.3256, "step": 36780 }, { "epoch": 98.10666666666667, "grad_norm": 0.21484375, "learning_rate": 0.000497113450767967, "loss": 0.3268, "step": 36790 }, { "epoch": 98.13333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004971118627520574, "loss": 0.319, "step": 36800 }, { "epoch": 98.16, "grad_norm": 0.1689453125, "learning_rate": 0.0004971102743019873, "loss": 0.3261, "step": 36810 }, { "epoch": 98.18666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.00049710868541776, "loss": 0.32, "step": 36820 }, { "epoch": 98.21333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004971070960993779, "loss": 0.3094, "step": 36830 }, { "epoch": 98.24, "grad_norm": 0.232421875, "learning_rate": 0.000497105506346844, "loss": 0.3144, "step": 36840 }, { "epoch": 98.26666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004971039161601608, "loss": 0.32, "step": 36850 }, { "epoch": 98.29333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004971023255393315, "loss": 0.3148, "step": 36860 }, { "epoch": 98.32, "grad_norm": 0.24609375, "learning_rate": 0.0004971007344843586, "loss": 0.322, "step": 36870 }, { "epoch": 98.34666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004970991429952451, "loss": 0.3214, "step": 36880 }, { "epoch": 98.37333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004970975510719936, "loss": 0.3138, "step": 36890 }, { "epoch": 98.4, "grad_norm": 0.1787109375, "learning_rate": 0.0004970959587146071, "loss": 0.3156, "step": 36900 }, { "epoch": 98.42666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004970943659230882, "loss": 0.3223, "step": 36910 }, { "epoch": 98.45333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004970927726974398, "loss": 0.3302, "step": 36920 }, { "epoch": 98.48, "grad_norm": 0.203125, "learning_rate": 0.0004970911790376646, "loss": 0.3265, "step": 36930 }, { "epoch": 98.50666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004970895849437657, "loss": 0.3228, "step": 36940 }, { "epoch": 98.53333333333333, "grad_norm": 0.162109375, "learning_rate": 0.0004970879904157455, "loss": 0.3181, "step": 36950 }, { "epoch": 98.56, "grad_norm": 0.17578125, "learning_rate": 0.000497086395453607, "loss": 0.3147, "step": 36960 }, { "epoch": 98.58666666666667, "grad_norm": 0.208984375, "learning_rate": 0.000497084800057353, "loss": 0.3175, "step": 36970 }, { "epoch": 98.61333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004970832042269864, "loss": 0.3085, "step": 36980 }, { "epoch": 98.64, "grad_norm": 0.22265625, "learning_rate": 0.0004970816079625098, "loss": 0.3105, "step": 36990 }, { "epoch": 98.66666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004970800112639261, "loss": 0.3268, "step": 37000 }, { "epoch": 98.69333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004970784141312381, "loss": 0.3055, "step": 37010 }, { "epoch": 98.72, "grad_norm": 0.216796875, "learning_rate": 0.0004970768165644486, "loss": 0.3211, "step": 37020 }, { "epoch": 98.74666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004970752185635604, "loss": 0.3226, "step": 37030 }, { "epoch": 98.77333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004970736201285764, "loss": 0.3345, "step": 37040 }, { "epoch": 98.8, "grad_norm": 0.189453125, "learning_rate": 0.0004970720212594992, "loss": 0.3207, "step": 37050 }, { "epoch": 98.82666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004970704219563319, "loss": 0.309, "step": 37060 }, { "epoch": 98.85333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004970688222190771, "loss": 0.3138, "step": 37070 }, { "epoch": 98.88, "grad_norm": 0.2216796875, "learning_rate": 0.0004970672220477376, "loss": 0.313, "step": 37080 }, { "epoch": 98.90666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0004970656214423163, "loss": 0.3147, "step": 37090 }, { "epoch": 98.93333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004970640204028161, "loss": 0.3154, "step": 37100 }, { "epoch": 98.96, "grad_norm": 0.1806640625, "learning_rate": 0.0004970624189292397, "loss": 0.3153, "step": 37110 }, { "epoch": 98.98666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004970608170215898, "loss": 0.3281, "step": 37120 }, { "epoch": 99.0, "eval_loss": 0.4015541076660156, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.015, "eval_samples_per_second": 1.453, "eval_steps_per_second": 0.091, "step": 37125 }, { "epoch": 99.01333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0004970592146798693, "loss": 0.3182, "step": 37130 }, { "epoch": 99.04, "grad_norm": 0.373046875, "learning_rate": 0.0004970576119040811, "loss": 0.3446, "step": 37140 }, { "epoch": 99.06666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0004970560086942279, "loss": 0.3288, "step": 37150 }, { "epoch": 99.09333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004970544050503127, "loss": 0.3262, "step": 37160 }, { "epoch": 99.12, "grad_norm": 0.1982421875, "learning_rate": 0.000497052800972338, "loss": 0.322, "step": 37170 }, { "epoch": 99.14666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004970511964603071, "loss": 0.3235, "step": 37180 }, { "epoch": 99.17333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0004970495915142223, "loss": 0.3227, "step": 37190 }, { "epoch": 99.2, "grad_norm": 0.1923828125, "learning_rate": 0.0004970479861340867, "loss": 0.3164, "step": 37200 }, { "epoch": 99.22666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004970463803199031, "loss": 0.3108, "step": 37210 }, { "epoch": 99.25333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004970447740716743, "loss": 0.3106, "step": 37220 }, { "epoch": 99.28, "grad_norm": 0.310546875, "learning_rate": 0.000497043167389403, "loss": 0.3289, "step": 37230 }, { "epoch": 99.30666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004970415602730923, "loss": 0.3104, "step": 37240 }, { "epoch": 99.33333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004970399527227448, "loss": 0.3256, "step": 37250 }, { "epoch": 99.36, "grad_norm": 0.2431640625, "learning_rate": 0.0004970383447383634, "loss": 0.3164, "step": 37260 }, { "epoch": 99.38666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004970367363199508, "loss": 0.3138, "step": 37270 }, { "epoch": 99.41333333333333, "grad_norm": 0.169921875, "learning_rate": 0.00049703512746751, "loss": 0.3198, "step": 37280 }, { "epoch": 99.44, "grad_norm": 0.181640625, "learning_rate": 0.0004970335181810438, "loss": 0.3264, "step": 37290 }, { "epoch": 99.46666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.000497031908460555, "loss": 0.331, "step": 37300 }, { "epoch": 99.49333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004970302983060464, "loss": 0.3195, "step": 37310 }, { "epoch": 99.52, "grad_norm": 0.16796875, "learning_rate": 0.0004970286877175209, "loss": 0.3233, "step": 37320 }, { "epoch": 99.54666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004970270766949811, "loss": 0.3141, "step": 37330 }, { "epoch": 99.57333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004970254652384301, "loss": 0.3171, "step": 37340 }, { "epoch": 99.6, "grad_norm": 0.2470703125, "learning_rate": 0.0004970238533478707, "loss": 0.3128, "step": 37350 }, { "epoch": 99.62666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004970222410233057, "loss": 0.3089, "step": 37360 }, { "epoch": 99.65333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004970206282647378, "loss": 0.322, "step": 37370 }, { "epoch": 99.68, "grad_norm": 0.201171875, "learning_rate": 0.00049701901507217, "loss": 0.311, "step": 37380 }, { "epoch": 99.70666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004970174014456049, "loss": 0.3117, "step": 37390 }, { "epoch": 99.73333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004970157873850457, "loss": 0.3269, "step": 37400 }, { "epoch": 99.76, "grad_norm": 0.1875, "learning_rate": 0.000497014172890495, "loss": 0.3288, "step": 37410 }, { "epoch": 99.78666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004970125579619556, "loss": 0.3288, "step": 37420 }, { "epoch": 99.81333333333333, "grad_norm": 0.318359375, "learning_rate": 0.0004970109425994306, "loss": 0.3117, "step": 37430 }, { "epoch": 99.84, "grad_norm": 0.193359375, "learning_rate": 0.0004970093268029225, "loss": 0.311, "step": 37440 }, { "epoch": 99.86666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004970077105724343, "loss": 0.3134, "step": 37450 }, { "epoch": 99.89333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004970060939079689, "loss": 0.3129, "step": 37460 }, { "epoch": 99.92, "grad_norm": 0.23046875, "learning_rate": 0.000497004476809529, "loss": 0.3149, "step": 37470 }, { "epoch": 99.94666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004970028592771175, "loss": 0.3165, "step": 37480 }, { "epoch": 99.97333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004970012413107373, "loss": 0.3241, "step": 37490 }, { "epoch": 100.0, "grad_norm": 0.181640625, "learning_rate": 0.0004969996229103913, "loss": 0.3121, "step": 37500 }, { "epoch": 100.0, "eval_loss": 0.4001418948173523, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.292, "eval_samples_per_second": 1.302, "eval_steps_per_second": 0.081, "step": 37500 }, { "epoch": 100.02666666666667, "grad_norm": 0.2890625, "learning_rate": 0.000496998004076082, "loss": 0.3354, "step": 37510 }, { "epoch": 100.05333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004969963848078127, "loss": 0.3408, "step": 37520 }, { "epoch": 100.08, "grad_norm": 0.232421875, "learning_rate": 0.0004969947651055859, "loss": 0.3249, "step": 37530 }, { "epoch": 100.10666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004969931449694047, "loss": 0.3262, "step": 37540 }, { "epoch": 100.13333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004969915243992717, "loss": 0.3183, "step": 37550 }, { "epoch": 100.16, "grad_norm": 0.1728515625, "learning_rate": 0.0004969899033951899, "loss": 0.3255, "step": 37560 }, { "epoch": 100.18666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004969882819571621, "loss": 0.3199, "step": 37570 }, { "epoch": 100.21333333333334, "grad_norm": 0.205078125, "learning_rate": 0.0004969866600851913, "loss": 0.3089, "step": 37580 }, { "epoch": 100.24, "grad_norm": 0.212890625, "learning_rate": 0.0004969850377792802, "loss": 0.3136, "step": 37590 }, { "epoch": 100.26666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004969834150394315, "loss": 0.3194, "step": 37600 }, { "epoch": 100.29333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004969817918656483, "loss": 0.3147, "step": 37610 }, { "epoch": 100.32, "grad_norm": 0.19140625, "learning_rate": 0.0004969801682579334, "loss": 0.3217, "step": 37620 }, { "epoch": 100.34666666666666, "grad_norm": 0.2578125, "learning_rate": 0.0004969785442162897, "loss": 0.3208, "step": 37630 }, { "epoch": 100.37333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004969769197407198, "loss": 0.3136, "step": 37640 }, { "epoch": 100.4, "grad_norm": 0.177734375, "learning_rate": 0.0004969752948312268, "loss": 0.3146, "step": 37650 }, { "epoch": 100.42666666666666, "grad_norm": 0.171875, "learning_rate": 0.0004969736694878135, "loss": 0.322, "step": 37660 }, { "epoch": 100.45333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004969720437104828, "loss": 0.3302, "step": 37670 }, { "epoch": 100.48, "grad_norm": 0.2353515625, "learning_rate": 0.0004969704174992373, "loss": 0.3262, "step": 37680 }, { "epoch": 100.50666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004969687908540802, "loss": 0.3223, "step": 37690 }, { "epoch": 100.53333333333333, "grad_norm": 0.1708984375, "learning_rate": 0.0004969671637750142, "loss": 0.3172, "step": 37700 }, { "epoch": 100.56, "grad_norm": 0.1806640625, "learning_rate": 0.0004969655362620422, "loss": 0.314, "step": 37710 }, { "epoch": 100.58666666666667, "grad_norm": 0.236328125, "learning_rate": 0.000496963908315167, "loss": 0.3168, "step": 37720 }, { "epoch": 100.61333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004969622799343915, "loss": 0.3081, "step": 37730 }, { "epoch": 100.64, "grad_norm": 0.1943359375, "learning_rate": 0.0004969606511197185, "loss": 0.3107, "step": 37740 }, { "epoch": 100.66666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.000496959021871151, "loss": 0.3264, "step": 37750 }, { "epoch": 100.69333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004969573921886917, "loss": 0.3052, "step": 37760 }, { "epoch": 100.72, "grad_norm": 0.234375, "learning_rate": 0.0004969557620723436, "loss": 0.3209, "step": 37770 }, { "epoch": 100.74666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004969541315221095, "loss": 0.3226, "step": 37780 }, { "epoch": 100.77333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004969525005379922, "loss": 0.334, "step": 37790 }, { "epoch": 100.8, "grad_norm": 0.1962890625, "learning_rate": 0.0004969508691199946, "loss": 0.3209, "step": 37800 }, { "epoch": 100.82666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004969492372681197, "loss": 0.3088, "step": 37810 }, { "epoch": 100.85333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004969476049823703, "loss": 0.3137, "step": 37820 }, { "epoch": 100.88, "grad_norm": 0.244140625, "learning_rate": 0.0004969459722627491, "loss": 0.3122, "step": 37830 }, { "epoch": 100.90666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004969443391092592, "loss": 0.3147, "step": 37840 }, { "epoch": 100.93333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004969427055219034, "loss": 0.3153, "step": 37850 }, { "epoch": 100.96, "grad_norm": 0.177734375, "learning_rate": 0.0004969410715006844, "loss": 0.3154, "step": 37860 }, { "epoch": 100.98666666666666, "grad_norm": 0.291015625, "learning_rate": 0.0004969394370456053, "loss": 0.3271, "step": 37870 }, { "epoch": 101.0, "eval_loss": 0.40342414379119873, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5931, "eval_samples_per_second": 1.271, "eval_steps_per_second": 0.079, "step": 37875 }, { "epoch": 101.01333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004969378021566688, "loss": 0.317, "step": 37880 }, { "epoch": 101.04, "grad_norm": 0.1767578125, "learning_rate": 0.000496936166833878, "loss": 0.344, "step": 37890 }, { "epoch": 101.06666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0004969345310772356, "loss": 0.3286, "step": 37900 }, { "epoch": 101.09333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004969328948867444, "loss": 0.3258, "step": 37910 }, { "epoch": 101.12, "grad_norm": 0.2470703125, "learning_rate": 0.0004969312582624075, "loss": 0.3214, "step": 37920 }, { "epoch": 101.14666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004969296212042276, "loss": 0.3227, "step": 37930 }, { "epoch": 101.17333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004969279837122076, "loss": 0.3218, "step": 37940 }, { "epoch": 101.2, "grad_norm": 0.19921875, "learning_rate": 0.0004969263457863505, "loss": 0.3154, "step": 37950 }, { "epoch": 101.22666666666667, "grad_norm": 0.263671875, "learning_rate": 0.000496924707426659, "loss": 0.3102, "step": 37960 }, { "epoch": 101.25333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0004969230686331361, "loss": 0.3098, "step": 37970 }, { "epoch": 101.28, "grad_norm": 0.296875, "learning_rate": 0.0004969214294057846, "loss": 0.328, "step": 37980 }, { "epoch": 101.30666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004969197897446075, "loss": 0.3098, "step": 37990 }, { "epoch": 101.33333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004969181496496075, "loss": 0.3243, "step": 38000 }, { "epoch": 101.36, "grad_norm": 0.2041015625, "learning_rate": 0.0004969165091207877, "loss": 0.3157, "step": 38010 }, { "epoch": 101.38666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0004969148681581508, "loss": 0.3127, "step": 38020 }, { "epoch": 101.41333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004969132267616998, "loss": 0.3185, "step": 38030 }, { "epoch": 101.44, "grad_norm": 0.2119140625, "learning_rate": 0.0004969115849314374, "loss": 0.3259, "step": 38040 }, { "epoch": 101.46666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004969099426673668, "loss": 0.3293, "step": 38050 }, { "epoch": 101.49333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004969082999694907, "loss": 0.319, "step": 38060 }, { "epoch": 101.52, "grad_norm": 0.220703125, "learning_rate": 0.0004969066568378118, "loss": 0.323, "step": 38070 }, { "epoch": 101.54666666666667, "grad_norm": 0.26953125, "learning_rate": 0.0004969050132723333, "loss": 0.3143, "step": 38080 }, { "epoch": 101.57333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004969033692730579, "loss": 0.3169, "step": 38090 }, { "epoch": 101.6, "grad_norm": 0.1953125, "learning_rate": 0.0004969017248399886, "loss": 0.3129, "step": 38100 }, { "epoch": 101.62666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004969000799731283, "loss": 0.3079, "step": 38110 }, { "epoch": 101.65333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004968984346724797, "loss": 0.3213, "step": 38120 }, { "epoch": 101.68, "grad_norm": 0.201171875, "learning_rate": 0.000496896788938046, "loss": 0.3097, "step": 38130 }, { "epoch": 101.70666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004968951427698298, "loss": 0.3101, "step": 38140 }, { "epoch": 101.73333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004968934961678341, "loss": 0.326, "step": 38150 }, { "epoch": 101.76, "grad_norm": 0.1884765625, "learning_rate": 0.0004968918491320618, "loss": 0.3281, "step": 38160 }, { "epoch": 101.78666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004968902016625158, "loss": 0.3289, "step": 38170 }, { "epoch": 101.81333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0004968885537591991, "loss": 0.311, "step": 38180 }, { "epoch": 101.84, "grad_norm": 0.2001953125, "learning_rate": 0.0004968869054221143, "loss": 0.3107, "step": 38190 }, { "epoch": 101.86666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004968852566512646, "loss": 0.3124, "step": 38200 }, { "epoch": 101.89333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004968836074466527, "loss": 0.3123, "step": 38210 }, { "epoch": 101.92, "grad_norm": 0.1806640625, "learning_rate": 0.0004968819578082817, "loss": 0.3145, "step": 38220 }, { "epoch": 101.94666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004968803077361543, "loss": 0.3159, "step": 38230 }, { "epoch": 101.97333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004968786572302734, "loss": 0.324, "step": 38240 }, { "epoch": 102.0, "grad_norm": 0.18359375, "learning_rate": 0.000496877006290642, "loss": 0.3116, "step": 38250 }, { "epoch": 102.0, "eval_loss": 0.40354910492897034, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.205, "eval_samples_per_second": 1.311, "eval_steps_per_second": 0.082, "step": 38250 }, { "epoch": 102.02666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004968753549172631, "loss": 0.334, "step": 38260 }, { "epoch": 102.05333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0004968737031101393, "loss": 0.3402, "step": 38270 }, { "epoch": 102.08, "grad_norm": 0.193359375, "learning_rate": 0.0004968720508692738, "loss": 0.3247, "step": 38280 }, { "epoch": 102.10666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004968703981946694, "loss": 0.3258, "step": 38290 }, { "epoch": 102.13333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004968687450863288, "loss": 0.3179, "step": 38300 }, { "epoch": 102.16, "grad_norm": 0.2392578125, "learning_rate": 0.0004968670915442553, "loss": 0.3245, "step": 38310 }, { "epoch": 102.18666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004968654375684514, "loss": 0.3196, "step": 38320 }, { "epoch": 102.21333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004968637831589204, "loss": 0.3085, "step": 38330 }, { "epoch": 102.24, "grad_norm": 0.1845703125, "learning_rate": 0.0004968621283156648, "loss": 0.3132, "step": 38340 }, { "epoch": 102.26666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004968604730386878, "loss": 0.3191, "step": 38350 }, { "epoch": 102.29333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004968588173279922, "loss": 0.3145, "step": 38360 }, { "epoch": 102.32, "grad_norm": 0.1591796875, "learning_rate": 0.000496857161183581, "loss": 0.3215, "step": 38370 }, { "epoch": 102.34666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.000496855504605457, "loss": 0.32, "step": 38380 }, { "epoch": 102.37333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004968538475936231, "loss": 0.3132, "step": 38390 }, { "epoch": 102.4, "grad_norm": 0.1982421875, "learning_rate": 0.0004968521901480823, "loss": 0.3146, "step": 38400 }, { "epoch": 102.42666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004968505322688375, "loss": 0.3214, "step": 38410 }, { "epoch": 102.45333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004968488739558915, "loss": 0.3294, "step": 38420 }, { "epoch": 102.48, "grad_norm": 0.208984375, "learning_rate": 0.0004968472152092474, "loss": 0.325, "step": 38430 }, { "epoch": 102.50666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004968455560289079, "loss": 0.3215, "step": 38440 }, { "epoch": 102.53333333333333, "grad_norm": 0.1552734375, "learning_rate": 0.0004968438964148761, "loss": 0.3169, "step": 38450 }, { "epoch": 102.56, "grad_norm": 0.1826171875, "learning_rate": 0.0004968422363671549, "loss": 0.3139, "step": 38460 }, { "epoch": 102.58666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004968405758857471, "loss": 0.3163, "step": 38470 }, { "epoch": 102.61333333333333, "grad_norm": 0.1630859375, "learning_rate": 0.0004968389149706555, "loss": 0.3078, "step": 38480 }, { "epoch": 102.64, "grad_norm": 0.18359375, "learning_rate": 0.0004968372536218835, "loss": 0.3101, "step": 38490 }, { "epoch": 102.66666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004968355918394336, "loss": 0.3258, "step": 38500 }, { "epoch": 102.69333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004968339296233088, "loss": 0.3049, "step": 38510 }, { "epoch": 102.72, "grad_norm": 0.24609375, "learning_rate": 0.000496832266973512, "loss": 0.3207, "step": 38520 }, { "epoch": 102.74666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004968306038900463, "loss": 0.3221, "step": 38530 }, { "epoch": 102.77333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004968289403729145, "loss": 0.3333, "step": 38540 }, { "epoch": 102.8, "grad_norm": 0.2138671875, "learning_rate": 0.0004968272764221195, "loss": 0.3198, "step": 38550 }, { "epoch": 102.82666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.000496825612037664, "loss": 0.308, "step": 38560 }, { "epoch": 102.85333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004968239472195515, "loss": 0.3122, "step": 38570 }, { "epoch": 102.88, "grad_norm": 0.25, "learning_rate": 0.0004968222819677845, "loss": 0.3115, "step": 38580 }, { "epoch": 102.90666666666667, "grad_norm": 0.263671875, "learning_rate": 0.000496820616282366, "loss": 0.3139, "step": 38590 }, { "epoch": 102.93333333333334, "grad_norm": 0.1796875, "learning_rate": 0.000496818950163299, "loss": 0.3145, "step": 38600 }, { "epoch": 102.96, "grad_norm": 0.189453125, "learning_rate": 0.0004968172836105862, "loss": 0.3146, "step": 38610 }, { "epoch": 102.98666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004968156166242308, "loss": 0.3266, "step": 38620 }, { "epoch": 103.0, "eval_loss": 0.40117982029914856, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.5642, "eval_samples_per_second": 1.18, "eval_steps_per_second": 0.074, "step": 38625 }, { "epoch": 103.01333333333334, "grad_norm": 0.259765625, "learning_rate": 0.0004968139492042356, "loss": 0.3168, "step": 38630 }, { "epoch": 103.04, "grad_norm": 0.1806640625, "learning_rate": 0.0004968122813506036, "loss": 0.3427, "step": 38640 }, { "epoch": 103.06666666666666, "grad_norm": 0.2734375, "learning_rate": 0.0004968106130633377, "loss": 0.3276, "step": 38650 }, { "epoch": 103.09333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004968089443424409, "loss": 0.3247, "step": 38660 }, { "epoch": 103.12, "grad_norm": 0.1748046875, "learning_rate": 0.0004968072751879159, "loss": 0.3215, "step": 38670 }, { "epoch": 103.14666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004968056055997659, "loss": 0.3222, "step": 38680 }, { "epoch": 103.17333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004968039355779935, "loss": 0.3216, "step": 38690 }, { "epoch": 103.2, "grad_norm": 0.1923828125, "learning_rate": 0.0004968022651226021, "loss": 0.3147, "step": 38700 }, { "epoch": 103.22666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004968005942335942, "loss": 0.3086, "step": 38710 }, { "epoch": 103.25333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.000496798922910973, "loss": 0.3091, "step": 38720 }, { "epoch": 103.28, "grad_norm": 0.33984375, "learning_rate": 0.0004967972511547415, "loss": 0.3275, "step": 38730 }, { "epoch": 103.30666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004967955789649023, "loss": 0.3094, "step": 38740 }, { "epoch": 103.33333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004967939063414586, "loss": 0.3237, "step": 38750 }, { "epoch": 103.36, "grad_norm": 0.1904296875, "learning_rate": 0.0004967922332844134, "loss": 0.315, "step": 38760 }, { "epoch": 103.38666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004967905597937693, "loss": 0.3124, "step": 38770 }, { "epoch": 103.41333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004967888858695296, "loss": 0.3182, "step": 38780 }, { "epoch": 103.44, "grad_norm": 0.1767578125, "learning_rate": 0.000496787211511697, "loss": 0.3256, "step": 38790 }, { "epoch": 103.46666666666667, "grad_norm": 0.267578125, "learning_rate": 0.0004967855367202746, "loss": 0.3294, "step": 38800 }, { "epoch": 103.49333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0004967838614952653, "loss": 0.3187, "step": 38810 }, { "epoch": 103.52, "grad_norm": 0.2265625, "learning_rate": 0.000496782185836672, "loss": 0.3221, "step": 38820 }, { "epoch": 103.54666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004967805097444976, "loss": 0.3126, "step": 38830 }, { "epoch": 103.57333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004967788332187452, "loss": 0.3161, "step": 38840 }, { "epoch": 103.6, "grad_norm": 0.189453125, "learning_rate": 0.0004967771562594175, "loss": 0.3125, "step": 38850 }, { "epoch": 103.62666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004967754788665177, "loss": 0.3079, "step": 38860 }, { "epoch": 103.65333333333334, "grad_norm": 0.1728515625, "learning_rate": 0.0004967738010400487, "loss": 0.3207, "step": 38870 }, { "epoch": 103.68, "grad_norm": 0.19921875, "learning_rate": 0.0004967721227800134, "loss": 0.3094, "step": 38880 }, { "epoch": 103.70666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004967704440864147, "loss": 0.3106, "step": 38890 }, { "epoch": 103.73333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0004967687649592555, "loss": 0.3261, "step": 38900 }, { "epoch": 103.76, "grad_norm": 0.2080078125, "learning_rate": 0.000496767085398539, "loss": 0.3272, "step": 38910 }, { "epoch": 103.78666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0004967654054042679, "loss": 0.328, "step": 38920 }, { "epoch": 103.81333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004967637249764453, "loss": 0.3107, "step": 38930 }, { "epoch": 103.84, "grad_norm": 0.18359375, "learning_rate": 0.0004967620441150741, "loss": 0.3102, "step": 38940 }, { "epoch": 103.86666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004967603628201572, "loss": 0.3116, "step": 38950 }, { "epoch": 103.89333333333333, "grad_norm": 0.1708984375, "learning_rate": 0.0004967586810916976, "loss": 0.3125, "step": 38960 }, { "epoch": 103.92, "grad_norm": 0.173828125, "learning_rate": 0.0004967569989296984, "loss": 0.314, "step": 38970 }, { "epoch": 103.94666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004967553163341623, "loss": 0.3148, "step": 38980 }, { "epoch": 103.97333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004967536333050923, "loss": 0.3229, "step": 38990 }, { "epoch": 104.0, "grad_norm": 0.19140625, "learning_rate": 0.0004967519498424916, "loss": 0.311, "step": 39000 }, { "epoch": 104.0, "eval_loss": 0.39859873056411743, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.395, "eval_samples_per_second": 1.291, "eval_steps_per_second": 0.081, "step": 39000 }, { "epoch": 104.02666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004967502659463629, "loss": 0.3331, "step": 39010 }, { "epoch": 104.05333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004967485816167093, "loss": 0.3399, "step": 39020 }, { "epoch": 104.08, "grad_norm": 0.2197265625, "learning_rate": 0.0004967468968535337, "loss": 0.3245, "step": 39030 }, { "epoch": 104.10666666666667, "grad_norm": 0.322265625, "learning_rate": 0.0004967452116568389, "loss": 0.3252, "step": 39040 }, { "epoch": 104.13333333333334, "grad_norm": 0.330078125, "learning_rate": 0.0004967435260266283, "loss": 0.3171, "step": 39050 }, { "epoch": 104.16, "grad_norm": 0.46484375, "learning_rate": 0.0004967418399629044, "loss": 0.325, "step": 39060 }, { "epoch": 104.18666666666667, "grad_norm": 0.263671875, "learning_rate": 0.0004967401534656704, "loss": 0.3186, "step": 39070 }, { "epoch": 104.21333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004967384665349291, "loss": 0.3076, "step": 39080 }, { "epoch": 104.24, "grad_norm": 0.216796875, "learning_rate": 0.0004967367791706838, "loss": 0.3124, "step": 39090 }, { "epoch": 104.26666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004967350913729371, "loss": 0.3182, "step": 39100 }, { "epoch": 104.29333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004967334031416921, "loss": 0.3137, "step": 39110 }, { "epoch": 104.32, "grad_norm": 0.1689453125, "learning_rate": 0.0004967317144769518, "loss": 0.3205, "step": 39120 }, { "epoch": 104.34666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004967300253787192, "loss": 0.3197, "step": 39130 }, { "epoch": 104.37333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004967283358469971, "loss": 0.3127, "step": 39140 }, { "epoch": 104.4, "grad_norm": 0.1884765625, "learning_rate": 0.0004967266458817888, "loss": 0.314, "step": 39150 }, { "epoch": 104.42666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004967249554830968, "loss": 0.3206, "step": 39160 }, { "epoch": 104.45333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004967232646509244, "loss": 0.3286, "step": 39170 }, { "epoch": 104.48, "grad_norm": 0.2255859375, "learning_rate": 0.0004967215733852745, "loss": 0.3247, "step": 39180 }, { "epoch": 104.50666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.00049671988168615, "loss": 0.3214, "step": 39190 }, { "epoch": 104.53333333333333, "grad_norm": 0.166015625, "learning_rate": 0.000496718189553554, "loss": 0.3165, "step": 39200 }, { "epoch": 104.56, "grad_norm": 0.181640625, "learning_rate": 0.0004967164969874894, "loss": 0.3129, "step": 39210 }, { "epoch": 104.58666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004967148039879591, "loss": 0.3154, "step": 39220 }, { "epoch": 104.61333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004967131105549662, "loss": 0.3078, "step": 39230 }, { "epoch": 104.64, "grad_norm": 0.173828125, "learning_rate": 0.0004967114166885136, "loss": 0.3099, "step": 39240 }, { "epoch": 104.66666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004967097223886042, "loss": 0.3247, "step": 39250 }, { "epoch": 104.69333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004967080276552413, "loss": 0.3041, "step": 39260 }, { "epoch": 104.72, "grad_norm": 0.2294921875, "learning_rate": 0.0004967063324884276, "loss": 0.3204, "step": 39270 }, { "epoch": 104.74666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0004967046368881661, "loss": 0.3218, "step": 39280 }, { "epoch": 104.77333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004967029408544598, "loss": 0.3326, "step": 39290 }, { "epoch": 104.8, "grad_norm": 0.193359375, "learning_rate": 0.0004967012443873117, "loss": 0.319, "step": 39300 }, { "epoch": 104.82666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0004966995474867248, "loss": 0.3082, "step": 39310 }, { "epoch": 104.85333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.000496697850152702, "loss": 0.3126, "step": 39320 }, { "epoch": 104.88, "grad_norm": 0.2294921875, "learning_rate": 0.0004966961523852464, "loss": 0.3113, "step": 39330 }, { "epoch": 104.90666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0004966944541843609, "loss": 0.3135, "step": 39340 }, { "epoch": 104.93333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004966927555500485, "loss": 0.3145, "step": 39350 }, { "epoch": 104.96, "grad_norm": 0.1767578125, "learning_rate": 0.0004966910564823122, "loss": 0.3134, "step": 39360 }, { "epoch": 104.98666666666666, "grad_norm": 0.201171875, "learning_rate": 0.000496689356981155, "loss": 0.3265, "step": 39370 }, { "epoch": 105.0, "eval_loss": 0.4008204936981201, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.0122, "eval_samples_per_second": 1.23, "eval_steps_per_second": 0.077, "step": 39375 }, { "epoch": 105.01333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0004966876570465797, "loss": 0.316, "step": 39380 }, { "epoch": 105.04, "grad_norm": 0.2001953125, "learning_rate": 0.0004966859566785896, "loss": 0.3434, "step": 39390 }, { "epoch": 105.06666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004966842558771874, "loss": 0.3276, "step": 39400 }, { "epoch": 105.09333333333333, "grad_norm": 0.296875, "learning_rate": 0.0004966825546423764, "loss": 0.3247, "step": 39410 }, { "epoch": 105.12, "grad_norm": 0.18359375, "learning_rate": 0.0004966808529741593, "loss": 0.3208, "step": 39420 }, { "epoch": 105.14666666666666, "grad_norm": 0.171875, "learning_rate": 0.0004966791508725393, "loss": 0.3218, "step": 39430 }, { "epoch": 105.17333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004966774483375192, "loss": 0.3214, "step": 39440 }, { "epoch": 105.2, "grad_norm": 0.2021484375, "learning_rate": 0.0004966757453691021, "loss": 0.314, "step": 39450 }, { "epoch": 105.22666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.000496674041967291, "loss": 0.3084, "step": 39460 }, { "epoch": 105.25333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004966723381320888, "loss": 0.3087, "step": 39470 }, { "epoch": 105.28, "grad_norm": 0.2060546875, "learning_rate": 0.0004966706338634986, "loss": 0.3275, "step": 39480 }, { "epoch": 105.30666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004966689291615234, "loss": 0.3082, "step": 39490 }, { "epoch": 105.33333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004966672240261661, "loss": 0.3233, "step": 39500 }, { "epoch": 105.36, "grad_norm": 0.2060546875, "learning_rate": 0.0004966655184574297, "loss": 0.3146, "step": 39510 }, { "epoch": 105.38666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004966638124553174, "loss": 0.3114, "step": 39520 }, { "epoch": 105.41333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004966621060198318, "loss": 0.318, "step": 39530 }, { "epoch": 105.44, "grad_norm": 0.2412109375, "learning_rate": 0.0004966603991509764, "loss": 0.3246, "step": 39540 }, { "epoch": 105.46666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004966586918487538, "loss": 0.3289, "step": 39550 }, { "epoch": 105.49333333333334, "grad_norm": 0.2255859375, "learning_rate": 0.0004966569841131672, "loss": 0.3181, "step": 39560 }, { "epoch": 105.52, "grad_norm": 0.251953125, "learning_rate": 0.0004966552759442194, "loss": 0.322, "step": 39570 }, { "epoch": 105.54666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004966535673419137, "loss": 0.3125, "step": 39580 }, { "epoch": 105.57333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004966518583062529, "loss": 0.3155, "step": 39590 }, { "epoch": 105.6, "grad_norm": 0.2314453125, "learning_rate": 0.0004966501488372399, "loss": 0.3114, "step": 39600 }, { "epoch": 105.62666666666667, "grad_norm": 0.181640625, "learning_rate": 0.000496648438934878, "loss": 0.3076, "step": 39610 }, { "epoch": 105.65333333333334, "grad_norm": 0.1630859375, "learning_rate": 0.00049664672859917, "loss": 0.321, "step": 39620 }, { "epoch": 105.68, "grad_norm": 0.1826171875, "learning_rate": 0.000496645017830119, "loss": 0.3089, "step": 39630 }, { "epoch": 105.70666666666666, "grad_norm": 0.234375, "learning_rate": 0.0004966433066277279, "loss": 0.31, "step": 39640 }, { "epoch": 105.73333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004966415949919998, "loss": 0.3257, "step": 39650 }, { "epoch": 105.76, "grad_norm": 0.21484375, "learning_rate": 0.0004966398829229376, "loss": 0.3272, "step": 39660 }, { "epoch": 105.78666666666666, "grad_norm": 0.296875, "learning_rate": 0.0004966381704205445, "loss": 0.3276, "step": 39670 }, { "epoch": 105.81333333333333, "grad_norm": 0.3046875, "learning_rate": 0.0004966364574848233, "loss": 0.3109, "step": 39680 }, { "epoch": 105.84, "grad_norm": 0.193359375, "learning_rate": 0.0004966347441157772, "loss": 0.31, "step": 39690 }, { "epoch": 105.86666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.000496633030313409, "loss": 0.3113, "step": 39700 }, { "epoch": 105.89333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004966313160777219, "loss": 0.3116, "step": 39710 }, { "epoch": 105.92, "grad_norm": 0.2001953125, "learning_rate": 0.0004966296014087188, "loss": 0.3135, "step": 39720 }, { "epoch": 105.94666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004966278863064028, "loss": 0.3146, "step": 39730 }, { "epoch": 105.97333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004966261707707768, "loss": 0.3218, "step": 39740 }, { "epoch": 106.0, "grad_norm": 0.1826171875, "learning_rate": 0.0004966244548018438, "loss": 0.3106, "step": 39750 }, { "epoch": 106.0, "eval_loss": 0.3998126983642578, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3984, "eval_samples_per_second": 1.404, "eval_steps_per_second": 0.088, "step": 39750 }, { "epoch": 106.02666666666667, "grad_norm": 0.1953125, "learning_rate": 0.000496622738399607, "loss": 0.3336, "step": 39760 }, { "epoch": 106.05333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004966210215640693, "loss": 0.3396, "step": 39770 }, { "epoch": 106.08, "grad_norm": 0.22265625, "learning_rate": 0.0004966193042952338, "loss": 0.3237, "step": 39780 }, { "epoch": 106.10666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004966175865931033, "loss": 0.3249, "step": 39790 }, { "epoch": 106.13333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004966158684576809, "loss": 0.3164, "step": 39800 }, { "epoch": 106.16, "grad_norm": 0.1708984375, "learning_rate": 0.0004966141498889698, "loss": 0.3242, "step": 39810 }, { "epoch": 106.18666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004966124308869729, "loss": 0.3185, "step": 39820 }, { "epoch": 106.21333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0004966107114516931, "loss": 0.3076, "step": 39830 }, { "epoch": 106.24, "grad_norm": 0.1875, "learning_rate": 0.0004966089915831337, "loss": 0.3115, "step": 39840 }, { "epoch": 106.26666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004966072712812975, "loss": 0.3182, "step": 39850 }, { "epoch": 106.29333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004966055505461875, "loss": 0.3134, "step": 39860 }, { "epoch": 106.32, "grad_norm": 0.177734375, "learning_rate": 0.0004966038293778069, "loss": 0.3197, "step": 39870 }, { "epoch": 106.34666666666666, "grad_norm": 0.279296875, "learning_rate": 0.0004966021077761585, "loss": 0.3197, "step": 39880 }, { "epoch": 106.37333333333333, "grad_norm": 0.1982421875, "learning_rate": 0.0004966003857412455, "loss": 0.3118, "step": 39890 }, { "epoch": 106.4, "grad_norm": 0.1982421875, "learning_rate": 0.0004965986632730709, "loss": 0.3133, "step": 39900 }, { "epoch": 106.42666666666666, "grad_norm": 0.169921875, "learning_rate": 0.0004965969403716377, "loss": 0.32, "step": 39910 }, { "epoch": 106.45333333333333, "grad_norm": 0.248046875, "learning_rate": 0.000496595217036949, "loss": 0.3282, "step": 39920 }, { "epoch": 106.48, "grad_norm": 0.17578125, "learning_rate": 0.0004965934932690077, "loss": 0.3243, "step": 39930 }, { "epoch": 106.50666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004965917690678169, "loss": 0.3209, "step": 39940 }, { "epoch": 106.53333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004965900444333796, "loss": 0.3156, "step": 39950 }, { "epoch": 106.56, "grad_norm": 0.2392578125, "learning_rate": 0.0004965883193656988, "loss": 0.3126, "step": 39960 }, { "epoch": 106.58666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004965865938647777, "loss": 0.3153, "step": 39970 }, { "epoch": 106.61333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004965848679306191, "loss": 0.3074, "step": 39980 }, { "epoch": 106.64, "grad_norm": 0.1552734375, "learning_rate": 0.0004965831415632262, "loss": 0.3091, "step": 39990 }, { "epoch": 106.66666666666667, "grad_norm": 0.279296875, "learning_rate": 0.0004965814147626019, "loss": 0.3251, "step": 40000 }, { "epoch": 106.69333333333333, "grad_norm": 0.25, "learning_rate": 0.0004965796875287493, "loss": 0.3037, "step": 40010 }, { "epoch": 106.72, "grad_norm": 0.27734375, "learning_rate": 0.0004965779598616715, "loss": 0.3198, "step": 40020 }, { "epoch": 106.74666666666667, "grad_norm": 0.265625, "learning_rate": 0.0004965762317613715, "loss": 0.3213, "step": 40030 }, { "epoch": 106.77333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004965745032278522, "loss": 0.3324, "step": 40040 }, { "epoch": 106.8, "grad_norm": 0.1982421875, "learning_rate": 0.000496572774261117, "loss": 0.319, "step": 40050 }, { "epoch": 106.82666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004965710448611684, "loss": 0.3072, "step": 40060 }, { "epoch": 106.85333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004965693150280098, "loss": 0.3117, "step": 40070 }, { "epoch": 106.88, "grad_norm": 0.1806640625, "learning_rate": 0.0004965675847616443, "loss": 0.3112, "step": 40080 }, { "epoch": 106.90666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004965658540620747, "loss": 0.3131, "step": 40090 }, { "epoch": 106.93333333333334, "grad_norm": 0.228515625, "learning_rate": 0.0004965641229293042, "loss": 0.3137, "step": 40100 }, { "epoch": 106.96, "grad_norm": 0.201171875, "learning_rate": 0.0004965623913633357, "loss": 0.3135, "step": 40110 }, { "epoch": 106.98666666666666, "grad_norm": 0.19140625, "learning_rate": 0.0004965606593641725, "loss": 0.3257, "step": 40120 }, { "epoch": 107.0, "eval_loss": 0.40082797408103943, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4974, "eval_samples_per_second": 1.392, "eval_steps_per_second": 0.087, "step": 40125 }, { "epoch": 107.01333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004965589269318174, "loss": 0.3157, "step": 40130 }, { "epoch": 107.04, "grad_norm": 0.1728515625, "learning_rate": 0.0004965571940662734, "loss": 0.3424, "step": 40140 }, { "epoch": 107.06666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004965554607675437, "loss": 0.3268, "step": 40150 }, { "epoch": 107.09333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004965537270356314, "loss": 0.3246, "step": 40160 }, { "epoch": 107.12, "grad_norm": 0.2138671875, "learning_rate": 0.0004965519928705394, "loss": 0.3202, "step": 40170 }, { "epoch": 107.14666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004965502582722708, "loss": 0.3215, "step": 40180 }, { "epoch": 107.17333333333333, "grad_norm": 0.291015625, "learning_rate": 0.0004965485232408286, "loss": 0.3209, "step": 40190 }, { "epoch": 107.2, "grad_norm": 0.2158203125, "learning_rate": 0.000496546787776216, "loss": 0.3142, "step": 40200 }, { "epoch": 107.22666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004965450518784358, "loss": 0.3079, "step": 40210 }, { "epoch": 107.25333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004965433155474914, "loss": 0.3087, "step": 40220 }, { "epoch": 107.28, "grad_norm": 0.21875, "learning_rate": 0.0004965415787833855, "loss": 0.3266, "step": 40230 }, { "epoch": 107.30666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004965398415861213, "loss": 0.3081, "step": 40240 }, { "epoch": 107.33333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004965381039557018, "loss": 0.323, "step": 40250 }, { "epoch": 107.36, "grad_norm": 0.185546875, "learning_rate": 0.0004965363658921303, "loss": 0.3142, "step": 40260 }, { "epoch": 107.38666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0004965346273954095, "loss": 0.3111, "step": 40270 }, { "epoch": 107.41333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004965328884655426, "loss": 0.3174, "step": 40280 }, { "epoch": 107.44, "grad_norm": 0.201171875, "learning_rate": 0.0004965311491025328, "loss": 0.3243, "step": 40290 }, { "epoch": 107.46666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004965294093063828, "loss": 0.3278, "step": 40300 }, { "epoch": 107.49333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004965276690770961, "loss": 0.3175, "step": 40310 }, { "epoch": 107.52, "grad_norm": 0.1748046875, "learning_rate": 0.0004965259284146754, "loss": 0.3214, "step": 40320 }, { "epoch": 107.54666666666667, "grad_norm": 0.177734375, "learning_rate": 0.000496524187319124, "loss": 0.3119, "step": 40330 }, { "epoch": 107.57333333333334, "grad_norm": 0.1650390625, "learning_rate": 0.0004965224457904447, "loss": 0.3151, "step": 40340 }, { "epoch": 107.6, "grad_norm": 0.208984375, "learning_rate": 0.0004965207038286407, "loss": 0.3111, "step": 40350 }, { "epoch": 107.62666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004965189614337153, "loss": 0.307, "step": 40360 }, { "epoch": 107.65333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004965172186056712, "loss": 0.3206, "step": 40370 }, { "epoch": 107.68, "grad_norm": 0.201171875, "learning_rate": 0.0004965154753445116, "loss": 0.3089, "step": 40380 }, { "epoch": 107.70666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0004965137316502396, "loss": 0.3091, "step": 40390 }, { "epoch": 107.73333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004965119875228581, "loss": 0.3252, "step": 40400 }, { "epoch": 107.76, "grad_norm": 0.1943359375, "learning_rate": 0.0004965102429623704, "loss": 0.3263, "step": 40410 }, { "epoch": 107.78666666666666, "grad_norm": 0.1689453125, "learning_rate": 0.0004965084979687795, "loss": 0.3275, "step": 40420 }, { "epoch": 107.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004965067525420883, "loss": 0.3096, "step": 40430 }, { "epoch": 107.84, "grad_norm": 0.18359375, "learning_rate": 0.0004965050066823001, "loss": 0.3095, "step": 40440 }, { "epoch": 107.86666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.0004965032603894177, "loss": 0.3108, "step": 40450 }, { "epoch": 107.89333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004965015136634445, "loss": 0.3109, "step": 40460 }, { "epoch": 107.92, "grad_norm": 0.298828125, "learning_rate": 0.0004964997665043833, "loss": 0.3128, "step": 40470 }, { "epoch": 107.94666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004964980189122371, "loss": 0.314, "step": 40480 }, { "epoch": 107.97333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004964962708870094, "loss": 0.3224, "step": 40490 }, { "epoch": 108.0, "grad_norm": 0.166015625, "learning_rate": 0.0004964945224287027, "loss": 0.3108, "step": 40500 }, { "epoch": 108.0, "eval_loss": 0.40004104375839233, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2243, "eval_samples_per_second": 1.425, "eval_steps_per_second": 0.089, "step": 40500 }, { "epoch": 108.02666666666667, "grad_norm": 0.2578125, "learning_rate": 0.0004964927735373206, "loss": 0.3329, "step": 40510 }, { "epoch": 108.05333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004964910242128659, "loss": 0.3388, "step": 40520 }, { "epoch": 108.08, "grad_norm": 0.427734375, "learning_rate": 0.0004964892744553417, "loss": 0.323, "step": 40530 }, { "epoch": 108.10666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004964875242647512, "loss": 0.3249, "step": 40540 }, { "epoch": 108.13333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004964857736410972, "loss": 0.3168, "step": 40550 }, { "epoch": 108.16, "grad_norm": 0.1884765625, "learning_rate": 0.000496484022584383, "loss": 0.3232, "step": 40560 }, { "epoch": 108.18666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004964822710946116, "loss": 0.3183, "step": 40570 }, { "epoch": 108.21333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004964805191717862, "loss": 0.3068, "step": 40580 }, { "epoch": 108.24, "grad_norm": 0.2138671875, "learning_rate": 0.0004964787668159097, "loss": 0.3117, "step": 40590 }, { "epoch": 108.26666666666667, "grad_norm": 0.2265625, "learning_rate": 0.0004964770140269852, "loss": 0.3172, "step": 40600 }, { "epoch": 108.29333333333334, "grad_norm": 0.181640625, "learning_rate": 0.000496475260805016, "loss": 0.3131, "step": 40610 }, { "epoch": 108.32, "grad_norm": 0.18359375, "learning_rate": 0.0004964735071500048, "loss": 0.3196, "step": 40620 }, { "epoch": 108.34666666666666, "grad_norm": 0.1875, "learning_rate": 0.000496471753061955, "loss": 0.3188, "step": 40630 }, { "epoch": 108.37333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004964699985408696, "loss": 0.3111, "step": 40640 }, { "epoch": 108.4, "grad_norm": 0.251953125, "learning_rate": 0.0004964682435867516, "loss": 0.3128, "step": 40650 }, { "epoch": 108.42666666666666, "grad_norm": 0.1708984375, "learning_rate": 0.0004964664881996042, "loss": 0.3189, "step": 40660 }, { "epoch": 108.45333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0004964647323794304, "loss": 0.3286, "step": 40670 }, { "epoch": 108.48, "grad_norm": 0.419921875, "learning_rate": 0.0004964629761262333, "loss": 0.3241, "step": 40680 }, { "epoch": 108.50666666666666, "grad_norm": 0.47265625, "learning_rate": 0.0004964612194400161, "loss": 0.3206, "step": 40690 }, { "epoch": 108.53333333333333, "grad_norm": 0.427734375, "learning_rate": 0.0004964594623207817, "loss": 0.3156, "step": 40700 }, { "epoch": 108.56, "grad_norm": 0.19921875, "learning_rate": 0.0004964577047685332, "loss": 0.3123, "step": 40710 }, { "epoch": 108.58666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004964559467832738, "loss": 0.3151, "step": 40720 }, { "epoch": 108.61333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004964541883650065, "loss": 0.3065, "step": 40730 }, { "epoch": 108.64, "grad_norm": 0.2001953125, "learning_rate": 0.0004964524295137346, "loss": 0.3088, "step": 40740 }, { "epoch": 108.66666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004964506702294609, "loss": 0.3243, "step": 40750 }, { "epoch": 108.69333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004964489105121887, "loss": 0.3034, "step": 40760 }, { "epoch": 108.72, "grad_norm": 0.267578125, "learning_rate": 0.0004964471503619208, "loss": 0.3187, "step": 40770 }, { "epoch": 108.74666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004964453897786608, "loss": 0.321, "step": 40780 }, { "epoch": 108.77333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004964436287624113, "loss": 0.3325, "step": 40790 }, { "epoch": 108.8, "grad_norm": 0.212890625, "learning_rate": 0.0004964418673131757, "loss": 0.3183, "step": 40800 }, { "epoch": 108.82666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004964401054309569, "loss": 0.3071, "step": 40810 }, { "epoch": 108.85333333333334, "grad_norm": 0.2333984375, "learning_rate": 0.0004964383431157581, "loss": 0.3112, "step": 40820 }, { "epoch": 108.88, "grad_norm": 0.193359375, "learning_rate": 0.0004964365803675824, "loss": 0.3105, "step": 40830 }, { "epoch": 108.90666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004964348171864329, "loss": 0.3133, "step": 40840 }, { "epoch": 108.93333333333334, "grad_norm": 0.19140625, "learning_rate": 0.0004964330535723126, "loss": 0.3129, "step": 40850 }, { "epoch": 108.96, "grad_norm": 0.166015625, "learning_rate": 0.0004964312895252247, "loss": 0.3132, "step": 40860 }, { "epoch": 108.98666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004964295250451722, "loss": 0.3255, "step": 40870 }, { "epoch": 109.0, "eval_loss": 0.3988592326641083, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.9609, "eval_samples_per_second": 1.234, "eval_steps_per_second": 0.077, "step": 40875 }, { "epoch": 109.01333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004964277601321584, "loss": 0.315, "step": 40880 }, { "epoch": 109.04, "grad_norm": 0.1865234375, "learning_rate": 0.0004964259947861863, "loss": 0.3419, "step": 40890 }, { "epoch": 109.06666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004964242290072588, "loss": 0.3267, "step": 40900 }, { "epoch": 109.09333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0004964224627953792, "loss": 0.3229, "step": 40910 }, { "epoch": 109.12, "grad_norm": 0.181640625, "learning_rate": 0.0004964206961505506, "loss": 0.3197, "step": 40920 }, { "epoch": 109.14666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004964189290727762, "loss": 0.3206, "step": 40930 }, { "epoch": 109.17333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004964171615620588, "loss": 0.3204, "step": 40940 }, { "epoch": 109.2, "grad_norm": 0.208984375, "learning_rate": 0.0004964153936184018, "loss": 0.3134, "step": 40950 }, { "epoch": 109.22666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004964136252418082, "loss": 0.3078, "step": 40960 }, { "epoch": 109.25333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004964118564322811, "loss": 0.3077, "step": 40970 }, { "epoch": 109.28, "grad_norm": 0.2490234375, "learning_rate": 0.0004964100871898235, "loss": 0.3261, "step": 40980 }, { "epoch": 109.30666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004964083175144387, "loss": 0.3081, "step": 40990 }, { "epoch": 109.33333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004964065474061298, "loss": 0.3229, "step": 41000 }, { "epoch": 109.36, "grad_norm": 0.203125, "learning_rate": 0.0004964047768648998, "loss": 0.3133, "step": 41010 }, { "epoch": 109.38666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004964030058907517, "loss": 0.3104, "step": 41020 }, { "epoch": 109.41333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004964012344836889, "loss": 0.3171, "step": 41030 }, { "epoch": 109.44, "grad_norm": 0.2080078125, "learning_rate": 0.0004963994626437145, "loss": 0.3242, "step": 41040 }, { "epoch": 109.46666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004963976903708312, "loss": 0.3283, "step": 41050 }, { "epoch": 109.49333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004963959176650426, "loss": 0.3173, "step": 41060 }, { "epoch": 109.52, "grad_norm": 0.21484375, "learning_rate": 0.0004963941445263515, "loss": 0.3205, "step": 41070 }, { "epoch": 109.54666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004963923709547613, "loss": 0.3115, "step": 41080 }, { "epoch": 109.57333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004963905969502748, "loss": 0.3146, "step": 41090 }, { "epoch": 109.6, "grad_norm": 0.216796875, "learning_rate": 0.0004963888225128953, "loss": 0.3107, "step": 41100 }, { "epoch": 109.62666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004963870476426259, "loss": 0.3062, "step": 41110 }, { "epoch": 109.65333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004963852723394696, "loss": 0.3194, "step": 41120 }, { "epoch": 109.68, "grad_norm": 0.21484375, "learning_rate": 0.0004963834966034297, "loss": 0.3077, "step": 41130 }, { "epoch": 109.70666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004963817204345092, "loss": 0.3093, "step": 41140 }, { "epoch": 109.73333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004963799438327113, "loss": 0.3244, "step": 41150 }, { "epoch": 109.76, "grad_norm": 0.2041015625, "learning_rate": 0.0004963781667980391, "loss": 0.3265, "step": 41160 }, { "epoch": 109.78666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004963763893304957, "loss": 0.3268, "step": 41170 }, { "epoch": 109.81333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004963746114300842, "loss": 0.3097, "step": 41180 }, { "epoch": 109.84, "grad_norm": 0.2138671875, "learning_rate": 0.0004963728330968077, "loss": 0.3088, "step": 41190 }, { "epoch": 109.86666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004963710543306694, "loss": 0.3111, "step": 41200 }, { "epoch": 109.89333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004963692751316724, "loss": 0.3104, "step": 41210 }, { "epoch": 109.92, "grad_norm": 0.220703125, "learning_rate": 0.0004963674954998199, "loss": 0.313, "step": 41220 }, { "epoch": 109.94666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004963657154351149, "loss": 0.3139, "step": 41230 }, { "epoch": 109.97333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004963639349375605, "loss": 0.3212, "step": 41240 }, { "epoch": 110.0, "grad_norm": 0.212890625, "learning_rate": 0.00049636215400716, "loss": 0.31, "step": 41250 }, { "epoch": 110.0, "eval_loss": 0.4007114768028259, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5367, "eval_samples_per_second": 1.276, "eval_steps_per_second": 0.08, "step": 41250 }, { "epoch": 110.02666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004963603726439164, "loss": 0.3323, "step": 41260 }, { "epoch": 110.05333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004963585908478329, "loss": 0.3385, "step": 41270 }, { "epoch": 110.08, "grad_norm": 0.212890625, "learning_rate": 0.0004963568086189126, "loss": 0.3229, "step": 41280 }, { "epoch": 110.10666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004963550259571585, "loss": 0.324, "step": 41290 }, { "epoch": 110.13333333333334, "grad_norm": 0.2265625, "learning_rate": 0.000496353242862574, "loss": 0.3159, "step": 41300 }, { "epoch": 110.16, "grad_norm": 0.2021484375, "learning_rate": 0.000496351459335162, "loss": 0.3226, "step": 41310 }, { "epoch": 110.18666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004963496753749258, "loss": 0.3179, "step": 41320 }, { "epoch": 110.21333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004963478909818684, "loss": 0.3063, "step": 41330 }, { "epoch": 110.24, "grad_norm": 0.28515625, "learning_rate": 0.0004963461061559931, "loss": 0.3105, "step": 41340 }, { "epoch": 110.26666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004963443208973029, "loss": 0.3165, "step": 41350 }, { "epoch": 110.29333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004963425352058009, "loss": 0.3118, "step": 41360 }, { "epoch": 110.32, "grad_norm": 0.2109375, "learning_rate": 0.0004963407490814903, "loss": 0.3197, "step": 41370 }, { "epoch": 110.34666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004963389625243743, "loss": 0.3186, "step": 41380 }, { "epoch": 110.37333333333333, "grad_norm": 0.271484375, "learning_rate": 0.0004963371755344559, "loss": 0.3113, "step": 41390 }, { "epoch": 110.4, "grad_norm": 0.2333984375, "learning_rate": 0.0004963353881117384, "loss": 0.3125, "step": 41400 }, { "epoch": 110.42666666666666, "grad_norm": 0.169921875, "learning_rate": 0.0004963336002562248, "loss": 0.3191, "step": 41410 }, { "epoch": 110.45333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004963318119679183, "loss": 0.3277, "step": 41420 }, { "epoch": 110.48, "grad_norm": 0.22265625, "learning_rate": 0.0004963300232468221, "loss": 0.3235, "step": 41430 }, { "epoch": 110.50666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004963282340929392, "loss": 0.3202, "step": 41440 }, { "epoch": 110.53333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.000496326444506273, "loss": 0.3148, "step": 41450 }, { "epoch": 110.56, "grad_norm": 0.19921875, "learning_rate": 0.0004963246544868263, "loss": 0.3116, "step": 41460 }, { "epoch": 110.58666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0004963228640346024, "loss": 0.3146, "step": 41470 }, { "epoch": 110.61333333333333, "grad_norm": 0.396484375, "learning_rate": 0.0004963210731496046, "loss": 0.3062, "step": 41480 }, { "epoch": 110.64, "grad_norm": 0.326171875, "learning_rate": 0.0004963192818318359, "loss": 0.3083, "step": 41490 }, { "epoch": 110.66666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004963174900812995, "loss": 0.3241, "step": 41500 }, { "epoch": 110.69333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004963156978979984, "loss": 0.3025, "step": 41510 }, { "epoch": 110.72, "grad_norm": 0.2138671875, "learning_rate": 0.0004963139052819359, "loss": 0.3194, "step": 41520 }, { "epoch": 110.74666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.000496312112233115, "loss": 0.3207, "step": 41530 }, { "epoch": 110.77333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004963103187515391, "loss": 0.3318, "step": 41540 }, { "epoch": 110.8, "grad_norm": 0.189453125, "learning_rate": 0.0004963085248372111, "loss": 0.3178, "step": 41550 }, { "epoch": 110.82666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004963067304901343, "loss": 0.3061, "step": 41560 }, { "epoch": 110.85333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004963049357103119, "loss": 0.3109, "step": 41570 }, { "epoch": 110.88, "grad_norm": 0.2119140625, "learning_rate": 0.0004963031404977468, "loss": 0.3103, "step": 41580 }, { "epoch": 110.90666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004963013448524425, "loss": 0.3124, "step": 41590 }, { "epoch": 110.93333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004962995487744019, "loss": 0.313, "step": 41600 }, { "epoch": 110.96, "grad_norm": 0.1708984375, "learning_rate": 0.0004962977522636282, "loss": 0.3123, "step": 41610 }, { "epoch": 110.98666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004962959553201246, "loss": 0.3248, "step": 41620 }, { "epoch": 111.0, "eval_loss": 0.3983340859413147, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7285, "eval_samples_per_second": 1.364, "eval_steps_per_second": 0.085, "step": 41625 }, { "epoch": 111.01333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004962941579438942, "loss": 0.3144, "step": 41630 }, { "epoch": 111.04, "grad_norm": 0.234375, "learning_rate": 0.0004962923601349402, "loss": 0.3414, "step": 41640 }, { "epoch": 111.06666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004962905618932658, "loss": 0.3262, "step": 41650 }, { "epoch": 111.09333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004962887632188741, "loss": 0.3236, "step": 41660 }, { "epoch": 111.12, "grad_norm": 0.19921875, "learning_rate": 0.0004962869641117683, "loss": 0.319, "step": 41670 }, { "epoch": 111.14666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004962851645719515, "loss": 0.3203, "step": 41680 }, { "epoch": 111.17333333333333, "grad_norm": 0.25, "learning_rate": 0.000496283364599427, "loss": 0.32, "step": 41690 }, { "epoch": 111.2, "grad_norm": 0.208984375, "learning_rate": 0.0004962815641941977, "loss": 0.3129, "step": 41700 }, { "epoch": 111.22666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004962797633562671, "loss": 0.3076, "step": 41710 }, { "epoch": 111.25333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.000496277962085638, "loss": 0.3072, "step": 41720 }, { "epoch": 111.28, "grad_norm": 0.2099609375, "learning_rate": 0.0004962761603823139, "loss": 0.325, "step": 41730 }, { "epoch": 111.30666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004962743582462978, "loss": 0.3069, "step": 41740 }, { "epoch": 111.33333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004962725556775929, "loss": 0.3217, "step": 41750 }, { "epoch": 111.36, "grad_norm": 0.2138671875, "learning_rate": 0.0004962707526762022, "loss": 0.3129, "step": 41760 }, { "epoch": 111.38666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004962689492421291, "loss": 0.3109, "step": 41770 }, { "epoch": 111.41333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004962671453753769, "loss": 0.3164, "step": 41780 }, { "epoch": 111.44, "grad_norm": 0.205078125, "learning_rate": 0.0004962653410759484, "loss": 0.3238, "step": 41790 }, { "epoch": 111.46666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004962635363438469, "loss": 0.3277, "step": 41800 }, { "epoch": 111.49333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004962617311790756, "loss": 0.3169, "step": 41810 }, { "epoch": 111.52, "grad_norm": 0.181640625, "learning_rate": 0.0004962599255816377, "loss": 0.3211, "step": 41820 }, { "epoch": 111.54666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004962581195515363, "loss": 0.311, "step": 41830 }, { "epoch": 111.57333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004962563130887747, "loss": 0.3144, "step": 41840 }, { "epoch": 111.6, "grad_norm": 0.203125, "learning_rate": 0.0004962545061933559, "loss": 0.3105, "step": 41850 }, { "epoch": 111.62666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004962526988652832, "loss": 0.3056, "step": 41860 }, { "epoch": 111.65333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004962508911045598, "loss": 0.3194, "step": 41870 }, { "epoch": 111.68, "grad_norm": 0.17578125, "learning_rate": 0.0004962490829111888, "loss": 0.3077, "step": 41880 }, { "epoch": 111.70666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004962472742851734, "loss": 0.3088, "step": 41890 }, { "epoch": 111.73333333333333, "grad_norm": 0.1689453125, "learning_rate": 0.0004962454652265167, "loss": 0.3243, "step": 41900 }, { "epoch": 111.76, "grad_norm": 0.169921875, "learning_rate": 0.0004962436557352219, "loss": 0.3259, "step": 41910 }, { "epoch": 111.78666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004962418458112924, "loss": 0.3266, "step": 41920 }, { "epoch": 111.81333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004962400354547311, "loss": 0.3084, "step": 41930 }, { "epoch": 111.84, "grad_norm": 0.2080078125, "learning_rate": 0.0004962382246655414, "loss": 0.3083, "step": 41940 }, { "epoch": 111.86666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004962364134437261, "loss": 0.3102, "step": 41950 }, { "epoch": 111.89333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004962346017892889, "loss": 0.3105, "step": 41960 }, { "epoch": 111.92, "grad_norm": 0.2060546875, "learning_rate": 0.0004962327897022327, "loss": 0.312, "step": 41970 }, { "epoch": 111.94666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004962309771825607, "loss": 0.3134, "step": 41980 }, { "epoch": 111.97333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004962291642302761, "loss": 0.3207, "step": 41990 }, { "epoch": 112.0, "grad_norm": 0.2275390625, "learning_rate": 0.0004962273508453822, "loss": 0.3097, "step": 42000 }, { "epoch": 112.0, "eval_loss": 0.40091875195503235, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.0532, "eval_samples_per_second": 1.327, "eval_steps_per_second": 0.083, "step": 42000 }, { "epoch": 112.02666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004962255370278819, "loss": 0.3316, "step": 42010 }, { "epoch": 112.05333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.0004962237227777786, "loss": 0.3385, "step": 42020 }, { "epoch": 112.08, "grad_norm": 0.1962890625, "learning_rate": 0.0004962219080950755, "loss": 0.3222, "step": 42030 }, { "epoch": 112.10666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004962200929797757, "loss": 0.3236, "step": 42040 }, { "epoch": 112.13333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004962182774318825, "loss": 0.3162, "step": 42050 }, { "epoch": 112.16, "grad_norm": 0.294921875, "learning_rate": 0.000496216461451399, "loss": 0.3223, "step": 42060 }, { "epoch": 112.18666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004962146450383282, "loss": 0.3168, "step": 42070 }, { "epoch": 112.21333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004962128281926737, "loss": 0.3063, "step": 42080 }, { "epoch": 112.24, "grad_norm": 0.20703125, "learning_rate": 0.0004962110109144385, "loss": 0.3102, "step": 42090 }, { "epoch": 112.26666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004962091932036258, "loss": 0.3161, "step": 42100 }, { "epoch": 112.29333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004962073750602388, "loss": 0.3116, "step": 42110 }, { "epoch": 112.32, "grad_norm": 0.19140625, "learning_rate": 0.0004962055564842804, "loss": 0.3181, "step": 42120 }, { "epoch": 112.34666666666666, "grad_norm": 0.25, "learning_rate": 0.0004962037374757544, "loss": 0.3181, "step": 42130 }, { "epoch": 112.37333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004962019180346635, "loss": 0.3105, "step": 42140 }, { "epoch": 112.4, "grad_norm": 0.1845703125, "learning_rate": 0.000496200098161011, "loss": 0.312, "step": 42150 }, { "epoch": 112.42666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004961982778548004, "loss": 0.3185, "step": 42160 }, { "epoch": 112.45333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004961964571160344, "loss": 0.327, "step": 42170 }, { "epoch": 112.48, "grad_norm": 0.205078125, "learning_rate": 0.0004961946359447166, "loss": 0.3227, "step": 42180 }, { "epoch": 112.50666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.00049619281434085, "loss": 0.3198, "step": 42190 }, { "epoch": 112.53333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004961909923044379, "loss": 0.3145, "step": 42200 }, { "epoch": 112.56, "grad_norm": 0.203125, "learning_rate": 0.0004961891698354833, "loss": 0.3111, "step": 42210 }, { "epoch": 112.58666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004961873469339897, "loss": 0.3148, "step": 42220 }, { "epoch": 112.61333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004961855235999602, "loss": 0.3061, "step": 42230 }, { "epoch": 112.64, "grad_norm": 0.1640625, "learning_rate": 0.0004961836998333978, "loss": 0.307, "step": 42240 }, { "epoch": 112.66666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004961818756343061, "loss": 0.3235, "step": 42250 }, { "epoch": 112.69333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004961800510026879, "loss": 0.302, "step": 42260 }, { "epoch": 112.72, "grad_norm": 0.3203125, "learning_rate": 0.0004961782259385465, "loss": 0.3186, "step": 42270 }, { "epoch": 112.74666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004961764004418854, "loss": 0.3203, "step": 42280 }, { "epoch": 112.77333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004961745745127075, "loss": 0.331, "step": 42290 }, { "epoch": 112.8, "grad_norm": 0.1982421875, "learning_rate": 0.0004961727481510161, "loss": 0.3166, "step": 42300 }, { "epoch": 112.82666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004961709213568144, "loss": 0.3063, "step": 42310 }, { "epoch": 112.85333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004961690941301056, "loss": 0.3102, "step": 42320 }, { "epoch": 112.88, "grad_norm": 0.208984375, "learning_rate": 0.000496167266470893, "loss": 0.3101, "step": 42330 }, { "epoch": 112.90666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004961654383791798, "loss": 0.3114, "step": 42340 }, { "epoch": 112.93333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004961636098549689, "loss": 0.3119, "step": 42350 }, { "epoch": 112.96, "grad_norm": 0.1748046875, "learning_rate": 0.0004961617808982639, "loss": 0.3124, "step": 42360 }, { "epoch": 112.98666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0004961599515090679, "loss": 0.3244, "step": 42370 }, { "epoch": 113.0, "eval_loss": 0.39934012293815613, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9562, "eval_samples_per_second": 1.338, "eval_steps_per_second": 0.084, "step": 42375 }, { "epoch": 113.01333333333334, "grad_norm": 0.244140625, "learning_rate": 0.0004961581216873841, "loss": 0.314, "step": 42380 }, { "epoch": 113.04, "grad_norm": 0.173828125, "learning_rate": 0.0004961562914332158, "loss": 0.3407, "step": 42390 }, { "epoch": 113.06666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004961544607465659, "loss": 0.3252, "step": 42400 }, { "epoch": 113.09333333333333, "grad_norm": 0.193359375, "learning_rate": 0.000496152629627438, "loss": 0.3225, "step": 42410 }, { "epoch": 113.12, "grad_norm": 0.25, "learning_rate": 0.0004961507980758351, "loss": 0.3193, "step": 42420 }, { "epoch": 113.14666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004961489660917605, "loss": 0.3195, "step": 42430 }, { "epoch": 113.17333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004961471336752173, "loss": 0.32, "step": 42440 }, { "epoch": 113.2, "grad_norm": 0.2177734375, "learning_rate": 0.0004961453008262089, "loss": 0.3118, "step": 42450 }, { "epoch": 113.22666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004961434675447385, "loss": 0.3073, "step": 42460 }, { "epoch": 113.25333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004961416338308091, "loss": 0.3069, "step": 42470 }, { "epoch": 113.28, "grad_norm": 0.2138671875, "learning_rate": 0.0004961397996844242, "loss": 0.3252, "step": 42480 }, { "epoch": 113.30666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004961379651055868, "loss": 0.3068, "step": 42490 }, { "epoch": 113.33333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004961361300943003, "loss": 0.3214, "step": 42500 }, { "epoch": 113.36, "grad_norm": 0.197265625, "learning_rate": 0.0004961342946505678, "loss": 0.3129, "step": 42510 }, { "epoch": 113.38666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0004961324587743926, "loss": 0.3106, "step": 42520 }, { "epoch": 113.41333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004961306224657779, "loss": 0.3163, "step": 42530 }, { "epoch": 113.44, "grad_norm": 0.169921875, "learning_rate": 0.0004961287857247269, "loss": 0.3232, "step": 42540 }, { "epoch": 113.46666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004961269485512428, "loss": 0.3272, "step": 42550 }, { "epoch": 113.49333333333334, "grad_norm": 0.22265625, "learning_rate": 0.000496125110945329, "loss": 0.3165, "step": 42560 }, { "epoch": 113.52, "grad_norm": 0.2099609375, "learning_rate": 0.0004961232729069886, "loss": 0.3205, "step": 42570 }, { "epoch": 113.54666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004961214344362247, "loss": 0.3109, "step": 42580 }, { "epoch": 113.57333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004961195955330408, "loss": 0.3135, "step": 42590 }, { "epoch": 113.6, "grad_norm": 0.189453125, "learning_rate": 0.0004961177561974399, "loss": 0.3096, "step": 42600 }, { "epoch": 113.62666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004961159164294253, "loss": 0.3052, "step": 42610 }, { "epoch": 113.65333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004961140762290003, "loss": 0.3184, "step": 42620 }, { "epoch": 113.68, "grad_norm": 0.1728515625, "learning_rate": 0.0004961122355961682, "loss": 0.3071, "step": 42630 }, { "epoch": 113.70666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.000496110394530932, "loss": 0.3081, "step": 42640 }, { "epoch": 113.73333333333333, "grad_norm": 0.287109375, "learning_rate": 0.000496108553033295, "loss": 0.324, "step": 42650 }, { "epoch": 113.76, "grad_norm": 0.2275390625, "learning_rate": 0.0004961067111032606, "loss": 0.3255, "step": 42660 }, { "epoch": 113.78666666666666, "grad_norm": 0.1669921875, "learning_rate": 0.0004961048687408319, "loss": 0.3256, "step": 42670 }, { "epoch": 113.81333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004961030259460123, "loss": 0.3085, "step": 42680 }, { "epoch": 113.84, "grad_norm": 0.2236328125, "learning_rate": 0.0004961011827188048, "loss": 0.3077, "step": 42690 }, { "epoch": 113.86666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0004960993390592126, "loss": 0.3102, "step": 42700 }, { "epoch": 113.89333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004960974949672393, "loss": 0.3098, "step": 42710 }, { "epoch": 113.92, "grad_norm": 0.2177734375, "learning_rate": 0.0004960956504428879, "loss": 0.3119, "step": 42720 }, { "epoch": 113.94666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004960938054861616, "loss": 0.3126, "step": 42730 }, { "epoch": 113.97333333333333, "grad_norm": 0.29296875, "learning_rate": 0.0004960919600970637, "loss": 0.3198, "step": 42740 }, { "epoch": 114.0, "grad_norm": 0.1865234375, "learning_rate": 0.0004960901142755975, "loss": 0.3092, "step": 42750 }, { "epoch": 114.0, "eval_loss": 0.3987213969230652, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9024, "eval_samples_per_second": 1.468, "eval_steps_per_second": 0.092, "step": 42750 }, { "epoch": 114.02666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004960882680217662, "loss": 0.3311, "step": 42760 }, { "epoch": 114.05333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004960864213355731, "loss": 0.3377, "step": 42770 }, { "epoch": 114.08, "grad_norm": 0.30078125, "learning_rate": 0.0004960845742170212, "loss": 0.3218, "step": 42780 }, { "epoch": 114.10666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.000496082726666114, "loss": 0.3226, "step": 42790 }, { "epoch": 114.13333333333334, "grad_norm": 0.32421875, "learning_rate": 0.0004960808786828546, "loss": 0.3151, "step": 42800 }, { "epoch": 114.16, "grad_norm": 0.17578125, "learning_rate": 0.0004960790302672465, "loss": 0.322, "step": 42810 }, { "epoch": 114.18666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004960771814192926, "loss": 0.3163, "step": 42820 }, { "epoch": 114.21333333333334, "grad_norm": 0.25, "learning_rate": 0.0004960753321389964, "loss": 0.3057, "step": 42830 }, { "epoch": 114.24, "grad_norm": 0.1953125, "learning_rate": 0.0004960734824263611, "loss": 0.3105, "step": 42840 }, { "epoch": 114.26666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004960716322813898, "loss": 0.3158, "step": 42850 }, { "epoch": 114.29333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.0004960697817040859, "loss": 0.3113, "step": 42860 }, { "epoch": 114.32, "grad_norm": 0.30078125, "learning_rate": 0.0004960679306944527, "loss": 0.3183, "step": 42870 }, { "epoch": 114.34666666666666, "grad_norm": 0.421875, "learning_rate": 0.0004960660792524932, "loss": 0.3181, "step": 42880 }, { "epoch": 114.37333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.000496064227378211, "loss": 0.3098, "step": 42890 }, { "epoch": 114.4, "grad_norm": 0.310546875, "learning_rate": 0.0004960623750716091, "loss": 0.3112, "step": 42900 }, { "epoch": 114.42666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004960605223326909, "loss": 0.318, "step": 42910 }, { "epoch": 114.45333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004960586691614594, "loss": 0.3266, "step": 42920 }, { "epoch": 114.48, "grad_norm": 0.181640625, "learning_rate": 0.0004960568155579181, "loss": 0.3224, "step": 42930 }, { "epoch": 114.50666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004960549615220703, "loss": 0.3188, "step": 42940 }, { "epoch": 114.53333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004960531070539191, "loss": 0.3138, "step": 42950 }, { "epoch": 114.56, "grad_norm": 0.1923828125, "learning_rate": 0.0004960512521534678, "loss": 0.3111, "step": 42960 }, { "epoch": 114.58666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004960493968207197, "loss": 0.3138, "step": 42970 }, { "epoch": 114.61333333333333, "grad_norm": 0.1640625, "learning_rate": 0.000496047541055678, "loss": 0.3057, "step": 42980 }, { "epoch": 114.64, "grad_norm": 0.2109375, "learning_rate": 0.000496045684858346, "loss": 0.3073, "step": 42990 }, { "epoch": 114.66666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.000496043828228727, "loss": 0.3231, "step": 43000 }, { "epoch": 114.69333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0004960419711668242, "loss": 0.3022, "step": 43010 }, { "epoch": 114.72, "grad_norm": 0.291015625, "learning_rate": 0.0004960401136726407, "loss": 0.3185, "step": 43020 }, { "epoch": 114.74666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004960382557461802, "loss": 0.3193, "step": 43030 }, { "epoch": 114.77333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004960363973874456, "loss": 0.3314, "step": 43040 }, { "epoch": 114.8, "grad_norm": 0.2734375, "learning_rate": 0.0004960345385964402, "loss": 0.3174, "step": 43050 }, { "epoch": 114.82666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004960326793731674, "loss": 0.3052, "step": 43060 }, { "epoch": 114.85333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004960308197176304, "loss": 0.3095, "step": 43070 }, { "epoch": 114.88, "grad_norm": 0.259765625, "learning_rate": 0.0004960289596298324, "loss": 0.309, "step": 43080 }, { "epoch": 114.90666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004960270991097768, "loss": 0.3115, "step": 43090 }, { "epoch": 114.93333333333334, "grad_norm": 0.228515625, "learning_rate": 0.0004960252381574668, "loss": 0.3119, "step": 43100 }, { "epoch": 114.96, "grad_norm": 0.1708984375, "learning_rate": 0.0004960233767729058, "loss": 0.3115, "step": 43110 }, { "epoch": 114.98666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004960215149560968, "loss": 0.3238, "step": 43120 }, { "epoch": 115.0, "eval_loss": 0.40038642287254333, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1292, "eval_samples_per_second": 1.438, "eval_steps_per_second": 0.09, "step": 43125 }, { "epoch": 115.01333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004960196527070431, "loss": 0.3138, "step": 43130 }, { "epoch": 115.04, "grad_norm": 0.2578125, "learning_rate": 0.0004960177900257483, "loss": 0.3406, "step": 43140 }, { "epoch": 115.06666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004960159269122154, "loss": 0.3248, "step": 43150 }, { "epoch": 115.09333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004960140633664477, "loss": 0.3223, "step": 43160 }, { "epoch": 115.12, "grad_norm": 0.2138671875, "learning_rate": 0.0004960121993884486, "loss": 0.3184, "step": 43170 }, { "epoch": 115.14666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004960103349782212, "loss": 0.3194, "step": 43180 }, { "epoch": 115.17333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0004960084701357689, "loss": 0.3195, "step": 43190 }, { "epoch": 115.2, "grad_norm": 0.2490234375, "learning_rate": 0.0004960066048610949, "loss": 0.3123, "step": 43200 }, { "epoch": 115.22666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004960047391542026, "loss": 0.3069, "step": 43210 }, { "epoch": 115.25333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004960028730150951, "loss": 0.3069, "step": 43220 }, { "epoch": 115.28, "grad_norm": 0.2109375, "learning_rate": 0.0004960010064437758, "loss": 0.3255, "step": 43230 }, { "epoch": 115.30666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004959991394402479, "loss": 0.3068, "step": 43240 }, { "epoch": 115.33333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004959972720045147, "loss": 0.3208, "step": 43250 }, { "epoch": 115.36, "grad_norm": 0.19140625, "learning_rate": 0.0004959954041365796, "loss": 0.3129, "step": 43260 }, { "epoch": 115.38666666666667, "grad_norm": 0.2431640625, "learning_rate": 0.0004959935358364458, "loss": 0.3094, "step": 43270 }, { "epoch": 115.41333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004959916671041165, "loss": 0.3154, "step": 43280 }, { "epoch": 115.44, "grad_norm": 0.1865234375, "learning_rate": 0.0004959897979395951, "loss": 0.3228, "step": 43290 }, { "epoch": 115.46666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004959879283428849, "loss": 0.3277, "step": 43300 }, { "epoch": 115.49333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004959860583139891, "loss": 0.3156, "step": 43310 }, { "epoch": 115.52, "grad_norm": 0.17578125, "learning_rate": 0.0004959841878529108, "loss": 0.32, "step": 43320 }, { "epoch": 115.54666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004959823169596538, "loss": 0.3103, "step": 43330 }, { "epoch": 115.57333333333334, "grad_norm": 0.205078125, "learning_rate": 0.000495980445634221, "loss": 0.3132, "step": 43340 }, { "epoch": 115.6, "grad_norm": 0.1826171875, "learning_rate": 0.0004959785738766157, "loss": 0.3101, "step": 43350 }, { "epoch": 115.62666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004959767016868413, "loss": 0.3052, "step": 43360 }, { "epoch": 115.65333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004959748290649011, "loss": 0.3186, "step": 43370 }, { "epoch": 115.68, "grad_norm": 0.1904296875, "learning_rate": 0.0004959729560107983, "loss": 0.3071, "step": 43380 }, { "epoch": 115.70666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004959710825245361, "loss": 0.3076, "step": 43390 }, { "epoch": 115.73333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0004959692086061181, "loss": 0.3235, "step": 43400 }, { "epoch": 115.76, "grad_norm": 0.2314453125, "learning_rate": 0.0004959673342555474, "loss": 0.3248, "step": 43410 }, { "epoch": 115.78666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004959654594728272, "loss": 0.326, "step": 43420 }, { "epoch": 115.81333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004959635842579611, "loss": 0.308, "step": 43430 }, { "epoch": 115.84, "grad_norm": 0.17578125, "learning_rate": 0.000495961708610952, "loss": 0.3074, "step": 43440 }, { "epoch": 115.86666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004959598325318034, "loss": 0.3097, "step": 43450 }, { "epoch": 115.89333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004959579560205187, "loss": 0.3093, "step": 43460 }, { "epoch": 115.92, "grad_norm": 0.205078125, "learning_rate": 0.0004959560790771011, "loss": 0.3106, "step": 43470 }, { "epoch": 115.94666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004959542017015538, "loss": 0.3131, "step": 43480 }, { "epoch": 115.97333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004959523238938802, "loss": 0.3198, "step": 43490 }, { "epoch": 116.0, "grad_norm": 0.287109375, "learning_rate": 0.0004959504456540835, "loss": 0.3082, "step": 43500 }, { "epoch": 116.0, "eval_loss": 0.4005337953567505, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.791, "eval_samples_per_second": 1.483, "eval_steps_per_second": 0.093, "step": 43500 }, { "epoch": 116.02666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004959485669821672, "loss": 0.3314, "step": 43510 }, { "epoch": 116.05333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004959466878781345, "loss": 0.3369, "step": 43520 }, { "epoch": 116.08, "grad_norm": 0.1884765625, "learning_rate": 0.0004959448083419886, "loss": 0.321, "step": 43530 }, { "epoch": 116.10666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004959429283737329, "loss": 0.3233, "step": 43540 }, { "epoch": 116.13333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004959410479733708, "loss": 0.3144, "step": 43550 }, { "epoch": 116.16, "grad_norm": 0.21875, "learning_rate": 0.0004959391671409053, "loss": 0.3219, "step": 43560 }, { "epoch": 116.18666666666667, "grad_norm": 0.212890625, "learning_rate": 0.00049593728587634, "loss": 0.316, "step": 43570 }, { "epoch": 116.21333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004959354041796781, "loss": 0.3047, "step": 43580 }, { "epoch": 116.24, "grad_norm": 0.21484375, "learning_rate": 0.0004959335220509229, "loss": 0.3089, "step": 43590 }, { "epoch": 116.26666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004959316394900778, "loss": 0.3152, "step": 43600 }, { "epoch": 116.29333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004959297564971458, "loss": 0.3112, "step": 43610 }, { "epoch": 116.32, "grad_norm": 0.181640625, "learning_rate": 0.0004959278730721307, "loss": 0.3179, "step": 43620 }, { "epoch": 116.34666666666666, "grad_norm": 0.1962890625, "learning_rate": 0.0004959259892150354, "loss": 0.3173, "step": 43630 }, { "epoch": 116.37333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0004959241049258634, "loss": 0.3096, "step": 43640 }, { "epoch": 116.4, "grad_norm": 0.18359375, "learning_rate": 0.0004959222202046179, "loss": 0.3112, "step": 43650 }, { "epoch": 116.42666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004959203350513023, "loss": 0.3177, "step": 43660 }, { "epoch": 116.45333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004959184494659199, "loss": 0.3264, "step": 43670 }, { "epoch": 116.48, "grad_norm": 0.1787109375, "learning_rate": 0.000495916563448474, "loss": 0.3219, "step": 43680 }, { "epoch": 116.50666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004959146769989678, "loss": 0.3191, "step": 43690 }, { "epoch": 116.53333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004959127901174048, "loss": 0.3134, "step": 43700 }, { "epoch": 116.56, "grad_norm": 0.265625, "learning_rate": 0.0004959109028037883, "loss": 0.3106, "step": 43710 }, { "epoch": 116.58666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004959090150581215, "loss": 0.3134, "step": 43720 }, { "epoch": 116.61333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004959071268804078, "loss": 0.3055, "step": 43730 }, { "epoch": 116.64, "grad_norm": 0.173828125, "learning_rate": 0.0004959052382706504, "loss": 0.3074, "step": 43740 }, { "epoch": 116.66666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004959033492288529, "loss": 0.3225, "step": 43750 }, { "epoch": 116.69333333333333, "grad_norm": 0.349609375, "learning_rate": 0.0004959014597550182, "loss": 0.3016, "step": 43760 }, { "epoch": 116.72, "grad_norm": 0.2333984375, "learning_rate": 0.00049589956984915, "loss": 0.3177, "step": 43770 }, { "epoch": 116.74666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004958976795112514, "loss": 0.3188, "step": 43780 }, { "epoch": 116.77333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004958957887413258, "loss": 0.3305, "step": 43790 }, { "epoch": 116.8, "grad_norm": 0.197265625, "learning_rate": 0.0004958938975393766, "loss": 0.3166, "step": 43800 }, { "epoch": 116.82666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004958920059054069, "loss": 0.3057, "step": 43810 }, { "epoch": 116.85333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004958901138394202, "loss": 0.3095, "step": 43820 }, { "epoch": 116.88, "grad_norm": 0.1796875, "learning_rate": 0.0004958882213414198, "loss": 0.3082, "step": 43830 }, { "epoch": 116.90666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004958863284114089, "loss": 0.3105, "step": 43840 }, { "epoch": 116.93333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004958844350493911, "loss": 0.3109, "step": 43850 }, { "epoch": 116.96, "grad_norm": 0.2099609375, "learning_rate": 0.0004958825412553694, "loss": 0.3114, "step": 43860 }, { "epoch": 116.98666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004958806470293474, "loss": 0.3234, "step": 43870 }, { "epoch": 117.0, "eval_loss": 0.39964839816093445, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6258, "eval_samples_per_second": 1.506, "eval_steps_per_second": 0.094, "step": 43875 }, { "epoch": 117.01333333333334, "grad_norm": 0.255859375, "learning_rate": 0.0004958787523713283, "loss": 0.3134, "step": 43880 }, { "epoch": 117.04, "grad_norm": 0.21484375, "learning_rate": 0.0004958768572813154, "loss": 0.3405, "step": 43890 }, { "epoch": 117.06666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004958749617593122, "loss": 0.325, "step": 43900 }, { "epoch": 117.09333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004958730658053217, "loss": 0.3223, "step": 43910 }, { "epoch": 117.12, "grad_norm": 0.1826171875, "learning_rate": 0.0004958711694193475, "loss": 0.3179, "step": 43920 }, { "epoch": 117.14666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0004958692726013929, "loss": 0.3188, "step": 43930 }, { "epoch": 117.17333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004958673753514612, "loss": 0.319, "step": 43940 }, { "epoch": 117.2, "grad_norm": 0.1962890625, "learning_rate": 0.0004958654776695557, "loss": 0.3118, "step": 43950 }, { "epoch": 117.22666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004958635795556798, "loss": 0.3064, "step": 43960 }, { "epoch": 117.25333333333333, "grad_norm": 0.2734375, "learning_rate": 0.0004958616810098368, "loss": 0.3063, "step": 43970 }, { "epoch": 117.28, "grad_norm": 0.21875, "learning_rate": 0.0004958597820320299, "loss": 0.3244, "step": 43980 }, { "epoch": 117.30666666666667, "grad_norm": 0.22265625, "learning_rate": 0.0004958578826222629, "loss": 0.3063, "step": 43990 }, { "epoch": 117.33333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004958559827805385, "loss": 0.3206, "step": 44000 }, { "epoch": 117.36, "grad_norm": 0.2392578125, "learning_rate": 0.0004958540825068605, "loss": 0.3117, "step": 44010 }, { "epoch": 117.38666666666667, "grad_norm": 0.236328125, "learning_rate": 0.000495852181801232, "loss": 0.3096, "step": 44020 }, { "epoch": 117.41333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004958502806636564, "loss": 0.3152, "step": 44030 }, { "epoch": 117.44, "grad_norm": 0.2109375, "learning_rate": 0.0004958483790941372, "loss": 0.3223, "step": 44040 }, { "epoch": 117.46666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004958464770926775, "loss": 0.3262, "step": 44050 }, { "epoch": 117.49333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004958445746592807, "loss": 0.3159, "step": 44060 }, { "epoch": 117.52, "grad_norm": 0.1650390625, "learning_rate": 0.0004958426717939504, "loss": 0.3197, "step": 44070 }, { "epoch": 117.54666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004958407684966895, "loss": 0.3102, "step": 44080 }, { "epoch": 117.57333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004958388647675017, "loss": 0.3136, "step": 44090 }, { "epoch": 117.6, "grad_norm": 0.2099609375, "learning_rate": 0.0004958369606063902, "loss": 0.3089, "step": 44100 }, { "epoch": 117.62666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004958350560133584, "loss": 0.3046, "step": 44110 }, { "epoch": 117.65333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004958331509884095, "loss": 0.3181, "step": 44120 }, { "epoch": 117.68, "grad_norm": 0.1943359375, "learning_rate": 0.000495831245531547, "loss": 0.3065, "step": 44130 }, { "epoch": 117.70666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004958293396427743, "loss": 0.3069, "step": 44140 }, { "epoch": 117.73333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004958274333220946, "loss": 0.3235, "step": 44150 }, { "epoch": 117.76, "grad_norm": 0.1982421875, "learning_rate": 0.0004958255265695113, "loss": 0.3244, "step": 44160 }, { "epoch": 117.78666666666666, "grad_norm": 0.1630859375, "learning_rate": 0.0004958236193850277, "loss": 0.3249, "step": 44170 }, { "epoch": 117.81333333333333, "grad_norm": 0.234375, "learning_rate": 0.0004958217117686473, "loss": 0.3078, "step": 44180 }, { "epoch": 117.84, "grad_norm": 0.17578125, "learning_rate": 0.0004958198037203733, "loss": 0.3071, "step": 44190 }, { "epoch": 117.86666666666666, "grad_norm": 0.1708984375, "learning_rate": 0.0004958178952402092, "loss": 0.3088, "step": 44200 }, { "epoch": 117.89333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004958159863281582, "loss": 0.3092, "step": 44210 }, { "epoch": 117.92, "grad_norm": 0.28125, "learning_rate": 0.0004958140769842238, "loss": 0.3112, "step": 44220 }, { "epoch": 117.94666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004958121672084091, "loss": 0.3119, "step": 44230 }, { "epoch": 117.97333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004958102570007178, "loss": 0.3196, "step": 44240 }, { "epoch": 118.0, "grad_norm": 0.2041015625, "learning_rate": 0.000495808346361153, "loss": 0.3081, "step": 44250 }, { "epoch": 118.0, "eval_loss": 0.3994916081428528, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.3217, "eval_samples_per_second": 1.299, "eval_steps_per_second": 0.081, "step": 44250 }, { "epoch": 118.02666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004958064352897181, "loss": 0.3306, "step": 44260 }, { "epoch": 118.05333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0004958045237864166, "loss": 0.3371, "step": 44270 }, { "epoch": 118.08, "grad_norm": 0.373046875, "learning_rate": 0.0004958026118512517, "loss": 0.3207, "step": 44280 }, { "epoch": 118.10666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0004958006994842267, "loss": 0.3224, "step": 44290 }, { "epoch": 118.13333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004957987866853453, "loss": 0.3141, "step": 44300 }, { "epoch": 118.16, "grad_norm": 0.201171875, "learning_rate": 0.0004957968734546106, "loss": 0.3215, "step": 44310 }, { "epoch": 118.18666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004957949597920258, "loss": 0.3165, "step": 44320 }, { "epoch": 118.21333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004957930456975946, "loss": 0.3052, "step": 44330 }, { "epoch": 118.24, "grad_norm": 0.349609375, "learning_rate": 0.0004957911311713202, "loss": 0.3091, "step": 44340 }, { "epoch": 118.26666666666667, "grad_norm": 0.59375, "learning_rate": 0.000495789216213206, "loss": 0.3152, "step": 44350 }, { "epoch": 118.29333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004957873008232554, "loss": 0.3105, "step": 44360 }, { "epoch": 118.32, "grad_norm": 0.265625, "learning_rate": 0.0004957853850014717, "loss": 0.3176, "step": 44370 }, { "epoch": 118.34666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004957834687478582, "loss": 0.3168, "step": 44380 }, { "epoch": 118.37333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004957815520624184, "loss": 0.3089, "step": 44390 }, { "epoch": 118.4, "grad_norm": 0.2099609375, "learning_rate": 0.0004957796349451557, "loss": 0.3105, "step": 44400 }, { "epoch": 118.42666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004957777173960733, "loss": 0.3176, "step": 44410 }, { "epoch": 118.45333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004957757994151746, "loss": 0.3256, "step": 44420 }, { "epoch": 118.48, "grad_norm": 0.23046875, "learning_rate": 0.0004957738810024632, "loss": 0.3212, "step": 44430 }, { "epoch": 118.50666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004957719621579421, "loss": 0.3184, "step": 44440 }, { "epoch": 118.53333333333333, "grad_norm": 0.16015625, "learning_rate": 0.0004957700428816149, "loss": 0.3133, "step": 44450 }, { "epoch": 118.56, "grad_norm": 0.2021484375, "learning_rate": 0.0004957681231734849, "loss": 0.31, "step": 44460 }, { "epoch": 118.58666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004957662030335557, "loss": 0.3138, "step": 44470 }, { "epoch": 118.61333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004957642824618304, "loss": 0.305, "step": 44480 }, { "epoch": 118.64, "grad_norm": 0.1962890625, "learning_rate": 0.0004957623614583124, "loss": 0.3067, "step": 44490 }, { "epoch": 118.66666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004957604400230052, "loss": 0.322, "step": 44500 }, { "epoch": 118.69333333333333, "grad_norm": 0.22265625, "learning_rate": 0.000495758518155912, "loss": 0.3005, "step": 44510 }, { "epoch": 118.72, "grad_norm": 0.20703125, "learning_rate": 0.0004957565958570363, "loss": 0.3166, "step": 44520 }, { "epoch": 118.74666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0004957546731263816, "loss": 0.3185, "step": 44530 }, { "epoch": 118.77333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004957527499639511, "loss": 0.3292, "step": 44540 }, { "epoch": 118.8, "grad_norm": 0.34765625, "learning_rate": 0.0004957508263697481, "loss": 0.3163, "step": 44550 }, { "epoch": 118.82666666666667, "grad_norm": 0.3203125, "learning_rate": 0.0004957489023437763, "loss": 0.3048, "step": 44560 }, { "epoch": 118.85333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004957469778860388, "loss": 0.309, "step": 44570 }, { "epoch": 118.88, "grad_norm": 0.25390625, "learning_rate": 0.0004957450529965389, "loss": 0.3081, "step": 44580 }, { "epoch": 118.90666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004957431276752803, "loss": 0.3102, "step": 44590 }, { "epoch": 118.93333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004957412019222662, "loss": 0.3107, "step": 44600 }, { "epoch": 118.96, "grad_norm": 0.181640625, "learning_rate": 0.0004957392757375, "loss": 0.311, "step": 44610 }, { "epoch": 118.98666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004957373491209852, "loss": 0.3224, "step": 44620 }, { "epoch": 119.0, "eval_loss": 0.39924654364585876, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8152, "eval_samples_per_second": 1.479, "eval_steps_per_second": 0.092, "step": 44625 }, { "epoch": 119.01333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004957354220727249, "loss": 0.3132, "step": 44630 }, { "epoch": 119.04, "grad_norm": 0.1689453125, "learning_rate": 0.0004957334945927227, "loss": 0.3396, "step": 44640 }, { "epoch": 119.06666666666666, "grad_norm": 0.25, "learning_rate": 0.0004957315666809821, "loss": 0.3238, "step": 44650 }, { "epoch": 119.09333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004957296383375062, "loss": 0.3213, "step": 44660 }, { "epoch": 119.12, "grad_norm": 0.220703125, "learning_rate": 0.0004957277095622985, "loss": 0.3176, "step": 44670 }, { "epoch": 119.14666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004957257803553625, "loss": 0.3188, "step": 44680 }, { "epoch": 119.17333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004957238507167014, "loss": 0.3192, "step": 44690 }, { "epoch": 119.2, "grad_norm": 0.22265625, "learning_rate": 0.0004957219206463188, "loss": 0.3116, "step": 44700 }, { "epoch": 119.22666666666667, "grad_norm": 0.22265625, "learning_rate": 0.000495719990144218, "loss": 0.3055, "step": 44710 }, { "epoch": 119.25333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004957180592104023, "loss": 0.3054, "step": 44720 }, { "epoch": 119.28, "grad_norm": 0.19921875, "learning_rate": 0.0004957161278448753, "loss": 0.3239, "step": 44730 }, { "epoch": 119.30666666666667, "grad_norm": 0.2734375, "learning_rate": 0.0004957141960476401, "loss": 0.3059, "step": 44740 }, { "epoch": 119.33333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004957122638187004, "loss": 0.3206, "step": 44750 }, { "epoch": 119.36, "grad_norm": 0.2041015625, "learning_rate": 0.0004957103311580593, "loss": 0.3117, "step": 44760 }, { "epoch": 119.38666666666667, "grad_norm": 0.224609375, "learning_rate": 0.0004957083980657204, "loss": 0.3084, "step": 44770 }, { "epoch": 119.41333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004957064645416871, "loss": 0.3148, "step": 44780 }, { "epoch": 119.44, "grad_norm": 0.232421875, "learning_rate": 0.0004957045305859628, "loss": 0.3218, "step": 44790 }, { "epoch": 119.46666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004957025961985507, "loss": 0.3254, "step": 44800 }, { "epoch": 119.49333333333334, "grad_norm": 0.25, "learning_rate": 0.0004957006613794543, "loss": 0.315, "step": 44810 }, { "epoch": 119.52, "grad_norm": 0.171875, "learning_rate": 0.0004956987261286772, "loss": 0.3188, "step": 44820 }, { "epoch": 119.54666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004956967904462225, "loss": 0.3091, "step": 44830 }, { "epoch": 119.57333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004956948543320939, "loss": 0.3118, "step": 44840 }, { "epoch": 119.6, "grad_norm": 0.1865234375, "learning_rate": 0.0004956929177862945, "loss": 0.3086, "step": 44850 }, { "epoch": 119.62666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004956909808088278, "loss": 0.3043, "step": 44860 }, { "epoch": 119.65333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004956890433996974, "loss": 0.3173, "step": 44870 }, { "epoch": 119.68, "grad_norm": 0.30078125, "learning_rate": 0.0004956871055589064, "loss": 0.3061, "step": 44880 }, { "epoch": 119.70666666666666, "grad_norm": 0.408203125, "learning_rate": 0.0004956851672864585, "loss": 0.3068, "step": 44890 }, { "epoch": 119.73333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0004956832285823568, "loss": 0.3227, "step": 44900 }, { "epoch": 119.76, "grad_norm": 0.25, "learning_rate": 0.000495681289446605, "loss": 0.3244, "step": 44910 }, { "epoch": 119.78666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004956793498792064, "loss": 0.3245, "step": 44920 }, { "epoch": 119.81333333333333, "grad_norm": 0.3515625, "learning_rate": 0.0004956774098801642, "loss": 0.3073, "step": 44930 }, { "epoch": 119.84, "grad_norm": 0.2275390625, "learning_rate": 0.0004956754694494822, "loss": 0.3067, "step": 44940 }, { "epoch": 119.86666666666666, "grad_norm": 0.1708984375, "learning_rate": 0.0004956735285871634, "loss": 0.3081, "step": 44950 }, { "epoch": 119.89333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004956715872932115, "loss": 0.3087, "step": 44960 }, { "epoch": 119.92, "grad_norm": 0.2275390625, "learning_rate": 0.0004956696455676299, "loss": 0.3109, "step": 44970 }, { "epoch": 119.94666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004956677034104218, "loss": 0.312, "step": 44980 }, { "epoch": 119.97333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004956657608215908, "loss": 0.3195, "step": 44990 }, { "epoch": 120.0, "grad_norm": 0.2197265625, "learning_rate": 0.0004956638178011402, "loss": 0.3077, "step": 45000 }, { "epoch": 120.0, "eval_loss": 0.39817091822624207, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4022, "eval_samples_per_second": 1.403, "eval_steps_per_second": 0.088, "step": 45000 }, { "epoch": 120.02666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004956618743490735, "loss": 0.3305, "step": 45010 }, { "epoch": 120.05333333333333, "grad_norm": 0.212890625, "learning_rate": 0.000495659930465394, "loss": 0.3367, "step": 45020 }, { "epoch": 120.08, "grad_norm": 0.2060546875, "learning_rate": 0.0004956579861501054, "loss": 0.3204, "step": 45030 }, { "epoch": 120.10666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004956560414032107, "loss": 0.322, "step": 45040 }, { "epoch": 120.13333333333334, "grad_norm": 0.279296875, "learning_rate": 0.0004956540962247137, "loss": 0.3137, "step": 45050 }, { "epoch": 120.16, "grad_norm": 0.21875, "learning_rate": 0.0004956521506146176, "loss": 0.3206, "step": 45060 }, { "epoch": 120.18666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004956502045729259, "loss": 0.3156, "step": 45070 }, { "epoch": 120.21333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004956482580996418, "loss": 0.3044, "step": 45080 }, { "epoch": 120.24, "grad_norm": 0.2001953125, "learning_rate": 0.0004956463111947691, "loss": 0.309, "step": 45090 }, { "epoch": 120.26666666666667, "grad_norm": 0.1875, "learning_rate": 0.000495644363858311, "loss": 0.3146, "step": 45100 }, { "epoch": 120.29333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.000495642416090271, "loss": 0.3109, "step": 45110 }, { "epoch": 120.32, "grad_norm": 0.1943359375, "learning_rate": 0.0004956404678906523, "loss": 0.3174, "step": 45120 }, { "epoch": 120.34666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004956385192594585, "loss": 0.3164, "step": 45130 }, { "epoch": 120.37333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004956365701966932, "loss": 0.309, "step": 45140 }, { "epoch": 120.4, "grad_norm": 0.2109375, "learning_rate": 0.0004956346207023595, "loss": 0.3102, "step": 45150 }, { "epoch": 120.42666666666666, "grad_norm": 0.18359375, "learning_rate": 0.000495632670776461, "loss": 0.3173, "step": 45160 }, { "epoch": 120.45333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004956307204190012, "loss": 0.3255, "step": 45170 }, { "epoch": 120.48, "grad_norm": 0.2119140625, "learning_rate": 0.0004956287696299832, "loss": 0.3211, "step": 45180 }, { "epoch": 120.50666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004956268184094109, "loss": 0.3178, "step": 45190 }, { "epoch": 120.53333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004956248667572872, "loss": 0.3127, "step": 45200 }, { "epoch": 120.56, "grad_norm": 0.1806640625, "learning_rate": 0.000495622914673616, "loss": 0.3096, "step": 45210 }, { "epoch": 120.58666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004956209621584005, "loss": 0.3125, "step": 45220 }, { "epoch": 120.61333333333333, "grad_norm": 0.173828125, "learning_rate": 0.000495619009211644, "loss": 0.3049, "step": 45230 }, { "epoch": 120.64, "grad_norm": 0.19921875, "learning_rate": 0.0004956170558333503, "loss": 0.3063, "step": 45240 }, { "epoch": 120.66666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004956151020235226, "loss": 0.3215, "step": 45250 }, { "epoch": 120.69333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004956131477821642, "loss": 0.3011, "step": 45260 }, { "epoch": 120.72, "grad_norm": 0.2177734375, "learning_rate": 0.0004956111931092789, "loss": 0.3166, "step": 45270 }, { "epoch": 120.74666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004956092380048698, "loss": 0.3179, "step": 45280 }, { "epoch": 120.77333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004956072824689405, "loss": 0.329, "step": 45290 }, { "epoch": 120.8, "grad_norm": 0.28515625, "learning_rate": 0.0004956053265014943, "loss": 0.3158, "step": 45300 }, { "epoch": 120.82666666666667, "grad_norm": 0.234375, "learning_rate": 0.0004956033701025349, "loss": 0.3048, "step": 45310 }, { "epoch": 120.85333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004956014132720656, "loss": 0.3084, "step": 45320 }, { "epoch": 120.88, "grad_norm": 0.2265625, "learning_rate": 0.0004955994560100896, "loss": 0.308, "step": 45330 }, { "epoch": 120.90666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004955974983166107, "loss": 0.3103, "step": 45340 }, { "epoch": 120.93333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0004955955401916321, "loss": 0.3096, "step": 45350 }, { "epoch": 120.96, "grad_norm": 0.248046875, "learning_rate": 0.0004955935816351575, "loss": 0.3102, "step": 45360 }, { "epoch": 120.98666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.00049559162264719, "loss": 0.3217, "step": 45370 }, { "epoch": 121.0, "eval_loss": 0.400937020778656, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5213, "eval_samples_per_second": 1.389, "eval_steps_per_second": 0.087, "step": 45375 }, { "epoch": 121.01333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004955896632277332, "loss": 0.3129, "step": 45380 }, { "epoch": 121.04, "grad_norm": 0.169921875, "learning_rate": 0.0004955877033767906, "loss": 0.3394, "step": 45390 }, { "epoch": 121.06666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0004955857430943657, "loss": 0.3238, "step": 45400 }, { "epoch": 121.09333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004955837823804616, "loss": 0.3206, "step": 45410 }, { "epoch": 121.12, "grad_norm": 0.1826171875, "learning_rate": 0.0004955818212350823, "loss": 0.3176, "step": 45420 }, { "epoch": 121.14666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0004955798596582307, "loss": 0.3187, "step": 45430 }, { "epoch": 121.17333333333333, "grad_norm": 0.35546875, "learning_rate": 0.0004955778976499105, "loss": 0.3179, "step": 45440 }, { "epoch": 121.2, "grad_norm": 0.19921875, "learning_rate": 0.0004955759352101252, "loss": 0.3108, "step": 45450 }, { "epoch": 121.22666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004955739723388782, "loss": 0.3056, "step": 45460 }, { "epoch": 121.25333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004955720090361727, "loss": 0.3056, "step": 45470 }, { "epoch": 121.28, "grad_norm": 0.2109375, "learning_rate": 0.0004955700453020127, "loss": 0.3233, "step": 45480 }, { "epoch": 121.30666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.000495568081136401, "loss": 0.3057, "step": 45490 }, { "epoch": 121.33333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004955661165393416, "loss": 0.3201, "step": 45500 }, { "epoch": 121.36, "grad_norm": 0.255859375, "learning_rate": 0.0004955641515108377, "loss": 0.3113, "step": 45510 }, { "epoch": 121.38666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0004955621860508926, "loss": 0.3088, "step": 45520 }, { "epoch": 121.41333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004955602201595101, "loss": 0.3144, "step": 45530 }, { "epoch": 121.44, "grad_norm": 0.1884765625, "learning_rate": 0.0004955582538366934, "loss": 0.3217, "step": 45540 }, { "epoch": 121.46666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004955562870824461, "loss": 0.3254, "step": 45550 }, { "epoch": 121.49333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004955543198967716, "loss": 0.3142, "step": 45560 }, { "epoch": 121.52, "grad_norm": 0.185546875, "learning_rate": 0.0004955523522796733, "loss": 0.3193, "step": 45570 }, { "epoch": 121.54666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004955503842311547, "loss": 0.309, "step": 45580 }, { "epoch": 121.57333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004955484157512193, "loss": 0.3122, "step": 45590 }, { "epoch": 121.6, "grad_norm": 0.203125, "learning_rate": 0.0004955464468398706, "loss": 0.3081, "step": 45600 }, { "epoch": 121.62666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004955444774971118, "loss": 0.3038, "step": 45610 }, { "epoch": 121.65333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004955425077229467, "loss": 0.3177, "step": 45620 }, { "epoch": 121.68, "grad_norm": 0.2080078125, "learning_rate": 0.0004955405375173785, "loss": 0.3056, "step": 45630 }, { "epoch": 121.70666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004955385668804108, "loss": 0.3062, "step": 45640 }, { "epoch": 121.73333333333333, "grad_norm": 0.205078125, "learning_rate": 0.000495536595812047, "loss": 0.3222, "step": 45650 }, { "epoch": 121.76, "grad_norm": 0.1865234375, "learning_rate": 0.0004955346243122907, "loss": 0.3237, "step": 45660 }, { "epoch": 121.78666666666666, "grad_norm": 0.169921875, "learning_rate": 0.0004955326523811451, "loss": 0.3238, "step": 45670 }, { "epoch": 121.81333333333333, "grad_norm": 0.232421875, "learning_rate": 0.000495530680018614, "loss": 0.3065, "step": 45680 }, { "epoch": 121.84, "grad_norm": 0.22265625, "learning_rate": 0.0004955287072247005, "loss": 0.3066, "step": 45690 }, { "epoch": 121.86666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004955267339994084, "loss": 0.308, "step": 45700 }, { "epoch": 121.89333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004955247603427408, "loss": 0.3081, "step": 45710 }, { "epoch": 121.92, "grad_norm": 0.197265625, "learning_rate": 0.0004955227862547016, "loss": 0.3096, "step": 45720 }, { "epoch": 121.94666666666667, "grad_norm": 0.240234375, "learning_rate": 0.000495520811735294, "loss": 0.3114, "step": 45730 }, { "epoch": 121.97333333333333, "grad_norm": 0.287109375, "learning_rate": 0.0004955188367845215, "loss": 0.3184, "step": 45740 }, { "epoch": 122.0, "grad_norm": 0.1904296875, "learning_rate": 0.0004955168614023876, "loss": 0.3067, "step": 45750 }, { "epoch": 122.0, "eval_loss": 0.39838284254074097, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1089, "eval_samples_per_second": 1.44, "eval_steps_per_second": 0.09, "step": 45750 }, { "epoch": 122.02666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004955148855888957, "loss": 0.3296, "step": 45760 }, { "epoch": 122.05333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004955129093440494, "loss": 0.336, "step": 45770 }, { "epoch": 122.08, "grad_norm": 0.2890625, "learning_rate": 0.000495510932667852, "loss": 0.3202, "step": 45780 }, { "epoch": 122.10666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004955089555603073, "loss": 0.3215, "step": 45790 }, { "epoch": 122.13333333333334, "grad_norm": 0.259765625, "learning_rate": 0.0004955069780214185, "loss": 0.3135, "step": 45800 }, { "epoch": 122.16, "grad_norm": 0.1875, "learning_rate": 0.0004955050000511889, "loss": 0.3205, "step": 45810 }, { "epoch": 122.18666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004955030216496224, "loss": 0.3159, "step": 45820 }, { "epoch": 122.21333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004955010428167223, "loss": 0.3045, "step": 45830 }, { "epoch": 122.24, "grad_norm": 0.18359375, "learning_rate": 0.0004954990635524919, "loss": 0.3083, "step": 45840 }, { "epoch": 122.26666666666667, "grad_norm": 0.224609375, "learning_rate": 0.000495497083856935, "loss": 0.3142, "step": 45850 }, { "epoch": 122.29333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004954951037300547, "loss": 0.3097, "step": 45860 }, { "epoch": 122.32, "grad_norm": 0.1611328125, "learning_rate": 0.0004954931231718548, "loss": 0.3168, "step": 45870 }, { "epoch": 122.34666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004954911421823387, "loss": 0.3154, "step": 45880 }, { "epoch": 122.37333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004954891607615099, "loss": 0.3081, "step": 45890 }, { "epoch": 122.4, "grad_norm": 0.2041015625, "learning_rate": 0.0004954871789093718, "loss": 0.3098, "step": 45900 }, { "epoch": 122.42666666666666, "grad_norm": 0.1640625, "learning_rate": 0.0004954851966259278, "loss": 0.3167, "step": 45910 }, { "epoch": 122.45333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004954832139111815, "loss": 0.3246, "step": 45920 }, { "epoch": 122.48, "grad_norm": 0.203125, "learning_rate": 0.0004954812307651365, "loss": 0.3212, "step": 45930 }, { "epoch": 122.50666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004954792471877961, "loss": 0.3168, "step": 45940 }, { "epoch": 122.53333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004954772631791638, "loss": 0.3121, "step": 45950 }, { "epoch": 122.56, "grad_norm": 0.248046875, "learning_rate": 0.0004954752787392433, "loss": 0.3098, "step": 45960 }, { "epoch": 122.58666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004954732938680377, "loss": 0.3116, "step": 45970 }, { "epoch": 122.61333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004954713085655509, "loss": 0.3047, "step": 45980 }, { "epoch": 122.64, "grad_norm": 0.2119140625, "learning_rate": 0.0004954693228317862, "loss": 0.3055, "step": 45990 }, { "epoch": 122.66666666666667, "grad_norm": 0.193359375, "learning_rate": 0.000495467336666747, "loss": 0.3219, "step": 46000 }, { "epoch": 122.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.0004954653500704368, "loss": 0.3, "step": 46010 }, { "epoch": 122.72, "grad_norm": 0.2578125, "learning_rate": 0.0004954633630428593, "loss": 0.3161, "step": 46020 }, { "epoch": 122.74666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.0004954613755840178, "loss": 0.3178, "step": 46030 }, { "epoch": 122.77333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004954593876939158, "loss": 0.3292, "step": 46040 }, { "epoch": 122.8, "grad_norm": 0.18359375, "learning_rate": 0.0004954573993725569, "loss": 0.3154, "step": 46050 }, { "epoch": 122.82666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004954554106199444, "loss": 0.304, "step": 46060 }, { "epoch": 122.85333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004954534214360821, "loss": 0.3085, "step": 46070 }, { "epoch": 122.88, "grad_norm": 0.30078125, "learning_rate": 0.0004954514318209732, "loss": 0.3075, "step": 46080 }, { "epoch": 122.90666666666667, "grad_norm": 0.32421875, "learning_rate": 0.0004954494417746214, "loss": 0.3096, "step": 46090 }, { "epoch": 122.93333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.00049544745129703, "loss": 0.3104, "step": 46100 }, { "epoch": 122.96, "grad_norm": 0.1943359375, "learning_rate": 0.0004954454603882028, "loss": 0.3094, "step": 46110 }, { "epoch": 122.98666666666666, "grad_norm": 0.220703125, "learning_rate": 0.000495443469048143, "loss": 0.3218, "step": 46120 }, { "epoch": 123.0, "eval_loss": 0.4006408751010895, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.8192, "eval_samples_per_second": 1.248, "eval_steps_per_second": 0.078, "step": 46125 }, { "epoch": 123.01333333333334, "grad_norm": 0.2138671875, "learning_rate": 0.0004954414772768542, "loss": 0.3123, "step": 46130 }, { "epoch": 123.04, "grad_norm": 0.244140625, "learning_rate": 0.0004954394850743399, "loss": 0.3393, "step": 46140 }, { "epoch": 123.06666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004954374924406036, "loss": 0.3235, "step": 46150 }, { "epoch": 123.09333333333333, "grad_norm": 0.2353515625, "learning_rate": 0.0004954354993756489, "loss": 0.3207, "step": 46160 }, { "epoch": 123.12, "grad_norm": 0.20703125, "learning_rate": 0.0004954335058794792, "loss": 0.3165, "step": 46170 }, { "epoch": 123.14666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.000495431511952098, "loss": 0.318, "step": 46180 }, { "epoch": 123.17333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.0004954295175935088, "loss": 0.3177, "step": 46190 }, { "epoch": 123.2, "grad_norm": 0.2490234375, "learning_rate": 0.000495427522803715, "loss": 0.3112, "step": 46200 }, { "epoch": 123.22666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004954255275827203, "loss": 0.3053, "step": 46210 }, { "epoch": 123.25333333333333, "grad_norm": 0.2451171875, "learning_rate": 0.0004954235319305282, "loss": 0.3048, "step": 46220 }, { "epoch": 123.28, "grad_norm": 0.25390625, "learning_rate": 0.0004954215358471421, "loss": 0.3236, "step": 46230 }, { "epoch": 123.30666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004954195393325656, "loss": 0.3046, "step": 46240 }, { "epoch": 123.33333333333333, "grad_norm": 0.201171875, "learning_rate": 0.0004954175423868021, "loss": 0.3195, "step": 46250 }, { "epoch": 123.36, "grad_norm": 0.193359375, "learning_rate": 0.0004954155450098551, "loss": 0.3107, "step": 46260 }, { "epoch": 123.38666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004954135472017282, "loss": 0.3078, "step": 46270 }, { "epoch": 123.41333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004954115489624249, "loss": 0.3137, "step": 46280 }, { "epoch": 123.44, "grad_norm": 0.2119140625, "learning_rate": 0.0004954095502919487, "loss": 0.3212, "step": 46290 }, { "epoch": 123.46666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.000495407551190303, "loss": 0.3255, "step": 46300 }, { "epoch": 123.49333333333334, "grad_norm": 0.2099609375, "learning_rate": 0.0004954055516574915, "loss": 0.3145, "step": 46310 }, { "epoch": 123.52, "grad_norm": 0.189453125, "learning_rate": 0.0004954035516935176, "loss": 0.3182, "step": 46320 }, { "epoch": 123.54666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004954015512983849, "loss": 0.309, "step": 46330 }, { "epoch": 123.57333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004953995504720968, "loss": 0.3119, "step": 46340 }, { "epoch": 123.6, "grad_norm": 0.2177734375, "learning_rate": 0.0004953975492146569, "loss": 0.3084, "step": 46350 }, { "epoch": 123.62666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004953955475260687, "loss": 0.3038, "step": 46360 }, { "epoch": 123.65333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004953935454063357, "loss": 0.3167, "step": 46370 }, { "epoch": 123.68, "grad_norm": 0.181640625, "learning_rate": 0.0004953915428554613, "loss": 0.3051, "step": 46380 }, { "epoch": 123.70666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0004953895398734493, "loss": 0.3068, "step": 46390 }, { "epoch": 123.73333333333333, "grad_norm": 0.20703125, "learning_rate": 0.000495387536460303, "loss": 0.3223, "step": 46400 }, { "epoch": 123.76, "grad_norm": 0.2421875, "learning_rate": 0.0004953855326160259, "loss": 0.3239, "step": 46410 }, { "epoch": 123.78666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004953835283406216, "loss": 0.3239, "step": 46420 }, { "epoch": 123.81333333333333, "grad_norm": 0.248046875, "learning_rate": 0.0004953815236340938, "loss": 0.3067, "step": 46430 }, { "epoch": 123.84, "grad_norm": 0.19921875, "learning_rate": 0.0004953795184964456, "loss": 0.3063, "step": 46440 }, { "epoch": 123.86666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.000495377512927681, "loss": 0.3079, "step": 46450 }, { "epoch": 123.89333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004953755069278032, "loss": 0.3082, "step": 46460 }, { "epoch": 123.92, "grad_norm": 0.2099609375, "learning_rate": 0.0004953735004968158, "loss": 0.3094, "step": 46470 }, { "epoch": 123.94666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004953714936347224, "loss": 0.311, "step": 46480 }, { "epoch": 123.97333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004953694863415264, "loss": 0.3187, "step": 46490 }, { "epoch": 124.0, "grad_norm": 0.1767578125, "learning_rate": 0.0004953674786172313, "loss": 0.3071, "step": 46500 }, { "epoch": 124.0, "eval_loss": 0.3988487720489502, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.398, "eval_samples_per_second": 1.539, "eval_steps_per_second": 0.096, "step": 46500 }, { "epoch": 124.02666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004953654704618408, "loss": 0.3289, "step": 46510 }, { "epoch": 124.05333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004953634618753583, "loss": 0.3358, "step": 46520 }, { "epoch": 124.08, "grad_norm": 0.2412109375, "learning_rate": 0.0004953614528577874, "loss": 0.3195, "step": 46530 }, { "epoch": 124.10666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004953594434091318, "loss": 0.3214, "step": 46540 }, { "epoch": 124.13333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004953574335293945, "loss": 0.3127, "step": 46550 }, { "epoch": 124.16, "grad_norm": 0.2060546875, "learning_rate": 0.0004953554232185796, "loss": 0.3196, "step": 46560 }, { "epoch": 124.18666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004953534124766903, "loss": 0.3147, "step": 46570 }, { "epoch": 124.21333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004953514013037304, "loss": 0.3038, "step": 46580 }, { "epoch": 124.24, "grad_norm": 0.2197265625, "learning_rate": 0.000495349389699703, "loss": 0.3082, "step": 46590 }, { "epoch": 124.26666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004953473776646121, "loss": 0.3135, "step": 46600 }, { "epoch": 124.29333333333334, "grad_norm": 0.197265625, "learning_rate": 0.000495345365198461, "loss": 0.3093, "step": 46610 }, { "epoch": 124.32, "grad_norm": 0.177734375, "learning_rate": 0.0004953433523012531, "loss": 0.3163, "step": 46620 }, { "epoch": 124.34666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004953413389729923, "loss": 0.3155, "step": 46630 }, { "epoch": 124.37333333333333, "grad_norm": 0.27734375, "learning_rate": 0.000495339325213682, "loss": 0.308, "step": 46640 }, { "epoch": 124.4, "grad_norm": 0.1875, "learning_rate": 0.0004953373110233255, "loss": 0.3091, "step": 46650 }, { "epoch": 124.42666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004953352964019265, "loss": 0.3168, "step": 46660 }, { "epoch": 124.45333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004953332813494888, "loss": 0.3246, "step": 46670 }, { "epoch": 124.48, "grad_norm": 0.234375, "learning_rate": 0.0004953312658660155, "loss": 0.3202, "step": 46680 }, { "epoch": 124.50666666666666, "grad_norm": 0.1728515625, "learning_rate": 0.0004953292499515103, "loss": 0.3173, "step": 46690 }, { "epoch": 124.53333333333333, "grad_norm": 0.173828125, "learning_rate": 0.000495327233605977, "loss": 0.312, "step": 46700 }, { "epoch": 124.56, "grad_norm": 0.1845703125, "learning_rate": 0.0004953252168294188, "loss": 0.308, "step": 46710 }, { "epoch": 124.58666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004953231996218393, "loss": 0.3118, "step": 46720 }, { "epoch": 124.61333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004953211819832421, "loss": 0.3039, "step": 46730 }, { "epoch": 124.64, "grad_norm": 0.185546875, "learning_rate": 0.000495319163913631, "loss": 0.3054, "step": 46740 }, { "epoch": 124.66666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004953171454130091, "loss": 0.3213, "step": 46750 }, { "epoch": 124.69333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.0004953151264813802, "loss": 0.2997, "step": 46760 }, { "epoch": 124.72, "grad_norm": 0.216796875, "learning_rate": 0.0004953131071187477, "loss": 0.3154, "step": 46770 }, { "epoch": 124.74666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004953110873251155, "loss": 0.3172, "step": 46780 }, { "epoch": 124.77333333333333, "grad_norm": 0.28125, "learning_rate": 0.0004953090671004867, "loss": 0.3281, "step": 46790 }, { "epoch": 124.8, "grad_norm": 0.2021484375, "learning_rate": 0.000495307046444865, "loss": 0.3146, "step": 46800 }, { "epoch": 124.82666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004953050253582542, "loss": 0.3039, "step": 46810 }, { "epoch": 124.85333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004953030038406574, "loss": 0.3079, "step": 46820 }, { "epoch": 124.88, "grad_norm": 0.2080078125, "learning_rate": 0.0004953009818920786, "loss": 0.3069, "step": 46830 }, { "epoch": 124.90666666666667, "grad_norm": 0.232421875, "learning_rate": 0.000495298959512521, "loss": 0.3095, "step": 46840 }, { "epoch": 124.93333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004952969367019884, "loss": 0.3097, "step": 46850 }, { "epoch": 124.96, "grad_norm": 0.1806640625, "learning_rate": 0.0004952949134604842, "loss": 0.3092, "step": 46860 }, { "epoch": 124.98666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.000495292889788012, "loss": 0.3216, "step": 46870 }, { "epoch": 125.0, "eval_loss": 0.3988818824291229, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.4224, "eval_samples_per_second": 1.288, "eval_steps_per_second": 0.08, "step": 46875 }, { "epoch": 125.01333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004952908656845755, "loss": 0.3123, "step": 46880 }, { "epoch": 125.04, "grad_norm": 0.1728515625, "learning_rate": 0.0004952888411501779, "loss": 0.3386, "step": 46890 }, { "epoch": 125.06666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004952868161848232, "loss": 0.3236, "step": 46900 }, { "epoch": 125.09333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004952847907885147, "loss": 0.3202, "step": 46910 }, { "epoch": 125.12, "grad_norm": 0.208984375, "learning_rate": 0.0004952827649612558, "loss": 0.3166, "step": 46920 }, { "epoch": 125.14666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004952807387030504, "loss": 0.3169, "step": 46930 }, { "epoch": 125.17333333333333, "grad_norm": 0.203125, "learning_rate": 0.000495278712013902, "loss": 0.3172, "step": 46940 }, { "epoch": 125.2, "grad_norm": 0.224609375, "learning_rate": 0.0004952766848938139, "loss": 0.3105, "step": 46950 }, { "epoch": 125.22666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004952746573427899, "loss": 0.3054, "step": 46960 }, { "epoch": 125.25333333333333, "grad_norm": 0.169921875, "learning_rate": 0.0004952726293608335, "loss": 0.3042, "step": 46970 }, { "epoch": 125.28, "grad_norm": 0.21484375, "learning_rate": 0.0004952706009479483, "loss": 0.3232, "step": 46980 }, { "epoch": 125.30666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004952685721041378, "loss": 0.3046, "step": 46990 }, { "epoch": 125.33333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004952665428294056, "loss": 0.3196, "step": 47000 }, { "epoch": 125.36, "grad_norm": 0.1923828125, "learning_rate": 0.0004952645131237552, "loss": 0.3097, "step": 47010 }, { "epoch": 125.38666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004952624829871904, "loss": 0.3077, "step": 47020 }, { "epoch": 125.41333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004952604524197144, "loss": 0.3132, "step": 47030 }, { "epoch": 125.44, "grad_norm": 0.2041015625, "learning_rate": 0.000495258421421331, "loss": 0.3209, "step": 47040 }, { "epoch": 125.46666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004952563899920438, "loss": 0.3243, "step": 47050 }, { "epoch": 125.49333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004952543581318562, "loss": 0.3137, "step": 47060 }, { "epoch": 125.52, "grad_norm": 0.19140625, "learning_rate": 0.0004952523258407719, "loss": 0.3181, "step": 47070 }, { "epoch": 125.54666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004952502931187945, "loss": 0.3085, "step": 47080 }, { "epoch": 125.57333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004952482599659274, "loss": 0.311, "step": 47090 }, { "epoch": 125.6, "grad_norm": 0.2138671875, "learning_rate": 0.0004952462263821744, "loss": 0.3082, "step": 47100 }, { "epoch": 125.62666666666667, "grad_norm": 0.4375, "learning_rate": 0.0004952441923675388, "loss": 0.3038, "step": 47110 }, { "epoch": 125.65333333333334, "grad_norm": 0.396484375, "learning_rate": 0.0004952421579220243, "loss": 0.3163, "step": 47120 }, { "epoch": 125.68, "grad_norm": 0.341796875, "learning_rate": 0.0004952401230456348, "loss": 0.3055, "step": 47130 }, { "epoch": 125.70666666666666, "grad_norm": 0.322265625, "learning_rate": 0.0004952380877383732, "loss": 0.3066, "step": 47140 }, { "epoch": 125.73333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0004952360520002437, "loss": 0.3214, "step": 47150 }, { "epoch": 125.76, "grad_norm": 0.224609375, "learning_rate": 0.0004952340158312495, "loss": 0.3228, "step": 47160 }, { "epoch": 125.78666666666666, "grad_norm": 0.19140625, "learning_rate": 0.0004952319792313944, "loss": 0.3242, "step": 47170 }, { "epoch": 125.81333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.0004952299422006818, "loss": 0.306, "step": 47180 }, { "epoch": 125.84, "grad_norm": 0.216796875, "learning_rate": 0.0004952279047391154, "loss": 0.3059, "step": 47190 }, { "epoch": 125.86666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004952258668466987, "loss": 0.308, "step": 47200 }, { "epoch": 125.89333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004952238285234354, "loss": 0.3079, "step": 47210 }, { "epoch": 125.92, "grad_norm": 0.193359375, "learning_rate": 0.0004952217897693289, "loss": 0.3093, "step": 47220 }, { "epoch": 125.94666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004952197505843829, "loss": 0.3111, "step": 47230 }, { "epoch": 125.97333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004952177109686011, "loss": 0.3182, "step": 47240 }, { "epoch": 126.0, "grad_norm": 0.251953125, "learning_rate": 0.0004952156709219868, "loss": 0.3072, "step": 47250 }, { "epoch": 126.0, "eval_loss": 0.3995479643344879, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.3936, "eval_samples_per_second": 1.291, "eval_steps_per_second": 0.081, "step": 47250 }, { "epoch": 126.02666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004952136304445438, "loss": 0.329, "step": 47260 }, { "epoch": 126.05333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004952115895362757, "loss": 0.3357, "step": 47270 }, { "epoch": 126.08, "grad_norm": 0.1953125, "learning_rate": 0.0004952095481971859, "loss": 0.3198, "step": 47280 }, { "epoch": 126.10666666666667, "grad_norm": 0.220703125, "learning_rate": 0.000495207506427278, "loss": 0.3216, "step": 47290 }, { "epoch": 126.13333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004952054642265559, "loss": 0.3127, "step": 47300 }, { "epoch": 126.16, "grad_norm": 0.2392578125, "learning_rate": 0.0004952034215950228, "loss": 0.3198, "step": 47310 }, { "epoch": 126.18666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004952013785326825, "loss": 0.3145, "step": 47320 }, { "epoch": 126.21333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0004951993350395386, "loss": 0.3034, "step": 47330 }, { "epoch": 126.24, "grad_norm": 0.298828125, "learning_rate": 0.0004951972911155947, "loss": 0.3078, "step": 47340 }, { "epoch": 126.26666666666667, "grad_norm": 0.62890625, "learning_rate": 0.0004951952467608542, "loss": 0.3134, "step": 47350 }, { "epoch": 126.29333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0004951932019753208, "loss": 0.3092, "step": 47360 }, { "epoch": 126.32, "grad_norm": 0.16796875, "learning_rate": 0.0004951911567589982, "loss": 0.3161, "step": 47370 }, { "epoch": 126.34666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004951891111118898, "loss": 0.3153, "step": 47380 }, { "epoch": 126.37333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004951870650339994, "loss": 0.3076, "step": 47390 }, { "epoch": 126.4, "grad_norm": 0.1826171875, "learning_rate": 0.0004951850185253304, "loss": 0.3087, "step": 47400 }, { "epoch": 126.42666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004951829715858865, "loss": 0.3159, "step": 47410 }, { "epoch": 126.45333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004951809242156715, "loss": 0.3246, "step": 47420 }, { "epoch": 126.48, "grad_norm": 0.1845703125, "learning_rate": 0.0004951788764146885, "loss": 0.3201, "step": 47430 }, { "epoch": 126.50666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004951768281829416, "loss": 0.3166, "step": 47440 }, { "epoch": 126.53333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.000495174779520434, "loss": 0.3119, "step": 47450 }, { "epoch": 126.56, "grad_norm": 0.1728515625, "learning_rate": 0.0004951727304271696, "loss": 0.3086, "step": 47460 }, { "epoch": 126.58666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004951706809031518, "loss": 0.3123, "step": 47470 }, { "epoch": 126.61333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004951686309483843, "loss": 0.3037, "step": 47480 }, { "epoch": 126.64, "grad_norm": 0.1767578125, "learning_rate": 0.0004951665805628707, "loss": 0.3055, "step": 47490 }, { "epoch": 126.66666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004951645297466145, "loss": 0.3214, "step": 47500 }, { "epoch": 126.69333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004951624784996194, "loss": 0.2997, "step": 47510 }, { "epoch": 126.72, "grad_norm": 0.333984375, "learning_rate": 0.0004951604268218892, "loss": 0.3152, "step": 47520 }, { "epoch": 126.74666666666667, "grad_norm": 0.314453125, "learning_rate": 0.0004951583747134272, "loss": 0.3175, "step": 47530 }, { "epoch": 126.77333333333333, "grad_norm": 0.33203125, "learning_rate": 0.0004951563221742369, "loss": 0.3287, "step": 47540 }, { "epoch": 126.8, "grad_norm": 0.51953125, "learning_rate": 0.0004951542692043223, "loss": 0.3144, "step": 47550 }, { "epoch": 126.82666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0004951522158036868, "loss": 0.3032, "step": 47560 }, { "epoch": 126.85333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.000495150161972334, "loss": 0.3073, "step": 47570 }, { "epoch": 126.88, "grad_norm": 0.2294921875, "learning_rate": 0.0004951481077102675, "loss": 0.3065, "step": 47580 }, { "epoch": 126.90666666666667, "grad_norm": 0.2373046875, "learning_rate": 0.0004951460530174909, "loss": 0.3085, "step": 47590 }, { "epoch": 126.93333333333334, "grad_norm": 0.19140625, "learning_rate": 0.000495143997894008, "loss": 0.3089, "step": 47600 }, { "epoch": 126.96, "grad_norm": 0.20703125, "learning_rate": 0.0004951419423398221, "loss": 0.3089, "step": 47610 }, { "epoch": 126.98666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004951398863549371, "loss": 0.321, "step": 47620 }, { "epoch": 127.0, "eval_loss": 0.398946076631546, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8528, "eval_samples_per_second": 1.35, "eval_steps_per_second": 0.084, "step": 47625 }, { "epoch": 127.01333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004951378299393564, "loss": 0.3111, "step": 47630 }, { "epoch": 127.04, "grad_norm": 0.1748046875, "learning_rate": 0.0004951357730930838, "loss": 0.3386, "step": 47640 }, { "epoch": 127.06666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004951337158161227, "loss": 0.323, "step": 47650 }, { "epoch": 127.09333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004951316581084768, "loss": 0.3203, "step": 47660 }, { "epoch": 127.12, "grad_norm": 0.208984375, "learning_rate": 0.0004951295999701498, "loss": 0.3156, "step": 47670 }, { "epoch": 127.14666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004951275414011452, "loss": 0.317, "step": 47680 }, { "epoch": 127.17333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004951254824014668, "loss": 0.3173, "step": 47690 }, { "epoch": 127.2, "grad_norm": 0.27734375, "learning_rate": 0.000495123422971118, "loss": 0.3092, "step": 47700 }, { "epoch": 127.22666666666667, "grad_norm": 0.25, "learning_rate": 0.0004951213631101025, "loss": 0.3043, "step": 47710 }, { "epoch": 127.25333333333333, "grad_norm": 0.359375, "learning_rate": 0.000495119302818424, "loss": 0.3048, "step": 47720 }, { "epoch": 127.28, "grad_norm": 0.443359375, "learning_rate": 0.000495117242096086, "loss": 0.3226, "step": 47730 }, { "epoch": 127.30666666666667, "grad_norm": 0.408203125, "learning_rate": 0.0004951151809430922, "loss": 0.3046, "step": 47740 }, { "epoch": 127.33333333333333, "grad_norm": 0.296875, "learning_rate": 0.0004951131193594461, "loss": 0.3187, "step": 47750 }, { "epoch": 127.36, "grad_norm": 0.3203125, "learning_rate": 0.0004951110573451515, "loss": 0.3108, "step": 47760 }, { "epoch": 127.38666666666667, "grad_norm": 0.248046875, "learning_rate": 0.0004951089949002119, "loss": 0.3074, "step": 47770 }, { "epoch": 127.41333333333333, "grad_norm": 0.1875, "learning_rate": 0.000495106932024631, "loss": 0.313, "step": 47780 }, { "epoch": 127.44, "grad_norm": 0.216796875, "learning_rate": 0.0004951048687184123, "loss": 0.3197, "step": 47790 }, { "epoch": 127.46666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004951028049815596, "loss": 0.3247, "step": 47800 }, { "epoch": 127.49333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.0004951007408140764, "loss": 0.3137, "step": 47810 }, { "epoch": 127.52, "grad_norm": 0.193359375, "learning_rate": 0.0004950986762159663, "loss": 0.3176, "step": 47820 }, { "epoch": 127.54666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004950966111872331, "loss": 0.3078, "step": 47830 }, { "epoch": 127.57333333333334, "grad_norm": 0.17578125, "learning_rate": 0.0004950945457278802, "loss": 0.3111, "step": 47840 }, { "epoch": 127.6, "grad_norm": 0.1923828125, "learning_rate": 0.0004950924798379114, "loss": 0.3068, "step": 47850 }, { "epoch": 127.62666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004950904135173303, "loss": 0.3026, "step": 47860 }, { "epoch": 127.65333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004950883467661404, "loss": 0.3159, "step": 47870 }, { "epoch": 127.68, "grad_norm": 0.1767578125, "learning_rate": 0.0004950862795843455, "loss": 0.3045, "step": 47880 }, { "epoch": 127.70666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004950842119719492, "loss": 0.3054, "step": 47890 }, { "epoch": 127.73333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004950821439289551, "loss": 0.3212, "step": 47900 }, { "epoch": 127.76, "grad_norm": 0.2041015625, "learning_rate": 0.0004950800754553668, "loss": 0.3221, "step": 47910 }, { "epoch": 127.78666666666666, "grad_norm": 0.16796875, "learning_rate": 0.000495078006551188, "loss": 0.3224, "step": 47920 }, { "epoch": 127.81333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004950759372164223, "loss": 0.3053, "step": 47930 }, { "epoch": 127.84, "grad_norm": 0.1982421875, "learning_rate": 0.0004950738674510733, "loss": 0.3042, "step": 47940 }, { "epoch": 127.86666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004950717972551447, "loss": 0.3072, "step": 47950 }, { "epoch": 127.89333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004950697266286402, "loss": 0.3071, "step": 47960 }, { "epoch": 127.92, "grad_norm": 0.216796875, "learning_rate": 0.0004950676555715631, "loss": 0.3087, "step": 47970 }, { "epoch": 127.94666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004950655840839175, "loss": 0.3098, "step": 47980 }, { "epoch": 127.97333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004950635121657068, "loss": 0.3172, "step": 47990 }, { "epoch": 128.0, "grad_norm": 0.1689453125, "learning_rate": 0.0004950614398169346, "loss": 0.3063, "step": 48000 }, { "epoch": 128.0, "eval_loss": 0.39913466572761536, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2794, "eval_samples_per_second": 1.419, "eval_steps_per_second": 0.089, "step": 48000 }, { "epoch": 128.02666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004950593670376047, "loss": 0.3288, "step": 48010 }, { "epoch": 128.05333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004950572938277205, "loss": 0.3347, "step": 48020 }, { "epoch": 128.08, "grad_norm": 0.236328125, "learning_rate": 0.000495055220187286, "loss": 0.319, "step": 48030 }, { "epoch": 128.10666666666665, "grad_norm": 0.228515625, "learning_rate": 0.0004950531461163046, "loss": 0.3208, "step": 48040 }, { "epoch": 128.13333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004950510716147798, "loss": 0.3121, "step": 48050 }, { "epoch": 128.16, "grad_norm": 0.1884765625, "learning_rate": 0.0004950489966827156, "loss": 0.3192, "step": 48060 }, { "epoch": 128.18666666666667, "grad_norm": 0.228515625, "learning_rate": 0.0004950469213201154, "loss": 0.314, "step": 48070 }, { "epoch": 128.21333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.0004950448455269829, "loss": 0.3029, "step": 48080 }, { "epoch": 128.24, "grad_norm": 0.244140625, "learning_rate": 0.0004950427693033218, "loss": 0.3073, "step": 48090 }, { "epoch": 128.26666666666668, "grad_norm": 0.2041015625, "learning_rate": 0.0004950406926491357, "loss": 0.3131, "step": 48100 }, { "epoch": 128.29333333333332, "grad_norm": 0.19140625, "learning_rate": 0.0004950386155644283, "loss": 0.309, "step": 48110 }, { "epoch": 128.32, "grad_norm": 0.1982421875, "learning_rate": 0.0004950365380492032, "loss": 0.3147, "step": 48120 }, { "epoch": 128.34666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.000495034460103464, "loss": 0.3146, "step": 48130 }, { "epoch": 128.37333333333333, "grad_norm": 0.30859375, "learning_rate": 0.0004950323817272145, "loss": 0.3065, "step": 48140 }, { "epoch": 128.4, "grad_norm": 0.2275390625, "learning_rate": 0.0004950303029204582, "loss": 0.3087, "step": 48150 }, { "epoch": 128.42666666666668, "grad_norm": 0.1875, "learning_rate": 0.0004950282236831988, "loss": 0.3151, "step": 48160 }, { "epoch": 128.45333333333335, "grad_norm": 0.2080078125, "learning_rate": 0.00049502614401544, "loss": 0.3238, "step": 48170 }, { "epoch": 128.48, "grad_norm": 0.2080078125, "learning_rate": 0.0004950240639171854, "loss": 0.3196, "step": 48180 }, { "epoch": 128.50666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004950219833884387, "loss": 0.3167, "step": 48190 }, { "epoch": 128.53333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004950199024292035, "loss": 0.3113, "step": 48200 }, { "epoch": 128.56, "grad_norm": 0.2021484375, "learning_rate": 0.0004950178210394835, "loss": 0.3075, "step": 48210 }, { "epoch": 128.58666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004950157392192825, "loss": 0.3112, "step": 48220 }, { "epoch": 128.61333333333334, "grad_norm": 0.283203125, "learning_rate": 0.0004950136569686037, "loss": 0.3026, "step": 48230 }, { "epoch": 128.64, "grad_norm": 0.2001953125, "learning_rate": 0.0004950115742874513, "loss": 0.3043, "step": 48240 }, { "epoch": 128.66666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004950094911758286, "loss": 0.3197, "step": 48250 }, { "epoch": 128.69333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004950074076337395, "loss": 0.2989, "step": 48260 }, { "epoch": 128.72, "grad_norm": 0.1982421875, "learning_rate": 0.0004950053236611874, "loss": 0.3152, "step": 48270 }, { "epoch": 128.74666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004950032392581762, "loss": 0.3166, "step": 48280 }, { "epoch": 128.77333333333334, "grad_norm": 0.302734375, "learning_rate": 0.0004950011544247094, "loss": 0.3278, "step": 48290 }, { "epoch": 128.8, "grad_norm": 0.234375, "learning_rate": 0.0004949990691607908, "loss": 0.3139, "step": 48300 }, { "epoch": 128.82666666666665, "grad_norm": 0.1787109375, "learning_rate": 0.000494996983466424, "loss": 0.303, "step": 48310 }, { "epoch": 128.85333333333332, "grad_norm": 0.177734375, "learning_rate": 0.0004949948973416125, "loss": 0.3074, "step": 48320 }, { "epoch": 128.88, "grad_norm": 0.1904296875, "learning_rate": 0.0004949928107863602, "loss": 0.3061, "step": 48330 }, { "epoch": 128.90666666666667, "grad_norm": 0.236328125, "learning_rate": 0.0004949907238006708, "loss": 0.3086, "step": 48340 }, { "epoch": 128.93333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004949886363845477, "loss": 0.3089, "step": 48350 }, { "epoch": 128.96, "grad_norm": 0.2060546875, "learning_rate": 0.0004949865485379949, "loss": 0.309, "step": 48360 }, { "epoch": 128.98666666666668, "grad_norm": 0.205078125, "learning_rate": 0.0004949844602610158, "loss": 0.3208, "step": 48370 }, { "epoch": 129.0, "eval_loss": 0.40008044242858887, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6452, "eval_samples_per_second": 1.374, "eval_steps_per_second": 0.086, "step": 48375 }, { "epoch": 129.01333333333332, "grad_norm": 0.2060546875, "learning_rate": 0.000494982371553614, "loss": 0.3119, "step": 48380 }, { "epoch": 129.04, "grad_norm": 0.177734375, "learning_rate": 0.0004949802824157936, "loss": 0.3379, "step": 48390 }, { "epoch": 129.06666666666666, "grad_norm": 0.294921875, "learning_rate": 0.0004949781928475578, "loss": 0.3226, "step": 48400 }, { "epoch": 129.09333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004949761028489104, "loss": 0.3186, "step": 48410 }, { "epoch": 129.12, "grad_norm": 0.185546875, "learning_rate": 0.0004949740124198553, "loss": 0.3157, "step": 48420 }, { "epoch": 129.14666666666668, "grad_norm": 0.2265625, "learning_rate": 0.000494971921560396, "loss": 0.3163, "step": 48430 }, { "epoch": 129.17333333333335, "grad_norm": 0.232421875, "learning_rate": 0.0004949698302705362, "loss": 0.3158, "step": 48440 }, { "epoch": 129.2, "grad_norm": 0.2294921875, "learning_rate": 0.0004949677385502795, "loss": 0.309, "step": 48450 }, { "epoch": 129.22666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004949656463996297, "loss": 0.3042, "step": 48460 }, { "epoch": 129.25333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004949635538185903, "loss": 0.3039, "step": 48470 }, { "epoch": 129.28, "grad_norm": 0.2099609375, "learning_rate": 0.0004949614608071652, "loss": 0.3218, "step": 48480 }, { "epoch": 129.30666666666667, "grad_norm": 0.181640625, "learning_rate": 0.000494959367365358, "loss": 0.3043, "step": 48490 }, { "epoch": 129.33333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004949572734931723, "loss": 0.3187, "step": 48500 }, { "epoch": 129.36, "grad_norm": 0.2333984375, "learning_rate": 0.0004949551791906117, "loss": 0.3097, "step": 48510 }, { "epoch": 129.38666666666666, "grad_norm": 0.22265625, "learning_rate": 0.0004949530844576801, "loss": 0.3071, "step": 48520 }, { "epoch": 129.41333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004949509892943812, "loss": 0.3128, "step": 48530 }, { "epoch": 129.44, "grad_norm": 0.2470703125, "learning_rate": 0.0004949488937007184, "loss": 0.3197, "step": 48540 }, { "epoch": 129.46666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004949467976766955, "loss": 0.324, "step": 48550 }, { "epoch": 129.49333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004949447012223164, "loss": 0.3135, "step": 48560 }, { "epoch": 129.52, "grad_norm": 0.1923828125, "learning_rate": 0.0004949426043375846, "loss": 0.3172, "step": 48570 }, { "epoch": 129.54666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004949405070225037, "loss": 0.3076, "step": 48580 }, { "epoch": 129.57333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004949384092770776, "loss": 0.3112, "step": 48590 }, { "epoch": 129.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004949363111013097, "loss": 0.3077, "step": 48600 }, { "epoch": 129.62666666666667, "grad_norm": 0.234375, "learning_rate": 0.000494934212495204, "loss": 0.3027, "step": 48610 }, { "epoch": 129.65333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004949321134587639, "loss": 0.3154, "step": 48620 }, { "epoch": 129.68, "grad_norm": 0.189453125, "learning_rate": 0.0004949300139919933, "loss": 0.3038, "step": 48630 }, { "epoch": 129.70666666666668, "grad_norm": 0.28515625, "learning_rate": 0.000494927914094896, "loss": 0.305, "step": 48640 }, { "epoch": 129.73333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004949258137674752, "loss": 0.3206, "step": 48650 }, { "epoch": 129.76, "grad_norm": 0.216796875, "learning_rate": 0.000494923713009735, "loss": 0.3222, "step": 48660 }, { "epoch": 129.78666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004949216118216791, "loss": 0.3229, "step": 48670 }, { "epoch": 129.81333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004949195102033109, "loss": 0.3049, "step": 48680 }, { "epoch": 129.84, "grad_norm": 0.2001953125, "learning_rate": 0.0004949174081546343, "loss": 0.305, "step": 48690 }, { "epoch": 129.86666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004949153056756532, "loss": 0.3061, "step": 48700 }, { "epoch": 129.89333333333335, "grad_norm": 0.1787109375, "learning_rate": 0.0004949132027663708, "loss": 0.3065, "step": 48710 }, { "epoch": 129.92, "grad_norm": 0.228515625, "learning_rate": 0.0004949110994267911, "loss": 0.308, "step": 48720 }, { "epoch": 129.94666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004949089956569179, "loss": 0.3095, "step": 48730 }, { "epoch": 129.97333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004949068914567545, "loss": 0.3172, "step": 48740 }, { "epoch": 130.0, "grad_norm": 0.1884765625, "learning_rate": 0.0004949047868263051, "loss": 0.3061, "step": 48750 }, { "epoch": 130.0, "eval_loss": 0.4006252884864807, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.7299, "eval_samples_per_second": 1.165, "eval_steps_per_second": 0.073, "step": 48750 }, { "epoch": 130.02666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004949026817655729, "loss": 0.3285, "step": 48760 }, { "epoch": 130.05333333333334, "grad_norm": 0.1875, "learning_rate": 0.000494900576274562, "loss": 0.3347, "step": 48770 }, { "epoch": 130.08, "grad_norm": 0.271484375, "learning_rate": 0.0004948984703532759, "loss": 0.3181, "step": 48780 }, { "epoch": 130.10666666666665, "grad_norm": 0.2041015625, "learning_rate": 0.0004948963640017182, "loss": 0.32, "step": 48790 }, { "epoch": 130.13333333333333, "grad_norm": 0.279296875, "learning_rate": 0.0004948942572198929, "loss": 0.3115, "step": 48800 }, { "epoch": 130.16, "grad_norm": 0.1982421875, "learning_rate": 0.0004948921500078035, "loss": 0.3192, "step": 48810 }, { "epoch": 130.18666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004948900423654538, "loss": 0.3136, "step": 48820 }, { "epoch": 130.21333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004948879342928473, "loss": 0.3023, "step": 48830 }, { "epoch": 130.24, "grad_norm": 0.2060546875, "learning_rate": 0.000494885825789988, "loss": 0.3069, "step": 48840 }, { "epoch": 130.26666666666668, "grad_norm": 0.2060546875, "learning_rate": 0.0004948837168568793, "loss": 0.3126, "step": 48850 }, { "epoch": 130.29333333333332, "grad_norm": 0.20703125, "learning_rate": 0.0004948816074935252, "loss": 0.3091, "step": 48860 }, { "epoch": 130.32, "grad_norm": 0.208984375, "learning_rate": 0.0004948794976999292, "loss": 0.3153, "step": 48870 }, { "epoch": 130.34666666666666, "grad_norm": 0.265625, "learning_rate": 0.0004948773874760951, "loss": 0.3151, "step": 48880 }, { "epoch": 130.37333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004948752768220264, "loss": 0.3072, "step": 48890 }, { "epoch": 130.4, "grad_norm": 0.232421875, "learning_rate": 0.0004948731657377272, "loss": 0.3084, "step": 48900 }, { "epoch": 130.42666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.000494871054223201, "loss": 0.3156, "step": 48910 }, { "epoch": 130.45333333333335, "grad_norm": 0.18359375, "learning_rate": 0.0004948689422784514, "loss": 0.3239, "step": 48920 }, { "epoch": 130.48, "grad_norm": 0.22265625, "learning_rate": 0.0004948668299034823, "loss": 0.3198, "step": 48930 }, { "epoch": 130.50666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004948647170982973, "loss": 0.3156, "step": 48940 }, { "epoch": 130.53333333333333, "grad_norm": 0.1533203125, "learning_rate": 0.0004948626038629, "loss": 0.3111, "step": 48950 }, { "epoch": 130.56, "grad_norm": 0.19921875, "learning_rate": 0.0004948604901972945, "loss": 0.3079, "step": 48960 }, { "epoch": 130.58666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004948583761014841, "loss": 0.3104, "step": 48970 }, { "epoch": 130.61333333333334, "grad_norm": 0.1533203125, "learning_rate": 0.0004948562615754727, "loss": 0.3028, "step": 48980 }, { "epoch": 130.64, "grad_norm": 0.1796875, "learning_rate": 0.000494854146619264, "loss": 0.3041, "step": 48990 }, { "epoch": 130.66666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004948520312328617, "loss": 0.3204, "step": 49000 }, { "epoch": 130.69333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004948499154162696, "loss": 0.2989, "step": 49010 }, { "epoch": 130.72, "grad_norm": 0.27734375, "learning_rate": 0.0004948477991694913, "loss": 0.3142, "step": 49020 }, { "epoch": 130.74666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004948456824925306, "loss": 0.3165, "step": 49030 }, { "epoch": 130.77333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004948435653853911, "loss": 0.3274, "step": 49040 }, { "epoch": 130.8, "grad_norm": 0.2119140625, "learning_rate": 0.0004948414478480766, "loss": 0.314, "step": 49050 }, { "epoch": 130.82666666666665, "grad_norm": 0.1884765625, "learning_rate": 0.0004948393298805909, "loss": 0.3028, "step": 49060 }, { "epoch": 130.85333333333332, "grad_norm": 0.2021484375, "learning_rate": 0.0004948372114829376, "loss": 0.3068, "step": 49070 }, { "epoch": 130.88, "grad_norm": 0.1826171875, "learning_rate": 0.0004948350926551204, "loss": 0.3064, "step": 49080 }, { "epoch": 130.90666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004948329733971432, "loss": 0.308, "step": 49090 }, { "epoch": 130.93333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004948308537090095, "loss": 0.3085, "step": 49100 }, { "epoch": 130.96, "grad_norm": 0.19140625, "learning_rate": 0.0004948287335907233, "loss": 0.3085, "step": 49110 }, { "epoch": 130.98666666666668, "grad_norm": 0.2451171875, "learning_rate": 0.000494826613042288, "loss": 0.3205, "step": 49120 }, { "epoch": 131.0, "eval_loss": 0.3985663652420044, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5896, "eval_samples_per_second": 1.511, "eval_steps_per_second": 0.094, "step": 49125 }, { "epoch": 131.01333333333332, "grad_norm": 0.2099609375, "learning_rate": 0.0004948244920637076, "loss": 0.3105, "step": 49130 }, { "epoch": 131.04, "grad_norm": 0.2177734375, "learning_rate": 0.0004948223706549857, "loss": 0.3379, "step": 49140 }, { "epoch": 131.06666666666666, "grad_norm": 0.21875, "learning_rate": 0.000494820248816126, "loss": 0.3224, "step": 49150 }, { "epoch": 131.09333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004948181265471323, "loss": 0.3194, "step": 49160 }, { "epoch": 131.12, "grad_norm": 0.203125, "learning_rate": 0.0004948160038480082, "loss": 0.3148, "step": 49170 }, { "epoch": 131.14666666666668, "grad_norm": 0.19921875, "learning_rate": 0.0004948138807187576, "loss": 0.3166, "step": 49180 }, { "epoch": 131.17333333333335, "grad_norm": 0.259765625, "learning_rate": 0.0004948117571593842, "loss": 0.3161, "step": 49190 }, { "epoch": 131.2, "grad_norm": 0.2353515625, "learning_rate": 0.0004948096331698915, "loss": 0.3094, "step": 49200 }, { "epoch": 131.22666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004948075087502836, "loss": 0.304, "step": 49210 }, { "epoch": 131.25333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004948053839005641, "loss": 0.3031, "step": 49220 }, { "epoch": 131.28, "grad_norm": 0.30078125, "learning_rate": 0.0004948032586207365, "loss": 0.3218, "step": 49230 }, { "epoch": 131.30666666666667, "grad_norm": 0.28515625, "learning_rate": 0.0004948011329108049, "loss": 0.3035, "step": 49240 }, { "epoch": 131.33333333333334, "grad_norm": 0.65625, "learning_rate": 0.0004947990067707727, "loss": 0.3181, "step": 49250 }, { "epoch": 131.36, "grad_norm": 0.26171875, "learning_rate": 0.0004947968802006439, "loss": 0.3094, "step": 49260 }, { "epoch": 131.38666666666666, "grad_norm": 0.2236328125, "learning_rate": 0.000494794753200422, "loss": 0.3062, "step": 49270 }, { "epoch": 131.41333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004947926257701109, "loss": 0.3127, "step": 49280 }, { "epoch": 131.44, "grad_norm": 0.1962890625, "learning_rate": 0.0004947904979097144, "loss": 0.3201, "step": 49290 }, { "epoch": 131.46666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004947883696192361, "loss": 0.3237, "step": 49300 }, { "epoch": 131.49333333333334, "grad_norm": 0.2197265625, "learning_rate": 0.0004947862408986797, "loss": 0.3127, "step": 49310 }, { "epoch": 131.52, "grad_norm": 0.1953125, "learning_rate": 0.000494784111748049, "loss": 0.3171, "step": 49320 }, { "epoch": 131.54666666666665, "grad_norm": 0.2177734375, "learning_rate": 0.0004947819821673478, "loss": 0.308, "step": 49330 }, { "epoch": 131.57333333333332, "grad_norm": 0.181640625, "learning_rate": 0.0004947798521565799, "loss": 0.3102, "step": 49340 }, { "epoch": 131.6, "grad_norm": 0.2080078125, "learning_rate": 0.0004947777217157489, "loss": 0.3067, "step": 49350 }, { "epoch": 131.62666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004947755908448584, "loss": 0.3019, "step": 49360 }, { "epoch": 131.65333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0004947734595439125, "loss": 0.315, "step": 49370 }, { "epoch": 131.68, "grad_norm": 0.1923828125, "learning_rate": 0.0004947713278129148, "loss": 0.3038, "step": 49380 }, { "epoch": 131.70666666666668, "grad_norm": 0.234375, "learning_rate": 0.000494769195651869, "loss": 0.3045, "step": 49390 }, { "epoch": 131.73333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.0004947670630607788, "loss": 0.3201, "step": 49400 }, { "epoch": 131.76, "grad_norm": 0.197265625, "learning_rate": 0.000494764930039648, "loss": 0.3218, "step": 49410 }, { "epoch": 131.78666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004947627965884804, "loss": 0.3224, "step": 49420 }, { "epoch": 131.81333333333333, "grad_norm": 0.26171875, "learning_rate": 0.0004947606627072797, "loss": 0.305, "step": 49430 }, { "epoch": 131.84, "grad_norm": 0.177734375, "learning_rate": 0.0004947585283960497, "loss": 0.3049, "step": 49440 }, { "epoch": 131.86666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.000494756393654794, "loss": 0.3064, "step": 49450 }, { "epoch": 131.89333333333335, "grad_norm": 0.2197265625, "learning_rate": 0.0004947542584835165, "loss": 0.3066, "step": 49460 }, { "epoch": 131.92, "grad_norm": 0.2177734375, "learning_rate": 0.000494752122882221, "loss": 0.3078, "step": 49470 }, { "epoch": 131.94666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004947499868509112, "loss": 0.3095, "step": 49480 }, { "epoch": 131.97333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004947478503895906, "loss": 0.3171, "step": 49490 }, { "epoch": 132.0, "grad_norm": 0.1953125, "learning_rate": 0.0004947457134982633, "loss": 0.3057, "step": 49500 }, { "epoch": 132.0, "eval_loss": 0.3994103670120239, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.842, "eval_samples_per_second": 1.476, "eval_steps_per_second": 0.092, "step": 49500 }, { "epoch": 132.02666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004947435761769328, "loss": 0.3273, "step": 49510 }, { "epoch": 132.05333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004947414384256032, "loss": 0.3348, "step": 49520 }, { "epoch": 132.08, "grad_norm": 0.25390625, "learning_rate": 0.0004947393002442778, "loss": 0.3177, "step": 49530 }, { "epoch": 132.10666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004947371616329607, "loss": 0.3205, "step": 49540 }, { "epoch": 132.13333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004947350225916556, "loss": 0.3112, "step": 49550 }, { "epoch": 132.16, "grad_norm": 0.19921875, "learning_rate": 0.0004947328831203661, "loss": 0.3187, "step": 49560 }, { "epoch": 132.18666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004947307432190962, "loss": 0.3138, "step": 49570 }, { "epoch": 132.21333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004947286028878493, "loss": 0.3029, "step": 49580 }, { "epoch": 132.24, "grad_norm": 0.251953125, "learning_rate": 0.0004947264621266295, "loss": 0.3059, "step": 49590 }, { "epoch": 132.26666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.0004947243209354405, "loss": 0.3122, "step": 49600 }, { "epoch": 132.29333333333332, "grad_norm": 0.2412109375, "learning_rate": 0.000494722179314286, "loss": 0.3085, "step": 49610 }, { "epoch": 132.32, "grad_norm": 0.1767578125, "learning_rate": 0.0004947200372631697, "loss": 0.3146, "step": 49620 }, { "epoch": 132.34666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004947178947820954, "loss": 0.314, "step": 49630 }, { "epoch": 132.37333333333333, "grad_norm": 0.171875, "learning_rate": 0.000494715751871067, "loss": 0.3063, "step": 49640 }, { "epoch": 132.4, "grad_norm": 0.1962890625, "learning_rate": 0.0004947136085300881, "loss": 0.3083, "step": 49650 }, { "epoch": 132.42666666666668, "grad_norm": 0.1748046875, "learning_rate": 0.0004947114647591626, "loss": 0.3146, "step": 49660 }, { "epoch": 132.45333333333335, "grad_norm": 0.212890625, "learning_rate": 0.0004947093205582941, "loss": 0.3233, "step": 49670 }, { "epoch": 132.48, "grad_norm": 0.2119140625, "learning_rate": 0.0004947071759274865, "loss": 0.3188, "step": 49680 }, { "epoch": 132.50666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004947050308667435, "loss": 0.3152, "step": 49690 }, { "epoch": 132.53333333333333, "grad_norm": 0.2412109375, "learning_rate": 0.000494702885376069, "loss": 0.3107, "step": 49700 }, { "epoch": 132.56, "grad_norm": 0.216796875, "learning_rate": 0.0004947007394554665, "loss": 0.3073, "step": 49710 }, { "epoch": 132.58666666666667, "grad_norm": 0.1630859375, "learning_rate": 0.0004946985931049402, "loss": 0.3103, "step": 49720 }, { "epoch": 132.61333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004946964463244934, "loss": 0.3027, "step": 49730 }, { "epoch": 132.64, "grad_norm": 0.173828125, "learning_rate": 0.0004946942991141301, "loss": 0.3038, "step": 49740 }, { "epoch": 132.66666666666666, "grad_norm": 0.25, "learning_rate": 0.000494692151473854, "loss": 0.3195, "step": 49750 }, { "epoch": 132.69333333333333, "grad_norm": 0.212890625, "learning_rate": 0.000494690003403669, "loss": 0.2984, "step": 49760 }, { "epoch": 132.72, "grad_norm": 0.2060546875, "learning_rate": 0.000494687854903579, "loss": 0.3144, "step": 49770 }, { "epoch": 132.74666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004946857059735873, "loss": 0.3159, "step": 49780 }, { "epoch": 132.77333333333334, "grad_norm": 0.1953125, "learning_rate": 0.000494683556613698, "loss": 0.3271, "step": 49790 }, { "epoch": 132.8, "grad_norm": 0.1962890625, "learning_rate": 0.0004946814068239148, "loss": 0.3133, "step": 49800 }, { "epoch": 132.82666666666665, "grad_norm": 0.2392578125, "learning_rate": 0.0004946792566042416, "loss": 0.3025, "step": 49810 }, { "epoch": 132.85333333333332, "grad_norm": 0.2216796875, "learning_rate": 0.0004946771059546821, "loss": 0.3064, "step": 49820 }, { "epoch": 132.88, "grad_norm": 0.185546875, "learning_rate": 0.0004946749548752399, "loss": 0.3061, "step": 49830 }, { "epoch": 132.90666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004946728033659192, "loss": 0.3078, "step": 49840 }, { "epoch": 132.93333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004946706514267233, "loss": 0.3086, "step": 49850 }, { "epoch": 132.96, "grad_norm": 0.1611328125, "learning_rate": 0.0004946684990576562, "loss": 0.3079, "step": 49860 }, { "epoch": 132.98666666666668, "grad_norm": 0.2109375, "learning_rate": 0.0004946663462587217, "loss": 0.3199, "step": 49870 }, { "epoch": 133.0, "eval_loss": 0.3993377685546875, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0237, "eval_samples_per_second": 1.451, "eval_steps_per_second": 0.091, "step": 49875 }, { "epoch": 133.01333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004946641930299237, "loss": 0.3112, "step": 49880 }, { "epoch": 133.04, "grad_norm": 0.1875, "learning_rate": 0.0004946620393712658, "loss": 0.3372, "step": 49890 }, { "epoch": 133.06666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0004946598852827518, "loss": 0.3221, "step": 49900 }, { "epoch": 133.09333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004946577307643854, "loss": 0.3189, "step": 49910 }, { "epoch": 133.12, "grad_norm": 0.2119140625, "learning_rate": 0.0004946555758161707, "loss": 0.3154, "step": 49920 }, { "epoch": 133.14666666666668, "grad_norm": 0.2216796875, "learning_rate": 0.0004946534204381111, "loss": 0.3159, "step": 49930 }, { "epoch": 133.17333333333335, "grad_norm": 0.2197265625, "learning_rate": 0.0004946512646302107, "loss": 0.3154, "step": 49940 }, { "epoch": 133.2, "grad_norm": 0.26171875, "learning_rate": 0.0004946491083924732, "loss": 0.3089, "step": 49950 }, { "epoch": 133.22666666666666, "grad_norm": 0.271484375, "learning_rate": 0.0004946469517249023, "loss": 0.3033, "step": 49960 }, { "epoch": 133.25333333333333, "grad_norm": 0.482421875, "learning_rate": 0.0004946447946275017, "loss": 0.3026, "step": 49970 }, { "epoch": 133.28, "grad_norm": 0.51953125, "learning_rate": 0.0004946426371002755, "loss": 0.3214, "step": 49980 }, { "epoch": 133.30666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004946404791432273, "loss": 0.3032, "step": 49990 }, { "epoch": 133.33333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004946383207563609, "loss": 0.3174, "step": 50000 }, { "epoch": 133.36, "grad_norm": 0.2177734375, "learning_rate": 0.00049463616193968, "loss": 0.3089, "step": 50010 }, { "epoch": 133.38666666666666, "grad_norm": 0.22265625, "learning_rate": 0.0004946340026931886, "loss": 0.3059, "step": 50020 }, { "epoch": 133.41333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004946318430168904, "loss": 0.3123, "step": 50030 }, { "epoch": 133.44, "grad_norm": 0.28125, "learning_rate": 0.0004946296829107891, "loss": 0.3196, "step": 50040 }, { "epoch": 133.46666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004946275223748887, "loss": 0.3233, "step": 50050 }, { "epoch": 133.49333333333334, "grad_norm": 0.2392578125, "learning_rate": 0.0004946253614091928, "loss": 0.313, "step": 50060 }, { "epoch": 133.52, "grad_norm": 0.1748046875, "learning_rate": 0.0004946232000137053, "loss": 0.3166, "step": 50070 }, { "epoch": 133.54666666666665, "grad_norm": 0.275390625, "learning_rate": 0.00049462103818843, "loss": 0.308, "step": 50080 }, { "epoch": 133.57333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004946188759333705, "loss": 0.31, "step": 50090 }, { "epoch": 133.6, "grad_norm": 0.1806640625, "learning_rate": 0.000494616713248531, "loss": 0.3066, "step": 50100 }, { "epoch": 133.62666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004946145501339149, "loss": 0.3019, "step": 50110 }, { "epoch": 133.65333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004946123865895262, "loss": 0.3148, "step": 50120 }, { "epoch": 133.68, "grad_norm": 0.2060546875, "learning_rate": 0.0004946102226153687, "loss": 0.3037, "step": 50130 }, { "epoch": 133.70666666666668, "grad_norm": 0.203125, "learning_rate": 0.0004946080582114462, "loss": 0.3045, "step": 50140 }, { "epoch": 133.73333333333332, "grad_norm": 0.1953125, "learning_rate": 0.0004946058933777625, "loss": 0.3198, "step": 50150 }, { "epoch": 133.76, "grad_norm": 0.19921875, "learning_rate": 0.0004946037281143211, "loss": 0.3211, "step": 50160 }, { "epoch": 133.78666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004946015624211264, "loss": 0.3223, "step": 50170 }, { "epoch": 133.81333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004945993962981817, "loss": 0.3044, "step": 50180 }, { "epoch": 133.84, "grad_norm": 0.2001953125, "learning_rate": 0.0004945972297454911, "loss": 0.3047, "step": 50190 }, { "epoch": 133.86666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004945950627630583, "loss": 0.3064, "step": 50200 }, { "epoch": 133.89333333333335, "grad_norm": 0.1884765625, "learning_rate": 0.000494592895350887, "loss": 0.3064, "step": 50210 }, { "epoch": 133.92, "grad_norm": 0.287109375, "learning_rate": 0.0004945907275089813, "loss": 0.3082, "step": 50220 }, { "epoch": 133.94666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004945885592373447, "loss": 0.3097, "step": 50230 }, { "epoch": 133.97333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004945863905359811, "loss": 0.3172, "step": 50240 }, { "epoch": 134.0, "grad_norm": 0.2333984375, "learning_rate": 0.0004945842214048944, "loss": 0.3048, "step": 50250 }, { "epoch": 134.0, "eval_loss": 0.39946791529655457, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3812, "eval_samples_per_second": 1.406, "eval_steps_per_second": 0.088, "step": 50250 }, { "epoch": 134.02666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004945820518440883, "loss": 0.3276, "step": 50260 }, { "epoch": 134.05333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004945798818535667, "loss": 0.334, "step": 50270 }, { "epoch": 134.08, "grad_norm": 0.177734375, "learning_rate": 0.0004945777114333333, "loss": 0.3173, "step": 50280 }, { "epoch": 134.10666666666665, "grad_norm": 0.2138671875, "learning_rate": 0.0004945755405833922, "loss": 0.3196, "step": 50290 }, { "epoch": 134.13333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004945733693037468, "loss": 0.3118, "step": 50300 }, { "epoch": 134.16, "grad_norm": 0.203125, "learning_rate": 0.0004945711975944012, "loss": 0.3181, "step": 50310 }, { "epoch": 134.18666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004945690254553591, "loss": 0.3129, "step": 50320 }, { "epoch": 134.21333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004945668528866244, "loss": 0.3023, "step": 50330 }, { "epoch": 134.24, "grad_norm": 0.24609375, "learning_rate": 0.0004945646798882008, "loss": 0.306, "step": 50340 }, { "epoch": 134.26666666666668, "grad_norm": 0.2255859375, "learning_rate": 0.0004945625064600922, "loss": 0.3123, "step": 50350 }, { "epoch": 134.29333333333332, "grad_norm": 0.1796875, "learning_rate": 0.0004945603326023025, "loss": 0.3084, "step": 50360 }, { "epoch": 134.32, "grad_norm": 0.1826171875, "learning_rate": 0.0004945581583148353, "loss": 0.3149, "step": 50370 }, { "epoch": 134.34666666666666, "grad_norm": 0.19140625, "learning_rate": 0.0004945559835976947, "loss": 0.314, "step": 50380 }, { "epoch": 134.37333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004945538084508842, "loss": 0.3059, "step": 50390 }, { "epoch": 134.4, "grad_norm": 0.2353515625, "learning_rate": 0.0004945516328744078, "loss": 0.3077, "step": 50400 }, { "epoch": 134.42666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0004945494568682694, "loss": 0.3145, "step": 50410 }, { "epoch": 134.45333333333335, "grad_norm": 0.2099609375, "learning_rate": 0.0004945472804324726, "loss": 0.3233, "step": 50420 }, { "epoch": 134.48, "grad_norm": 0.1806640625, "learning_rate": 0.0004945451035670215, "loss": 0.3183, "step": 50430 }, { "epoch": 134.50666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004945429262719198, "loss": 0.3149, "step": 50440 }, { "epoch": 134.53333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004945407485471712, "loss": 0.3101, "step": 50450 }, { "epoch": 134.56, "grad_norm": 0.19921875, "learning_rate": 0.0004945385703927797, "loss": 0.3074, "step": 50460 }, { "epoch": 134.58666666666667, "grad_norm": 0.181640625, "learning_rate": 0.000494536391808749, "loss": 0.3105, "step": 50470 }, { "epoch": 134.61333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.000494534212795083, "loss": 0.3018, "step": 50480 }, { "epoch": 134.64, "grad_norm": 0.1865234375, "learning_rate": 0.0004945320333517855, "loss": 0.304, "step": 50490 }, { "epoch": 134.66666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004945298534788603, "loss": 0.3195, "step": 50500 }, { "epoch": 134.69333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004945276731763114, "loss": 0.2985, "step": 50510 }, { "epoch": 134.72, "grad_norm": 0.19140625, "learning_rate": 0.0004945254924441424, "loss": 0.3135, "step": 50520 }, { "epoch": 134.74666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004945233112823574, "loss": 0.316, "step": 50530 }, { "epoch": 134.77333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004945211296909598, "loss": 0.327, "step": 50540 }, { "epoch": 134.8, "grad_norm": 0.1796875, "learning_rate": 0.0004945189476699539, "loss": 0.3135, "step": 50550 }, { "epoch": 134.82666666666665, "grad_norm": 0.18359375, "learning_rate": 0.0004945167652193433, "loss": 0.3022, "step": 50560 }, { "epoch": 134.85333333333332, "grad_norm": 0.1865234375, "learning_rate": 0.0004945145823391319, "loss": 0.3055, "step": 50570 }, { "epoch": 134.88, "grad_norm": 0.173828125, "learning_rate": 0.0004945123990293235, "loss": 0.3053, "step": 50580 }, { "epoch": 134.90666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004945102152899218, "loss": 0.3072, "step": 50590 }, { "epoch": 134.93333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004945080311209309, "loss": 0.3083, "step": 50600 }, { "epoch": 134.96, "grad_norm": 0.189453125, "learning_rate": 0.0004945058465223545, "loss": 0.3081, "step": 50610 }, { "epoch": 134.98666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.0004945036614941964, "loss": 0.3199, "step": 50620 }, { "epoch": 135.0, "eval_loss": 0.40096619725227356, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.1666, "eval_samples_per_second": 1.315, "eval_steps_per_second": 0.082, "step": 50625 }, { "epoch": 135.01333333333332, "grad_norm": 0.2109375, "learning_rate": 0.0004945014760364605, "loss": 0.3103, "step": 50630 }, { "epoch": 135.04, "grad_norm": 0.1943359375, "learning_rate": 0.0004944992901491507, "loss": 0.3363, "step": 50640 }, { "epoch": 135.06666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004944971038322708, "loss": 0.322, "step": 50650 }, { "epoch": 135.09333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0004944949170858245, "loss": 0.3181, "step": 50660 }, { "epoch": 135.12, "grad_norm": 0.189453125, "learning_rate": 0.0004944927299098158, "loss": 0.3148, "step": 50670 }, { "epoch": 135.14666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.0004944905423042485, "loss": 0.3156, "step": 50680 }, { "epoch": 135.17333333333335, "grad_norm": 0.265625, "learning_rate": 0.0004944883542691265, "loss": 0.316, "step": 50690 }, { "epoch": 135.2, "grad_norm": 0.2197265625, "learning_rate": 0.0004944861658044535, "loss": 0.3089, "step": 50700 }, { "epoch": 135.22666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004944839769102335, "loss": 0.3032, "step": 50710 }, { "epoch": 135.25333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004944817875864702, "loss": 0.303, "step": 50720 }, { "epoch": 135.28, "grad_norm": 0.2265625, "learning_rate": 0.0004944795978331676, "loss": 0.3216, "step": 50730 }, { "epoch": 135.30666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0004944774076503293, "loss": 0.303, "step": 50740 }, { "epoch": 135.33333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004944752170379595, "loss": 0.3176, "step": 50750 }, { "epoch": 135.36, "grad_norm": 0.240234375, "learning_rate": 0.0004944730259960618, "loss": 0.3092, "step": 50760 }, { "epoch": 135.38666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004944708345246401, "loss": 0.3057, "step": 50770 }, { "epoch": 135.41333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004944686426236984, "loss": 0.3119, "step": 50780 }, { "epoch": 135.44, "grad_norm": 0.2197265625, "learning_rate": 0.0004944664502932402, "loss": 0.319, "step": 50790 }, { "epoch": 135.46666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004944642575332697, "loss": 0.3228, "step": 50800 }, { "epoch": 135.49333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004944620643437907, "loss": 0.3121, "step": 50810 }, { "epoch": 135.52, "grad_norm": 0.1923828125, "learning_rate": 0.0004944598707248068, "loss": 0.3162, "step": 50820 }, { "epoch": 135.54666666666665, "grad_norm": 0.2119140625, "learning_rate": 0.0004944576766763221, "loss": 0.3073, "step": 50830 }, { "epoch": 135.57333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004944554821983404, "loss": 0.3098, "step": 50840 }, { "epoch": 135.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004944532872908656, "loss": 0.3064, "step": 50850 }, { "epoch": 135.62666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004944510919539013, "loss": 0.3015, "step": 50860 }, { "epoch": 135.65333333333334, "grad_norm": 0.3828125, "learning_rate": 0.0004944488961874518, "loss": 0.3154, "step": 50870 }, { "epoch": 135.68, "grad_norm": 0.392578125, "learning_rate": 0.0004944466999915205, "loss": 0.3038, "step": 50880 }, { "epoch": 135.70666666666668, "grad_norm": 0.306640625, "learning_rate": 0.0004944445033661116, "loss": 0.3048, "step": 50890 }, { "epoch": 135.73333333333332, "grad_norm": 0.37109375, "learning_rate": 0.0004944423063112288, "loss": 0.3197, "step": 50900 }, { "epoch": 135.76, "grad_norm": 0.2451171875, "learning_rate": 0.000494440108826876, "loss": 0.3213, "step": 50910 }, { "epoch": 135.78666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.000494437910913057, "loss": 0.3215, "step": 50920 }, { "epoch": 135.81333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004944357125697757, "loss": 0.3042, "step": 50930 }, { "epoch": 135.84, "grad_norm": 0.1796875, "learning_rate": 0.000494433513797036, "loss": 0.304, "step": 50940 }, { "epoch": 135.86666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004944313145948419, "loss": 0.306, "step": 50950 }, { "epoch": 135.89333333333335, "grad_norm": 0.1708984375, "learning_rate": 0.0004944291149631968, "loss": 0.3059, "step": 50960 }, { "epoch": 135.92, "grad_norm": 0.240234375, "learning_rate": 0.0004944269149021051, "loss": 0.307, "step": 50970 }, { "epoch": 135.94666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004944247144115703, "loss": 0.3094, "step": 50980 }, { "epoch": 135.97333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004944225134915965, "loss": 0.3167, "step": 50990 }, { "epoch": 136.0, "grad_norm": 0.287109375, "learning_rate": 0.0004944203121421874, "loss": 0.3054, "step": 51000 }, { "epoch": 136.0, "eval_loss": 0.39999130368232727, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5696, "eval_samples_per_second": 1.383, "eval_steps_per_second": 0.086, "step": 51000 }, { "epoch": 136.02666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004944181103633469, "loss": 0.3274, "step": 51010 }, { "epoch": 136.05333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004944159081550789, "loss": 0.3337, "step": 51020 }, { "epoch": 136.08, "grad_norm": 0.26953125, "learning_rate": 0.0004944137055173873, "loss": 0.3177, "step": 51030 }, { "epoch": 136.10666666666665, "grad_norm": 0.275390625, "learning_rate": 0.000494411502450276, "loss": 0.3194, "step": 51040 }, { "epoch": 136.13333333333333, "grad_norm": 0.267578125, "learning_rate": 0.0004944092989537487, "loss": 0.3107, "step": 51050 }, { "epoch": 136.16, "grad_norm": 0.2021484375, "learning_rate": 0.0004944070950278095, "loss": 0.3179, "step": 51060 }, { "epoch": 136.18666666666667, "grad_norm": 0.17578125, "learning_rate": 0.000494404890672462, "loss": 0.3128, "step": 51070 }, { "epoch": 136.21333333333334, "grad_norm": 0.29296875, "learning_rate": 0.0004944026858877104, "loss": 0.3015, "step": 51080 }, { "epoch": 136.24, "grad_norm": 0.1943359375, "learning_rate": 0.0004944004806735582, "loss": 0.3054, "step": 51090 }, { "epoch": 136.26666666666668, "grad_norm": 0.1884765625, "learning_rate": 0.0004943982750300097, "loss": 0.3118, "step": 51100 }, { "epoch": 136.29333333333332, "grad_norm": 0.185546875, "learning_rate": 0.0004943960689570684, "loss": 0.3073, "step": 51110 }, { "epoch": 136.32, "grad_norm": 0.2021484375, "learning_rate": 0.0004943938624547384, "loss": 0.3145, "step": 51120 }, { "epoch": 136.34666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004943916555230233, "loss": 0.3136, "step": 51130 }, { "epoch": 136.37333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004943894481619274, "loss": 0.3057, "step": 51140 }, { "epoch": 136.4, "grad_norm": 0.1923828125, "learning_rate": 0.0004943872403714543, "loss": 0.3073, "step": 51150 }, { "epoch": 136.42666666666668, "grad_norm": 0.1796875, "learning_rate": 0.0004943850321516079, "loss": 0.3139, "step": 51160 }, { "epoch": 136.45333333333335, "grad_norm": 0.220703125, "learning_rate": 0.0004943828235023922, "loss": 0.3229, "step": 51170 }, { "epoch": 136.48, "grad_norm": 0.2451171875, "learning_rate": 0.000494380614423811, "loss": 0.3192, "step": 51180 }, { "epoch": 136.50666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.000494378404915868, "loss": 0.3151, "step": 51190 }, { "epoch": 136.53333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004943761949785674, "loss": 0.3098, "step": 51200 }, { "epoch": 136.56, "grad_norm": 0.2109375, "learning_rate": 0.0004943739846119129, "loss": 0.3069, "step": 51210 }, { "epoch": 136.58666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004943717738159084, "loss": 0.31, "step": 51220 }, { "epoch": 136.61333333333334, "grad_norm": 0.248046875, "learning_rate": 0.0004943695625905579, "loss": 0.3023, "step": 51230 }, { "epoch": 136.64, "grad_norm": 0.171875, "learning_rate": 0.0004943673509358652, "loss": 0.3034, "step": 51240 }, { "epoch": 136.66666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.0004943651388518342, "loss": 0.3188, "step": 51250 }, { "epoch": 136.69333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004943629263384686, "loss": 0.2981, "step": 51260 }, { "epoch": 136.72, "grad_norm": 0.2353515625, "learning_rate": 0.0004943607133957726, "loss": 0.314, "step": 51270 }, { "epoch": 136.74666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004943585000237499, "loss": 0.3155, "step": 51280 }, { "epoch": 136.77333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004943562862224044, "loss": 0.3265, "step": 51290 }, { "epoch": 136.8, "grad_norm": 0.1943359375, "learning_rate": 0.0004943540719917401, "loss": 0.3126, "step": 51300 }, { "epoch": 136.82666666666665, "grad_norm": 0.2041015625, "learning_rate": 0.0004943518573317608, "loss": 0.3017, "step": 51310 }, { "epoch": 136.85333333333332, "grad_norm": 0.17578125, "learning_rate": 0.0004943496422424704, "loss": 0.3062, "step": 51320 }, { "epoch": 136.88, "grad_norm": 0.20703125, "learning_rate": 0.0004943474267238727, "loss": 0.3053, "step": 51330 }, { "epoch": 136.90666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004943452107759717, "loss": 0.3066, "step": 51340 }, { "epoch": 136.93333333333334, "grad_norm": 0.42578125, "learning_rate": 0.0004943429943987714, "loss": 0.3076, "step": 51350 }, { "epoch": 136.96, "grad_norm": 0.2392578125, "learning_rate": 0.0004943407775922755, "loss": 0.3079, "step": 51360 }, { "epoch": 136.98666666666668, "grad_norm": 0.2001953125, "learning_rate": 0.000494338560356488, "loss": 0.3196, "step": 51370 }, { "epoch": 137.0, "eval_loss": 0.3996056318283081, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.1103, "eval_samples_per_second": 1.22, "eval_steps_per_second": 0.076, "step": 51375 }, { "epoch": 137.01333333333332, "grad_norm": 0.1875, "learning_rate": 0.0004943363426914126, "loss": 0.3107, "step": 51380 }, { "epoch": 137.04, "grad_norm": 0.2021484375, "learning_rate": 0.0004943341245970535, "loss": 0.3364, "step": 51390 }, { "epoch": 137.06666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004943319060734145, "loss": 0.3212, "step": 51400 }, { "epoch": 137.09333333333333, "grad_norm": 0.2255859375, "learning_rate": 0.0004943296871204994, "loss": 0.3182, "step": 51410 }, { "epoch": 137.12, "grad_norm": 0.1748046875, "learning_rate": 0.0004943274677383122, "loss": 0.3144, "step": 51420 }, { "epoch": 137.14666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.0004943252479268567, "loss": 0.3157, "step": 51430 }, { "epoch": 137.17333333333335, "grad_norm": 0.23828125, "learning_rate": 0.0004943230276861368, "loss": 0.3152, "step": 51440 }, { "epoch": 137.2, "grad_norm": 0.2060546875, "learning_rate": 0.0004943208070161565, "loss": 0.3084, "step": 51450 }, { "epoch": 137.22666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004943185859169197, "loss": 0.3026, "step": 51460 }, { "epoch": 137.25333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004943163643884302, "loss": 0.3019, "step": 51470 }, { "epoch": 137.28, "grad_norm": 0.203125, "learning_rate": 0.0004943141424306921, "loss": 0.3207, "step": 51480 }, { "epoch": 137.30666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.000494311920043709, "loss": 0.3028, "step": 51490 }, { "epoch": 137.33333333333334, "grad_norm": 0.201171875, "learning_rate": 0.000494309697227485, "loss": 0.3169, "step": 51500 }, { "epoch": 137.36, "grad_norm": 0.2255859375, "learning_rate": 0.000494307473982024, "loss": 0.3081, "step": 51510 }, { "epoch": 137.38666666666666, "grad_norm": 0.2421875, "learning_rate": 0.0004943052503073299, "loss": 0.3049, "step": 51520 }, { "epoch": 137.41333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004943030262034066, "loss": 0.3117, "step": 51530 }, { "epoch": 137.44, "grad_norm": 0.189453125, "learning_rate": 0.0004943008016702579, "loss": 0.3182, "step": 51540 }, { "epoch": 137.46666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004942985767078879, "loss": 0.3228, "step": 51550 }, { "epoch": 137.49333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004942963513163003, "loss": 0.312, "step": 51560 }, { "epoch": 137.52, "grad_norm": 0.2138671875, "learning_rate": 0.0004942941254954992, "loss": 0.3159, "step": 51570 }, { "epoch": 137.54666666666665, "grad_norm": 0.265625, "learning_rate": 0.0004942918992454885, "loss": 0.3064, "step": 51580 }, { "epoch": 137.57333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.000494289672566272, "loss": 0.3095, "step": 51590 }, { "epoch": 137.6, "grad_norm": 0.201171875, "learning_rate": 0.0004942874454578536, "loss": 0.3057, "step": 51600 }, { "epoch": 137.62666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004942852179202373, "loss": 0.3013, "step": 51610 }, { "epoch": 137.65333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.000494282989953427, "loss": 0.3144, "step": 51620 }, { "epoch": 137.68, "grad_norm": 0.2421875, "learning_rate": 0.0004942807615574266, "loss": 0.3029, "step": 51630 }, { "epoch": 137.70666666666668, "grad_norm": 0.2373046875, "learning_rate": 0.00049427853273224, "loss": 0.3036, "step": 51640 }, { "epoch": 137.73333333333332, "grad_norm": 0.2080078125, "learning_rate": 0.0004942763034778711, "loss": 0.3195, "step": 51650 }, { "epoch": 137.76, "grad_norm": 0.2197265625, "learning_rate": 0.0004942740737943239, "loss": 0.3202, "step": 51660 }, { "epoch": 137.78666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004942718436816022, "loss": 0.3212, "step": 51670 }, { "epoch": 137.81333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004942696131397101, "loss": 0.3033, "step": 51680 }, { "epoch": 137.84, "grad_norm": 0.2314453125, "learning_rate": 0.0004942673821686513, "loss": 0.3038, "step": 51690 }, { "epoch": 137.86666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004942651507684298, "loss": 0.3052, "step": 51700 }, { "epoch": 137.89333333333335, "grad_norm": 0.158203125, "learning_rate": 0.0004942629189390496, "loss": 0.3053, "step": 51710 }, { "epoch": 137.92, "grad_norm": 0.1826171875, "learning_rate": 0.0004942606866805146, "loss": 0.3063, "step": 51720 }, { "epoch": 137.94666666666666, "grad_norm": 0.1669921875, "learning_rate": 0.0004942584539928285, "loss": 0.3078, "step": 51730 }, { "epoch": 137.97333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004942562208759955, "loss": 0.3156, "step": 51740 }, { "epoch": 138.0, "grad_norm": 0.1875, "learning_rate": 0.0004942539873300196, "loss": 0.3046, "step": 51750 }, { "epoch": 138.0, "eval_loss": 0.3991408050060272, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9988, "eval_samples_per_second": 1.333, "eval_steps_per_second": 0.083, "step": 51750 }, { "epoch": 138.02666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004942517533549043, "loss": 0.3273, "step": 51760 }, { "epoch": 138.05333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004942495189506539, "loss": 0.3329, "step": 51770 }, { "epoch": 138.08, "grad_norm": 0.275390625, "learning_rate": 0.0004942472841172723, "loss": 0.3174, "step": 51780 }, { "epoch": 138.10666666666665, "grad_norm": 0.1689453125, "learning_rate": 0.0004942450488547632, "loss": 0.3192, "step": 51790 }, { "epoch": 138.13333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.0004942428131631307, "loss": 0.3107, "step": 51800 }, { "epoch": 138.16, "grad_norm": 0.2021484375, "learning_rate": 0.0004942405770423786, "loss": 0.3172, "step": 51810 }, { "epoch": 138.18666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004942383404925111, "loss": 0.3125, "step": 51820 }, { "epoch": 138.21333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004942361035135317, "loss": 0.3014, "step": 51830 }, { "epoch": 138.24, "grad_norm": 0.291015625, "learning_rate": 0.0004942338661054447, "loss": 0.3053, "step": 51840 }, { "epoch": 138.26666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.000494231628268254, "loss": 0.3114, "step": 51850 }, { "epoch": 138.29333333333332, "grad_norm": 0.1875, "learning_rate": 0.0004942293900019633, "loss": 0.3069, "step": 51860 }, { "epoch": 138.32, "grad_norm": 0.181640625, "learning_rate": 0.0004942271513065767, "loss": 0.3142, "step": 51870 }, { "epoch": 138.34666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004942249121820981, "loss": 0.3131, "step": 51880 }, { "epoch": 138.37333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004942226726285315, "loss": 0.3057, "step": 51890 }, { "epoch": 138.4, "grad_norm": 0.2021484375, "learning_rate": 0.0004942204326458807, "loss": 0.307, "step": 51900 }, { "epoch": 138.42666666666668, "grad_norm": 0.171875, "learning_rate": 0.0004942181922341498, "loss": 0.3142, "step": 51910 }, { "epoch": 138.45333333333335, "grad_norm": 0.2109375, "learning_rate": 0.0004942159513933425, "loss": 0.3222, "step": 51920 }, { "epoch": 138.48, "grad_norm": 0.1806640625, "learning_rate": 0.0004942137101234629, "loss": 0.3181, "step": 51930 }, { "epoch": 138.50666666666666, "grad_norm": 0.203125, "learning_rate": 0.000494211468424515, "loss": 0.3144, "step": 51940 }, { "epoch": 138.53333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004942092262965027, "loss": 0.3098, "step": 51950 }, { "epoch": 138.56, "grad_norm": 0.296875, "learning_rate": 0.0004942069837394298, "loss": 0.3063, "step": 51960 }, { "epoch": 138.58666666666667, "grad_norm": 0.2353515625, "learning_rate": 0.0004942047407533003, "loss": 0.3095, "step": 51970 }, { "epoch": 138.61333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004942024973381183, "loss": 0.3015, "step": 51980 }, { "epoch": 138.64, "grad_norm": 0.1630859375, "learning_rate": 0.0004942002534938875, "loss": 0.303, "step": 51990 }, { "epoch": 138.66666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004941980092206121, "loss": 0.3183, "step": 52000 }, { "epoch": 138.69333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004941957645182958, "loss": 0.2973, "step": 52010 }, { "epoch": 138.72, "grad_norm": 0.1943359375, "learning_rate": 0.0004941935193869427, "loss": 0.3133, "step": 52020 }, { "epoch": 138.74666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004941912738265566, "loss": 0.3149, "step": 52030 }, { "epoch": 138.77333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004941890278371417, "loss": 0.3257, "step": 52040 }, { "epoch": 138.8, "grad_norm": 0.2041015625, "learning_rate": 0.0004941867814187016, "loss": 0.3122, "step": 52050 }, { "epoch": 138.82666666666665, "grad_norm": 0.1982421875, "learning_rate": 0.0004941845345712406, "loss": 0.3017, "step": 52060 }, { "epoch": 138.85333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004941822872947623, "loss": 0.3055, "step": 52070 }, { "epoch": 138.88, "grad_norm": 0.1865234375, "learning_rate": 0.000494180039589271, "loss": 0.3047, "step": 52080 }, { "epoch": 138.90666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004941777914547704, "loss": 0.3069, "step": 52090 }, { "epoch": 138.93333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004941755428912644, "loss": 0.3077, "step": 52100 }, { "epoch": 138.96, "grad_norm": 0.189453125, "learning_rate": 0.0004941732938987572, "loss": 0.307, "step": 52110 }, { "epoch": 138.98666666666668, "grad_norm": 0.203125, "learning_rate": 0.0004941710444772527, "loss": 0.3192, "step": 52120 }, { "epoch": 139.0, "eval_loss": 0.3981202244758606, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7674, "eval_samples_per_second": 1.36, "eval_steps_per_second": 0.085, "step": 52125 }, { "epoch": 139.01333333333332, "grad_norm": 0.2216796875, "learning_rate": 0.0004941687946267547, "loss": 0.3093, "step": 52130 }, { "epoch": 139.04, "grad_norm": 0.189453125, "learning_rate": 0.0004941665443472671, "loss": 0.3364, "step": 52140 }, { "epoch": 139.06666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0004941642936387942, "loss": 0.3205, "step": 52150 }, { "epoch": 139.09333333333333, "grad_norm": 0.25, "learning_rate": 0.0004941620425013397, "loss": 0.3175, "step": 52160 }, { "epoch": 139.12, "grad_norm": 0.2265625, "learning_rate": 0.0004941597909349075, "loss": 0.3136, "step": 52170 }, { "epoch": 139.14666666666668, "grad_norm": 0.19140625, "learning_rate": 0.0004941575389395017, "loss": 0.3151, "step": 52180 }, { "epoch": 139.17333333333335, "grad_norm": 0.193359375, "learning_rate": 0.0004941552865151262, "loss": 0.3149, "step": 52190 }, { "epoch": 139.2, "grad_norm": 0.2099609375, "learning_rate": 0.0004941530336617849, "loss": 0.3082, "step": 52200 }, { "epoch": 139.22666666666666, "grad_norm": 0.203125, "learning_rate": 0.000494150780379482, "loss": 0.3021, "step": 52210 }, { "epoch": 139.25333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004941485266682212, "loss": 0.3022, "step": 52220 }, { "epoch": 139.28, "grad_norm": 0.2314453125, "learning_rate": 0.0004941462725280065, "loss": 0.3205, "step": 52230 }, { "epoch": 139.30666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004941440179588418, "loss": 0.3021, "step": 52240 }, { "epoch": 139.33333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004941417629607314, "loss": 0.3166, "step": 52250 }, { "epoch": 139.36, "grad_norm": 0.18359375, "learning_rate": 0.0004941395075336788, "loss": 0.3072, "step": 52260 }, { "epoch": 139.38666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0004941372516776884, "loss": 0.3052, "step": 52270 }, { "epoch": 139.41333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004941349953927639, "loss": 0.3113, "step": 52280 }, { "epoch": 139.44, "grad_norm": 0.2099609375, "learning_rate": 0.0004941327386789092, "loss": 0.3183, "step": 52290 }, { "epoch": 139.46666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0004941304815361284, "loss": 0.3225, "step": 52300 }, { "epoch": 139.49333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004941282239644255, "loss": 0.3116, "step": 52310 }, { "epoch": 139.52, "grad_norm": 0.1875, "learning_rate": 0.0004941259659638045, "loss": 0.3157, "step": 52320 }, { "epoch": 139.54666666666665, "grad_norm": 0.2451171875, "learning_rate": 0.0004941237075342691, "loss": 0.306, "step": 52330 }, { "epoch": 139.57333333333332, "grad_norm": 0.1708984375, "learning_rate": 0.0004941214486758235, "loss": 0.3091, "step": 52340 }, { "epoch": 139.6, "grad_norm": 0.1943359375, "learning_rate": 0.0004941191893884717, "loss": 0.3057, "step": 52350 }, { "epoch": 139.62666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004941169296722175, "loss": 0.3015, "step": 52360 }, { "epoch": 139.65333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.000494114669527065, "loss": 0.3139, "step": 52370 }, { "epoch": 139.68, "grad_norm": 0.2353515625, "learning_rate": 0.0004941124089530182, "loss": 0.3026, "step": 52380 }, { "epoch": 139.70666666666668, "grad_norm": 0.2080078125, "learning_rate": 0.0004941101479500808, "loss": 0.3038, "step": 52390 }, { "epoch": 139.73333333333332, "grad_norm": 0.36328125, "learning_rate": 0.0004941078865182572, "loss": 0.3195, "step": 52400 }, { "epoch": 139.76, "grad_norm": 0.330078125, "learning_rate": 0.0004941056246575509, "loss": 0.3204, "step": 52410 }, { "epoch": 139.78666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004941033623679662, "loss": 0.3212, "step": 52420 }, { "epoch": 139.81333333333333, "grad_norm": 0.27734375, "learning_rate": 0.000494101099649507, "loss": 0.3037, "step": 52430 }, { "epoch": 139.84, "grad_norm": 0.2197265625, "learning_rate": 0.0004940988365021773, "loss": 0.3031, "step": 52440 }, { "epoch": 139.86666666666667, "grad_norm": 0.171875, "learning_rate": 0.000494096572925981, "loss": 0.3046, "step": 52450 }, { "epoch": 139.89333333333335, "grad_norm": 0.1796875, "learning_rate": 0.0004940943089209223, "loss": 0.3051, "step": 52460 }, { "epoch": 139.92, "grad_norm": 0.2119140625, "learning_rate": 0.0004940920444870048, "loss": 0.3071, "step": 52470 }, { "epoch": 139.94666666666666, "grad_norm": 0.232421875, "learning_rate": 0.0004940897796242328, "loss": 0.3086, "step": 52480 }, { "epoch": 139.97333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004940875143326101, "loss": 0.3154, "step": 52490 }, { "epoch": 140.0, "grad_norm": 0.1875, "learning_rate": 0.0004940852486121407, "loss": 0.3041, "step": 52500 }, { "epoch": 140.0, "eval_loss": 0.3995729684829712, "eval_model_preparation_time": 0.0029, "eval_runtime": 13.7618, "eval_samples_per_second": 1.163, "eval_steps_per_second": 0.073, "step": 52500 }, { "epoch": 140.02666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004940829824628287, "loss": 0.3262, "step": 52510 }, { "epoch": 140.05333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004940807158846779, "loss": 0.3324, "step": 52520 }, { "epoch": 140.08, "grad_norm": 0.2314453125, "learning_rate": 0.0004940784488776924, "loss": 0.3166, "step": 52530 }, { "epoch": 140.10666666666665, "grad_norm": 0.21875, "learning_rate": 0.0004940761814418763, "loss": 0.319, "step": 52540 }, { "epoch": 140.13333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004940739135772332, "loss": 0.3101, "step": 52550 }, { "epoch": 140.16, "grad_norm": 0.1953125, "learning_rate": 0.0004940716452837675, "loss": 0.3172, "step": 52560 }, { "epoch": 140.18666666666667, "grad_norm": 0.1875, "learning_rate": 0.000494069376561483, "loss": 0.3123, "step": 52570 }, { "epoch": 140.21333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004940671074103837, "loss": 0.3011, "step": 52580 }, { "epoch": 140.24, "grad_norm": 0.1875, "learning_rate": 0.0004940648378304736, "loss": 0.3051, "step": 52590 }, { "epoch": 140.26666666666668, "grad_norm": 0.1865234375, "learning_rate": 0.0004940625678217566, "loss": 0.3107, "step": 52600 }, { "epoch": 140.29333333333332, "grad_norm": 0.181640625, "learning_rate": 0.0004940602973842369, "loss": 0.3066, "step": 52610 }, { "epoch": 140.32, "grad_norm": 0.1669921875, "learning_rate": 0.0004940580265179183, "loss": 0.3133, "step": 52620 }, { "epoch": 140.34666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004940557552228047, "loss": 0.3124, "step": 52630 }, { "epoch": 140.37333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004940534834989005, "loss": 0.3047, "step": 52640 }, { "epoch": 140.4, "grad_norm": 0.189453125, "learning_rate": 0.0004940512113462092, "loss": 0.3066, "step": 52650 }, { "epoch": 140.42666666666668, "grad_norm": 0.166015625, "learning_rate": 0.0004940489387647351, "loss": 0.3135, "step": 52660 }, { "epoch": 140.45333333333335, "grad_norm": 0.1982421875, "learning_rate": 0.0004940466657544822, "loss": 0.3221, "step": 52670 }, { "epoch": 140.48, "grad_norm": 0.1884765625, "learning_rate": 0.0004940443923154543, "loss": 0.3178, "step": 52680 }, { "epoch": 140.50666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004940421184476554, "loss": 0.3143, "step": 52690 }, { "epoch": 140.53333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004940398441510898, "loss": 0.3091, "step": 52700 }, { "epoch": 140.56, "grad_norm": 0.181640625, "learning_rate": 0.0004940375694257612, "loss": 0.3062, "step": 52710 }, { "epoch": 140.58666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004940352942716737, "loss": 0.3092, "step": 52720 }, { "epoch": 140.61333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004940330186888312, "loss": 0.3013, "step": 52730 }, { "epoch": 140.64, "grad_norm": 0.177734375, "learning_rate": 0.0004940307426772379, "loss": 0.303, "step": 52740 }, { "epoch": 140.66666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004940284662368977, "loss": 0.3184, "step": 52750 }, { "epoch": 140.69333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004940261893678145, "loss": 0.2972, "step": 52760 }, { "epoch": 140.72, "grad_norm": 0.23828125, "learning_rate": 0.0004940239120699923, "loss": 0.3134, "step": 52770 }, { "epoch": 140.74666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004940216343434353, "loss": 0.3143, "step": 52780 }, { "epoch": 140.77333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004940193561881474, "loss": 0.326, "step": 52790 }, { "epoch": 140.8, "grad_norm": 0.1962890625, "learning_rate": 0.0004940170776041326, "loss": 0.3123, "step": 52800 }, { "epoch": 140.82666666666665, "grad_norm": 0.1826171875, "learning_rate": 0.0004940147985913947, "loss": 0.3014, "step": 52810 }, { "epoch": 140.85333333333332, "grad_norm": 0.1923828125, "learning_rate": 0.0004940125191499382, "loss": 0.3056, "step": 52820 }, { "epoch": 140.88, "grad_norm": 0.23046875, "learning_rate": 0.0004940102392797665, "loss": 0.3042, "step": 52830 }, { "epoch": 140.90666666666667, "grad_norm": 0.216796875, "learning_rate": 0.000494007958980884, "loss": 0.3062, "step": 52840 }, { "epoch": 140.93333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004940056782532947, "loss": 0.3065, "step": 52850 }, { "epoch": 140.96, "grad_norm": 0.1708984375, "learning_rate": 0.0004940033970970024, "loss": 0.3066, "step": 52860 }, { "epoch": 140.98666666666668, "grad_norm": 0.2138671875, "learning_rate": 0.0004940011155120114, "loss": 0.3193, "step": 52870 }, { "epoch": 141.0, "eval_loss": 0.400906503200531, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.4628, "eval_samples_per_second": 1.396, "eval_steps_per_second": 0.087, "step": 52875 }, { "epoch": 141.01333333333332, "grad_norm": 0.21875, "learning_rate": 0.0004939988334983254, "loss": 0.3091, "step": 52880 }, { "epoch": 141.04, "grad_norm": 0.1865234375, "learning_rate": 0.0004939965510559485, "loss": 0.3357, "step": 52890 }, { "epoch": 141.06666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0004939942681848849, "loss": 0.3203, "step": 52900 }, { "epoch": 141.09333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004939919848851383, "loss": 0.3183, "step": 52910 }, { "epoch": 141.12, "grad_norm": 0.2177734375, "learning_rate": 0.000493989701156713, "loss": 0.314, "step": 52920 }, { "epoch": 141.14666666666668, "grad_norm": 0.2314453125, "learning_rate": 0.0004939874169996128, "loss": 0.3149, "step": 52930 }, { "epoch": 141.17333333333335, "grad_norm": 0.201171875, "learning_rate": 0.0004939851324138419, "loss": 0.3144, "step": 52940 }, { "epoch": 141.2, "grad_norm": 0.2158203125, "learning_rate": 0.0004939828473994041, "loss": 0.307, "step": 52950 }, { "epoch": 141.22666666666666, "grad_norm": 0.2412109375, "learning_rate": 0.0004939805619563036, "loss": 0.3022, "step": 52960 }, { "epoch": 141.25333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004939782760845444, "loss": 0.3014, "step": 52970 }, { "epoch": 141.28, "grad_norm": 0.259765625, "learning_rate": 0.0004939759897841304, "loss": 0.3199, "step": 52980 }, { "epoch": 141.30666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004939737030550656, "loss": 0.3022, "step": 52990 }, { "epoch": 141.33333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004939714158973542, "loss": 0.316, "step": 53000 }, { "epoch": 141.36, "grad_norm": 0.1923828125, "learning_rate": 0.0004939691283110001, "loss": 0.3074, "step": 53010 }, { "epoch": 141.38666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0004939668402960073, "loss": 0.3047, "step": 53020 }, { "epoch": 141.41333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004939645518523798, "loss": 0.3108, "step": 53030 }, { "epoch": 141.44, "grad_norm": 0.20703125, "learning_rate": 0.0004939622629801219, "loss": 0.3185, "step": 53040 }, { "epoch": 141.46666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004939599736792372, "loss": 0.3222, "step": 53050 }, { "epoch": 141.49333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004939576839497299, "loss": 0.311, "step": 53060 }, { "epoch": 141.52, "grad_norm": 0.2001953125, "learning_rate": 0.0004939553937916041, "loss": 0.3156, "step": 53070 }, { "epoch": 141.54666666666665, "grad_norm": 0.21484375, "learning_rate": 0.0004939531032048637, "loss": 0.3058, "step": 53080 }, { "epoch": 141.57333333333332, "grad_norm": 0.17578125, "learning_rate": 0.0004939508121895129, "loss": 0.3084, "step": 53090 }, { "epoch": 141.6, "grad_norm": 0.21484375, "learning_rate": 0.0004939485207455555, "loss": 0.3051, "step": 53100 }, { "epoch": 141.62666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004939462288729957, "loss": 0.3005, "step": 53110 }, { "epoch": 141.65333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004939439365718376, "loss": 0.3138, "step": 53120 }, { "epoch": 141.68, "grad_norm": 0.2080078125, "learning_rate": 0.0004939416438420849, "loss": 0.3021, "step": 53130 }, { "epoch": 141.70666666666668, "grad_norm": 0.2275390625, "learning_rate": 0.0004939393506837418, "loss": 0.3033, "step": 53140 }, { "epoch": 141.73333333333332, "grad_norm": 0.2001953125, "learning_rate": 0.0004939370570968125, "loss": 0.3189, "step": 53150 }, { "epoch": 141.76, "grad_norm": 0.2001953125, "learning_rate": 0.0004939347630813009, "loss": 0.3201, "step": 53160 }, { "epoch": 141.78666666666666, "grad_norm": 0.20703125, "learning_rate": 0.0004939324686372108, "loss": 0.3214, "step": 53170 }, { "epoch": 141.81333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004939301737645467, "loss": 0.3031, "step": 53180 }, { "epoch": 141.84, "grad_norm": 0.1865234375, "learning_rate": 0.0004939278784633121, "loss": 0.3031, "step": 53190 }, { "epoch": 141.86666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004939255827335115, "loss": 0.3054, "step": 53200 }, { "epoch": 141.89333333333335, "grad_norm": 0.203125, "learning_rate": 0.0004939232865751487, "loss": 0.305, "step": 53210 }, { "epoch": 141.92, "grad_norm": 0.228515625, "learning_rate": 0.0004939209899882278, "loss": 0.3064, "step": 53220 }, { "epoch": 141.94666666666666, "grad_norm": 0.203125, "learning_rate": 0.0004939186929727527, "loss": 0.3082, "step": 53230 }, { "epoch": 141.97333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004939163955287276, "loss": 0.3156, "step": 53240 }, { "epoch": 142.0, "grad_norm": 0.1962890625, "learning_rate": 0.0004939140976561565, "loss": 0.3041, "step": 53250 }, { "epoch": 142.0, "eval_loss": 0.3979343771934509, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0505, "eval_samples_per_second": 1.448, "eval_steps_per_second": 0.09, "step": 53250 }, { "epoch": 142.02666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004939117993550434, "loss": 0.3265, "step": 53260 }, { "epoch": 142.05333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004939095006253924, "loss": 0.3329, "step": 53270 }, { "epoch": 142.08, "grad_norm": 0.2275390625, "learning_rate": 0.0004939072014672074, "loss": 0.3161, "step": 53280 }, { "epoch": 142.10666666666665, "grad_norm": 0.1826171875, "learning_rate": 0.0004939049018804927, "loss": 0.319, "step": 53290 }, { "epoch": 142.13333333333333, "grad_norm": 0.23046875, "learning_rate": 0.000493902601865252, "loss": 0.3096, "step": 53300 }, { "epoch": 142.16, "grad_norm": 0.173828125, "learning_rate": 0.0004939003014214897, "loss": 0.3165, "step": 53310 }, { "epoch": 142.18666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004938980005492095, "loss": 0.3124, "step": 53320 }, { "epoch": 142.21333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.0004938956992484156, "loss": 0.3009, "step": 53330 }, { "epoch": 142.24, "grad_norm": 0.205078125, "learning_rate": 0.0004938933975191122, "loss": 0.3046, "step": 53340 }, { "epoch": 142.26666666666668, "grad_norm": 0.28515625, "learning_rate": 0.000493891095361303, "loss": 0.311, "step": 53350 }, { "epoch": 142.29333333333332, "grad_norm": 0.21484375, "learning_rate": 0.0004938887927749923, "loss": 0.3061, "step": 53360 }, { "epoch": 142.32, "grad_norm": 0.181640625, "learning_rate": 0.0004938864897601841, "loss": 0.3135, "step": 53370 }, { "epoch": 142.34666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004938841863168825, "loss": 0.3126, "step": 53380 }, { "epoch": 142.37333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004938818824450913, "loss": 0.3043, "step": 53390 }, { "epoch": 142.4, "grad_norm": 0.203125, "learning_rate": 0.0004938795781448149, "loss": 0.3058, "step": 53400 }, { "epoch": 142.42666666666668, "grad_norm": 0.25, "learning_rate": 0.000493877273416057, "loss": 0.3136, "step": 53410 }, { "epoch": 142.45333333333335, "grad_norm": 0.21484375, "learning_rate": 0.0004938749682588219, "loss": 0.3214, "step": 53420 }, { "epoch": 142.48, "grad_norm": 0.2451171875, "learning_rate": 0.0004938726626731136, "loss": 0.3174, "step": 53430 }, { "epoch": 142.50666666666666, "grad_norm": 0.1708984375, "learning_rate": 0.000493870356658936, "loss": 0.3139, "step": 53440 }, { "epoch": 142.53333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004938680502162934, "loss": 0.3088, "step": 53450 }, { "epoch": 142.56, "grad_norm": 0.21484375, "learning_rate": 0.0004938657433451897, "loss": 0.3056, "step": 53460 }, { "epoch": 142.58666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004938634360456288, "loss": 0.3084, "step": 53470 }, { "epoch": 142.61333333333334, "grad_norm": 0.169921875, "learning_rate": 0.0004938611283176152, "loss": 0.3008, "step": 53480 }, { "epoch": 142.64, "grad_norm": 0.17578125, "learning_rate": 0.0004938588201611524, "loss": 0.3026, "step": 53490 }, { "epoch": 142.66666666666666, "grad_norm": 0.208984375, "learning_rate": 0.000493856511576245, "loss": 0.3182, "step": 53500 }, { "epoch": 142.69333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004938542025628967, "loss": 0.2972, "step": 53510 }, { "epoch": 142.72, "grad_norm": 0.201171875, "learning_rate": 0.0004938518931211116, "loss": 0.3131, "step": 53520 }, { "epoch": 142.74666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004938495832508937, "loss": 0.3141, "step": 53530 }, { "epoch": 142.77333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004938472729522475, "loss": 0.3255, "step": 53540 }, { "epoch": 142.8, "grad_norm": 0.1865234375, "learning_rate": 0.0004938449622251765, "loss": 0.3117, "step": 53550 }, { "epoch": 142.82666666666665, "grad_norm": 0.185546875, "learning_rate": 0.0004938426510696849, "loss": 0.3007, "step": 53560 }, { "epoch": 142.85333333333332, "grad_norm": 0.2060546875, "learning_rate": 0.0004938403394857771, "loss": 0.305, "step": 53570 }, { "epoch": 142.88, "grad_norm": 0.1826171875, "learning_rate": 0.0004938380274734567, "loss": 0.3046, "step": 53580 }, { "epoch": 142.90666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004938357150327281, "loss": 0.3058, "step": 53590 }, { "epoch": 142.93333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004938334021635952, "loss": 0.307, "step": 53600 }, { "epoch": 142.96, "grad_norm": 0.193359375, "learning_rate": 0.000493831088866062, "loss": 0.3064, "step": 53610 }, { "epoch": 142.98666666666668, "grad_norm": 0.2119140625, "learning_rate": 0.0004938287751401327, "loss": 0.3187, "step": 53620 }, { "epoch": 143.0, "eval_loss": 0.39864861965179443, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.9774, "eval_samples_per_second": 1.336, "eval_steps_per_second": 0.083, "step": 53625 }, { "epoch": 143.01333333333332, "grad_norm": 0.2275390625, "learning_rate": 0.0004938264609858114, "loss": 0.3088, "step": 53630 }, { "epoch": 143.04, "grad_norm": 0.2041015625, "learning_rate": 0.000493824146403102, "loss": 0.3357, "step": 53640 }, { "epoch": 143.06666666666666, "grad_norm": 0.298828125, "learning_rate": 0.0004938218313920087, "loss": 0.3201, "step": 53650 }, { "epoch": 143.09333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004938195159525355, "loss": 0.3171, "step": 53660 }, { "epoch": 143.12, "grad_norm": 0.17578125, "learning_rate": 0.0004938172000846866, "loss": 0.3134, "step": 53670 }, { "epoch": 143.14666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.0004938148837884659, "loss": 0.3146, "step": 53680 }, { "epoch": 143.17333333333335, "grad_norm": 0.28515625, "learning_rate": 0.0004938125670638775, "loss": 0.3144, "step": 53690 }, { "epoch": 143.2, "grad_norm": 0.2275390625, "learning_rate": 0.0004938102499109255, "loss": 0.3073, "step": 53700 }, { "epoch": 143.22666666666666, "grad_norm": 0.220703125, "learning_rate": 0.000493807932329614, "loss": 0.3012, "step": 53710 }, { "epoch": 143.25333333333333, "grad_norm": 0.177734375, "learning_rate": 0.000493805614319947, "loss": 0.3011, "step": 53720 }, { "epoch": 143.28, "grad_norm": 0.279296875, "learning_rate": 0.0004938032958819287, "loss": 0.3197, "step": 53730 }, { "epoch": 143.30666666666667, "grad_norm": 0.2138671875, "learning_rate": 0.0004938009770155629, "loss": 0.302, "step": 53740 }, { "epoch": 143.33333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004937986577208541, "loss": 0.3162, "step": 53750 }, { "epoch": 143.36, "grad_norm": 0.197265625, "learning_rate": 0.0004937963379978061, "loss": 0.3074, "step": 53760 }, { "epoch": 143.38666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0004937940178464229, "loss": 0.3046, "step": 53770 }, { "epoch": 143.41333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004937916972667087, "loss": 0.3101, "step": 53780 }, { "epoch": 143.44, "grad_norm": 0.25390625, "learning_rate": 0.0004937893762586677, "loss": 0.318, "step": 53790 }, { "epoch": 143.46666666666667, "grad_norm": 0.50390625, "learning_rate": 0.0004937870548223037, "loss": 0.3222, "step": 53800 }, { "epoch": 143.49333333333334, "grad_norm": 0.271484375, "learning_rate": 0.0004937847329576211, "loss": 0.3111, "step": 53810 }, { "epoch": 143.52, "grad_norm": 0.1796875, "learning_rate": 0.0004937824106646236, "loss": 0.3152, "step": 53820 }, { "epoch": 143.54666666666665, "grad_norm": 0.38671875, "learning_rate": 0.0004937800879433156, "loss": 0.3051, "step": 53830 }, { "epoch": 143.57333333333332, "grad_norm": 0.28125, "learning_rate": 0.0004937777647937011, "loss": 0.3089, "step": 53840 }, { "epoch": 143.6, "grad_norm": 0.3671875, "learning_rate": 0.000493775441215784, "loss": 0.3056, "step": 53850 }, { "epoch": 143.62666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004937731172095686, "loss": 0.2998, "step": 53860 }, { "epoch": 143.65333333333334, "grad_norm": 0.2578125, "learning_rate": 0.000493770792775059, "loss": 0.3134, "step": 53870 }, { "epoch": 143.68, "grad_norm": 0.1982421875, "learning_rate": 0.0004937684679122591, "loss": 0.3023, "step": 53880 }, { "epoch": 143.70666666666668, "grad_norm": 0.26953125, "learning_rate": 0.0004937661426211731, "loss": 0.3023, "step": 53890 }, { "epoch": 143.73333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.000493763816901805, "loss": 0.3181, "step": 53900 }, { "epoch": 143.76, "grad_norm": 0.19921875, "learning_rate": 0.0004937614907541591, "loss": 0.3203, "step": 53910 }, { "epoch": 143.78666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004937591641782393, "loss": 0.321, "step": 53920 }, { "epoch": 143.81333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004937568371740496, "loss": 0.3028, "step": 53930 }, { "epoch": 143.84, "grad_norm": 0.193359375, "learning_rate": 0.0004937545097415944, "loss": 0.3034, "step": 53940 }, { "epoch": 143.86666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004937521818808775, "loss": 0.3048, "step": 53950 }, { "epoch": 143.89333333333335, "grad_norm": 0.1689453125, "learning_rate": 0.0004937498535919031, "loss": 0.3044, "step": 53960 }, { "epoch": 143.92, "grad_norm": 0.205078125, "learning_rate": 0.0004937475248746753, "loss": 0.306, "step": 53970 }, { "epoch": 143.94666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0004937451957291982, "loss": 0.3082, "step": 53980 }, { "epoch": 143.97333333333333, "grad_norm": 0.48828125, "learning_rate": 0.0004937428661554758, "loss": 0.3148, "step": 53990 }, { "epoch": 144.0, "grad_norm": 0.228515625, "learning_rate": 0.0004937405361535123, "loss": 0.3037, "step": 54000 }, { "epoch": 144.0, "eval_loss": 0.3995320200920105, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.2584, "eval_samples_per_second": 1.305, "eval_steps_per_second": 0.082, "step": 54000 }, { "epoch": 144.02666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004937382057233118, "loss": 0.3257, "step": 54010 }, { "epoch": 144.05333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004937358748648783, "loss": 0.3325, "step": 54020 }, { "epoch": 144.08, "grad_norm": 0.2294921875, "learning_rate": 0.000493733543578216, "loss": 0.3167, "step": 54030 }, { "epoch": 144.10666666666665, "grad_norm": 0.16796875, "learning_rate": 0.0004937312118633288, "loss": 0.3182, "step": 54040 }, { "epoch": 144.13333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004937288797202211, "loss": 0.3102, "step": 54050 }, { "epoch": 144.16, "grad_norm": 0.2373046875, "learning_rate": 0.0004937265471488967, "loss": 0.3166, "step": 54060 }, { "epoch": 144.18666666666667, "grad_norm": 0.189453125, "learning_rate": 0.00049372421414936, "loss": 0.3121, "step": 54070 }, { "epoch": 144.21333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004937218807216148, "loss": 0.3004, "step": 54080 }, { "epoch": 144.24, "grad_norm": 0.34375, "learning_rate": 0.0004937195468656654, "loss": 0.3045, "step": 54090 }, { "epoch": 144.26666666666668, "grad_norm": 0.287109375, "learning_rate": 0.0004937172125815158, "loss": 0.3104, "step": 54100 }, { "epoch": 144.29333333333332, "grad_norm": 0.19140625, "learning_rate": 0.0004937148778691702, "loss": 0.306, "step": 54110 }, { "epoch": 144.32, "grad_norm": 0.236328125, "learning_rate": 0.0004937125427286324, "loss": 0.3133, "step": 54120 }, { "epoch": 144.34666666666666, "grad_norm": 0.291015625, "learning_rate": 0.000493710207159907, "loss": 0.3126, "step": 54130 }, { "epoch": 144.37333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004937078711629978, "loss": 0.3046, "step": 54140 }, { "epoch": 144.4, "grad_norm": 0.2001953125, "learning_rate": 0.0004937055347379088, "loss": 0.3061, "step": 54150 }, { "epoch": 144.42666666666668, "grad_norm": 0.1787109375, "learning_rate": 0.0004937031978846444, "loss": 0.3128, "step": 54160 }, { "epoch": 144.45333333333335, "grad_norm": 0.25, "learning_rate": 0.0004937008606032085, "loss": 0.3216, "step": 54170 }, { "epoch": 144.48, "grad_norm": 0.197265625, "learning_rate": 0.0004936985228936052, "loss": 0.3176, "step": 54180 }, { "epoch": 144.50666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004936961847558387, "loss": 0.3132, "step": 54190 }, { "epoch": 144.53333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004936938461899132, "loss": 0.3089, "step": 54200 }, { "epoch": 144.56, "grad_norm": 0.2138671875, "learning_rate": 0.0004936915071958325, "loss": 0.3053, "step": 54210 }, { "epoch": 144.58666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004936891677736011, "loss": 0.3091, "step": 54220 }, { "epoch": 144.61333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004936868279232228, "loss": 0.301, "step": 54230 }, { "epoch": 144.64, "grad_norm": 0.1953125, "learning_rate": 0.0004936844876447018, "loss": 0.3022, "step": 54240 }, { "epoch": 144.66666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004936821469380423, "loss": 0.318, "step": 54250 }, { "epoch": 144.69333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004936798058032483, "loss": 0.2967, "step": 54260 }, { "epoch": 144.72, "grad_norm": 0.2119140625, "learning_rate": 0.0004936774642403239, "loss": 0.3124, "step": 54270 }, { "epoch": 144.74666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004936751222492734, "loss": 0.3139, "step": 54280 }, { "epoch": 144.77333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004936727798301006, "loss": 0.3254, "step": 54290 }, { "epoch": 144.8, "grad_norm": 0.2275390625, "learning_rate": 0.0004936704369828098, "loss": 0.3118, "step": 54300 }, { "epoch": 144.82666666666665, "grad_norm": 0.1943359375, "learning_rate": 0.0004936680937074053, "loss": 0.3002, "step": 54310 }, { "epoch": 144.85333333333332, "grad_norm": 0.181640625, "learning_rate": 0.0004936657500038909, "loss": 0.305, "step": 54320 }, { "epoch": 144.88, "grad_norm": 0.21484375, "learning_rate": 0.000493663405872271, "loss": 0.304, "step": 54330 }, { "epoch": 144.90666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004936610613125494, "loss": 0.3061, "step": 54340 }, { "epoch": 144.93333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004936587163247304, "loss": 0.3064, "step": 54350 }, { "epoch": 144.96, "grad_norm": 0.1767578125, "learning_rate": 0.0004936563709088182, "loss": 0.306, "step": 54360 }, { "epoch": 144.98666666666668, "grad_norm": 0.2021484375, "learning_rate": 0.0004936540250648168, "loss": 0.3181, "step": 54370 }, { "epoch": 145.0, "eval_loss": 0.39917775988578796, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6684, "eval_samples_per_second": 1.371, "eval_steps_per_second": 0.086, "step": 54375 }, { "epoch": 145.01333333333332, "grad_norm": 0.302734375, "learning_rate": 0.0004936516787927304, "loss": 0.309, "step": 54380 }, { "epoch": 145.04, "grad_norm": 0.2216796875, "learning_rate": 0.0004936493320925631, "loss": 0.3355, "step": 54390 }, { "epoch": 145.06666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004936469849643188, "loss": 0.3203, "step": 54400 }, { "epoch": 145.09333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004936446374080019, "loss": 0.3172, "step": 54410 }, { "epoch": 145.12, "grad_norm": 0.1708984375, "learning_rate": 0.0004936422894236164, "loss": 0.313, "step": 54420 }, { "epoch": 145.14666666666668, "grad_norm": 0.2060546875, "learning_rate": 0.0004936399410111666, "loss": 0.3138, "step": 54430 }, { "epoch": 145.17333333333335, "grad_norm": 0.279296875, "learning_rate": 0.0004936375921706565, "loss": 0.3139, "step": 54440 }, { "epoch": 145.2, "grad_norm": 0.189453125, "learning_rate": 0.0004936352429020901, "loss": 0.3074, "step": 54450 }, { "epoch": 145.22666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004936328932054718, "loss": 0.3008, "step": 54460 }, { "epoch": 145.25333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004936305430808054, "loss": 0.3017, "step": 54470 }, { "epoch": 145.28, "grad_norm": 0.1953125, "learning_rate": 0.0004936281925280953, "loss": 0.3192, "step": 54480 }, { "epoch": 145.30666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004936258415473455, "loss": 0.3013, "step": 54490 }, { "epoch": 145.33333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004936234901385603, "loss": 0.3155, "step": 54500 }, { "epoch": 145.36, "grad_norm": 0.2138671875, "learning_rate": 0.0004936211383017435, "loss": 0.3071, "step": 54510 }, { "epoch": 145.38666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004936187860368996, "loss": 0.3038, "step": 54520 }, { "epoch": 145.41333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004936164333440324, "loss": 0.3101, "step": 54530 }, { "epoch": 145.44, "grad_norm": 0.177734375, "learning_rate": 0.0004936140802231463, "loss": 0.3175, "step": 54540 }, { "epoch": 145.46666666666667, "grad_norm": 0.234375, "learning_rate": 0.0004936117266742453, "loss": 0.322, "step": 54550 }, { "epoch": 145.49333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004936093726973336, "loss": 0.3105, "step": 54560 }, { "epoch": 145.52, "grad_norm": 0.2099609375, "learning_rate": 0.0004936070182924153, "loss": 0.3146, "step": 54570 }, { "epoch": 145.54666666666665, "grad_norm": 0.2001953125, "learning_rate": 0.0004936046634594945, "loss": 0.3055, "step": 54580 }, { "epoch": 145.57333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004936023081985753, "loss": 0.3085, "step": 54590 }, { "epoch": 145.6, "grad_norm": 0.185546875, "learning_rate": 0.000493599952509662, "loss": 0.3053, "step": 54600 }, { "epoch": 145.62666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004935975963927587, "loss": 0.2999, "step": 54610 }, { "epoch": 145.65333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004935952398478694, "loss": 0.3129, "step": 54620 }, { "epoch": 145.68, "grad_norm": 0.169921875, "learning_rate": 0.0004935928828749985, "loss": 0.3014, "step": 54630 }, { "epoch": 145.70666666666668, "grad_norm": 0.2216796875, "learning_rate": 0.0004935905254741499, "loss": 0.3019, "step": 54640 }, { "epoch": 145.73333333333332, "grad_norm": 0.234375, "learning_rate": 0.0004935881676453276, "loss": 0.3188, "step": 54650 }, { "epoch": 145.76, "grad_norm": 0.189453125, "learning_rate": 0.0004935858093885362, "loss": 0.3195, "step": 54660 }, { "epoch": 145.78666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004935834507037795, "loss": 0.3205, "step": 54670 }, { "epoch": 145.81333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0004935810915910618, "loss": 0.3029, "step": 54680 }, { "epoch": 145.84, "grad_norm": 0.1943359375, "learning_rate": 0.0004935787320503872, "loss": 0.302, "step": 54690 }, { "epoch": 145.86666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004935763720817597, "loss": 0.3049, "step": 54700 }, { "epoch": 145.89333333333335, "grad_norm": 0.2333984375, "learning_rate": 0.0004935740116851837, "loss": 0.3043, "step": 54710 }, { "epoch": 145.92, "grad_norm": 0.23828125, "learning_rate": 0.0004935716508606633, "loss": 0.3059, "step": 54720 }, { "epoch": 145.94666666666666, "grad_norm": 0.171875, "learning_rate": 0.0004935692896082025, "loss": 0.3076, "step": 54730 }, { "epoch": 145.97333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004935669279278054, "loss": 0.3146, "step": 54740 }, { "epoch": 146.0, "grad_norm": 0.1669921875, "learning_rate": 0.0004935645658194764, "loss": 0.3032, "step": 54750 }, { "epoch": 146.0, "eval_loss": 0.39894866943359375, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7353, "eval_samples_per_second": 1.363, "eval_steps_per_second": 0.085, "step": 54750 }, { "epoch": 146.02666666666667, "grad_norm": 0.18359375, "learning_rate": 0.0004935622032832196, "loss": 0.3255, "step": 54760 }, { "epoch": 146.05333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004935598403190389, "loss": 0.3322, "step": 54770 }, { "epoch": 146.08, "grad_norm": 0.2294921875, "learning_rate": 0.0004935574769269387, "loss": 0.316, "step": 54780 }, { "epoch": 146.10666666666665, "grad_norm": 0.220703125, "learning_rate": 0.0004935551131069231, "loss": 0.3176, "step": 54790 }, { "epoch": 146.13333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004935527488589963, "loss": 0.3094, "step": 54800 }, { "epoch": 146.16, "grad_norm": 0.34375, "learning_rate": 0.0004935503841831622, "loss": 0.3166, "step": 54810 }, { "epoch": 146.18666666666667, "grad_norm": 0.3515625, "learning_rate": 0.0004935480190794253, "loss": 0.3118, "step": 54820 }, { "epoch": 146.21333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004935456535477895, "loss": 0.3004, "step": 54830 }, { "epoch": 146.24, "grad_norm": 0.2080078125, "learning_rate": 0.0004935432875882591, "loss": 0.3045, "step": 54840 }, { "epoch": 146.26666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.0004935409212008383, "loss": 0.3102, "step": 54850 }, { "epoch": 146.29333333333332, "grad_norm": 0.208984375, "learning_rate": 0.000493538554385531, "loss": 0.3063, "step": 54860 }, { "epoch": 146.32, "grad_norm": 0.1845703125, "learning_rate": 0.0004935361871423416, "loss": 0.3128, "step": 54870 }, { "epoch": 146.34666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004935338194712741, "loss": 0.3121, "step": 54880 }, { "epoch": 146.37333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004935314513723329, "loss": 0.3043, "step": 54890 }, { "epoch": 146.4, "grad_norm": 0.2001953125, "learning_rate": 0.000493529082845522, "loss": 0.3057, "step": 54900 }, { "epoch": 146.42666666666668, "grad_norm": 0.228515625, "learning_rate": 0.0004935267138908455, "loss": 0.3129, "step": 54910 }, { "epoch": 146.45333333333335, "grad_norm": 0.2021484375, "learning_rate": 0.0004935243445083076, "loss": 0.3211, "step": 54920 }, { "epoch": 146.48, "grad_norm": 0.25, "learning_rate": 0.0004935219746979125, "loss": 0.3166, "step": 54930 }, { "epoch": 146.50666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004935196044596644, "loss": 0.3132, "step": 54940 }, { "epoch": 146.53333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004935172337935674, "loss": 0.3084, "step": 54950 }, { "epoch": 146.56, "grad_norm": 0.2060546875, "learning_rate": 0.0004935148626996256, "loss": 0.3051, "step": 54960 }, { "epoch": 146.58666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004935124911778434, "loss": 0.3084, "step": 54970 }, { "epoch": 146.61333333333334, "grad_norm": 0.1669921875, "learning_rate": 0.0004935101192282247, "loss": 0.3008, "step": 54980 }, { "epoch": 146.64, "grad_norm": 0.16796875, "learning_rate": 0.0004935077468507738, "loss": 0.3013, "step": 54990 }, { "epoch": 146.66666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004935053740454949, "loss": 0.3175, "step": 55000 }, { "epoch": 146.69333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004935030008123921, "loss": 0.2968, "step": 55010 }, { "epoch": 146.72, "grad_norm": 0.1943359375, "learning_rate": 0.0004935006271514696, "loss": 0.3117, "step": 55020 }, { "epoch": 146.74666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004934982530627316, "loss": 0.3138, "step": 55030 }, { "epoch": 146.77333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004934958785461821, "loss": 0.3251, "step": 55040 }, { "epoch": 146.8, "grad_norm": 0.2109375, "learning_rate": 0.0004934935036018255, "loss": 0.3111, "step": 55050 }, { "epoch": 146.82666666666665, "grad_norm": 0.216796875, "learning_rate": 0.0004934911282296658, "loss": 0.3007, "step": 55060 }, { "epoch": 146.85333333333332, "grad_norm": 0.21484375, "learning_rate": 0.0004934887524297073, "loss": 0.3045, "step": 55070 }, { "epoch": 146.88, "grad_norm": 0.1962890625, "learning_rate": 0.0004934863762019541, "loss": 0.3036, "step": 55080 }, { "epoch": 146.90666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004934839995464106, "loss": 0.3055, "step": 55090 }, { "epoch": 146.93333333333334, "grad_norm": 0.162109375, "learning_rate": 0.0004934816224630806, "loss": 0.3063, "step": 55100 }, { "epoch": 146.96, "grad_norm": 0.1875, "learning_rate": 0.0004934792449519684, "loss": 0.3062, "step": 55110 }, { "epoch": 146.98666666666668, "grad_norm": 0.22265625, "learning_rate": 0.0004934768670130783, "loss": 0.3176, "step": 55120 }, { "epoch": 147.0, "eval_loss": 0.3982965350151062, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5411, "eval_samples_per_second": 1.386, "eval_steps_per_second": 0.087, "step": 55125 }, { "epoch": 147.01333333333332, "grad_norm": 0.2158203125, "learning_rate": 0.0004934744886464144, "loss": 0.3089, "step": 55130 }, { "epoch": 147.04, "grad_norm": 0.2001953125, "learning_rate": 0.0004934721098519809, "loss": 0.3351, "step": 55140 }, { "epoch": 147.06666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004934697306297819, "loss": 0.3198, "step": 55150 }, { "epoch": 147.09333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004934673509798216, "loss": 0.3166, "step": 55160 }, { "epoch": 147.12, "grad_norm": 0.1845703125, "learning_rate": 0.0004934649709021044, "loss": 0.3126, "step": 55170 }, { "epoch": 147.14666666666668, "grad_norm": 0.2470703125, "learning_rate": 0.0004934625903966342, "loss": 0.3136, "step": 55180 }, { "epoch": 147.17333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.0004934602094634153, "loss": 0.3143, "step": 55190 }, { "epoch": 147.2, "grad_norm": 0.22265625, "learning_rate": 0.0004934578281024518, "loss": 0.3065, "step": 55200 }, { "epoch": 147.22666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004934554463137481, "loss": 0.3014, "step": 55210 }, { "epoch": 147.25333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004934530640973081, "loss": 0.301, "step": 55220 }, { "epoch": 147.28, "grad_norm": 0.2001953125, "learning_rate": 0.0004934506814531363, "loss": 0.3183, "step": 55230 }, { "epoch": 147.30666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004934482983812367, "loss": 0.3016, "step": 55240 }, { "epoch": 147.33333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004934459148816133, "loss": 0.3153, "step": 55250 }, { "epoch": 147.36, "grad_norm": 0.1767578125, "learning_rate": 0.0004934435309542706, "loss": 0.3071, "step": 55260 }, { "epoch": 147.38666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0004934411465992126, "loss": 0.3038, "step": 55270 }, { "epoch": 147.41333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004934387618164437, "loss": 0.3098, "step": 55280 }, { "epoch": 147.44, "grad_norm": 0.17578125, "learning_rate": 0.0004934363766059679, "loss": 0.3168, "step": 55290 }, { "epoch": 147.46666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004934339909677894, "loss": 0.3205, "step": 55300 }, { "epoch": 147.49333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004934316049019125, "loss": 0.3108, "step": 55310 }, { "epoch": 147.52, "grad_norm": 0.1796875, "learning_rate": 0.0004934292184083413, "loss": 0.3146, "step": 55320 }, { "epoch": 147.54666666666665, "grad_norm": 0.2041015625, "learning_rate": 0.00049342683148708, "loss": 0.3043, "step": 55330 }, { "epoch": 147.57333333333332, "grad_norm": 0.169921875, "learning_rate": 0.0004934244441381329, "loss": 0.3073, "step": 55340 }, { "epoch": 147.6, "grad_norm": 0.1982421875, "learning_rate": 0.0004934220563615041, "loss": 0.3044, "step": 55350 }, { "epoch": 147.62666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004934196681571976, "loss": 0.2996, "step": 55360 }, { "epoch": 147.65333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004934172795252181, "loss": 0.3129, "step": 55370 }, { "epoch": 147.68, "grad_norm": 0.203125, "learning_rate": 0.0004934148904655693, "loss": 0.3013, "step": 55380 }, { "epoch": 147.70666666666668, "grad_norm": 0.2373046875, "learning_rate": 0.0004934125009782557, "loss": 0.3027, "step": 55390 }, { "epoch": 147.73333333333332, "grad_norm": 0.248046875, "learning_rate": 0.0004934101110632813, "loss": 0.3179, "step": 55400 }, { "epoch": 147.76, "grad_norm": 0.2578125, "learning_rate": 0.0004934077207206503, "loss": 0.319, "step": 55410 }, { "epoch": 147.78666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.0004934053299503672, "loss": 0.3197, "step": 55420 }, { "epoch": 147.81333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004934029387524359, "loss": 0.303, "step": 55430 }, { "epoch": 147.84, "grad_norm": 0.2275390625, "learning_rate": 0.0004934005471268607, "loss": 0.3022, "step": 55440 }, { "epoch": 147.86666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004933981550736458, "loss": 0.3038, "step": 55450 }, { "epoch": 147.89333333333335, "grad_norm": 0.19140625, "learning_rate": 0.0004933957625927954, "loss": 0.3039, "step": 55460 }, { "epoch": 147.92, "grad_norm": 0.2392578125, "learning_rate": 0.0004933933696843137, "loss": 0.3052, "step": 55470 }, { "epoch": 147.94666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.000493390976348205, "loss": 0.3066, "step": 55480 }, { "epoch": 147.97333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004933885825844733, "loss": 0.3147, "step": 55490 }, { "epoch": 148.0, "grad_norm": 0.2265625, "learning_rate": 0.0004933861883931229, "loss": 0.3031, "step": 55500 }, { "epoch": 148.0, "eval_loss": 0.3972439467906952, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8819, "eval_samples_per_second": 1.47, "eval_steps_per_second": 0.092, "step": 55500 }, { "epoch": 148.02666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004933837937741581, "loss": 0.3256, "step": 55510 }, { "epoch": 148.05333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004933813987275829, "loss": 0.3318, "step": 55520 }, { "epoch": 148.08, "grad_norm": 0.2216796875, "learning_rate": 0.0004933790032534018, "loss": 0.3157, "step": 55530 }, { "epoch": 148.10666666666665, "grad_norm": 0.224609375, "learning_rate": 0.0004933766073516187, "loss": 0.3178, "step": 55540 }, { "epoch": 148.13333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004933742110222381, "loss": 0.3093, "step": 55550 }, { "epoch": 148.16, "grad_norm": 0.205078125, "learning_rate": 0.000493371814265264, "loss": 0.3157, "step": 55560 }, { "epoch": 148.18666666666667, "grad_norm": 0.240234375, "learning_rate": 0.0004933694170807006, "loss": 0.3112, "step": 55570 }, { "epoch": 148.21333333333334, "grad_norm": 0.169921875, "learning_rate": 0.0004933670194685523, "loss": 0.2996, "step": 55580 }, { "epoch": 148.24, "grad_norm": 0.2041015625, "learning_rate": 0.0004933646214288232, "loss": 0.304, "step": 55590 }, { "epoch": 148.26666666666668, "grad_norm": 0.2294921875, "learning_rate": 0.0004933622229615174, "loss": 0.3101, "step": 55600 }, { "epoch": 148.29333333333332, "grad_norm": 0.1884765625, "learning_rate": 0.0004933598240666393, "loss": 0.3053, "step": 55610 }, { "epoch": 148.32, "grad_norm": 0.220703125, "learning_rate": 0.0004933574247441931, "loss": 0.3128, "step": 55620 }, { "epoch": 148.34666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0004933550249941828, "loss": 0.3115, "step": 55630 }, { "epoch": 148.37333333333333, "grad_norm": 0.224609375, "learning_rate": 0.000493352624816613, "loss": 0.304, "step": 55640 }, { "epoch": 148.4, "grad_norm": 0.2138671875, "learning_rate": 0.0004933502242114875, "loss": 0.3054, "step": 55650 }, { "epoch": 148.42666666666668, "grad_norm": 0.2470703125, "learning_rate": 0.0004933478231788108, "loss": 0.3117, "step": 55660 }, { "epoch": 148.45333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.000493345421718587, "loss": 0.3209, "step": 55670 }, { "epoch": 148.48, "grad_norm": 0.2333984375, "learning_rate": 0.0004933430198308204, "loss": 0.3163, "step": 55680 }, { "epoch": 148.50666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004933406175155151, "loss": 0.3134, "step": 55690 }, { "epoch": 148.53333333333333, "grad_norm": 0.1591796875, "learning_rate": 0.0004933382147726754, "loss": 0.308, "step": 55700 }, { "epoch": 148.56, "grad_norm": 0.2099609375, "learning_rate": 0.0004933358116023056, "loss": 0.305, "step": 55710 }, { "epoch": 148.58666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004933334080044097, "loss": 0.3079, "step": 55720 }, { "epoch": 148.61333333333334, "grad_norm": 0.1669921875, "learning_rate": 0.0004933310039789921, "loss": 0.3008, "step": 55730 }, { "epoch": 148.64, "grad_norm": 0.197265625, "learning_rate": 0.000493328599526057, "loss": 0.3016, "step": 55740 }, { "epoch": 148.66666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004933261946456085, "loss": 0.3171, "step": 55750 }, { "epoch": 148.69333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004933237893376511, "loss": 0.2965, "step": 55760 }, { "epoch": 148.72, "grad_norm": 0.212890625, "learning_rate": 0.0004933213836021887, "loss": 0.3118, "step": 55770 }, { "epoch": 148.74666666666667, "grad_norm": 0.244140625, "learning_rate": 0.0004933189774392258, "loss": 0.3134, "step": 55780 }, { "epoch": 148.77333333333334, "grad_norm": 0.2255859375, "learning_rate": 0.0004933165708487664, "loss": 0.3245, "step": 55790 }, { "epoch": 148.8, "grad_norm": 0.2578125, "learning_rate": 0.0004933141638308149, "loss": 0.3107, "step": 55800 }, { "epoch": 148.82666666666665, "grad_norm": 0.36328125, "learning_rate": 0.0004933117563853755, "loss": 0.2996, "step": 55810 }, { "epoch": 148.85333333333332, "grad_norm": 0.271484375, "learning_rate": 0.0004933093485124523, "loss": 0.304, "step": 55820 }, { "epoch": 148.88, "grad_norm": 0.185546875, "learning_rate": 0.0004933069402120497, "loss": 0.3036, "step": 55830 }, { "epoch": 148.90666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004933045314841719, "loss": 0.3053, "step": 55840 }, { "epoch": 148.93333333333334, "grad_norm": 0.16015625, "learning_rate": 0.000493302122328823, "loss": 0.3059, "step": 55850 }, { "epoch": 148.96, "grad_norm": 0.18359375, "learning_rate": 0.0004932997127460074, "loss": 0.3056, "step": 55860 }, { "epoch": 148.98666666666668, "grad_norm": 0.19921875, "learning_rate": 0.0004932973027357291, "loss": 0.3173, "step": 55870 }, { "epoch": 149.0, "eval_loss": 0.3967016935348511, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.5981, "eval_samples_per_second": 1.27, "eval_steps_per_second": 0.079, "step": 55875 }, { "epoch": 149.01333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004932948922979927, "loss": 0.3081, "step": 55880 }, { "epoch": 149.04, "grad_norm": 0.2353515625, "learning_rate": 0.000493292481432802, "loss": 0.3349, "step": 55890 }, { "epoch": 149.06666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004932900701401615, "loss": 0.3199, "step": 55900 }, { "epoch": 149.09333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004932876584200756, "loss": 0.316, "step": 55910 }, { "epoch": 149.12, "grad_norm": 0.19921875, "learning_rate": 0.0004932852462725482, "loss": 0.3121, "step": 55920 }, { "epoch": 149.14666666666668, "grad_norm": 0.1923828125, "learning_rate": 0.0004932828336975837, "loss": 0.3133, "step": 55930 }, { "epoch": 149.17333333333335, "grad_norm": 0.232421875, "learning_rate": 0.0004932804206951863, "loss": 0.3133, "step": 55940 }, { "epoch": 149.2, "grad_norm": 0.2060546875, "learning_rate": 0.0004932780072653602, "loss": 0.3069, "step": 55950 }, { "epoch": 149.22666666666666, "grad_norm": 0.2197265625, "learning_rate": 0.0004932755934081097, "loss": 0.3005, "step": 55960 }, { "epoch": 149.25333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004932731791234391, "loss": 0.3007, "step": 55970 }, { "epoch": 149.28, "grad_norm": 0.2119140625, "learning_rate": 0.0004932707644113525, "loss": 0.3186, "step": 55980 }, { "epoch": 149.30666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004932683492718542, "loss": 0.3011, "step": 55990 }, { "epoch": 149.33333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004932659337049485, "loss": 0.3156, "step": 56000 }, { "epoch": 149.36, "grad_norm": 0.1982421875, "learning_rate": 0.0004932635177106397, "loss": 0.3063, "step": 56010 }, { "epoch": 149.38666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004932611012889318, "loss": 0.3035, "step": 56020 }, { "epoch": 149.41333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004932586844398292, "loss": 0.3096, "step": 56030 }, { "epoch": 149.44, "grad_norm": 0.1865234375, "learning_rate": 0.0004932562671633362, "loss": 0.3167, "step": 56040 }, { "epoch": 149.46666666666667, "grad_norm": 0.193359375, "learning_rate": 0.000493253849459457, "loss": 0.3213, "step": 56050 }, { "epoch": 149.49333333333334, "grad_norm": 0.2333984375, "learning_rate": 0.0004932514313281958, "loss": 0.3105, "step": 56060 }, { "epoch": 149.52, "grad_norm": 0.201171875, "learning_rate": 0.0004932490127695569, "loss": 0.3144, "step": 56070 }, { "epoch": 149.54666666666665, "grad_norm": 0.181640625, "learning_rate": 0.0004932465937835445, "loss": 0.3047, "step": 56080 }, { "epoch": 149.57333333333332, "grad_norm": 0.1689453125, "learning_rate": 0.000493244174370163, "loss": 0.3079, "step": 56090 }, { "epoch": 149.6, "grad_norm": 0.240234375, "learning_rate": 0.0004932417545294164, "loss": 0.3039, "step": 56100 }, { "epoch": 149.62666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004932393342613091, "loss": 0.2998, "step": 56110 }, { "epoch": 149.65333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004932369135658453, "loss": 0.312, "step": 56120 }, { "epoch": 149.68, "grad_norm": 0.2177734375, "learning_rate": 0.0004932344924430294, "loss": 0.3014, "step": 56130 }, { "epoch": 149.70666666666668, "grad_norm": 0.2353515625, "learning_rate": 0.0004932320708928655, "loss": 0.3016, "step": 56140 }, { "epoch": 149.73333333333332, "grad_norm": 0.19140625, "learning_rate": 0.000493229648915358, "loss": 0.317, "step": 56150 }, { "epoch": 149.76, "grad_norm": 0.2080078125, "learning_rate": 0.0004932272265105108, "loss": 0.3187, "step": 56160 }, { "epoch": 149.78666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004932248036783285, "loss": 0.3197, "step": 56170 }, { "epoch": 149.81333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004932223804188153, "loss": 0.3021, "step": 56180 }, { "epoch": 149.84, "grad_norm": 0.1865234375, "learning_rate": 0.0004932199567319755, "loss": 0.3018, "step": 56190 }, { "epoch": 149.86666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004932175326178132, "loss": 0.3037, "step": 56200 }, { "epoch": 149.89333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0004932151080763328, "loss": 0.304, "step": 56210 }, { "epoch": 149.92, "grad_norm": 0.212890625, "learning_rate": 0.0004932126831075385, "loss": 0.3051, "step": 56220 }, { "epoch": 149.94666666666666, "grad_norm": 0.2470703125, "learning_rate": 0.0004932102577114344, "loss": 0.3066, "step": 56230 }, { "epoch": 149.97333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004932078318880251, "loss": 0.3144, "step": 56240 }, { "epoch": 150.0, "grad_norm": 0.16796875, "learning_rate": 0.0004932054056373147, "loss": 0.3026, "step": 56250 }, { "epoch": 150.0, "eval_loss": 0.3974718153476715, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1815, "eval_samples_per_second": 1.431, "eval_steps_per_second": 0.089, "step": 56250 }, { "epoch": 150.02666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004932029789593074, "loss": 0.3249, "step": 56260 }, { "epoch": 150.05333333333334, "grad_norm": 0.259765625, "learning_rate": 0.0004932005518540073, "loss": 0.3313, "step": 56270 }, { "epoch": 150.08, "grad_norm": 0.24609375, "learning_rate": 0.0004931981243214192, "loss": 0.3157, "step": 56280 }, { "epoch": 150.10666666666665, "grad_norm": 0.369140625, "learning_rate": 0.0004931956963615469, "loss": 0.3168, "step": 56290 }, { "epoch": 150.13333333333333, "grad_norm": 0.27734375, "learning_rate": 0.0004931932679743948, "loss": 0.3088, "step": 56300 }, { "epoch": 150.16, "grad_norm": 0.1953125, "learning_rate": 0.0004931908391599671, "loss": 0.3155, "step": 56310 }, { "epoch": 150.18666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004931884099182683, "loss": 0.3108, "step": 56320 }, { "epoch": 150.21333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004931859802493023, "loss": 0.2995, "step": 56330 }, { "epoch": 150.24, "grad_norm": 0.2255859375, "learning_rate": 0.0004931835501530737, "loss": 0.303, "step": 56340 }, { "epoch": 150.26666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0004931811196295867, "loss": 0.3092, "step": 56350 }, { "epoch": 150.29333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004931786886788454, "loss": 0.3049, "step": 56360 }, { "epoch": 150.32, "grad_norm": 0.1875, "learning_rate": 0.0004931762573008542, "loss": 0.3118, "step": 56370 }, { "epoch": 150.34666666666666, "grad_norm": 0.234375, "learning_rate": 0.0004931738254956175, "loss": 0.3118, "step": 56380 }, { "epoch": 150.37333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004931713932631393, "loss": 0.3032, "step": 56390 }, { "epoch": 150.4, "grad_norm": 0.25390625, "learning_rate": 0.000493168960603424, "loss": 0.3051, "step": 56400 }, { "epoch": 150.42666666666668, "grad_norm": 0.1826171875, "learning_rate": 0.000493166527516476, "loss": 0.3118, "step": 56410 }, { "epoch": 150.45333333333335, "grad_norm": 0.2197265625, "learning_rate": 0.0004931640940022994, "loss": 0.3208, "step": 56420 }, { "epoch": 150.48, "grad_norm": 0.2177734375, "learning_rate": 0.0004931616600608985, "loss": 0.3159, "step": 56430 }, { "epoch": 150.50666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004931592256922775, "loss": 0.3129, "step": 56440 }, { "epoch": 150.53333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004931567908964409, "loss": 0.308, "step": 56450 }, { "epoch": 150.56, "grad_norm": 0.30859375, "learning_rate": 0.0004931543556733929, "loss": 0.3042, "step": 56460 }, { "epoch": 150.58666666666667, "grad_norm": 0.271484375, "learning_rate": 0.0004931519200231377, "loss": 0.3078, "step": 56470 }, { "epoch": 150.61333333333334, "grad_norm": 0.2294921875, "learning_rate": 0.0004931494839456796, "loss": 0.2999, "step": 56480 }, { "epoch": 150.64, "grad_norm": 0.1748046875, "learning_rate": 0.0004931470474410229, "loss": 0.3011, "step": 56490 }, { "epoch": 150.66666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004931446105091718, "loss": 0.3173, "step": 56500 }, { "epoch": 150.69333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004931421731501308, "loss": 0.296, "step": 56510 }, { "epoch": 150.72, "grad_norm": 0.2412109375, "learning_rate": 0.000493139735363904, "loss": 0.3114, "step": 56520 }, { "epoch": 150.74666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004931372971504956, "loss": 0.3129, "step": 56530 }, { "epoch": 150.77333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004931348585099102, "loss": 0.3242, "step": 56540 }, { "epoch": 150.8, "grad_norm": 0.1826171875, "learning_rate": 0.0004931324194421518, "loss": 0.3106, "step": 56550 }, { "epoch": 150.82666666666665, "grad_norm": 0.220703125, "learning_rate": 0.0004931299799472247, "loss": 0.2998, "step": 56560 }, { "epoch": 150.85333333333332, "grad_norm": 0.2021484375, "learning_rate": 0.0004931275400251333, "loss": 0.3035, "step": 56570 }, { "epoch": 150.88, "grad_norm": 0.1826171875, "learning_rate": 0.000493125099675882, "loss": 0.3031, "step": 56580 }, { "epoch": 150.90666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004931226588994748, "loss": 0.3045, "step": 56590 }, { "epoch": 150.93333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004931202176959162, "loss": 0.3057, "step": 56600 }, { "epoch": 150.96, "grad_norm": 0.21875, "learning_rate": 0.0004931177760652103, "loss": 0.3055, "step": 56610 }, { "epoch": 150.98666666666668, "grad_norm": 0.1875, "learning_rate": 0.0004931153340073617, "loss": 0.317, "step": 56620 }, { "epoch": 151.0, "eval_loss": 0.3965689539909363, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5425, "eval_samples_per_second": 1.386, "eval_steps_per_second": 0.087, "step": 56625 }, { "epoch": 151.01333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.0004931128915223743, "loss": 0.3072, "step": 56630 }, { "epoch": 151.04, "grad_norm": 0.1796875, "learning_rate": 0.0004931104486102527, "loss": 0.3337, "step": 56640 }, { "epoch": 151.06666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004931080052710011, "loss": 0.3191, "step": 56650 }, { "epoch": 151.09333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004931055615046237, "loss": 0.3155, "step": 56660 }, { "epoch": 151.12, "grad_norm": 0.1845703125, "learning_rate": 0.000493103117311125, "loss": 0.3117, "step": 56670 }, { "epoch": 151.14666666666668, "grad_norm": 0.228515625, "learning_rate": 0.000493100672690509, "loss": 0.3124, "step": 56680 }, { "epoch": 151.17333333333335, "grad_norm": 0.224609375, "learning_rate": 0.0004930982276427803, "loss": 0.3129, "step": 56690 }, { "epoch": 151.2, "grad_norm": 0.1767578125, "learning_rate": 0.0004930957821679429, "loss": 0.3063, "step": 56700 }, { "epoch": 151.22666666666666, "grad_norm": 0.25, "learning_rate": 0.0004930933362660013, "loss": 0.3004, "step": 56710 }, { "epoch": 151.25333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004930908899369597, "loss": 0.3003, "step": 56720 }, { "epoch": 151.28, "grad_norm": 0.1982421875, "learning_rate": 0.0004930884431808226, "loss": 0.3181, "step": 56730 }, { "epoch": 151.30666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004930859959975941, "loss": 0.3009, "step": 56740 }, { "epoch": 151.33333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004930835483872785, "loss": 0.3145, "step": 56750 }, { "epoch": 151.36, "grad_norm": 0.205078125, "learning_rate": 0.00049308110034988, "loss": 0.3059, "step": 56760 }, { "epoch": 151.38666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004930786518854033, "loss": 0.3029, "step": 56770 }, { "epoch": 151.41333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004930762029938523, "loss": 0.3089, "step": 56780 }, { "epoch": 151.44, "grad_norm": 0.228515625, "learning_rate": 0.0004930737536752314, "loss": 0.3166, "step": 56790 }, { "epoch": 151.46666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.000493071303929545, "loss": 0.3205, "step": 56800 }, { "epoch": 151.49333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004930688537567974, "loss": 0.3098, "step": 56810 }, { "epoch": 151.52, "grad_norm": 0.177734375, "learning_rate": 0.0004930664031569928, "loss": 0.3141, "step": 56820 }, { "epoch": 151.54666666666665, "grad_norm": 0.244140625, "learning_rate": 0.0004930639521301357, "loss": 0.3042, "step": 56830 }, { "epoch": 151.57333333333332, "grad_norm": 0.1767578125, "learning_rate": 0.0004930615006762301, "loss": 0.3074, "step": 56840 }, { "epoch": 151.6, "grad_norm": 0.181640625, "learning_rate": 0.0004930590487952805, "loss": 0.3046, "step": 56850 }, { "epoch": 151.62666666666667, "grad_norm": 0.2392578125, "learning_rate": 0.0004930565964872913, "loss": 0.2991, "step": 56860 }, { "epoch": 151.65333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004930541437522666, "loss": 0.3122, "step": 56870 }, { "epoch": 151.68, "grad_norm": 0.232421875, "learning_rate": 0.0004930516905902108, "loss": 0.3003, "step": 56880 }, { "epoch": 151.70666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0004930492370011283, "loss": 0.3018, "step": 56890 }, { "epoch": 151.73333333333332, "grad_norm": 0.201171875, "learning_rate": 0.0004930467829850233, "loss": 0.3171, "step": 56900 }, { "epoch": 151.76, "grad_norm": 0.1923828125, "learning_rate": 0.0004930443285419001, "loss": 0.3184, "step": 56910 }, { "epoch": 151.78666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.000493041873671763, "loss": 0.3192, "step": 56920 }, { "epoch": 151.81333333333333, "grad_norm": 0.298828125, "learning_rate": 0.0004930394183746165, "loss": 0.3021, "step": 56930 }, { "epoch": 151.84, "grad_norm": 0.234375, "learning_rate": 0.0004930369626504647, "loss": 0.3013, "step": 56940 }, { "epoch": 151.86666666666667, "grad_norm": 0.255859375, "learning_rate": 0.0004930345064993119, "loss": 0.3036, "step": 56950 }, { "epoch": 151.89333333333335, "grad_norm": 0.197265625, "learning_rate": 0.0004930320499211627, "loss": 0.3032, "step": 56960 }, { "epoch": 151.92, "grad_norm": 0.232421875, "learning_rate": 0.0004930295929160212, "loss": 0.3049, "step": 56970 }, { "epoch": 151.94666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0004930271354838915, "loss": 0.3066, "step": 56980 }, { "epoch": 151.97333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004930246776247783, "loss": 0.3136, "step": 56990 }, { "epoch": 152.0, "grad_norm": 0.2021484375, "learning_rate": 0.0004930222193386859, "loss": 0.3024, "step": 57000 }, { "epoch": 152.0, "eval_loss": 0.3990558683872223, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4475, "eval_samples_per_second": 1.531, "eval_steps_per_second": 0.096, "step": 57000 }, { "epoch": 152.02666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004930197606256184, "loss": 0.3251, "step": 57010 }, { "epoch": 152.05333333333334, "grad_norm": 0.2431640625, "learning_rate": 0.0004930173014855801, "loss": 0.3309, "step": 57020 }, { "epoch": 152.08, "grad_norm": 0.220703125, "learning_rate": 0.0004930148419185756, "loss": 0.315, "step": 57030 }, { "epoch": 152.10666666666665, "grad_norm": 0.197265625, "learning_rate": 0.0004930123819246089, "loss": 0.3167, "step": 57040 }, { "epoch": 152.13333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004930099215036846, "loss": 0.3082, "step": 57050 }, { "epoch": 152.16, "grad_norm": 0.2001953125, "learning_rate": 0.0004930074606558069, "loss": 0.3151, "step": 57060 }, { "epoch": 152.18666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0004930049993809801, "loss": 0.3107, "step": 57070 }, { "epoch": 152.21333333333334, "grad_norm": 0.2578125, "learning_rate": 0.0004930025376792085, "loss": 0.2994, "step": 57080 }, { "epoch": 152.24, "grad_norm": 0.2255859375, "learning_rate": 0.0004930000755504966, "loss": 0.3039, "step": 57090 }, { "epoch": 152.26666666666668, "grad_norm": 0.263671875, "learning_rate": 0.0004929976129948484, "loss": 0.309, "step": 57100 }, { "epoch": 152.29333333333332, "grad_norm": 0.1845703125, "learning_rate": 0.0004929951500122685, "loss": 0.3052, "step": 57110 }, { "epoch": 152.32, "grad_norm": 0.205078125, "learning_rate": 0.0004929926866027612, "loss": 0.3116, "step": 57120 }, { "epoch": 152.34666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004929902227663308, "loss": 0.3108, "step": 57130 }, { "epoch": 152.37333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004929877585029816, "loss": 0.3036, "step": 57140 }, { "epoch": 152.4, "grad_norm": 0.2158203125, "learning_rate": 0.0004929852938127179, "loss": 0.3045, "step": 57150 }, { "epoch": 152.42666666666668, "grad_norm": 0.1962890625, "learning_rate": 0.0004929828286955441, "loss": 0.3117, "step": 57160 }, { "epoch": 152.45333333333335, "grad_norm": 0.2265625, "learning_rate": 0.0004929803631514645, "loss": 0.3201, "step": 57170 }, { "epoch": 152.48, "grad_norm": 0.23046875, "learning_rate": 0.0004929778971804834, "loss": 0.316, "step": 57180 }, { "epoch": 152.50666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004929754307826052, "loss": 0.3126, "step": 57190 }, { "epoch": 152.53333333333333, "grad_norm": 0.154296875, "learning_rate": 0.0004929729639578342, "loss": 0.3078, "step": 57200 }, { "epoch": 152.56, "grad_norm": 0.21875, "learning_rate": 0.0004929704967061747, "loss": 0.3047, "step": 57210 }, { "epoch": 152.58666666666667, "grad_norm": 0.2412109375, "learning_rate": 0.0004929680290276311, "loss": 0.3077, "step": 57220 }, { "epoch": 152.61333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004929655609222077, "loss": 0.2999, "step": 57230 }, { "epoch": 152.64, "grad_norm": 0.1845703125, "learning_rate": 0.0004929630923899088, "loss": 0.3005, "step": 57240 }, { "epoch": 152.66666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004929606234307388, "loss": 0.3172, "step": 57250 }, { "epoch": 152.69333333333333, "grad_norm": 0.296875, "learning_rate": 0.0004929581540447021, "loss": 0.2954, "step": 57260 }, { "epoch": 152.72, "grad_norm": 0.216796875, "learning_rate": 0.0004929556842318027, "loss": 0.3111, "step": 57270 }, { "epoch": 152.74666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004929532139920454, "loss": 0.3132, "step": 57280 }, { "epoch": 152.77333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004929507433254343, "loss": 0.3235, "step": 57290 }, { "epoch": 152.8, "grad_norm": 0.2138671875, "learning_rate": 0.0004929482722319737, "loss": 0.3111, "step": 57300 }, { "epoch": 152.82666666666665, "grad_norm": 0.22265625, "learning_rate": 0.0004929458007116681, "loss": 0.2999, "step": 57310 }, { "epoch": 152.85333333333332, "grad_norm": 0.2119140625, "learning_rate": 0.0004929433287645217, "loss": 0.3037, "step": 57320 }, { "epoch": 152.88, "grad_norm": 0.240234375, "learning_rate": 0.000492940856390539, "loss": 0.3033, "step": 57330 }, { "epoch": 152.90666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004929383835897242, "loss": 0.3047, "step": 57340 }, { "epoch": 152.93333333333334, "grad_norm": 0.25, "learning_rate": 0.0004929359103620816, "loss": 0.3056, "step": 57350 }, { "epoch": 152.96, "grad_norm": 0.185546875, "learning_rate": 0.0004929334367076157, "loss": 0.3051, "step": 57360 }, { "epoch": 152.98666666666668, "grad_norm": 0.255859375, "learning_rate": 0.0004929309626263308, "loss": 0.3167, "step": 57370 }, { "epoch": 153.0, "eval_loss": 0.39711153507232666, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6041, "eval_samples_per_second": 1.509, "eval_steps_per_second": 0.094, "step": 57375 }, { "epoch": 153.01333333333332, "grad_norm": 0.2314453125, "learning_rate": 0.0004929284881182312, "loss": 0.3078, "step": 57380 }, { "epoch": 153.04, "grad_norm": 0.181640625, "learning_rate": 0.0004929260131833213, "loss": 0.334, "step": 57390 }, { "epoch": 153.06666666666666, "grad_norm": 0.234375, "learning_rate": 0.0004929235378216053, "loss": 0.3189, "step": 57400 }, { "epoch": 153.09333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004929210620330879, "loss": 0.3156, "step": 57410 }, { "epoch": 153.12, "grad_norm": 0.232421875, "learning_rate": 0.000492918585817773, "loss": 0.3116, "step": 57420 }, { "epoch": 153.14666666666668, "grad_norm": 0.2197265625, "learning_rate": 0.0004929161091756653, "loss": 0.3129, "step": 57430 }, { "epoch": 153.17333333333335, "grad_norm": 0.2138671875, "learning_rate": 0.0004929136321067689, "loss": 0.3131, "step": 57440 }, { "epoch": 153.2, "grad_norm": 0.1669921875, "learning_rate": 0.0004929111546110885, "loss": 0.3061, "step": 57450 }, { "epoch": 153.22666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.000492908676688628, "loss": 0.2999, "step": 57460 }, { "epoch": 153.25333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004929061983393921, "loss": 0.3, "step": 57470 }, { "epoch": 153.28, "grad_norm": 0.212890625, "learning_rate": 0.0004929037195633849, "loss": 0.3181, "step": 57480 }, { "epoch": 153.30666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004929012403606111, "loss": 0.3003, "step": 57490 }, { "epoch": 153.33333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004928987607310748, "loss": 0.3144, "step": 57500 }, { "epoch": 153.36, "grad_norm": 0.197265625, "learning_rate": 0.0004928962806747803, "loss": 0.3061, "step": 57510 }, { "epoch": 153.38666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004928938001917321, "loss": 0.3034, "step": 57520 }, { "epoch": 153.41333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004928913192819345, "loss": 0.3087, "step": 57530 }, { "epoch": 153.44, "grad_norm": 0.208984375, "learning_rate": 0.0004928888379453919, "loss": 0.3164, "step": 57540 }, { "epoch": 153.46666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004928863561821087, "loss": 0.3202, "step": 57550 }, { "epoch": 153.49333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004928838739920892, "loss": 0.3098, "step": 57560 }, { "epoch": 153.52, "grad_norm": 0.1865234375, "learning_rate": 0.0004928813913753377, "loss": 0.3138, "step": 57570 }, { "epoch": 153.54666666666665, "grad_norm": 0.1884765625, "learning_rate": 0.0004928789083318585, "loss": 0.3043, "step": 57580 }, { "epoch": 153.57333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004928764248616562, "loss": 0.3072, "step": 57590 }, { "epoch": 153.6, "grad_norm": 0.2421875, "learning_rate": 0.0004928739409647351, "loss": 0.304, "step": 57600 }, { "epoch": 153.62666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004928714566410994, "loss": 0.2993, "step": 57610 }, { "epoch": 153.65333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004928689718907536, "loss": 0.3114, "step": 57620 }, { "epoch": 153.68, "grad_norm": 0.1669921875, "learning_rate": 0.000492866486713702, "loss": 0.3008, "step": 57630 }, { "epoch": 153.70666666666668, "grad_norm": 0.2421875, "learning_rate": 0.0004928640011099491, "loss": 0.3013, "step": 57640 }, { "epoch": 153.73333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.0004928615150794992, "loss": 0.3167, "step": 57650 }, { "epoch": 153.76, "grad_norm": 0.201171875, "learning_rate": 0.0004928590286223566, "loss": 0.3185, "step": 57660 }, { "epoch": 153.78666666666666, "grad_norm": 0.1748046875, "learning_rate": 0.0004928565417385256, "loss": 0.3192, "step": 57670 }, { "epoch": 153.81333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004928540544280107, "loss": 0.3018, "step": 57680 }, { "epoch": 153.84, "grad_norm": 0.1943359375, "learning_rate": 0.0004928515666908164, "loss": 0.3012, "step": 57690 }, { "epoch": 153.86666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004928490785269468, "loss": 0.3031, "step": 57700 }, { "epoch": 153.89333333333335, "grad_norm": 0.189453125, "learning_rate": 0.0004928465899364065, "loss": 0.3032, "step": 57710 }, { "epoch": 153.92, "grad_norm": 0.255859375, "learning_rate": 0.0004928441009191996, "loss": 0.3049, "step": 57720 }, { "epoch": 153.94666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004928416114753308, "loss": 0.3066, "step": 57730 }, { "epoch": 153.97333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004928391216048043, "loss": 0.314, "step": 57740 }, { "epoch": 154.0, "grad_norm": 0.220703125, "learning_rate": 0.0004928366313076243, "loss": 0.3024, "step": 57750 }, { "epoch": 154.0, "eval_loss": 0.39845743775367737, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9709, "eval_samples_per_second": 1.458, "eval_steps_per_second": 0.091, "step": 57750 }, { "epoch": 154.02666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004928341405837956, "loss": 0.3245, "step": 57760 }, { "epoch": 154.05333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004928316494333222, "loss": 0.3313, "step": 57770 }, { "epoch": 154.08, "grad_norm": 0.208984375, "learning_rate": 0.0004928291578562086, "loss": 0.3151, "step": 57780 }, { "epoch": 154.10666666666665, "grad_norm": 0.2314453125, "learning_rate": 0.0004928266658524592, "loss": 0.3166, "step": 57790 }, { "epoch": 154.13333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004928241734220785, "loss": 0.3078, "step": 57800 }, { "epoch": 154.16, "grad_norm": 0.193359375, "learning_rate": 0.0004928216805650706, "loss": 0.3151, "step": 57810 }, { "epoch": 154.18666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004928191872814401, "loss": 0.3104, "step": 57820 }, { "epoch": 154.21333333333334, "grad_norm": 0.2060546875, "learning_rate": 0.0004928166935711913, "loss": 0.2989, "step": 57830 }, { "epoch": 154.24, "grad_norm": 0.265625, "learning_rate": 0.0004928141994343285, "loss": 0.3033, "step": 57840 }, { "epoch": 154.26666666666668, "grad_norm": 0.1904296875, "learning_rate": 0.0004928117048708562, "loss": 0.3089, "step": 57850 }, { "epoch": 154.29333333333332, "grad_norm": 0.1796875, "learning_rate": 0.0004928092098807789, "loss": 0.3045, "step": 57860 }, { "epoch": 154.32, "grad_norm": 0.20703125, "learning_rate": 0.0004928067144641008, "loss": 0.3116, "step": 57870 }, { "epoch": 154.34666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004928042186208262, "loss": 0.3109, "step": 57880 }, { "epoch": 154.37333333333333, "grad_norm": 0.255859375, "learning_rate": 0.0004928017223509596, "loss": 0.3031, "step": 57890 }, { "epoch": 154.4, "grad_norm": 0.20703125, "learning_rate": 0.0004927992256545055, "loss": 0.3045, "step": 57900 }, { "epoch": 154.42666666666668, "grad_norm": 0.18359375, "learning_rate": 0.0004927967285314682, "loss": 0.3121, "step": 57910 }, { "epoch": 154.45333333333335, "grad_norm": 0.271484375, "learning_rate": 0.000492794230981852, "loss": 0.3201, "step": 57920 }, { "epoch": 154.48, "grad_norm": 0.1962890625, "learning_rate": 0.0004927917330056613, "loss": 0.3154, "step": 57930 }, { "epoch": 154.50666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004927892346029006, "loss": 0.3124, "step": 57940 }, { "epoch": 154.53333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004927867357735743, "loss": 0.307, "step": 57950 }, { "epoch": 154.56, "grad_norm": 0.1943359375, "learning_rate": 0.0004927842365176866, "loss": 0.3038, "step": 57960 }, { "epoch": 154.58666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004927817368352421, "loss": 0.3077, "step": 57970 }, { "epoch": 154.61333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004927792367262451, "loss": 0.2993, "step": 57980 }, { "epoch": 154.64, "grad_norm": 0.1767578125, "learning_rate": 0.0004927767361907, "loss": 0.3009, "step": 57990 }, { "epoch": 154.66666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004927742352286112, "loss": 0.3169, "step": 58000 }, { "epoch": 154.69333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004927717338399831, "loss": 0.2956, "step": 58010 }, { "epoch": 154.72, "grad_norm": 0.392578125, "learning_rate": 0.0004927692320248199, "loss": 0.3113, "step": 58020 }, { "epoch": 154.74666666666667, "grad_norm": 0.275390625, "learning_rate": 0.0004927667297831265, "loss": 0.3129, "step": 58030 }, { "epoch": 154.77333333333334, "grad_norm": 0.28125, "learning_rate": 0.0004927642271149067, "loss": 0.324, "step": 58040 }, { "epoch": 154.8, "grad_norm": 0.232421875, "learning_rate": 0.0004927617240201652, "loss": 0.3096, "step": 58050 }, { "epoch": 154.82666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.0004927592204989065, "loss": 0.2993, "step": 58060 }, { "epoch": 154.85333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004927567165511347, "loss": 0.3032, "step": 58070 }, { "epoch": 154.88, "grad_norm": 0.21484375, "learning_rate": 0.0004927542121768545, "loss": 0.303, "step": 58080 }, { "epoch": 154.90666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0004927517073760702, "loss": 0.3047, "step": 58090 }, { "epoch": 154.93333333333334, "grad_norm": 0.173828125, "learning_rate": 0.000492749202148786, "loss": 0.3046, "step": 58100 }, { "epoch": 154.96, "grad_norm": 0.23046875, "learning_rate": 0.0004927466964950066, "loss": 0.3046, "step": 58110 }, { "epoch": 154.98666666666668, "grad_norm": 0.205078125, "learning_rate": 0.0004927441904147363, "loss": 0.3171, "step": 58120 }, { "epoch": 155.0, "eval_loss": 0.39804381132125854, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4154, "eval_samples_per_second": 1.536, "eval_steps_per_second": 0.096, "step": 58125 }, { "epoch": 155.01333333333332, "grad_norm": 0.2421875, "learning_rate": 0.0004927416839079794, "loss": 0.3078, "step": 58130 }, { "epoch": 155.04, "grad_norm": 0.1923828125, "learning_rate": 0.0004927391769747404, "loss": 0.3339, "step": 58140 }, { "epoch": 155.06666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.0004927366696150236, "loss": 0.3191, "step": 58150 }, { "epoch": 155.09333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004927341618288335, "loss": 0.3153, "step": 58160 }, { "epoch": 155.12, "grad_norm": 0.232421875, "learning_rate": 0.0004927316536161746, "loss": 0.3116, "step": 58170 }, { "epoch": 155.14666666666668, "grad_norm": 0.171875, "learning_rate": 0.0004927291449770511, "loss": 0.3125, "step": 58180 }, { "epoch": 155.17333333333335, "grad_norm": 0.234375, "learning_rate": 0.0004927266359114676, "loss": 0.3121, "step": 58190 }, { "epoch": 155.2, "grad_norm": 0.2109375, "learning_rate": 0.0004927241264194284, "loss": 0.3056, "step": 58200 }, { "epoch": 155.22666666666666, "grad_norm": 0.28125, "learning_rate": 0.0004927216165009379, "loss": 0.3006, "step": 58210 }, { "epoch": 155.25333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004927191061560005, "loss": 0.3003, "step": 58220 }, { "epoch": 155.28, "grad_norm": 0.2265625, "learning_rate": 0.0004927165953846207, "loss": 0.3183, "step": 58230 }, { "epoch": 155.30666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004927140841868028, "loss": 0.3001, "step": 58240 }, { "epoch": 155.33333333333334, "grad_norm": 0.228515625, "learning_rate": 0.0004927115725625513, "loss": 0.3142, "step": 58250 }, { "epoch": 155.36, "grad_norm": 0.2197265625, "learning_rate": 0.0004927090605118706, "loss": 0.3055, "step": 58260 }, { "epoch": 155.38666666666666, "grad_norm": 0.2333984375, "learning_rate": 0.000492706548034765, "loss": 0.3029, "step": 58270 }, { "epoch": 155.41333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004927040351312392, "loss": 0.3085, "step": 58280 }, { "epoch": 155.44, "grad_norm": 0.22265625, "learning_rate": 0.0004927015218012973, "loss": 0.3161, "step": 58290 }, { "epoch": 155.46666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004926990080449438, "loss": 0.3197, "step": 58300 }, { "epoch": 155.49333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004926964938621832, "loss": 0.3094, "step": 58310 }, { "epoch": 155.52, "grad_norm": 0.189453125, "learning_rate": 0.0004926939792530198, "loss": 0.3129, "step": 58320 }, { "epoch": 155.54666666666665, "grad_norm": 0.1943359375, "learning_rate": 0.0004926914642174583, "loss": 0.3038, "step": 58330 }, { "epoch": 155.57333333333332, "grad_norm": 0.19140625, "learning_rate": 0.0004926889487555028, "loss": 0.3066, "step": 58340 }, { "epoch": 155.6, "grad_norm": 0.1845703125, "learning_rate": 0.0004926864328671577, "loss": 0.304, "step": 58350 }, { "epoch": 155.62666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004926839165524276, "loss": 0.2989, "step": 58360 }, { "epoch": 155.65333333333334, "grad_norm": 0.177734375, "learning_rate": 0.000492681399811317, "loss": 0.3115, "step": 58370 }, { "epoch": 155.68, "grad_norm": 0.16796875, "learning_rate": 0.0004926788826438301, "loss": 0.3006, "step": 58380 }, { "epoch": 155.70666666666668, "grad_norm": 0.2353515625, "learning_rate": 0.0004926763650499714, "loss": 0.3015, "step": 58390 }, { "epoch": 155.73333333333332, "grad_norm": 0.3046875, "learning_rate": 0.0004926738470297454, "loss": 0.3163, "step": 58400 }, { "epoch": 155.76, "grad_norm": 0.197265625, "learning_rate": 0.0004926713285831564, "loss": 0.3186, "step": 58410 }, { "epoch": 155.78666666666666, "grad_norm": 0.224609375, "learning_rate": 0.000492668809710209, "loss": 0.3185, "step": 58420 }, { "epoch": 155.81333333333333, "grad_norm": 0.265625, "learning_rate": 0.0004926662904109073, "loss": 0.3016, "step": 58430 }, { "epoch": 155.84, "grad_norm": 0.189453125, "learning_rate": 0.0004926637706852561, "loss": 0.3006, "step": 58440 }, { "epoch": 155.86666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004926612505332598, "loss": 0.3031, "step": 58450 }, { "epoch": 155.89333333333335, "grad_norm": 0.1953125, "learning_rate": 0.0004926587299549224, "loss": 0.3029, "step": 58460 }, { "epoch": 155.92, "grad_norm": 0.2216796875, "learning_rate": 0.0004926562089502488, "loss": 0.304, "step": 58470 }, { "epoch": 155.94666666666666, "grad_norm": 0.1728515625, "learning_rate": 0.0004926536875192433, "loss": 0.3063, "step": 58480 }, { "epoch": 155.97333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004926511656619101, "loss": 0.3133, "step": 58490 }, { "epoch": 156.0, "grad_norm": 0.193359375, "learning_rate": 0.0004926486433782539, "loss": 0.3018, "step": 58500 }, { "epoch": 156.0, "eval_loss": 0.3994687795639038, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.5168, "eval_samples_per_second": 1.389, "eval_steps_per_second": 0.087, "step": 58500 }, { "epoch": 156.02666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.000492646120668279, "loss": 0.3239, "step": 58510 }, { "epoch": 156.05333333333334, "grad_norm": 0.189453125, "learning_rate": 0.00049264359753199, "loss": 0.3306, "step": 58520 }, { "epoch": 156.08, "grad_norm": 0.17578125, "learning_rate": 0.0004926410739693911, "loss": 0.3146, "step": 58530 }, { "epoch": 156.10666666666665, "grad_norm": 0.1669921875, "learning_rate": 0.0004926385499804868, "loss": 0.3164, "step": 58540 }, { "epoch": 156.13333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004926360255652816, "loss": 0.3079, "step": 58550 }, { "epoch": 156.16, "grad_norm": 0.2060546875, "learning_rate": 0.00049263350072378, "loss": 0.3148, "step": 58560 }, { "epoch": 156.18666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004926309754559864, "loss": 0.3104, "step": 58570 }, { "epoch": 156.21333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.000492628449761905, "loss": 0.2983, "step": 58580 }, { "epoch": 156.24, "grad_norm": 0.2109375, "learning_rate": 0.0004926259236415405, "loss": 0.3026, "step": 58590 }, { "epoch": 156.26666666666668, "grad_norm": 0.216796875, "learning_rate": 0.0004926233970948973, "loss": 0.309, "step": 58600 }, { "epoch": 156.29333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004926208701219797, "loss": 0.3044, "step": 58610 }, { "epoch": 156.32, "grad_norm": 0.171875, "learning_rate": 0.0004926183427227924, "loss": 0.3117, "step": 58620 }, { "epoch": 156.34666666666666, "grad_norm": 0.287109375, "learning_rate": 0.0004926158148973396, "loss": 0.3104, "step": 58630 }, { "epoch": 156.37333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004926132866456258, "loss": 0.3026, "step": 58640 }, { "epoch": 156.4, "grad_norm": 0.1953125, "learning_rate": 0.0004926107579676555, "loss": 0.3042, "step": 58650 }, { "epoch": 156.42666666666668, "grad_norm": 0.263671875, "learning_rate": 0.000492608228863433, "loss": 0.3115, "step": 58660 }, { "epoch": 156.45333333333335, "grad_norm": 0.2041015625, "learning_rate": 0.000492605699332963, "loss": 0.3196, "step": 58670 }, { "epoch": 156.48, "grad_norm": 0.2099609375, "learning_rate": 0.0004926031693762497, "loss": 0.3148, "step": 58680 }, { "epoch": 156.50666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004926006389932977, "loss": 0.3122, "step": 58690 }, { "epoch": 156.53333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004925981081841113, "loss": 0.3072, "step": 58700 }, { "epoch": 156.56, "grad_norm": 0.23046875, "learning_rate": 0.0004925955769486952, "loss": 0.3032, "step": 58710 }, { "epoch": 156.58666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004925930452870536, "loss": 0.3074, "step": 58720 }, { "epoch": 156.61333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004925905131991909, "loss": 0.2985, "step": 58730 }, { "epoch": 156.64, "grad_norm": 0.169921875, "learning_rate": 0.0004925879806851117, "loss": 0.3005, "step": 58740 }, { "epoch": 156.66666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004925854477448205, "loss": 0.316, "step": 58750 }, { "epoch": 156.69333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004925829143783217, "loss": 0.2951, "step": 58760 }, { "epoch": 156.72, "grad_norm": 0.2041015625, "learning_rate": 0.0004925803805856196, "loss": 0.3111, "step": 58770 }, { "epoch": 156.74666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004925778463667189, "loss": 0.3121, "step": 58780 }, { "epoch": 156.77333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004925753117216239, "loss": 0.3234, "step": 58790 }, { "epoch": 156.8, "grad_norm": 0.21484375, "learning_rate": 0.000492572776650339, "loss": 0.3096, "step": 58800 }, { "epoch": 156.82666666666665, "grad_norm": 0.1982421875, "learning_rate": 0.0004925702411528688, "loss": 0.2989, "step": 58810 }, { "epoch": 156.85333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004925677052292178, "loss": 0.3026, "step": 58820 }, { "epoch": 156.88, "grad_norm": 0.2294921875, "learning_rate": 0.0004925651688793902, "loss": 0.3019, "step": 58830 }, { "epoch": 156.90666666666667, "grad_norm": 0.24609375, "learning_rate": 0.0004925626321033907, "loss": 0.3042, "step": 58840 }, { "epoch": 156.93333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004925600949012236, "loss": 0.305, "step": 58850 }, { "epoch": 156.96, "grad_norm": 0.1689453125, "learning_rate": 0.0004925575572728934, "loss": 0.3044, "step": 58860 }, { "epoch": 156.98666666666668, "grad_norm": 0.2314453125, "learning_rate": 0.0004925550192184046, "loss": 0.3168, "step": 58870 }, { "epoch": 157.0, "eval_loss": 0.399666965007782, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7841, "eval_samples_per_second": 1.484, "eval_steps_per_second": 0.093, "step": 58875 }, { "epoch": 157.01333333333332, "grad_norm": 0.3125, "learning_rate": 0.0004925524807377617, "loss": 0.3075, "step": 58880 }, { "epoch": 157.04, "grad_norm": 0.236328125, "learning_rate": 0.000492549941830969, "loss": 0.3333, "step": 58890 }, { "epoch": 157.06666666666666, "grad_norm": 0.3515625, "learning_rate": 0.0004925474024980311, "loss": 0.3182, "step": 58900 }, { "epoch": 157.09333333333333, "grad_norm": 0.25, "learning_rate": 0.0004925448627389524, "loss": 0.3153, "step": 58910 }, { "epoch": 157.12, "grad_norm": 0.1904296875, "learning_rate": 0.0004925423225537374, "loss": 0.3108, "step": 58920 }, { "epoch": 157.14666666666668, "grad_norm": 0.240234375, "learning_rate": 0.0004925397819423906, "loss": 0.3119, "step": 58930 }, { "epoch": 157.17333333333335, "grad_norm": 0.2099609375, "learning_rate": 0.0004925372409049163, "loss": 0.3124, "step": 58940 }, { "epoch": 157.2, "grad_norm": 0.228515625, "learning_rate": 0.0004925346994413191, "loss": 0.3055, "step": 58950 }, { "epoch": 157.22666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.0004925321575516034, "loss": 0.2997, "step": 58960 }, { "epoch": 157.25333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0004925296152357738, "loss": 0.2998, "step": 58970 }, { "epoch": 157.28, "grad_norm": 0.2373046875, "learning_rate": 0.0004925270724938346, "loss": 0.3172, "step": 58980 }, { "epoch": 157.30666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004925245293257904, "loss": 0.2997, "step": 58990 }, { "epoch": 157.33333333333334, "grad_norm": 0.224609375, "learning_rate": 0.0004925219857316455, "loss": 0.3141, "step": 59000 }, { "epoch": 157.36, "grad_norm": 0.197265625, "learning_rate": 0.0004925194417114045, "loss": 0.3051, "step": 59010 }, { "epoch": 157.38666666666666, "grad_norm": 0.267578125, "learning_rate": 0.0004925168972650718, "loss": 0.3024, "step": 59020 }, { "epoch": 157.41333333333333, "grad_norm": 0.2265625, "learning_rate": 0.000492514352392652, "loss": 0.3079, "step": 59030 }, { "epoch": 157.44, "grad_norm": 0.1767578125, "learning_rate": 0.0004925118070941496, "loss": 0.3157, "step": 59040 }, { "epoch": 157.46666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004925092613695687, "loss": 0.3194, "step": 59050 }, { "epoch": 157.49333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004925067152189142, "loss": 0.3089, "step": 59060 }, { "epoch": 157.52, "grad_norm": 0.18359375, "learning_rate": 0.0004925041686421904, "loss": 0.3132, "step": 59070 }, { "epoch": 157.54666666666665, "grad_norm": 0.205078125, "learning_rate": 0.0004925016216394017, "loss": 0.3031, "step": 59080 }, { "epoch": 157.57333333333332, "grad_norm": 0.177734375, "learning_rate": 0.0004924990742105527, "loss": 0.3067, "step": 59090 }, { "epoch": 157.6, "grad_norm": 0.189453125, "learning_rate": 0.0004924965263556478, "loss": 0.3036, "step": 59100 }, { "epoch": 157.62666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004924939780746915, "loss": 0.2987, "step": 59110 }, { "epoch": 157.65333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004924914293676883, "loss": 0.3118, "step": 59120 }, { "epoch": 157.68, "grad_norm": 0.189453125, "learning_rate": 0.0004924888802346427, "loss": 0.2997, "step": 59130 }, { "epoch": 157.70666666666668, "grad_norm": 0.27734375, "learning_rate": 0.0004924863306755591, "loss": 0.3012, "step": 59140 }, { "epoch": 157.73333333333332, "grad_norm": 0.208984375, "learning_rate": 0.0004924837806904419, "loss": 0.3164, "step": 59150 }, { "epoch": 157.76, "grad_norm": 0.189453125, "learning_rate": 0.000492481230279296, "loss": 0.3177, "step": 59160 }, { "epoch": 157.78666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004924786794421254, "loss": 0.3187, "step": 59170 }, { "epoch": 157.81333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004924761281789346, "loss": 0.3011, "step": 59180 }, { "epoch": 157.84, "grad_norm": 0.208984375, "learning_rate": 0.0004924735764897285, "loss": 0.3006, "step": 59190 }, { "epoch": 157.86666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004924710243745112, "loss": 0.303, "step": 59200 }, { "epoch": 157.89333333333335, "grad_norm": 0.19921875, "learning_rate": 0.0004924684718332872, "loss": 0.3025, "step": 59210 }, { "epoch": 157.92, "grad_norm": 0.1982421875, "learning_rate": 0.0004924659188660612, "loss": 0.304, "step": 59220 }, { "epoch": 157.94666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004924633654728377, "loss": 0.3051, "step": 59230 }, { "epoch": 157.97333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.000492460811653621, "loss": 0.3132, "step": 59240 }, { "epoch": 158.0, "grad_norm": 0.181640625, "learning_rate": 0.0004924582574084155, "loss": 0.3014, "step": 59250 }, { "epoch": 158.0, "eval_loss": 0.39744657278060913, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3474, "eval_samples_per_second": 1.41, "eval_steps_per_second": 0.088, "step": 59250 }, { "epoch": 158.02666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004924557027372261, "loss": 0.3244, "step": 59260 }, { "epoch": 158.05333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004924531476400568, "loss": 0.3305, "step": 59270 }, { "epoch": 158.08, "grad_norm": 0.197265625, "learning_rate": 0.0004924505921169124, "loss": 0.3144, "step": 59280 }, { "epoch": 158.10666666666665, "grad_norm": 0.306640625, "learning_rate": 0.0004924480361677973, "loss": 0.3163, "step": 59290 }, { "epoch": 158.13333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004924454797927161, "loss": 0.3071, "step": 59300 }, { "epoch": 158.16, "grad_norm": 0.1630859375, "learning_rate": 0.000492442922991673, "loss": 0.3147, "step": 59310 }, { "epoch": 158.18666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004924403657646728, "loss": 0.3097, "step": 59320 }, { "epoch": 158.21333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004924378081117199, "loss": 0.2988, "step": 59330 }, { "epoch": 158.24, "grad_norm": 0.26171875, "learning_rate": 0.0004924352500328186, "loss": 0.3026, "step": 59340 }, { "epoch": 158.26666666666668, "grad_norm": 0.2060546875, "learning_rate": 0.0004924326915279738, "loss": 0.308, "step": 59350 }, { "epoch": 158.29333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004924301325971896, "loss": 0.3043, "step": 59360 }, { "epoch": 158.32, "grad_norm": 0.19140625, "learning_rate": 0.0004924275732404706, "loss": 0.3113, "step": 59370 }, { "epoch": 158.34666666666666, "grad_norm": 0.275390625, "learning_rate": 0.0004924250134578216, "loss": 0.3106, "step": 59380 }, { "epoch": 158.37333333333333, "grad_norm": 0.388671875, "learning_rate": 0.0004924224532492466, "loss": 0.3023, "step": 59390 }, { "epoch": 158.4, "grad_norm": 0.375, "learning_rate": 0.0004924198926147505, "loss": 0.3041, "step": 59400 }, { "epoch": 158.42666666666668, "grad_norm": 0.1884765625, "learning_rate": 0.0004924173315543376, "loss": 0.311, "step": 59410 }, { "epoch": 158.45333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.0004924147700680123, "loss": 0.3192, "step": 59420 }, { "epoch": 158.48, "grad_norm": 0.1806640625, "learning_rate": 0.0004924122081557794, "loss": 0.3148, "step": 59430 }, { "epoch": 158.50666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004924096458176433, "loss": 0.3123, "step": 59440 }, { "epoch": 158.53333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004924070830536083, "loss": 0.307, "step": 59450 }, { "epoch": 158.56, "grad_norm": 0.1806640625, "learning_rate": 0.0004924045198636791, "loss": 0.3032, "step": 59460 }, { "epoch": 158.58666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004924019562478601, "loss": 0.3069, "step": 59470 }, { "epoch": 158.61333333333334, "grad_norm": 0.158203125, "learning_rate": 0.000492399392206156, "loss": 0.2995, "step": 59480 }, { "epoch": 158.64, "grad_norm": 0.279296875, "learning_rate": 0.0004923968277385711, "loss": 0.3001, "step": 59490 }, { "epoch": 158.66666666666666, "grad_norm": 0.21484375, "learning_rate": 0.0004923942628451099, "loss": 0.3158, "step": 59500 }, { "epoch": 158.69333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004923916975257771, "loss": 0.295, "step": 59510 }, { "epoch": 158.72, "grad_norm": 0.197265625, "learning_rate": 0.000492389131780577, "loss": 0.3104, "step": 59520 }, { "epoch": 158.74666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004923865656095141, "loss": 0.312, "step": 59530 }, { "epoch": 158.77333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004923839990125931, "loss": 0.3233, "step": 59540 }, { "epoch": 158.8, "grad_norm": 0.1865234375, "learning_rate": 0.0004923814319898184, "loss": 0.3102, "step": 59550 }, { "epoch": 158.82666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.0004923788645411946, "loss": 0.2992, "step": 59560 }, { "epoch": 158.85333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.000492376296666726, "loss": 0.3028, "step": 59570 }, { "epoch": 158.88, "grad_norm": 0.1796875, "learning_rate": 0.0004923737283664174, "loss": 0.3019, "step": 59580 }, { "epoch": 158.90666666666667, "grad_norm": 0.248046875, "learning_rate": 0.000492371159640273, "loss": 0.3038, "step": 59590 }, { "epoch": 158.93333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004923685904882976, "loss": 0.3051, "step": 59600 }, { "epoch": 158.96, "grad_norm": 0.1650390625, "learning_rate": 0.0004923660209104954, "loss": 0.3046, "step": 59610 }, { "epoch": 158.98666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004923634509068712, "loss": 0.3164, "step": 59620 }, { "epoch": 159.0, "eval_loss": 0.3962443768978119, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.696, "eval_samples_per_second": 1.368, "eval_steps_per_second": 0.085, "step": 59625 }, { "epoch": 159.01333333333332, "grad_norm": 0.20703125, "learning_rate": 0.0004923608804774293, "loss": 0.3069, "step": 59630 }, { "epoch": 159.04, "grad_norm": 0.322265625, "learning_rate": 0.0004923583096221744, "loss": 0.3337, "step": 59640 }, { "epoch": 159.06666666666666, "grad_norm": 0.455078125, "learning_rate": 0.000492355738341111, "loss": 0.3184, "step": 59650 }, { "epoch": 159.09333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004923531666342436, "loss": 0.3142, "step": 59660 }, { "epoch": 159.12, "grad_norm": 0.1904296875, "learning_rate": 0.0004923505945015766, "loss": 0.3115, "step": 59670 }, { "epoch": 159.14666666666668, "grad_norm": 0.21484375, "learning_rate": 0.0004923480219431145, "loss": 0.3122, "step": 59680 }, { "epoch": 159.17333333333335, "grad_norm": 0.28515625, "learning_rate": 0.000492345448958862, "loss": 0.3128, "step": 59690 }, { "epoch": 159.2, "grad_norm": 0.25, "learning_rate": 0.0004923428755488235, "loss": 0.3055, "step": 59700 }, { "epoch": 159.22666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0004923403017130037, "loss": 0.2994, "step": 59710 }, { "epoch": 159.25333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004923377274514069, "loss": 0.2988, "step": 59720 }, { "epoch": 159.28, "grad_norm": 0.2314453125, "learning_rate": 0.0004923351527640376, "loss": 0.3172, "step": 59730 }, { "epoch": 159.30666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004923325776509006, "loss": 0.2994, "step": 59740 }, { "epoch": 159.33333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004923300021120002, "loss": 0.3133, "step": 59750 }, { "epoch": 159.36, "grad_norm": 0.2255859375, "learning_rate": 0.0004923274261473409, "loss": 0.3047, "step": 59760 }, { "epoch": 159.38666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.0004923248497569274, "loss": 0.3026, "step": 59770 }, { "epoch": 159.41333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004923222729407641, "loss": 0.3077, "step": 59780 }, { "epoch": 159.44, "grad_norm": 0.189453125, "learning_rate": 0.0004923196956988555, "loss": 0.3158, "step": 59790 }, { "epoch": 159.46666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004923171180312062, "loss": 0.3196, "step": 59800 }, { "epoch": 159.49333333333334, "grad_norm": 0.203125, "learning_rate": 0.0004923145399378207, "loss": 0.3092, "step": 59810 }, { "epoch": 159.52, "grad_norm": 0.189453125, "learning_rate": 0.0004923119614187036, "loss": 0.3129, "step": 59820 }, { "epoch": 159.54666666666665, "grad_norm": 0.205078125, "learning_rate": 0.0004923093824738594, "loss": 0.3035, "step": 59830 }, { "epoch": 159.57333333333332, "grad_norm": 0.318359375, "learning_rate": 0.0004923068031032925, "loss": 0.3065, "step": 59840 }, { "epoch": 159.6, "grad_norm": 0.302734375, "learning_rate": 0.0004923042233070075, "loss": 0.3026, "step": 59850 }, { "epoch": 159.62666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004923016430850092, "loss": 0.2988, "step": 59860 }, { "epoch": 159.65333333333334, "grad_norm": 0.212890625, "learning_rate": 0.0004922990624373016, "loss": 0.3115, "step": 59870 }, { "epoch": 159.68, "grad_norm": 0.18359375, "learning_rate": 0.0004922964813638898, "loss": 0.3002, "step": 59880 }, { "epoch": 159.70666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.0004922938998647779, "loss": 0.3009, "step": 59890 }, { "epoch": 159.73333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004922913179399706, "loss": 0.3163, "step": 59900 }, { "epoch": 159.76, "grad_norm": 0.2021484375, "learning_rate": 0.0004922887355894726, "loss": 0.3176, "step": 59910 }, { "epoch": 159.78666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004922861528132882, "loss": 0.3184, "step": 59920 }, { "epoch": 159.81333333333333, "grad_norm": 0.220703125, "learning_rate": 0.000492283569611422, "loss": 0.3008, "step": 59930 }, { "epoch": 159.84, "grad_norm": 0.1806640625, "learning_rate": 0.0004922809859838785, "loss": 0.3005, "step": 59940 }, { "epoch": 159.86666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004922784019306624, "loss": 0.302, "step": 59950 }, { "epoch": 159.89333333333335, "grad_norm": 0.1689453125, "learning_rate": 0.0004922758174517781, "loss": 0.3028, "step": 59960 }, { "epoch": 159.92, "grad_norm": 0.240234375, "learning_rate": 0.0004922732325472301, "loss": 0.3036, "step": 59970 }, { "epoch": 159.94666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004922706472170231, "loss": 0.306, "step": 59980 }, { "epoch": 159.97333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004922680614611616, "loss": 0.3125, "step": 59990 }, { "epoch": 160.0, "grad_norm": 0.18359375, "learning_rate": 0.00049226547527965, "loss": 0.3015, "step": 60000 }, { "epoch": 160.0, "eval_loss": 0.39841678738594055, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3741, "eval_samples_per_second": 1.407, "eval_steps_per_second": 0.088, "step": 60000 }, { "epoch": 160.02666666666667, "grad_norm": 0.203125, "learning_rate": 0.000492262888672493, "loss": 0.3244, "step": 60010 }, { "epoch": 160.05333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004922603016396951, "loss": 0.3297, "step": 60020 }, { "epoch": 160.08, "grad_norm": 0.29296875, "learning_rate": 0.0004922577141812609, "loss": 0.3137, "step": 60030 }, { "epoch": 160.10666666666665, "grad_norm": 0.21484375, "learning_rate": 0.0004922551262971947, "loss": 0.3158, "step": 60040 }, { "epoch": 160.13333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004922525379875013, "loss": 0.3072, "step": 60050 }, { "epoch": 160.16, "grad_norm": 0.2353515625, "learning_rate": 0.0004922499492521853, "loss": 0.3138, "step": 60060 }, { "epoch": 160.18666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.000492247360091251, "loss": 0.31, "step": 60070 }, { "epoch": 160.21333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004922447705047031, "loss": 0.2979, "step": 60080 }, { "epoch": 160.24, "grad_norm": 0.216796875, "learning_rate": 0.0004922421804925461, "loss": 0.302, "step": 60090 }, { "epoch": 160.26666666666668, "grad_norm": 0.2080078125, "learning_rate": 0.0004922395900547845, "loss": 0.308, "step": 60100 }, { "epoch": 160.29333333333332, "grad_norm": 0.2099609375, "learning_rate": 0.0004922369991914231, "loss": 0.3034, "step": 60110 }, { "epoch": 160.32, "grad_norm": 0.173828125, "learning_rate": 0.0004922344079024662, "loss": 0.3108, "step": 60120 }, { "epoch": 160.34666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004922318161879184, "loss": 0.3101, "step": 60130 }, { "epoch": 160.37333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004922292240477844, "loss": 0.3021, "step": 60140 }, { "epoch": 160.4, "grad_norm": 0.19921875, "learning_rate": 0.0004922266314820686, "loss": 0.3036, "step": 60150 }, { "epoch": 160.42666666666668, "grad_norm": 0.1767578125, "learning_rate": 0.0004922240384907754, "loss": 0.3107, "step": 60160 }, { "epoch": 160.45333333333335, "grad_norm": 0.2080078125, "learning_rate": 0.0004922214450739097, "loss": 0.3192, "step": 60170 }, { "epoch": 160.48, "grad_norm": 0.2578125, "learning_rate": 0.0004922188512314759, "loss": 0.3148, "step": 60180 }, { "epoch": 160.50666666666666, "grad_norm": 0.173828125, "learning_rate": 0.0004922162569634786, "loss": 0.3113, "step": 60190 }, { "epoch": 160.53333333333333, "grad_norm": 0.1552734375, "learning_rate": 0.0004922136622699223, "loss": 0.3064, "step": 60200 }, { "epoch": 160.56, "grad_norm": 0.1806640625, "learning_rate": 0.0004922110671508115, "loss": 0.3034, "step": 60210 }, { "epoch": 160.58666666666667, "grad_norm": 0.193359375, "learning_rate": 0.000492208471606151, "loss": 0.3066, "step": 60220 }, { "epoch": 160.61333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.000492205875635945, "loss": 0.299, "step": 60230 }, { "epoch": 160.64, "grad_norm": 0.201171875, "learning_rate": 0.0004922032792401984, "loss": 0.2994, "step": 60240 }, { "epoch": 160.66666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004922006824189156, "loss": 0.3162, "step": 60250 }, { "epoch": 160.69333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004921980851721011, "loss": 0.2943, "step": 60260 }, { "epoch": 160.72, "grad_norm": 0.236328125, "learning_rate": 0.0004921954874997596, "loss": 0.3102, "step": 60270 }, { "epoch": 160.74666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004921928894018957, "loss": 0.3121, "step": 60280 }, { "epoch": 160.77333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004921902908785138, "loss": 0.3226, "step": 60290 }, { "epoch": 160.8, "grad_norm": 0.244140625, "learning_rate": 0.0004921876919296185, "loss": 0.3097, "step": 60300 }, { "epoch": 160.82666666666665, "grad_norm": 0.2216796875, "learning_rate": 0.0004921850925552144, "loss": 0.2988, "step": 60310 }, { "epoch": 160.85333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004921824927553061, "loss": 0.3024, "step": 60320 }, { "epoch": 160.88, "grad_norm": 0.189453125, "learning_rate": 0.0004921798925298981, "loss": 0.3024, "step": 60330 }, { "epoch": 160.90666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004921772918789951, "loss": 0.3043, "step": 60340 }, { "epoch": 160.93333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004921746908026016, "loss": 0.3045, "step": 60350 }, { "epoch": 160.96, "grad_norm": 0.1923828125, "learning_rate": 0.0004921720893007221, "loss": 0.3045, "step": 60360 }, { "epoch": 160.98666666666668, "grad_norm": 0.2236328125, "learning_rate": 0.0004921694873733612, "loss": 0.3158, "step": 60370 }, { "epoch": 161.0, "eval_loss": 0.39823123812675476, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.2635, "eval_samples_per_second": 1.305, "eval_steps_per_second": 0.082, "step": 60375 }, { "epoch": 161.01333333333332, "grad_norm": 0.21484375, "learning_rate": 0.0004921668850205235, "loss": 0.3066, "step": 60380 }, { "epoch": 161.04, "grad_norm": 0.1943359375, "learning_rate": 0.0004921642822422136, "loss": 0.3336, "step": 60390 }, { "epoch": 161.06666666666666, "grad_norm": 0.259765625, "learning_rate": 0.0004921616790384359, "loss": 0.3173, "step": 60400 }, { "epoch": 161.09333333333333, "grad_norm": 0.220703125, "learning_rate": 0.0004921590754091952, "loss": 0.3144, "step": 60410 }, { "epoch": 161.12, "grad_norm": 0.1904296875, "learning_rate": 0.000492156471354496, "loss": 0.3112, "step": 60420 }, { "epoch": 161.14666666666668, "grad_norm": 0.1904296875, "learning_rate": 0.000492153866874343, "loss": 0.3117, "step": 60430 }, { "epoch": 161.17333333333335, "grad_norm": 0.24609375, "learning_rate": 0.0004921512619687403, "loss": 0.3116, "step": 60440 }, { "epoch": 161.2, "grad_norm": 0.2255859375, "learning_rate": 0.0004921486566376931, "loss": 0.3055, "step": 60450 }, { "epoch": 161.22666666666666, "grad_norm": 0.1826171875, "learning_rate": 0.0004921460508812056, "loss": 0.2996, "step": 60460 }, { "epoch": 161.25333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004921434446992824, "loss": 0.2992, "step": 60470 }, { "epoch": 161.28, "grad_norm": 0.2138671875, "learning_rate": 0.0004921408380919282, "loss": 0.3176, "step": 60480 }, { "epoch": 161.30666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004921382310591475, "loss": 0.2995, "step": 60490 }, { "epoch": 161.33333333333334, "grad_norm": 0.2373046875, "learning_rate": 0.000492135623600945, "loss": 0.3133, "step": 60500 }, { "epoch": 161.36, "grad_norm": 0.2314453125, "learning_rate": 0.0004921330157173252, "loss": 0.3054, "step": 60510 }, { "epoch": 161.38666666666666, "grad_norm": 0.2451171875, "learning_rate": 0.0004921304074082926, "loss": 0.3024, "step": 60520 }, { "epoch": 161.41333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004921277986738517, "loss": 0.3083, "step": 60530 }, { "epoch": 161.44, "grad_norm": 0.25, "learning_rate": 0.0004921251895140074, "loss": 0.3159, "step": 60540 }, { "epoch": 161.46666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004921225799287641, "loss": 0.319, "step": 60550 }, { "epoch": 161.49333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004921199699181265, "loss": 0.3091, "step": 60560 }, { "epoch": 161.52, "grad_norm": 0.2216796875, "learning_rate": 0.0004921173594820989, "loss": 0.3131, "step": 60570 }, { "epoch": 161.54666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.0004921147486206863, "loss": 0.3027, "step": 60580 }, { "epoch": 161.57333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004921121373338928, "loss": 0.3063, "step": 60590 }, { "epoch": 161.6, "grad_norm": 0.2119140625, "learning_rate": 0.0004921095256217234, "loss": 0.3033, "step": 60600 }, { "epoch": 161.62666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004921069134841826, "loss": 0.2983, "step": 60610 }, { "epoch": 161.65333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.0004921043009212748, "loss": 0.3111, "step": 60620 }, { "epoch": 161.68, "grad_norm": 0.1875, "learning_rate": 0.0004921016879330048, "loss": 0.2993, "step": 60630 }, { "epoch": 161.70666666666668, "grad_norm": 0.2001953125, "learning_rate": 0.0004920990745193771, "loss": 0.3006, "step": 60640 }, { "epoch": 161.73333333333332, "grad_norm": 0.2021484375, "learning_rate": 0.0004920964606803963, "loss": 0.3159, "step": 60650 }, { "epoch": 161.76, "grad_norm": 0.1943359375, "learning_rate": 0.0004920938464160669, "loss": 0.3174, "step": 60660 }, { "epoch": 161.78666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004920912317263937, "loss": 0.3186, "step": 60670 }, { "epoch": 161.81333333333333, "grad_norm": 0.2294921875, "learning_rate": 0.0004920886166113811, "loss": 0.3005, "step": 60680 }, { "epoch": 161.84, "grad_norm": 0.1630859375, "learning_rate": 0.0004920860010710339, "loss": 0.3003, "step": 60690 }, { "epoch": 161.86666666666667, "grad_norm": 0.1669921875, "learning_rate": 0.0004920833851053565, "loss": 0.3027, "step": 60700 }, { "epoch": 161.89333333333335, "grad_norm": 0.208984375, "learning_rate": 0.0004920807687143536, "loss": 0.3027, "step": 60710 }, { "epoch": 161.92, "grad_norm": 0.20703125, "learning_rate": 0.0004920781518980297, "loss": 0.3037, "step": 60720 }, { "epoch": 161.94666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004920755346563895, "loss": 0.305, "step": 60730 }, { "epoch": 161.97333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004920729169894376, "loss": 0.3123, "step": 60740 }, { "epoch": 162.0, "grad_norm": 0.2158203125, "learning_rate": 0.0004920702988971784, "loss": 0.3014, "step": 60750 }, { "epoch": 162.0, "eval_loss": 0.3973372280597687, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2134, "eval_samples_per_second": 1.427, "eval_steps_per_second": 0.089, "step": 60750 }, { "epoch": 162.02666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004920676803796168, "loss": 0.3235, "step": 60760 }, { "epoch": 162.05333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004920650614367572, "loss": 0.3299, "step": 60770 }, { "epoch": 162.08, "grad_norm": 0.255859375, "learning_rate": 0.0004920624420686043, "loss": 0.3134, "step": 60780 }, { "epoch": 162.10666666666665, "grad_norm": 0.189453125, "learning_rate": 0.0004920598222751627, "loss": 0.3153, "step": 60790 }, { "epoch": 162.13333333333333, "grad_norm": 0.23046875, "learning_rate": 0.0004920572020564369, "loss": 0.3077, "step": 60800 }, { "epoch": 162.16, "grad_norm": 0.1904296875, "learning_rate": 0.0004920545814124317, "loss": 0.3141, "step": 60810 }, { "epoch": 162.18666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004920519603431513, "loss": 0.3096, "step": 60820 }, { "epoch": 162.21333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004920493388486008, "loss": 0.2981, "step": 60830 }, { "epoch": 162.24, "grad_norm": 0.251953125, "learning_rate": 0.0004920467169287846, "loss": 0.3021, "step": 60840 }, { "epoch": 162.26666666666668, "grad_norm": 0.2373046875, "learning_rate": 0.0004920440945837072, "loss": 0.3079, "step": 60850 }, { "epoch": 162.29333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004920414718133732, "loss": 0.304, "step": 60860 }, { "epoch": 162.32, "grad_norm": 0.1943359375, "learning_rate": 0.0004920388486177875, "loss": 0.3107, "step": 60870 }, { "epoch": 162.34666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004920362249969544, "loss": 0.3096, "step": 60880 }, { "epoch": 162.37333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004920336009508787, "loss": 0.3021, "step": 60890 }, { "epoch": 162.4, "grad_norm": 0.2177734375, "learning_rate": 0.0004920309764795648, "loss": 0.3037, "step": 60900 }, { "epoch": 162.42666666666668, "grad_norm": 0.1884765625, "learning_rate": 0.0004920283515830176, "loss": 0.3099, "step": 60910 }, { "epoch": 162.45333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0004920257262612416, "loss": 0.3189, "step": 60920 }, { "epoch": 162.48, "grad_norm": 0.1884765625, "learning_rate": 0.0004920231005142412, "loss": 0.3142, "step": 60930 }, { "epoch": 162.50666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004920204743420212, "loss": 0.3114, "step": 60940 }, { "epoch": 162.53333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0004920178477445863, "loss": 0.3063, "step": 60950 }, { "epoch": 162.56, "grad_norm": 0.1884765625, "learning_rate": 0.000492015220721941, "loss": 0.3029, "step": 60960 }, { "epoch": 162.58666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004920125932740899, "loss": 0.306, "step": 60970 }, { "epoch": 162.61333333333334, "grad_norm": 0.1630859375, "learning_rate": 0.0004920099654010376, "loss": 0.2988, "step": 60980 }, { "epoch": 162.64, "grad_norm": 0.18359375, "learning_rate": 0.0004920073371027888, "loss": 0.2994, "step": 60990 }, { "epoch": 162.66666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004920047083793481, "loss": 0.3159, "step": 61000 }, { "epoch": 162.69333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.00049200207923072, "loss": 0.2945, "step": 61010 }, { "epoch": 162.72, "grad_norm": 0.26953125, "learning_rate": 0.0004919994496569094, "loss": 0.3099, "step": 61020 }, { "epoch": 162.74666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004919968196579206, "loss": 0.3121, "step": 61030 }, { "epoch": 162.77333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004919941892337584, "loss": 0.3227, "step": 61040 }, { "epoch": 162.8, "grad_norm": 0.265625, "learning_rate": 0.0004919915583844273, "loss": 0.3091, "step": 61050 }, { "epoch": 162.82666666666665, "grad_norm": 0.18359375, "learning_rate": 0.0004919889271099322, "loss": 0.2982, "step": 61060 }, { "epoch": 162.85333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004919862954102773, "loss": 0.3019, "step": 61070 }, { "epoch": 162.88, "grad_norm": 0.173828125, "learning_rate": 0.0004919836632854675, "loss": 0.3012, "step": 61080 }, { "epoch": 162.90666666666667, "grad_norm": 0.248046875, "learning_rate": 0.0004919810307355075, "loss": 0.3034, "step": 61090 }, { "epoch": 162.93333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004919783977604017, "loss": 0.3037, "step": 61100 }, { "epoch": 162.96, "grad_norm": 0.2138671875, "learning_rate": 0.0004919757643601548, "loss": 0.3037, "step": 61110 }, { "epoch": 162.98666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.0004919731305347714, "loss": 0.3152, "step": 61120 }, { "epoch": 163.0, "eval_loss": 0.39925041794776917, "eval_model_preparation_time": 0.0029, "eval_runtime": 15.4891, "eval_samples_per_second": 1.033, "eval_steps_per_second": 0.065, "step": 61125 }, { "epoch": 163.01333333333332, "grad_norm": 0.216796875, "learning_rate": 0.0004919704962842563, "loss": 0.3065, "step": 61130 }, { "epoch": 163.04, "grad_norm": 0.1875, "learning_rate": 0.000491967861608614, "loss": 0.3326, "step": 61140 }, { "epoch": 163.06666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0004919652265078492, "loss": 0.3178, "step": 61150 }, { "epoch": 163.09333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004919625909819662, "loss": 0.3144, "step": 61160 }, { "epoch": 163.12, "grad_norm": 0.2001953125, "learning_rate": 0.0004919599550309701, "loss": 0.3103, "step": 61170 }, { "epoch": 163.14666666666668, "grad_norm": 0.2314453125, "learning_rate": 0.0004919573186548654, "loss": 0.3111, "step": 61180 }, { "epoch": 163.17333333333335, "grad_norm": 0.212890625, "learning_rate": 0.0004919546818536565, "loss": 0.3114, "step": 61190 }, { "epoch": 163.2, "grad_norm": 0.2060546875, "learning_rate": 0.0004919520446273482, "loss": 0.305, "step": 61200 }, { "epoch": 163.22666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004919494069759451, "loss": 0.2989, "step": 61210 }, { "epoch": 163.25333333333333, "grad_norm": 0.189453125, "learning_rate": 0.000491946768899452, "loss": 0.2988, "step": 61220 }, { "epoch": 163.28, "grad_norm": 0.2255859375, "learning_rate": 0.0004919441303978733, "loss": 0.3166, "step": 61230 }, { "epoch": 163.30666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004919414914712137, "loss": 0.2992, "step": 61240 }, { "epoch": 163.33333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.000491938852119478, "loss": 0.3131, "step": 61250 }, { "epoch": 163.36, "grad_norm": 0.236328125, "learning_rate": 0.0004919362123426706, "loss": 0.3044, "step": 61260 }, { "epoch": 163.38666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004919335721407963, "loss": 0.3018, "step": 61270 }, { "epoch": 163.41333333333333, "grad_norm": 0.310546875, "learning_rate": 0.0004919309315138596, "loss": 0.3078, "step": 61280 }, { "epoch": 163.44, "grad_norm": 0.201171875, "learning_rate": 0.0004919282904618653, "loss": 0.315, "step": 61290 }, { "epoch": 163.46666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004919256489848179, "loss": 0.3191, "step": 61300 }, { "epoch": 163.49333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004919230070827221, "loss": 0.3085, "step": 61310 }, { "epoch": 163.52, "grad_norm": 0.3359375, "learning_rate": 0.0004919203647555825, "loss": 0.3124, "step": 61320 }, { "epoch": 163.54666666666665, "grad_norm": 0.365234375, "learning_rate": 0.0004919177220034038, "loss": 0.3022, "step": 61330 }, { "epoch": 163.57333333333332, "grad_norm": 0.2412109375, "learning_rate": 0.0004919150788261907, "loss": 0.3056, "step": 61340 }, { "epoch": 163.6, "grad_norm": 0.4140625, "learning_rate": 0.0004919124352239478, "loss": 0.3025, "step": 61350 }, { "epoch": 163.62666666666667, "grad_norm": 0.458984375, "learning_rate": 0.0004919097911966796, "loss": 0.298, "step": 61360 }, { "epoch": 163.65333333333334, "grad_norm": 0.515625, "learning_rate": 0.0004919071467443909, "loss": 0.3112, "step": 61370 }, { "epoch": 163.68, "grad_norm": 0.23828125, "learning_rate": 0.0004919045018670863, "loss": 0.2986, "step": 61380 }, { "epoch": 163.70666666666668, "grad_norm": 0.279296875, "learning_rate": 0.0004919018565647705, "loss": 0.3004, "step": 61390 }, { "epoch": 163.73333333333332, "grad_norm": 0.2001953125, "learning_rate": 0.000491899210837448, "loss": 0.3161, "step": 61400 }, { "epoch": 163.76, "grad_norm": 0.185546875, "learning_rate": 0.0004918965646851237, "loss": 0.317, "step": 61410 }, { "epoch": 163.78666666666666, "grad_norm": 0.201171875, "learning_rate": 0.000491893918107802, "loss": 0.3176, "step": 61420 }, { "epoch": 163.81333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004918912711054877, "loss": 0.2998, "step": 61430 }, { "epoch": 163.84, "grad_norm": 0.20703125, "learning_rate": 0.0004918886236781854, "loss": 0.3, "step": 61440 }, { "epoch": 163.86666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004918859758258996, "loss": 0.3026, "step": 61450 }, { "epoch": 163.89333333333335, "grad_norm": 0.2177734375, "learning_rate": 0.0004918833275486353, "loss": 0.302, "step": 61460 }, { "epoch": 163.92, "grad_norm": 0.2373046875, "learning_rate": 0.0004918806788463969, "loss": 0.3032, "step": 61470 }, { "epoch": 163.94666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004918780297191891, "loss": 0.3051, "step": 61480 }, { "epoch": 163.97333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004918753801670166, "loss": 0.3122, "step": 61490 }, { "epoch": 164.0, "grad_norm": 0.17578125, "learning_rate": 0.000491872730189884, "loss": 0.3008, "step": 61500 }, { "epoch": 164.0, "eval_loss": 0.3985505998134613, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7099, "eval_samples_per_second": 1.494, "eval_steps_per_second": 0.093, "step": 61500 }, { "epoch": 164.02666666666667, "grad_norm": 0.2177734375, "learning_rate": 0.0004918700797877959, "loss": 0.3232, "step": 61510 }, { "epoch": 164.05333333333334, "grad_norm": 0.205078125, "learning_rate": 0.0004918674289607571, "loss": 0.33, "step": 61520 }, { "epoch": 164.08, "grad_norm": 0.1953125, "learning_rate": 0.0004918647777087721, "loss": 0.3138, "step": 61530 }, { "epoch": 164.10666666666665, "grad_norm": 0.181640625, "learning_rate": 0.0004918621260318458, "loss": 0.3151, "step": 61540 }, { "epoch": 164.13333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004918594739299827, "loss": 0.3066, "step": 61550 }, { "epoch": 164.16, "grad_norm": 0.224609375, "learning_rate": 0.0004918568214031874, "loss": 0.3134, "step": 61560 }, { "epoch": 164.18666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004918541684514645, "loss": 0.3094, "step": 61570 }, { "epoch": 164.21333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004918515150748189, "loss": 0.2977, "step": 61580 }, { "epoch": 164.24, "grad_norm": 0.22265625, "learning_rate": 0.0004918488612732552, "loss": 0.3019, "step": 61590 }, { "epoch": 164.26666666666668, "grad_norm": 0.1884765625, "learning_rate": 0.0004918462070467779, "loss": 0.3071, "step": 61600 }, { "epoch": 164.29333333333332, "grad_norm": 0.181640625, "learning_rate": 0.000491843552395392, "loss": 0.303, "step": 61610 }, { "epoch": 164.32, "grad_norm": 0.162109375, "learning_rate": 0.0004918408973191016, "loss": 0.3101, "step": 61620 }, { "epoch": 164.34666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004918382418179119, "loss": 0.3088, "step": 61630 }, { "epoch": 164.37333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004918355858918274, "loss": 0.3019, "step": 61640 }, { "epoch": 164.4, "grad_norm": 0.201171875, "learning_rate": 0.0004918329295408527, "loss": 0.3025, "step": 61650 }, { "epoch": 164.42666666666668, "grad_norm": 0.1787109375, "learning_rate": 0.0004918302727649925, "loss": 0.3097, "step": 61660 }, { "epoch": 164.45333333333335, "grad_norm": 0.23046875, "learning_rate": 0.0004918276155642514, "loss": 0.3187, "step": 61670 }, { "epoch": 164.48, "grad_norm": 0.2275390625, "learning_rate": 0.0004918249579386342, "loss": 0.314, "step": 61680 }, { "epoch": 164.50666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004918222998881455, "loss": 0.311, "step": 61690 }, { "epoch": 164.53333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.00049181964141279, "loss": 0.3065, "step": 61700 }, { "epoch": 164.56, "grad_norm": 0.19921875, "learning_rate": 0.0004918169825125723, "loss": 0.3028, "step": 61710 }, { "epoch": 164.58666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004918143231874972, "loss": 0.3066, "step": 61720 }, { "epoch": 164.61333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004918116634375692, "loss": 0.2981, "step": 61730 }, { "epoch": 164.64, "grad_norm": 0.173828125, "learning_rate": 0.0004918090032627932, "loss": 0.2989, "step": 61740 }, { "epoch": 164.66666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004918063426631736, "loss": 0.3153, "step": 61750 }, { "epoch": 164.69333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004918036816387153, "loss": 0.2936, "step": 61760 }, { "epoch": 164.72, "grad_norm": 0.259765625, "learning_rate": 0.0004918010201894228, "loss": 0.3098, "step": 61770 }, { "epoch": 164.74666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004917983583153009, "loss": 0.3115, "step": 61780 }, { "epoch": 164.77333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004917956960163543, "loss": 0.3215, "step": 61790 }, { "epoch": 164.8, "grad_norm": 0.1787109375, "learning_rate": 0.0004917930332925876, "loss": 0.3091, "step": 61800 }, { "epoch": 164.82666666666665, "grad_norm": 0.189453125, "learning_rate": 0.0004917903701440054, "loss": 0.2978, "step": 61810 }, { "epoch": 164.85333333333332, "grad_norm": 0.1845703125, "learning_rate": 0.0004917877065706126, "loss": 0.302, "step": 61820 }, { "epoch": 164.88, "grad_norm": 0.2119140625, "learning_rate": 0.0004917850425724137, "loss": 0.3014, "step": 61830 }, { "epoch": 164.90666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004917823781494134, "loss": 0.3032, "step": 61840 }, { "epoch": 164.93333333333334, "grad_norm": 0.244140625, "learning_rate": 0.0004917797133016166, "loss": 0.3038, "step": 61850 }, { "epoch": 164.96, "grad_norm": 0.2080078125, "learning_rate": 0.0004917770480290276, "loss": 0.3035, "step": 61860 }, { "epoch": 164.98666666666668, "grad_norm": 0.197265625, "learning_rate": 0.0004917743823316513, "loss": 0.3151, "step": 61870 }, { "epoch": 165.0, "eval_loss": 0.3975881338119507, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6766, "eval_samples_per_second": 1.499, "eval_steps_per_second": 0.094, "step": 61875 }, { "epoch": 165.01333333333332, "grad_norm": 0.1923828125, "learning_rate": 0.0004917717162094924, "loss": 0.3062, "step": 61880 }, { "epoch": 165.04, "grad_norm": 0.1767578125, "learning_rate": 0.0004917690496625556, "loss": 0.333, "step": 61890 }, { "epoch": 165.06666666666666, "grad_norm": 0.236328125, "learning_rate": 0.0004917663826908455, "loss": 0.3174, "step": 61900 }, { "epoch": 165.09333333333333, "grad_norm": 0.216796875, "learning_rate": 0.0004917637152943668, "loss": 0.314, "step": 61910 }, { "epoch": 165.12, "grad_norm": 0.17578125, "learning_rate": 0.0004917610474731242, "loss": 0.3105, "step": 61920 }, { "epoch": 165.14666666666668, "grad_norm": 0.24609375, "learning_rate": 0.0004917583792271225, "loss": 0.3108, "step": 61930 }, { "epoch": 165.17333333333335, "grad_norm": 0.255859375, "learning_rate": 0.0004917557105563661, "loss": 0.3115, "step": 61940 }, { "epoch": 165.2, "grad_norm": 0.220703125, "learning_rate": 0.0004917530414608601, "loss": 0.3045, "step": 61950 }, { "epoch": 165.22666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004917503719406087, "loss": 0.2989, "step": 61960 }, { "epoch": 165.25333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004917477019956171, "loss": 0.2987, "step": 61970 }, { "epoch": 165.28, "grad_norm": 0.2392578125, "learning_rate": 0.0004917450316258895, "loss": 0.3168, "step": 61980 }, { "epoch": 165.30666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004917423608314311, "loss": 0.2987, "step": 61990 }, { "epoch": 165.33333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004917396896122461, "loss": 0.3133, "step": 62000 }, { "epoch": 165.36, "grad_norm": 0.2099609375, "learning_rate": 0.0004917370179683396, "loss": 0.3037, "step": 62010 }, { "epoch": 165.38666666666666, "grad_norm": 0.2392578125, "learning_rate": 0.000491734345899716, "loss": 0.3015, "step": 62020 }, { "epoch": 165.41333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004917316734063801, "loss": 0.3074, "step": 62030 }, { "epoch": 165.44, "grad_norm": 0.208984375, "learning_rate": 0.0004917290004883366, "loss": 0.3146, "step": 62040 }, { "epoch": 165.46666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004917263271455903, "loss": 0.3185, "step": 62050 }, { "epoch": 165.49333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004917236533781456, "loss": 0.3081, "step": 62060 }, { "epoch": 165.52, "grad_norm": 0.2021484375, "learning_rate": 0.0004917209791860076, "loss": 0.3124, "step": 62070 }, { "epoch": 165.54666666666665, "grad_norm": 0.197265625, "learning_rate": 0.0004917183045691807, "loss": 0.3021, "step": 62080 }, { "epoch": 165.57333333333332, "grad_norm": 0.2001953125, "learning_rate": 0.0004917156295276697, "loss": 0.3058, "step": 62090 }, { "epoch": 165.6, "grad_norm": 0.203125, "learning_rate": 0.0004917129540614793, "loss": 0.3026, "step": 62100 }, { "epoch": 165.62666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004917102781706142, "loss": 0.2978, "step": 62110 }, { "epoch": 165.65333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004917076018550791, "loss": 0.3105, "step": 62120 }, { "epoch": 165.68, "grad_norm": 0.1943359375, "learning_rate": 0.0004917049251148786, "loss": 0.2992, "step": 62130 }, { "epoch": 165.70666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0004917022479500176, "loss": 0.2998, "step": 62140 }, { "epoch": 165.73333333333332, "grad_norm": 0.21484375, "learning_rate": 0.0004916995703605008, "loss": 0.3154, "step": 62150 }, { "epoch": 165.76, "grad_norm": 0.212890625, "learning_rate": 0.0004916968923463326, "loss": 0.3168, "step": 62160 }, { "epoch": 165.78666666666666, "grad_norm": 0.208984375, "learning_rate": 0.000491694213907518, "loss": 0.3178, "step": 62170 }, { "epoch": 165.81333333333333, "grad_norm": 0.20703125, "learning_rate": 0.0004916915350440616, "loss": 0.3004, "step": 62180 }, { "epoch": 165.84, "grad_norm": 0.185546875, "learning_rate": 0.0004916888557559681, "loss": 0.3, "step": 62190 }, { "epoch": 165.86666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004916861760432422, "loss": 0.3019, "step": 62200 }, { "epoch": 165.89333333333335, "grad_norm": 0.1787109375, "learning_rate": 0.0004916834959058888, "loss": 0.3013, "step": 62210 }, { "epoch": 165.92, "grad_norm": 0.2216796875, "learning_rate": 0.0004916808153439124, "loss": 0.3038, "step": 62220 }, { "epoch": 165.94666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004916781343573176, "loss": 0.305, "step": 62230 }, { "epoch": 165.97333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004916754529461095, "loss": 0.3119, "step": 62240 }, { "epoch": 166.0, "grad_norm": 0.1767578125, "learning_rate": 0.0004916727711102924, "loss": 0.3005, "step": 62250 }, { "epoch": 166.0, "eval_loss": 0.39830076694488525, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.7282, "eval_samples_per_second": 1.364, "eval_steps_per_second": 0.085, "step": 62250 }, { "epoch": 166.02666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004916700888498713, "loss": 0.3232, "step": 62260 }, { "epoch": 166.05333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004916674061648507, "loss": 0.3297, "step": 62270 }, { "epoch": 166.08, "grad_norm": 0.2333984375, "learning_rate": 0.0004916647230552354, "loss": 0.3131, "step": 62280 }, { "epoch": 166.10666666666665, "grad_norm": 0.19921875, "learning_rate": 0.0004916620395210302, "loss": 0.3147, "step": 62290 }, { "epoch": 166.13333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004916593555622398, "loss": 0.3065, "step": 62300 }, { "epoch": 166.16, "grad_norm": 0.2138671875, "learning_rate": 0.0004916566711788688, "loss": 0.3137, "step": 62310 }, { "epoch": 166.18666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.000491653986370922, "loss": 0.3087, "step": 62320 }, { "epoch": 166.21333333333334, "grad_norm": 0.28515625, "learning_rate": 0.0004916513011384041, "loss": 0.2977, "step": 62330 }, { "epoch": 166.24, "grad_norm": 0.197265625, "learning_rate": 0.0004916486154813198, "loss": 0.3017, "step": 62340 }, { "epoch": 166.26666666666668, "grad_norm": 0.2353515625, "learning_rate": 0.0004916459293996738, "loss": 0.3076, "step": 62350 }, { "epoch": 166.29333333333332, "grad_norm": 0.1796875, "learning_rate": 0.0004916432428934708, "loss": 0.3028, "step": 62360 }, { "epoch": 166.32, "grad_norm": 0.1689453125, "learning_rate": 0.0004916405559627156, "loss": 0.3098, "step": 62370 }, { "epoch": 166.34666666666666, "grad_norm": 0.193359375, "learning_rate": 0.000491637868607413, "loss": 0.3089, "step": 62380 }, { "epoch": 166.37333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004916351808275676, "loss": 0.3014, "step": 62390 }, { "epoch": 166.4, "grad_norm": 0.2119140625, "learning_rate": 0.000491632492623184, "loss": 0.3026, "step": 62400 }, { "epoch": 166.42666666666668, "grad_norm": 0.203125, "learning_rate": 0.0004916298039942672, "loss": 0.3099, "step": 62410 }, { "epoch": 166.45333333333335, "grad_norm": 0.1962890625, "learning_rate": 0.0004916271149408216, "loss": 0.3181, "step": 62420 }, { "epoch": 166.48, "grad_norm": 0.240234375, "learning_rate": 0.0004916244254628523, "loss": 0.3137, "step": 62430 }, { "epoch": 166.50666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004916217355603637, "loss": 0.3108, "step": 62440 }, { "epoch": 166.53333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004916190452333608, "loss": 0.3059, "step": 62450 }, { "epoch": 166.56, "grad_norm": 0.2138671875, "learning_rate": 0.000491616354481848, "loss": 0.3022, "step": 62460 }, { "epoch": 166.58666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004916136633058303, "loss": 0.3065, "step": 62470 }, { "epoch": 166.61333333333334, "grad_norm": 0.169921875, "learning_rate": 0.0004916109717053124, "loss": 0.298, "step": 62480 }, { "epoch": 166.64, "grad_norm": 0.306640625, "learning_rate": 0.0004916082796802989, "loss": 0.2986, "step": 62490 }, { "epoch": 166.66666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004916055872307946, "loss": 0.3144, "step": 62500 }, { "epoch": 166.69333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004916028943568043, "loss": 0.2938, "step": 62510 }, { "epoch": 166.72, "grad_norm": 1.015625, "learning_rate": 0.0004916002010583325, "loss": 0.31, "step": 62520 }, { "epoch": 166.74666666666667, "grad_norm": 0.412109375, "learning_rate": 0.0004915975073353842, "loss": 0.3115, "step": 62530 }, { "epoch": 166.77333333333334, "grad_norm": 5.0625, "learning_rate": 0.000491594813187964, "loss": 0.334, "step": 62540 }, { "epoch": 166.8, "grad_norm": 1.8203125, "learning_rate": 0.0004915921186160768, "loss": 0.3276, "step": 62550 }, { "epoch": 166.82666666666665, "grad_norm": 6.6875, "learning_rate": 0.000491589423619727, "loss": 0.3095, "step": 62560 }, { "epoch": 166.85333333333332, "grad_norm": 0.482421875, "learning_rate": 0.0004915867281989196, "loss": 0.3116, "step": 62570 }, { "epoch": 166.88, "grad_norm": 0.291015625, "learning_rate": 0.0004915840323536592, "loss": 0.3016, "step": 62580 }, { "epoch": 166.90666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004915813360839508, "loss": 0.3024, "step": 62590 }, { "epoch": 166.93333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004915786393897987, "loss": 0.3028, "step": 62600 }, { "epoch": 166.96, "grad_norm": 0.2197265625, "learning_rate": 0.000491575942271208, "loss": 0.3029, "step": 62610 }, { "epoch": 166.98666666666668, "grad_norm": 0.1884765625, "learning_rate": 0.0004915732447281833, "loss": 0.3143, "step": 62620 }, { "epoch": 167.0, "eval_loss": 0.3965356945991516, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6246, "eval_samples_per_second": 1.506, "eval_steps_per_second": 0.094, "step": 62625 }, { "epoch": 167.01333333333332, "grad_norm": 0.19921875, "learning_rate": 0.0004915705467607293, "loss": 0.3052, "step": 62630 }, { "epoch": 167.04, "grad_norm": 0.1767578125, "learning_rate": 0.0004915678483688508, "loss": 0.3317, "step": 62640 }, { "epoch": 167.06666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004915651495525526, "loss": 0.3167, "step": 62650 }, { "epoch": 167.09333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004915624503118393, "loss": 0.3133, "step": 62660 }, { "epoch": 167.12, "grad_norm": 0.17578125, "learning_rate": 0.0004915597506467157, "loss": 0.3094, "step": 62670 }, { "epoch": 167.14666666666668, "grad_norm": 0.19921875, "learning_rate": 0.0004915570505571867, "loss": 0.3101, "step": 62680 }, { "epoch": 167.17333333333335, "grad_norm": 0.216796875, "learning_rate": 0.0004915543500432568, "loss": 0.311, "step": 62690 }, { "epoch": 167.2, "grad_norm": 0.203125, "learning_rate": 0.0004915516491049308, "loss": 0.3042, "step": 62700 }, { "epoch": 167.22666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004915489477422136, "loss": 0.2985, "step": 62710 }, { "epoch": 167.25333333333333, "grad_norm": 0.232421875, "learning_rate": 0.0004915462459551097, "loss": 0.2982, "step": 62720 }, { "epoch": 167.28, "grad_norm": 0.2109375, "learning_rate": 0.0004915435437436242, "loss": 0.3157, "step": 62730 }, { "epoch": 167.30666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004915408411077615, "loss": 0.298, "step": 62740 }, { "epoch": 167.33333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004915381380475266, "loss": 0.3126, "step": 62750 }, { "epoch": 167.36, "grad_norm": 0.2080078125, "learning_rate": 0.0004915354345629239, "loss": 0.3039, "step": 62760 }, { "epoch": 167.38666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004915327306539586, "loss": 0.3007, "step": 62770 }, { "epoch": 167.41333333333333, "grad_norm": 0.1826171875, "learning_rate": 0.0004915300263206351, "loss": 0.3067, "step": 62780 }, { "epoch": 167.44, "grad_norm": 0.16015625, "learning_rate": 0.0004915273215629584, "loss": 0.3144, "step": 62790 }, { "epoch": 167.46666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004915246163809331, "loss": 0.318, "step": 62800 }, { "epoch": 167.49333333333334, "grad_norm": 0.2177734375, "learning_rate": 0.0004915219107745639, "loss": 0.3077, "step": 62810 }, { "epoch": 167.52, "grad_norm": 0.166015625, "learning_rate": 0.0004915192047438557, "loss": 0.3112, "step": 62820 }, { "epoch": 167.54666666666665, "grad_norm": 0.22265625, "learning_rate": 0.0004915164982888133, "loss": 0.3021, "step": 62830 }, { "epoch": 167.57333333333332, "grad_norm": 0.201171875, "learning_rate": 0.0004915137914094412, "loss": 0.305, "step": 62840 }, { "epoch": 167.6, "grad_norm": 0.2041015625, "learning_rate": 0.0004915110841057444, "loss": 0.3017, "step": 62850 }, { "epoch": 167.62666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004915083763777275, "loss": 0.2976, "step": 62860 }, { "epoch": 167.65333333333334, "grad_norm": 0.23046875, "learning_rate": 0.0004915056682253954, "loss": 0.3105, "step": 62870 }, { "epoch": 167.68, "grad_norm": 0.189453125, "learning_rate": 0.0004915029596487527, "loss": 0.2984, "step": 62880 }, { "epoch": 167.70666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004915002506478043, "loss": 0.2998, "step": 62890 }, { "epoch": 167.73333333333332, "grad_norm": 0.228515625, "learning_rate": 0.0004914975412225549, "loss": 0.315, "step": 62900 }, { "epoch": 167.76, "grad_norm": 0.1865234375, "learning_rate": 0.0004914948313730093, "loss": 0.3172, "step": 62910 }, { "epoch": 167.78666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004914921210991721, "loss": 0.3189, "step": 62920 }, { "epoch": 167.81333333333333, "grad_norm": 0.2392578125, "learning_rate": 0.0004914894104010481, "loss": 0.301, "step": 62930 }, { "epoch": 167.84, "grad_norm": 0.203125, "learning_rate": 0.0004914866992786423, "loss": 0.3007, "step": 62940 }, { "epoch": 167.86666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004914839877319594, "loss": 0.3016, "step": 62950 }, { "epoch": 167.89333333333335, "grad_norm": 0.20703125, "learning_rate": 0.0004914812757610039, "loss": 0.302, "step": 62960 }, { "epoch": 167.92, "grad_norm": 0.2001953125, "learning_rate": 0.0004914785633657808, "loss": 0.3025, "step": 62970 }, { "epoch": 167.94666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004914758505462948, "loss": 0.3044, "step": 62980 }, { "epoch": 167.97333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004914731373025506, "loss": 0.3114, "step": 62990 }, { "epoch": 168.0, "grad_norm": 0.189453125, "learning_rate": 0.0004914704236345531, "loss": 0.3, "step": 63000 }, { "epoch": 168.0, "eval_loss": 0.3984861969947815, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.357, "eval_samples_per_second": 1.545, "eval_steps_per_second": 0.097, "step": 63000 }, { "epoch": 168.02666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004914677095423071, "loss": 0.3228, "step": 63010 }, { "epoch": 168.05333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004914649950258171, "loss": 0.3292, "step": 63020 }, { "epoch": 168.08, "grad_norm": 0.2197265625, "learning_rate": 0.0004914622800850881, "loss": 0.3134, "step": 63030 }, { "epoch": 168.10666666666665, "grad_norm": 0.2734375, "learning_rate": 0.0004914595647201249, "loss": 0.3146, "step": 63040 }, { "epoch": 168.13333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0004914568489309321, "loss": 0.3063, "step": 63050 }, { "epoch": 168.16, "grad_norm": 0.2197265625, "learning_rate": 0.0004914541327175145, "loss": 0.3134, "step": 63060 }, { "epoch": 168.18666666666667, "grad_norm": 0.1611328125, "learning_rate": 0.000491451416079877, "loss": 0.3087, "step": 63070 }, { "epoch": 168.21333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.0004914486990180243, "loss": 0.2968, "step": 63080 }, { "epoch": 168.24, "grad_norm": 0.208984375, "learning_rate": 0.0004914459815319611, "loss": 0.301, "step": 63090 }, { "epoch": 168.26666666666668, "grad_norm": 0.2138671875, "learning_rate": 0.0004914432636216923, "loss": 0.3068, "step": 63100 }, { "epoch": 168.29333333333332, "grad_norm": 0.1748046875, "learning_rate": 0.0004914405452872226, "loss": 0.3022, "step": 63110 }, { "epoch": 168.32, "grad_norm": 0.18359375, "learning_rate": 0.0004914378265285568, "loss": 0.3094, "step": 63120 }, { "epoch": 168.34666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004914351073456997, "loss": 0.3091, "step": 63130 }, { "epoch": 168.37333333333333, "grad_norm": 0.18359375, "learning_rate": 0.000491432387738656, "loss": 0.301, "step": 63140 }, { "epoch": 168.4, "grad_norm": 0.224609375, "learning_rate": 0.0004914296677074307, "loss": 0.3024, "step": 63150 }, { "epoch": 168.42666666666668, "grad_norm": 0.251953125, "learning_rate": 0.0004914269472520282, "loss": 0.31, "step": 63160 }, { "epoch": 168.45333333333335, "grad_norm": 0.1865234375, "learning_rate": 0.0004914242263724536, "loss": 0.3183, "step": 63170 }, { "epoch": 168.48, "grad_norm": 0.20703125, "learning_rate": 0.0004914215050687115, "loss": 0.3137, "step": 63180 }, { "epoch": 168.50666666666666, "grad_norm": 0.25, "learning_rate": 0.0004914187833408068, "loss": 0.3102, "step": 63190 }, { "epoch": 168.53333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004914160611887442, "loss": 0.305, "step": 63200 }, { "epoch": 168.56, "grad_norm": 0.2041015625, "learning_rate": 0.0004914133386125285, "loss": 0.3021, "step": 63210 }, { "epoch": 168.58666666666667, "grad_norm": 0.181640625, "learning_rate": 0.0004914106156121646, "loss": 0.3059, "step": 63220 }, { "epoch": 168.61333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004914078921876571, "loss": 0.2977, "step": 63230 }, { "epoch": 168.64, "grad_norm": 0.171875, "learning_rate": 0.0004914051683390109, "loss": 0.2986, "step": 63240 }, { "epoch": 168.66666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004914024440662307, "loss": 0.3137, "step": 63250 }, { "epoch": 168.69333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004913997193693214, "loss": 0.2934, "step": 63260 }, { "epoch": 168.72, "grad_norm": 0.2333984375, "learning_rate": 0.0004913969942482876, "loss": 0.309, "step": 63270 }, { "epoch": 168.74666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004913942687031344, "loss": 0.3111, "step": 63280 }, { "epoch": 168.77333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004913915427338663, "loss": 0.3229, "step": 63290 }, { "epoch": 168.8, "grad_norm": 0.185546875, "learning_rate": 0.0004913888163404882, "loss": 0.3096, "step": 63300 }, { "epoch": 168.82666666666665, "grad_norm": 0.2080078125, "learning_rate": 0.0004913860895230049, "loss": 0.2977, "step": 63310 }, { "epoch": 168.85333333333332, "grad_norm": 0.193359375, "learning_rate": 0.0004913833622814211, "loss": 0.3018, "step": 63320 }, { "epoch": 168.88, "grad_norm": 0.19921875, "learning_rate": 0.0004913806346157418, "loss": 0.3005, "step": 63330 }, { "epoch": 168.90666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004913779065259716, "loss": 0.302, "step": 63340 }, { "epoch": 168.93333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004913751780121153, "loss": 0.3033, "step": 63350 }, { "epoch": 168.96, "grad_norm": 0.177734375, "learning_rate": 0.0004913724490741777, "loss": 0.3027, "step": 63360 }, { "epoch": 168.98666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004913697197121637, "loss": 0.3148, "step": 63370 }, { "epoch": 169.0, "eval_loss": 0.39791586995124817, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.951, "eval_samples_per_second": 1.461, "eval_steps_per_second": 0.091, "step": 63375 }, { "epoch": 169.01333333333332, "grad_norm": 0.26171875, "learning_rate": 0.0004913669899260781, "loss": 0.3058, "step": 63380 }, { "epoch": 169.04, "grad_norm": 0.1943359375, "learning_rate": 0.0004913642597159256, "loss": 0.3317, "step": 63390 }, { "epoch": 169.06666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0004913615290817109, "loss": 0.3166, "step": 63400 }, { "epoch": 169.09333333333333, "grad_norm": 0.25, "learning_rate": 0.0004913587980234391, "loss": 0.3131, "step": 63410 }, { "epoch": 169.12, "grad_norm": 0.189453125, "learning_rate": 0.0004913560665411147, "loss": 0.3094, "step": 63420 }, { "epoch": 169.14666666666668, "grad_norm": 0.166015625, "learning_rate": 0.0004913533346347427, "loss": 0.3101, "step": 63430 }, { "epoch": 169.17333333333335, "grad_norm": 0.2001953125, "learning_rate": 0.0004913506023043277, "loss": 0.3106, "step": 63440 }, { "epoch": 169.2, "grad_norm": 0.2138671875, "learning_rate": 0.0004913478695498748, "loss": 0.3033, "step": 63450 }, { "epoch": 169.22666666666666, "grad_norm": 0.248046875, "learning_rate": 0.0004913451363713885, "loss": 0.2984, "step": 63460 }, { "epoch": 169.25333333333333, "grad_norm": 0.2314453125, "learning_rate": 0.0004913424027688738, "loss": 0.2976, "step": 63470 }, { "epoch": 169.28, "grad_norm": 0.2275390625, "learning_rate": 0.0004913396687423353, "loss": 0.3155, "step": 63480 }, { "epoch": 169.30666666666667, "grad_norm": 0.171875, "learning_rate": 0.000491336934291778, "loss": 0.2981, "step": 63490 }, { "epoch": 169.33333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004913341994172067, "loss": 0.3121, "step": 63500 }, { "epoch": 169.36, "grad_norm": 0.197265625, "learning_rate": 0.000491331464118626, "loss": 0.3033, "step": 63510 }, { "epoch": 169.38666666666666, "grad_norm": 0.232421875, "learning_rate": 0.000491328728396041, "loss": 0.3008, "step": 63520 }, { "epoch": 169.41333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004913259922494562, "loss": 0.3064, "step": 63530 }, { "epoch": 169.44, "grad_norm": 0.2001953125, "learning_rate": 0.0004913232556788767, "loss": 0.3142, "step": 63540 }, { "epoch": 169.46666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004913205186843072, "loss": 0.3174, "step": 63550 }, { "epoch": 169.49333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004913177812657523, "loss": 0.3077, "step": 63560 }, { "epoch": 169.52, "grad_norm": 0.1875, "learning_rate": 0.000491315043423217, "loss": 0.3118, "step": 63570 }, { "epoch": 169.54666666666665, "grad_norm": 0.20703125, "learning_rate": 0.0004913123051567064, "loss": 0.3021, "step": 63580 }, { "epoch": 169.57333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004913095664662247, "loss": 0.305, "step": 63590 }, { "epoch": 169.6, "grad_norm": 0.1767578125, "learning_rate": 0.0004913068273517771, "loss": 0.3015, "step": 63600 }, { "epoch": 169.62666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.0004913040878133684, "loss": 0.2973, "step": 63610 }, { "epoch": 169.65333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004913013478510032, "loss": 0.3104, "step": 63620 }, { "epoch": 169.68, "grad_norm": 0.173828125, "learning_rate": 0.0004912986074646866, "loss": 0.2989, "step": 63630 }, { "epoch": 169.70666666666668, "grad_norm": 0.271484375, "learning_rate": 0.0004912958666544231, "loss": 0.2995, "step": 63640 }, { "epoch": 169.73333333333332, "grad_norm": 0.205078125, "learning_rate": 0.0004912931254202178, "loss": 0.3142, "step": 63650 }, { "epoch": 169.76, "grad_norm": 0.19921875, "learning_rate": 0.0004912903837620754, "loss": 0.3169, "step": 63660 }, { "epoch": 169.78666666666666, "grad_norm": 0.1982421875, "learning_rate": 0.0004912876416800008, "loss": 0.3182, "step": 63670 }, { "epoch": 169.81333333333333, "grad_norm": 0.236328125, "learning_rate": 0.0004912848991739986, "loss": 0.3003, "step": 63680 }, { "epoch": 169.84, "grad_norm": 0.1884765625, "learning_rate": 0.0004912821562440738, "loss": 0.2998, "step": 63690 }, { "epoch": 169.86666666666667, "grad_norm": 0.2294921875, "learning_rate": 0.0004912794128902312, "loss": 0.3017, "step": 63700 }, { "epoch": 169.89333333333335, "grad_norm": 0.197265625, "learning_rate": 0.0004912766691124756, "loss": 0.3015, "step": 63710 }, { "epoch": 169.92, "grad_norm": 0.20703125, "learning_rate": 0.0004912739249108118, "loss": 0.3022, "step": 63720 }, { "epoch": 169.94666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004912711802852447, "loss": 0.304, "step": 63730 }, { "epoch": 169.97333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.000491268435235779, "loss": 0.3115, "step": 63740 }, { "epoch": 170.0, "grad_norm": 0.1796875, "learning_rate": 0.0004912656897624196, "loss": 0.3003, "step": 63750 }, { "epoch": 170.0, "eval_loss": 0.3997786343097687, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.9044, "eval_samples_per_second": 1.467, "eval_steps_per_second": 0.092, "step": 63750 }, { "epoch": 170.02666666666667, "grad_norm": 0.2333984375, "learning_rate": 0.0004912629438651713, "loss": 0.3221, "step": 63760 }, { "epoch": 170.05333333333334, "grad_norm": 0.21484375, "learning_rate": 0.0004912601975440389, "loss": 0.3289, "step": 63770 }, { "epoch": 170.08, "grad_norm": 0.2314453125, "learning_rate": 0.0004912574507990273, "loss": 0.3128, "step": 63780 }, { "epoch": 170.10666666666665, "grad_norm": 0.2275390625, "learning_rate": 0.0004912547036301412, "loss": 0.3145, "step": 63790 }, { "epoch": 170.13333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004912519560373856, "loss": 0.3056, "step": 63800 }, { "epoch": 170.16, "grad_norm": 0.259765625, "learning_rate": 0.0004912492080207652, "loss": 0.3128, "step": 63810 }, { "epoch": 170.18666666666667, "grad_norm": 0.26171875, "learning_rate": 0.0004912464595802849, "loss": 0.3082, "step": 63820 }, { "epoch": 170.21333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004912437107159496, "loss": 0.2973, "step": 63830 }, { "epoch": 170.24, "grad_norm": 0.203125, "learning_rate": 0.0004912409614277638, "loss": 0.3007, "step": 63840 }, { "epoch": 170.26666666666668, "grad_norm": 0.185546875, "learning_rate": 0.0004912382117157327, "loss": 0.3067, "step": 63850 }, { "epoch": 170.29333333333332, "grad_norm": 0.1953125, "learning_rate": 0.0004912354615798608, "loss": 0.3024, "step": 63860 }, { "epoch": 170.32, "grad_norm": 0.283203125, "learning_rate": 0.0004912327110201534, "loss": 0.3092, "step": 63870 }, { "epoch": 170.34666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004912299600366149, "loss": 0.308, "step": 63880 }, { "epoch": 170.37333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004912272086292503, "loss": 0.3012, "step": 63890 }, { "epoch": 170.4, "grad_norm": 0.1943359375, "learning_rate": 0.0004912244567980644, "loss": 0.3022, "step": 63900 }, { "epoch": 170.42666666666668, "grad_norm": 0.173828125, "learning_rate": 0.000491221704543062, "loss": 0.3093, "step": 63910 }, { "epoch": 170.45333333333335, "grad_norm": 0.234375, "learning_rate": 0.000491218951864248, "loss": 0.3179, "step": 63920 }, { "epoch": 170.48, "grad_norm": 0.2275390625, "learning_rate": 0.0004912161987616273, "loss": 0.3131, "step": 63930 }, { "epoch": 170.50666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004912134452352047, "loss": 0.3102, "step": 63940 }, { "epoch": 170.53333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004912106912849848, "loss": 0.3053, "step": 63950 }, { "epoch": 170.56, "grad_norm": 0.2333984375, "learning_rate": 0.0004912079369109729, "loss": 0.3021, "step": 63960 }, { "epoch": 170.58666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004912051821131734, "loss": 0.3054, "step": 63970 }, { "epoch": 170.61333333333334, "grad_norm": 0.166015625, "learning_rate": 0.0004912024268915913, "loss": 0.2981, "step": 63980 }, { "epoch": 170.64, "grad_norm": 0.203125, "learning_rate": 0.0004911996712462316, "loss": 0.2986, "step": 63990 }, { "epoch": 170.66666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.0004911969151770989, "loss": 0.3141, "step": 64000 }, { "epoch": 170.69333333333333, "grad_norm": 0.18359375, "learning_rate": 0.0004911941586841981, "loss": 0.2933, "step": 64010 }, { "epoch": 170.72, "grad_norm": 0.177734375, "learning_rate": 0.0004911914017675342, "loss": 0.3086, "step": 64020 }, { "epoch": 170.74666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004911886444271118, "loss": 0.3109, "step": 64030 }, { "epoch": 170.77333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004911858866629359, "loss": 0.3222, "step": 64040 }, { "epoch": 170.8, "grad_norm": 0.1943359375, "learning_rate": 0.0004911831284750113, "loss": 0.3092, "step": 64050 }, { "epoch": 170.82666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004911803698633429, "loss": 0.2979, "step": 64060 }, { "epoch": 170.85333333333332, "grad_norm": 0.1845703125, "learning_rate": 0.0004911776108279355, "loss": 0.3017, "step": 64070 }, { "epoch": 170.88, "grad_norm": 0.1904296875, "learning_rate": 0.0004911748513687941, "loss": 0.3002, "step": 64080 }, { "epoch": 170.90666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.0004911720914859232, "loss": 0.3023, "step": 64090 }, { "epoch": 170.93333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.000491169331179328, "loss": 0.3028, "step": 64100 }, { "epoch": 170.96, "grad_norm": 0.205078125, "learning_rate": 0.0004911665704490131, "loss": 0.3027, "step": 64110 }, { "epoch": 170.98666666666668, "grad_norm": 0.25390625, "learning_rate": 0.0004911638092949835, "loss": 0.3148, "step": 64120 }, { "epoch": 171.0, "eval_loss": 0.39741355180740356, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6229, "eval_samples_per_second": 1.377, "eval_steps_per_second": 0.086, "step": 64125 }, { "epoch": 171.01333333333332, "grad_norm": 0.2412109375, "learning_rate": 0.000491161047717244, "loss": 0.3052, "step": 64130 }, { "epoch": 171.04, "grad_norm": 0.18359375, "learning_rate": 0.0004911582857157994, "loss": 0.332, "step": 64140 }, { "epoch": 171.06666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004911555232906547, "loss": 0.317, "step": 64150 }, { "epoch": 171.09333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004911527604418146, "loss": 0.3134, "step": 64160 }, { "epoch": 171.12, "grad_norm": 0.185546875, "learning_rate": 0.0004911499971692841, "loss": 0.3088, "step": 64170 }, { "epoch": 171.14666666666668, "grad_norm": 0.236328125, "learning_rate": 0.0004911472334730679, "loss": 0.3105, "step": 64180 }, { "epoch": 171.17333333333335, "grad_norm": 0.359375, "learning_rate": 0.0004911444693531709, "loss": 0.3105, "step": 64190 }, { "epoch": 171.2, "grad_norm": 0.2265625, "learning_rate": 0.0004911417048095981, "loss": 0.3039, "step": 64200 }, { "epoch": 171.22666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004911389398423541, "loss": 0.2983, "step": 64210 }, { "epoch": 171.25333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.0004911361744514439, "loss": 0.2976, "step": 64220 }, { "epoch": 171.28, "grad_norm": 0.2392578125, "learning_rate": 0.0004911334086368725, "loss": 0.3158, "step": 64230 }, { "epoch": 171.30666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004911306423986446, "loss": 0.2981, "step": 64240 }, { "epoch": 171.33333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.000491127875736765, "loss": 0.3123, "step": 64250 }, { "epoch": 171.36, "grad_norm": 0.19140625, "learning_rate": 0.0004911251086512386, "loss": 0.3032, "step": 64260 }, { "epoch": 171.38666666666666, "grad_norm": 0.234375, "learning_rate": 0.0004911223411420704, "loss": 0.3007, "step": 64270 }, { "epoch": 171.41333333333333, "grad_norm": 0.259765625, "learning_rate": 0.0004911195732092651, "loss": 0.307, "step": 64280 }, { "epoch": 171.44, "grad_norm": 0.2578125, "learning_rate": 0.0004911168048528276, "loss": 0.314, "step": 64290 }, { "epoch": 171.46666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004911140360727629, "loss": 0.3179, "step": 64300 }, { "epoch": 171.49333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.0004911112668690757, "loss": 0.3071, "step": 64310 }, { "epoch": 171.52, "grad_norm": 0.177734375, "learning_rate": 0.0004911084972417708, "loss": 0.3112, "step": 64320 }, { "epoch": 171.54666666666665, "grad_norm": 0.224609375, "learning_rate": 0.0004911057271908534, "loss": 0.3019, "step": 64330 }, { "epoch": 171.57333333333332, "grad_norm": 0.1875, "learning_rate": 0.000491102956716328, "loss": 0.305, "step": 64340 }, { "epoch": 171.6, "grad_norm": 0.26171875, "learning_rate": 0.0004911001858181998, "loss": 0.3019, "step": 64350 }, { "epoch": 171.62666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004910974144964732, "loss": 0.2975, "step": 64360 }, { "epoch": 171.65333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004910946427511536, "loss": 0.3102, "step": 64370 }, { "epoch": 171.68, "grad_norm": 0.240234375, "learning_rate": 0.0004910918705822454, "loss": 0.298, "step": 64380 }, { "epoch": 171.70666666666668, "grad_norm": 0.298828125, "learning_rate": 0.0004910890979897539, "loss": 0.2996, "step": 64390 }, { "epoch": 171.73333333333332, "grad_norm": 0.197265625, "learning_rate": 0.0004910863249736837, "loss": 0.3145, "step": 64400 }, { "epoch": 171.76, "grad_norm": 0.2119140625, "learning_rate": 0.0004910835515340397, "loss": 0.3164, "step": 64410 }, { "epoch": 171.78666666666666, "grad_norm": 0.2353515625, "learning_rate": 0.0004910807776708269, "loss": 0.3177, "step": 64420 }, { "epoch": 171.81333333333333, "grad_norm": 0.279296875, "learning_rate": 0.00049107800338405, "loss": 0.3004, "step": 64430 }, { "epoch": 171.84, "grad_norm": 0.2060546875, "learning_rate": 0.000491075228673714, "loss": 0.2998, "step": 64440 }, { "epoch": 171.86666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004910724535398238, "loss": 0.3013, "step": 64450 }, { "epoch": 171.89333333333335, "grad_norm": 0.171875, "learning_rate": 0.0004910696779823841, "loss": 0.3013, "step": 64460 }, { "epoch": 171.92, "grad_norm": 0.2734375, "learning_rate": 0.0004910669020014, "loss": 0.3025, "step": 64470 }, { "epoch": 171.94666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.0004910641255968761, "loss": 0.3037, "step": 64480 }, { "epoch": 171.97333333333333, "grad_norm": 0.26953125, "learning_rate": 0.0004910613487688175, "loss": 0.3106, "step": 64490 }, { "epoch": 172.0, "grad_norm": 0.2421875, "learning_rate": 0.0004910585715172292, "loss": 0.2998, "step": 64500 }, { "epoch": 172.0, "eval_loss": 0.39910176396369934, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3603, "eval_samples_per_second": 1.408, "eval_steps_per_second": 0.088, "step": 64500 }, { "epoch": 172.02666666666667, "grad_norm": 0.193359375, "learning_rate": 0.0004910557938421157, "loss": 0.3224, "step": 64510 }, { "epoch": 172.05333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004910530157434822, "loss": 0.3287, "step": 64520 }, { "epoch": 172.08, "grad_norm": 0.1884765625, "learning_rate": 0.0004910502372213334, "loss": 0.313, "step": 64530 }, { "epoch": 172.10666666666665, "grad_norm": 0.251953125, "learning_rate": 0.0004910474582756742, "loss": 0.314, "step": 64540 }, { "epoch": 172.13333333333333, "grad_norm": 0.205078125, "learning_rate": 0.0004910446789065096, "loss": 0.3053, "step": 64550 }, { "epoch": 172.16, "grad_norm": 0.287109375, "learning_rate": 0.0004910418991138445, "loss": 0.313, "step": 64560 }, { "epoch": 172.18666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004910391188976836, "loss": 0.3075, "step": 64570 }, { "epoch": 172.21333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0004910363382580319, "loss": 0.2967, "step": 64580 }, { "epoch": 172.24, "grad_norm": 0.2333984375, "learning_rate": 0.0004910335571948942, "loss": 0.3009, "step": 64590 }, { "epoch": 172.26666666666668, "grad_norm": 0.228515625, "learning_rate": 0.0004910307757082754, "loss": 0.306, "step": 64600 }, { "epoch": 172.29333333333332, "grad_norm": 0.1875, "learning_rate": 0.0004910279937981806, "loss": 0.3025, "step": 64610 }, { "epoch": 172.32, "grad_norm": 0.1923828125, "learning_rate": 0.0004910252114646143, "loss": 0.3095, "step": 64620 }, { "epoch": 172.34666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004910224287075818, "loss": 0.3085, "step": 64630 }, { "epoch": 172.37333333333333, "grad_norm": 0.203125, "learning_rate": 0.0004910196455270878, "loss": 0.3003, "step": 64640 }, { "epoch": 172.4, "grad_norm": 0.294921875, "learning_rate": 0.0004910168619231371, "loss": 0.3021, "step": 64650 }, { "epoch": 172.42666666666668, "grad_norm": 0.1689453125, "learning_rate": 0.0004910140778957348, "loss": 0.3091, "step": 64660 }, { "epoch": 172.45333333333335, "grad_norm": 0.185546875, "learning_rate": 0.0004910112934448857, "loss": 0.3175, "step": 64670 }, { "epoch": 172.48, "grad_norm": 0.216796875, "learning_rate": 0.0004910085085705944, "loss": 0.3136, "step": 64680 }, { "epoch": 172.50666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004910057232728663, "loss": 0.3102, "step": 64690 }, { "epoch": 172.53333333333333, "grad_norm": 0.169921875, "learning_rate": 0.000491002937551706, "loss": 0.3048, "step": 64700 }, { "epoch": 172.56, "grad_norm": 0.181640625, "learning_rate": 0.0004910001514071184, "loss": 0.3019, "step": 64710 }, { "epoch": 172.58666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004909973648391085, "loss": 0.3048, "step": 64720 }, { "epoch": 172.61333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004909945778476811, "loss": 0.2974, "step": 64730 }, { "epoch": 172.64, "grad_norm": 0.169921875, "learning_rate": 0.0004909917904328411, "loss": 0.2985, "step": 64740 }, { "epoch": 172.66666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004909890025945935, "loss": 0.3136, "step": 64750 }, { "epoch": 172.69333333333333, "grad_norm": 0.171875, "learning_rate": 0.0004909862143329431, "loss": 0.2931, "step": 64760 }, { "epoch": 172.72, "grad_norm": 0.20703125, "learning_rate": 0.0004909834256478948, "loss": 0.309, "step": 64770 }, { "epoch": 172.74666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004909806365394535, "loss": 0.3101, "step": 64780 }, { "epoch": 172.77333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004909778470076243, "loss": 0.322, "step": 64790 }, { "epoch": 172.8, "grad_norm": 0.193359375, "learning_rate": 0.0004909750570524119, "loss": 0.309, "step": 64800 }, { "epoch": 172.82666666666665, "grad_norm": 0.197265625, "learning_rate": 0.0004909722666738212, "loss": 0.2978, "step": 64810 }, { "epoch": 172.85333333333332, "grad_norm": 0.1767578125, "learning_rate": 0.000490969475871857, "loss": 0.3008, "step": 64820 }, { "epoch": 172.88, "grad_norm": 0.1806640625, "learning_rate": 0.0004909666846465244, "loss": 0.3, "step": 64830 }, { "epoch": 172.90666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.0004909638929978282, "loss": 0.302, "step": 64840 }, { "epoch": 172.93333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004909611009257734, "loss": 0.3026, "step": 64850 }, { "epoch": 172.96, "grad_norm": 0.1748046875, "learning_rate": 0.0004909583084303649, "loss": 0.302, "step": 64860 }, { "epoch": 172.98666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.0004909555155116075, "loss": 0.3138, "step": 64870 }, { "epoch": 173.0, "eval_loss": 0.3991791903972626, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0157, "eval_samples_per_second": 1.452, "eval_steps_per_second": 0.091, "step": 64875 }, { "epoch": 173.01333333333332, "grad_norm": 0.236328125, "learning_rate": 0.0004909527221695062, "loss": 0.3049, "step": 64880 }, { "epoch": 173.04, "grad_norm": 0.1923828125, "learning_rate": 0.0004909499284040658, "loss": 0.3313, "step": 64890 }, { "epoch": 173.06666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004909471342152914, "loss": 0.3167, "step": 64900 }, { "epoch": 173.09333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004909443396031877, "loss": 0.3132, "step": 64910 }, { "epoch": 173.12, "grad_norm": 0.2001953125, "learning_rate": 0.0004909415445677598, "loss": 0.3092, "step": 64920 }, { "epoch": 173.14666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.0004909387491090124, "loss": 0.3105, "step": 64930 }, { "epoch": 173.17333333333335, "grad_norm": 0.2177734375, "learning_rate": 0.0004909359532269506, "loss": 0.3109, "step": 64940 }, { "epoch": 173.2, "grad_norm": 0.2216796875, "learning_rate": 0.0004909331569215792, "loss": 0.3037, "step": 64950 }, { "epoch": 173.22666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004909303601929031, "loss": 0.298, "step": 64960 }, { "epoch": 173.25333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004909275630409273, "loss": 0.297, "step": 64970 }, { "epoch": 173.28, "grad_norm": 0.2421875, "learning_rate": 0.0004909247654656567, "loss": 0.3155, "step": 64980 }, { "epoch": 173.30666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004909219674670962, "loss": 0.2973, "step": 64990 }, { "epoch": 173.33333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004909191690452506, "loss": 0.3118, "step": 65000 }, { "epoch": 173.36, "grad_norm": 0.19921875, "learning_rate": 0.000490916370200125, "loss": 0.3031, "step": 65010 }, { "epoch": 173.38666666666666, "grad_norm": 0.2333984375, "learning_rate": 0.0004909135709317243, "loss": 0.3004, "step": 65020 }, { "epoch": 173.41333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004909107712400533, "loss": 0.3069, "step": 65030 }, { "epoch": 173.44, "grad_norm": 0.19140625, "learning_rate": 0.0004909079711251169, "loss": 0.3137, "step": 65040 }, { "epoch": 173.46666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.0004909051705869202, "loss": 0.3178, "step": 65050 }, { "epoch": 173.49333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.000490902369625468, "loss": 0.3077, "step": 65060 }, { "epoch": 173.52, "grad_norm": 0.18359375, "learning_rate": 0.0004908995682407653, "loss": 0.3116, "step": 65070 }, { "epoch": 173.54666666666665, "grad_norm": 0.2041015625, "learning_rate": 0.0004908967664328167, "loss": 0.3015, "step": 65080 }, { "epoch": 173.57333333333332, "grad_norm": 0.1767578125, "learning_rate": 0.0004908939642016277, "loss": 0.3049, "step": 65090 }, { "epoch": 173.6, "grad_norm": 0.208984375, "learning_rate": 0.0004908911615472027, "loss": 0.3015, "step": 65100 }, { "epoch": 173.62666666666667, "grad_norm": 0.162109375, "learning_rate": 0.0004908883584695469, "loss": 0.2963, "step": 65110 }, { "epoch": 173.65333333333334, "grad_norm": 0.2158203125, "learning_rate": 0.0004908855549686651, "loss": 0.3094, "step": 65120 }, { "epoch": 173.68, "grad_norm": 0.181640625, "learning_rate": 0.0004908827510445625, "loss": 0.298, "step": 65130 }, { "epoch": 173.70666666666668, "grad_norm": 0.2119140625, "learning_rate": 0.0004908799466972435, "loss": 0.2997, "step": 65140 }, { "epoch": 173.73333333333332, "grad_norm": 0.2080078125, "learning_rate": 0.0004908771419267136, "loss": 0.3139, "step": 65150 }, { "epoch": 173.76, "grad_norm": 0.197265625, "learning_rate": 0.0004908743367329773, "loss": 0.316, "step": 65160 }, { "epoch": 173.78666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004908715311160397, "loss": 0.3169, "step": 65170 }, { "epoch": 173.81333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004908687250759058, "loss": 0.2997, "step": 65180 }, { "epoch": 173.84, "grad_norm": 0.2060546875, "learning_rate": 0.0004908659186125804, "loss": 0.2994, "step": 65190 }, { "epoch": 173.86666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004908631117260684, "loss": 0.3008, "step": 65200 }, { "epoch": 173.89333333333335, "grad_norm": 0.2060546875, "learning_rate": 0.000490860304416375, "loss": 0.3015, "step": 65210 }, { "epoch": 173.92, "grad_norm": 0.1953125, "learning_rate": 0.0004908574966835048, "loss": 0.302, "step": 65220 }, { "epoch": 173.94666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.000490854688527463, "loss": 0.3042, "step": 65230 }, { "epoch": 173.97333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004908518799482543, "loss": 0.3106, "step": 65240 }, { "epoch": 174.0, "grad_norm": 0.185546875, "learning_rate": 0.0004908490709458837, "loss": 0.3001, "step": 65250 }, { "epoch": 174.0, "eval_loss": 0.3993348181247711, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.6595, "eval_samples_per_second": 1.372, "eval_steps_per_second": 0.086, "step": 65250 }, { "epoch": 174.02666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004908462615203562, "loss": 0.3223, "step": 65260 }, { "epoch": 174.05333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004908434516716769, "loss": 0.3283, "step": 65270 }, { "epoch": 174.08, "grad_norm": 0.1962890625, "learning_rate": 0.0004908406413998504, "loss": 0.312, "step": 65280 }, { "epoch": 174.10666666666665, "grad_norm": 0.185546875, "learning_rate": 0.0004908378307048819, "loss": 0.3139, "step": 65290 }, { "epoch": 174.13333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004908350195867761, "loss": 0.3055, "step": 65300 }, { "epoch": 174.16, "grad_norm": 0.205078125, "learning_rate": 0.0004908322080455381, "loss": 0.3127, "step": 65310 }, { "epoch": 174.18666666666667, "grad_norm": 0.21484375, "learning_rate": 0.0004908293960811729, "loss": 0.3081, "step": 65320 }, { "epoch": 174.21333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004908265836936852, "loss": 0.2964, "step": 65330 }, { "epoch": 174.24, "grad_norm": 0.2158203125, "learning_rate": 0.0004908237708830802, "loss": 0.3002, "step": 65340 }, { "epoch": 174.26666666666668, "grad_norm": 0.21484375, "learning_rate": 0.0004908209576493626, "loss": 0.3066, "step": 65350 }, { "epoch": 174.29333333333332, "grad_norm": 0.232421875, "learning_rate": 0.0004908181439925377, "loss": 0.3022, "step": 65360 }, { "epoch": 174.32, "grad_norm": 0.19921875, "learning_rate": 0.0004908153299126101, "loss": 0.3092, "step": 65370 }, { "epoch": 174.34666666666666, "grad_norm": 0.2353515625, "learning_rate": 0.0004908125154095848, "loss": 0.3081, "step": 65380 }, { "epoch": 174.37333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004908097004834668, "loss": 0.3002, "step": 65390 }, { "epoch": 174.4, "grad_norm": 0.1845703125, "learning_rate": 0.0004908068851342611, "loss": 0.3021, "step": 65400 }, { "epoch": 174.42666666666668, "grad_norm": 0.1806640625, "learning_rate": 0.0004908040693619726, "loss": 0.3092, "step": 65410 }, { "epoch": 174.45333333333335, "grad_norm": 0.20703125, "learning_rate": 0.0004908012531666063, "loss": 0.3174, "step": 65420 }, { "epoch": 174.48, "grad_norm": 0.326171875, "learning_rate": 0.000490798436548167, "loss": 0.3126, "step": 65430 }, { "epoch": 174.50666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004907956195066599, "loss": 0.3101, "step": 65440 }, { "epoch": 174.53333333333333, "grad_norm": 0.162109375, "learning_rate": 0.0004907928020420896, "loss": 0.3047, "step": 65450 }, { "epoch": 174.56, "grad_norm": 0.21484375, "learning_rate": 0.0004907899841544613, "loss": 0.3014, "step": 65460 }, { "epoch": 174.58666666666667, "grad_norm": 0.1982421875, "learning_rate": 0.00049078716584378, "loss": 0.3047, "step": 65470 }, { "epoch": 174.61333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004907843471100504, "loss": 0.2975, "step": 65480 }, { "epoch": 174.64, "grad_norm": 0.1884765625, "learning_rate": 0.0004907815279532777, "loss": 0.2979, "step": 65490 }, { "epoch": 174.66666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004907787083734667, "loss": 0.3129, "step": 65500 }, { "epoch": 174.69333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004907758883706224, "loss": 0.2924, "step": 65510 }, { "epoch": 174.72, "grad_norm": 0.197265625, "learning_rate": 0.0004907730679447498, "loss": 0.3089, "step": 65520 }, { "epoch": 174.74666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.0004907702470958537, "loss": 0.3098, "step": 65530 }, { "epoch": 174.77333333333334, "grad_norm": 0.2890625, "learning_rate": 0.0004907674258239393, "loss": 0.322, "step": 65540 }, { "epoch": 174.8, "grad_norm": 0.18359375, "learning_rate": 0.0004907646041290114, "loss": 0.3082, "step": 65550 }, { "epoch": 174.82666666666665, "grad_norm": 0.1845703125, "learning_rate": 0.000490761782011075, "loss": 0.2973, "step": 65560 }, { "epoch": 174.85333333333332, "grad_norm": 0.177734375, "learning_rate": 0.000490758959470135, "loss": 0.3011, "step": 65570 }, { "epoch": 174.88, "grad_norm": 0.197265625, "learning_rate": 0.0004907561365061964, "loss": 0.3004, "step": 65580 }, { "epoch": 174.90666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004907533131192642, "loss": 0.3019, "step": 65590 }, { "epoch": 174.93333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004907504893093432, "loss": 0.3023, "step": 65600 }, { "epoch": 174.96, "grad_norm": 0.1767578125, "learning_rate": 0.0004907476650764386, "loss": 0.3026, "step": 65610 }, { "epoch": 174.98666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.0004907448404205552, "loss": 0.3141, "step": 65620 }, { "epoch": 175.0, "eval_loss": 0.39776498079299927, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6638, "eval_samples_per_second": 1.5, "eval_steps_per_second": 0.094, "step": 65625 }, { "epoch": 175.01333333333332, "grad_norm": 0.21875, "learning_rate": 0.000490742015341698, "loss": 0.3053, "step": 65630 }, { "epoch": 175.04, "grad_norm": 0.2001953125, "learning_rate": 0.0004907391898398721, "loss": 0.3316, "step": 65640 }, { "epoch": 175.06666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004907363639150822, "loss": 0.3161, "step": 65650 }, { "epoch": 175.09333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004907335375673335, "loss": 0.3132, "step": 65660 }, { "epoch": 175.12, "grad_norm": 0.21875, "learning_rate": 0.0004907307107966307, "loss": 0.3087, "step": 65670 }, { "epoch": 175.14666666666668, "grad_norm": 0.1962890625, "learning_rate": 0.000490727883602979, "loss": 0.3094, "step": 65680 }, { "epoch": 175.17333333333335, "grad_norm": 0.240234375, "learning_rate": 0.0004907250559863834, "loss": 0.3103, "step": 65690 }, { "epoch": 175.2, "grad_norm": 0.302734375, "learning_rate": 0.0004907222279468486, "loss": 0.3033, "step": 65700 }, { "epoch": 175.22666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.00049071939948438, "loss": 0.2974, "step": 65710 }, { "epoch": 175.25333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004907165705989821, "loss": 0.2973, "step": 65720 }, { "epoch": 175.28, "grad_norm": 0.23828125, "learning_rate": 0.0004907137412906601, "loss": 0.3151, "step": 65730 }, { "epoch": 175.30666666666667, "grad_norm": 0.291015625, "learning_rate": 0.000490710911559419, "loss": 0.298, "step": 65740 }, { "epoch": 175.33333333333334, "grad_norm": 0.197265625, "learning_rate": 0.0004907080814052637, "loss": 0.312, "step": 65750 }, { "epoch": 175.36, "grad_norm": 0.1982421875, "learning_rate": 0.0004907052508281992, "loss": 0.303, "step": 65760 }, { "epoch": 175.38666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004907024198282303, "loss": 0.3003, "step": 65770 }, { "epoch": 175.41333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.0004906995884053623, "loss": 0.306, "step": 65780 }, { "epoch": 175.44, "grad_norm": 0.18359375, "learning_rate": 0.0004906967565596, "loss": 0.3138, "step": 65790 }, { "epoch": 175.46666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.0004906939242909484, "loss": 0.3173, "step": 65800 }, { "epoch": 175.49333333333334, "grad_norm": 0.216796875, "learning_rate": 0.0004906910915994124, "loss": 0.3068, "step": 65810 }, { "epoch": 175.52, "grad_norm": 0.2041015625, "learning_rate": 0.000490688258484997, "loss": 0.3109, "step": 65820 }, { "epoch": 175.54666666666665, "grad_norm": 0.197265625, "learning_rate": 0.0004906854249477074, "loss": 0.3015, "step": 65830 }, { "epoch": 175.57333333333332, "grad_norm": 0.201171875, "learning_rate": 0.0004906825909875483, "loss": 0.3044, "step": 65840 }, { "epoch": 175.6, "grad_norm": 0.2021484375, "learning_rate": 0.0004906797566045249, "loss": 0.3016, "step": 65850 }, { "epoch": 175.62666666666667, "grad_norm": 0.166015625, "learning_rate": 0.0004906769217986418, "loss": 0.2964, "step": 65860 }, { "epoch": 175.65333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004906740865699043, "loss": 0.309, "step": 65870 }, { "epoch": 175.68, "grad_norm": 0.193359375, "learning_rate": 0.0004906712509183174, "loss": 0.2979, "step": 65880 }, { "epoch": 175.70666666666668, "grad_norm": 0.255859375, "learning_rate": 0.000490668414843886, "loss": 0.2989, "step": 65890 }, { "epoch": 175.73333333333332, "grad_norm": 0.20703125, "learning_rate": 0.0004906655783466151, "loss": 0.3139, "step": 65900 }, { "epoch": 175.76, "grad_norm": 0.2099609375, "learning_rate": 0.0004906627414265096, "loss": 0.3157, "step": 65910 }, { "epoch": 175.78666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004906599040835746, "loss": 0.317, "step": 65920 }, { "epoch": 175.81333333333333, "grad_norm": 0.220703125, "learning_rate": 0.000490657066317815, "loss": 0.299, "step": 65930 }, { "epoch": 175.84, "grad_norm": 0.1962890625, "learning_rate": 0.0004906542281292359, "loss": 0.2989, "step": 65940 }, { "epoch": 175.86666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004906513895178421, "loss": 0.3009, "step": 65950 }, { "epoch": 175.89333333333335, "grad_norm": 0.16796875, "learning_rate": 0.0004906485504836388, "loss": 0.3009, "step": 65960 }, { "epoch": 175.92, "grad_norm": 0.19921875, "learning_rate": 0.0004906457110266308, "loss": 0.3014, "step": 65970 }, { "epoch": 175.94666666666666, "grad_norm": 0.16796875, "learning_rate": 0.0004906428711468232, "loss": 0.3035, "step": 65980 }, { "epoch": 175.97333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004906400308442209, "loss": 0.3109, "step": 65990 }, { "epoch": 176.0, "grad_norm": 0.1923828125, "learning_rate": 0.000490637190118829, "loss": 0.2992, "step": 66000 }, { "epoch": 176.0, "eval_loss": 0.3978154957294464, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8442, "eval_samples_per_second": 1.475, "eval_steps_per_second": 0.092, "step": 66000 }, { "epoch": 176.02666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004906343489706525, "loss": 0.3222, "step": 66010 }, { "epoch": 176.05333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004906315073996962, "loss": 0.3285, "step": 66020 }, { "epoch": 176.08, "grad_norm": 0.189453125, "learning_rate": 0.0004906286654059654, "loss": 0.3121, "step": 66030 }, { "epoch": 176.10666666666665, "grad_norm": 0.19140625, "learning_rate": 0.0004906258229894648, "loss": 0.3141, "step": 66040 }, { "epoch": 176.13333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004906229801501995, "loss": 0.3048, "step": 66050 }, { "epoch": 176.16, "grad_norm": 0.322265625, "learning_rate": 0.0004906201368881746, "loss": 0.3127, "step": 66060 }, { "epoch": 176.18666666666667, "grad_norm": 0.19140625, "learning_rate": 0.000490617293203395, "loss": 0.3079, "step": 66070 }, { "epoch": 176.21333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004906144490958656, "loss": 0.2965, "step": 66080 }, { "epoch": 176.24, "grad_norm": 0.2001953125, "learning_rate": 0.0004906116045655916, "loss": 0.3, "step": 66090 }, { "epoch": 176.26666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004906087596125778, "loss": 0.3062, "step": 66100 }, { "epoch": 176.29333333333332, "grad_norm": 0.19140625, "learning_rate": 0.0004906059142368293, "loss": 0.3018, "step": 66110 }, { "epoch": 176.32, "grad_norm": 0.1796875, "learning_rate": 0.0004906030684383513, "loss": 0.3091, "step": 66120 }, { "epoch": 176.34666666666666, "grad_norm": 0.1923828125, "learning_rate": 0.0004906002222171483, "loss": 0.308, "step": 66130 }, { "epoch": 176.37333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004905973755732258, "loss": 0.3003, "step": 66140 }, { "epoch": 176.4, "grad_norm": 0.1875, "learning_rate": 0.0004905945285065884, "loss": 0.3015, "step": 66150 }, { "epoch": 176.42666666666668, "grad_norm": 0.17578125, "learning_rate": 0.0004905916810172415, "loss": 0.3092, "step": 66160 }, { "epoch": 176.45333333333335, "grad_norm": 0.2109375, "learning_rate": 0.0004905888331051898, "loss": 0.3173, "step": 66170 }, { "epoch": 176.48, "grad_norm": 0.263671875, "learning_rate": 0.0004905859847704384, "loss": 0.3127, "step": 66180 }, { "epoch": 176.50666666666666, "grad_norm": 0.2041015625, "learning_rate": 0.0004905831360129923, "loss": 0.3098, "step": 66190 }, { "epoch": 176.53333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004905802868328565, "loss": 0.3049, "step": 66200 }, { "epoch": 176.56, "grad_norm": 0.17578125, "learning_rate": 0.0004905774372300361, "loss": 0.3012, "step": 66210 }, { "epoch": 176.58666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.000490574587204536, "loss": 0.3051, "step": 66220 }, { "epoch": 176.61333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004905717367563612, "loss": 0.2969, "step": 66230 }, { "epoch": 176.64, "grad_norm": 0.1845703125, "learning_rate": 0.0004905688858855168, "loss": 0.2976, "step": 66240 }, { "epoch": 176.66666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0004905660345920076, "loss": 0.3138, "step": 66250 }, { "epoch": 176.69333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004905631828758389, "loss": 0.2927, "step": 66260 }, { "epoch": 176.72, "grad_norm": 0.21484375, "learning_rate": 0.0004905603307370155, "loss": 0.3084, "step": 66270 }, { "epoch": 176.74666666666667, "grad_norm": 0.169921875, "learning_rate": 0.0004905574781755425, "loss": 0.3097, "step": 66280 }, { "epoch": 176.77333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004905546251914249, "loss": 0.3212, "step": 66290 }, { "epoch": 176.8, "grad_norm": 0.197265625, "learning_rate": 0.0004905517717846677, "loss": 0.308, "step": 66300 }, { "epoch": 176.82666666666665, "grad_norm": 0.1796875, "learning_rate": 0.0004905489179552759, "loss": 0.2967, "step": 66310 }, { "epoch": 176.85333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004905460637032546, "loss": 0.3002, "step": 66320 }, { "epoch": 176.88, "grad_norm": 0.1923828125, "learning_rate": 0.0004905432090286086, "loss": 0.2997, "step": 66330 }, { "epoch": 176.90666666666667, "grad_norm": 0.291015625, "learning_rate": 0.0004905403539313432, "loss": 0.3017, "step": 66340 }, { "epoch": 176.93333333333334, "grad_norm": 0.1689453125, "learning_rate": 0.0004905374984114632, "loss": 0.3021, "step": 66350 }, { "epoch": 176.96, "grad_norm": 0.1787109375, "learning_rate": 0.0004905346424689738, "loss": 0.3018, "step": 66360 }, { "epoch": 176.98666666666668, "grad_norm": 0.1953125, "learning_rate": 0.0004905317861038798, "loss": 0.3134, "step": 66370 }, { "epoch": 177.0, "eval_loss": 0.3980793058872223, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.3702, "eval_samples_per_second": 1.293, "eval_steps_per_second": 0.081, "step": 66375 }, { "epoch": 177.01333333333332, "grad_norm": 0.205078125, "learning_rate": 0.0004905289293161865, "loss": 0.3045, "step": 66380 }, { "epoch": 177.04, "grad_norm": 0.2431640625, "learning_rate": 0.0004905260721058985, "loss": 0.3304, "step": 66390 }, { "epoch": 177.06666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004905232144730211, "loss": 0.3163, "step": 66400 }, { "epoch": 177.09333333333333, "grad_norm": 0.2578125, "learning_rate": 0.0004905203564175595, "loss": 0.3125, "step": 66410 }, { "epoch": 177.12, "grad_norm": 0.2177734375, "learning_rate": 0.0004905174979395184, "loss": 0.3089, "step": 66420 }, { "epoch": 177.14666666666668, "grad_norm": 0.21875, "learning_rate": 0.0004905146390389029, "loss": 0.3092, "step": 66430 }, { "epoch": 177.17333333333335, "grad_norm": 0.224609375, "learning_rate": 0.0004905117797157181, "loss": 0.3096, "step": 66440 }, { "epoch": 177.2, "grad_norm": 0.1982421875, "learning_rate": 0.000490508919969969, "loss": 0.303, "step": 66450 }, { "epoch": 177.22666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004905060598016605, "loss": 0.2969, "step": 66460 }, { "epoch": 177.25333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004905031992107978, "loss": 0.2964, "step": 66470 }, { "epoch": 177.28, "grad_norm": 0.267578125, "learning_rate": 0.0004905003381973858, "loss": 0.315, "step": 66480 }, { "epoch": 177.30666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004904974767614297, "loss": 0.2973, "step": 66490 }, { "epoch": 177.33333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004904946149029343, "loss": 0.3115, "step": 66500 }, { "epoch": 177.36, "grad_norm": 0.193359375, "learning_rate": 0.0004904917526219049, "loss": 0.3026, "step": 66510 }, { "epoch": 177.38666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0004904888899183462, "loss": 0.3001, "step": 66520 }, { "epoch": 177.41333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004904860267922636, "loss": 0.3058, "step": 66530 }, { "epoch": 177.44, "grad_norm": 0.23828125, "learning_rate": 0.0004904831632436616, "loss": 0.3129, "step": 66540 }, { "epoch": 177.46666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004904802992725458, "loss": 0.3167, "step": 66550 }, { "epoch": 177.49333333333334, "grad_norm": 0.2265625, "learning_rate": 0.000490477434878921, "loss": 0.3061, "step": 66560 }, { "epoch": 177.52, "grad_norm": 0.2412109375, "learning_rate": 0.0004904745700627921, "loss": 0.3099, "step": 66570 }, { "epoch": 177.54666666666665, "grad_norm": 0.2021484375, "learning_rate": 0.0004904717048241642, "loss": 0.3007, "step": 66580 }, { "epoch": 177.57333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004904688391630425, "loss": 0.3044, "step": 66590 }, { "epoch": 177.6, "grad_norm": 0.2099609375, "learning_rate": 0.000490465973079432, "loss": 0.3013, "step": 66600 }, { "epoch": 177.62666666666667, "grad_norm": 0.1767578125, "learning_rate": 0.0004904631065733376, "loss": 0.2963, "step": 66610 }, { "epoch": 177.65333333333334, "grad_norm": 0.24609375, "learning_rate": 0.0004904602396447644, "loss": 0.3085, "step": 66620 }, { "epoch": 177.68, "grad_norm": 0.1767578125, "learning_rate": 0.0004904573722937174, "loss": 0.297, "step": 66630 }, { "epoch": 177.70666666666668, "grad_norm": 0.28515625, "learning_rate": 0.0004904545045202016, "loss": 0.2984, "step": 66640 }, { "epoch": 177.73333333333332, "grad_norm": 0.1826171875, "learning_rate": 0.0004904516363242222, "loss": 0.3136, "step": 66650 }, { "epoch": 177.76, "grad_norm": 0.2001953125, "learning_rate": 0.0004904487677057841, "loss": 0.3156, "step": 66660 }, { "epoch": 177.78666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004904458986648926, "loss": 0.3163, "step": 66670 }, { "epoch": 177.81333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004904430292015522, "loss": 0.2989, "step": 66680 }, { "epoch": 177.84, "grad_norm": 0.1953125, "learning_rate": 0.0004904401593157686, "loss": 0.2988, "step": 66690 }, { "epoch": 177.86666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004904372890075462, "loss": 0.3, "step": 66700 }, { "epoch": 177.89333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.0004904344182768905, "loss": 0.3004, "step": 66710 }, { "epoch": 177.92, "grad_norm": 0.275390625, "learning_rate": 0.0004904315471238065, "loss": 0.3014, "step": 66720 }, { "epoch": 177.94666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.000490428675548299, "loss": 0.3036, "step": 66730 }, { "epoch": 177.97333333333333, "grad_norm": 0.314453125, "learning_rate": 0.0004904258035503732, "loss": 0.3104, "step": 66740 }, { "epoch": 178.0, "grad_norm": 0.181640625, "learning_rate": 0.0004904229311300342, "loss": 0.2992, "step": 66750 }, { "epoch": 178.0, "eval_loss": 0.39846497774124146, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7341, "eval_samples_per_second": 1.491, "eval_steps_per_second": 0.093, "step": 66750 }, { "epoch": 178.02666666666667, "grad_norm": 0.201171875, "learning_rate": 0.000490420058287287, "loss": 0.3215, "step": 66760 }, { "epoch": 178.05333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004904171850221365, "loss": 0.3276, "step": 66770 }, { "epoch": 178.08, "grad_norm": 0.181640625, "learning_rate": 0.000490414311334588, "loss": 0.3119, "step": 66780 }, { "epoch": 178.10666666666665, "grad_norm": 0.2197265625, "learning_rate": 0.0004904114372246464, "loss": 0.3136, "step": 66790 }, { "epoch": 178.13333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004904085626923168, "loss": 0.3045, "step": 66800 }, { "epoch": 178.16, "grad_norm": 0.203125, "learning_rate": 0.0004904056877376042, "loss": 0.3117, "step": 66810 }, { "epoch": 178.18666666666667, "grad_norm": 0.1640625, "learning_rate": 0.0004904028123605136, "loss": 0.3077, "step": 66820 }, { "epoch": 178.21333333333334, "grad_norm": 0.1767578125, "learning_rate": 0.0004903999365610503, "loss": 0.2963, "step": 66830 }, { "epoch": 178.24, "grad_norm": 0.197265625, "learning_rate": 0.000490397060339219, "loss": 0.2997, "step": 66840 }, { "epoch": 178.26666666666668, "grad_norm": 0.21875, "learning_rate": 0.000490394183695025, "loss": 0.3057, "step": 66850 }, { "epoch": 178.29333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004903913066284733, "loss": 0.3014, "step": 66860 }, { "epoch": 178.32, "grad_norm": 0.20703125, "learning_rate": 0.000490388429139569, "loss": 0.3085, "step": 66870 }, { "epoch": 178.34666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004903855512283171, "loss": 0.3076, "step": 66880 }, { "epoch": 178.37333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004903826728947225, "loss": 0.3001, "step": 66890 }, { "epoch": 178.4, "grad_norm": 0.201171875, "learning_rate": 0.0004903797941387906, "loss": 0.3013, "step": 66900 }, { "epoch": 178.42666666666668, "grad_norm": 0.279296875, "learning_rate": 0.0004903769149605261, "loss": 0.3082, "step": 66910 }, { "epoch": 178.45333333333335, "grad_norm": 0.1953125, "learning_rate": 0.0004903740353599344, "loss": 0.3174, "step": 66920 }, { "epoch": 178.48, "grad_norm": 0.1865234375, "learning_rate": 0.0004903711553370203, "loss": 0.3123, "step": 66930 }, { "epoch": 178.50666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004903682748917889, "loss": 0.3092, "step": 66940 }, { "epoch": 178.53333333333333, "grad_norm": 0.1650390625, "learning_rate": 0.0004903653940242455, "loss": 0.3043, "step": 66950 }, { "epoch": 178.56, "grad_norm": 0.1923828125, "learning_rate": 0.0004903625127343948, "loss": 0.3009, "step": 66960 }, { "epoch": 178.58666666666667, "grad_norm": 0.2255859375, "learning_rate": 0.000490359631022242, "loss": 0.3044, "step": 66970 }, { "epoch": 178.61333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004903567488877923, "loss": 0.2976, "step": 66980 }, { "epoch": 178.64, "grad_norm": 0.1708984375, "learning_rate": 0.0004903538663310506, "loss": 0.2979, "step": 66990 }, { "epoch": 178.66666666666666, "grad_norm": 0.1806640625, "learning_rate": 0.0004903509833520221, "loss": 0.3141, "step": 67000 }, { "epoch": 178.69333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004903480999507118, "loss": 0.2923, "step": 67010 }, { "epoch": 178.72, "grad_norm": 0.20703125, "learning_rate": 0.0004903452161271247, "loss": 0.3079, "step": 67020 }, { "epoch": 178.74666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004903423318812659, "loss": 0.3098, "step": 67030 }, { "epoch": 178.77333333333334, "grad_norm": 0.21875, "learning_rate": 0.0004903394472131406, "loss": 0.3211, "step": 67040 }, { "epoch": 178.8, "grad_norm": 0.2470703125, "learning_rate": 0.0004903365621227536, "loss": 0.3081, "step": 67050 }, { "epoch": 178.82666666666665, "grad_norm": 0.1923828125, "learning_rate": 0.0004903336766101102, "loss": 0.2969, "step": 67060 }, { "epoch": 178.85333333333332, "grad_norm": 0.2001953125, "learning_rate": 0.0004903307906752154, "loss": 0.3005, "step": 67070 }, { "epoch": 178.88, "grad_norm": 0.1943359375, "learning_rate": 0.0004903279043180742, "loss": 0.2995, "step": 67080 }, { "epoch": 178.90666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004903250175386919, "loss": 0.3011, "step": 67090 }, { "epoch": 178.93333333333334, "grad_norm": 0.1708984375, "learning_rate": 0.0004903221303370733, "loss": 0.3025, "step": 67100 }, { "epoch": 178.96, "grad_norm": 0.1884765625, "learning_rate": 0.0004903192427132236, "loss": 0.3016, "step": 67110 }, { "epoch": 178.98666666666668, "grad_norm": 0.21875, "learning_rate": 0.0004903163546671478, "loss": 0.3133, "step": 67120 }, { "epoch": 179.0, "eval_loss": 0.39602065086364746, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.109, "eval_samples_per_second": 1.44, "eval_steps_per_second": 0.09, "step": 67125 }, { "epoch": 179.01333333333332, "grad_norm": 0.216796875, "learning_rate": 0.0004903134661988511, "loss": 0.3046, "step": 67130 }, { "epoch": 179.04, "grad_norm": 0.177734375, "learning_rate": 0.0004903105773083386, "loss": 0.3305, "step": 67140 }, { "epoch": 179.06666666666666, "grad_norm": 0.2431640625, "learning_rate": 0.0004903076879956151, "loss": 0.3157, "step": 67150 }, { "epoch": 179.09333333333333, "grad_norm": 0.251953125, "learning_rate": 0.000490304798260686, "loss": 0.3128, "step": 67160 }, { "epoch": 179.12, "grad_norm": 0.2001953125, "learning_rate": 0.0004903019081035562, "loss": 0.3085, "step": 67170 }, { "epoch": 179.14666666666668, "grad_norm": 0.1826171875, "learning_rate": 0.0004902990175242307, "loss": 0.3091, "step": 67180 }, { "epoch": 179.17333333333335, "grad_norm": 0.2021484375, "learning_rate": 0.0004902961265227148, "loss": 0.3101, "step": 67190 }, { "epoch": 179.2, "grad_norm": 0.236328125, "learning_rate": 0.0004902932350990134, "loss": 0.3029, "step": 67200 }, { "epoch": 179.22666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004902903432531318, "loss": 0.2967, "step": 67210 }, { "epoch": 179.25333333333333, "grad_norm": 0.17578125, "learning_rate": 0.0004902874509850748, "loss": 0.2968, "step": 67220 }, { "epoch": 179.28, "grad_norm": 0.232421875, "learning_rate": 0.0004902845582948475, "loss": 0.3147, "step": 67230 }, { "epoch": 179.30666666666667, "grad_norm": 0.185546875, "learning_rate": 0.0004902816651824553, "loss": 0.297, "step": 67240 }, { "epoch": 179.33333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.000490278771647903, "loss": 0.3112, "step": 67250 }, { "epoch": 179.36, "grad_norm": 0.232421875, "learning_rate": 0.0004902758776911957, "loss": 0.3021, "step": 67260 }, { "epoch": 179.38666666666666, "grad_norm": 0.23828125, "learning_rate": 0.0004902729833123387, "loss": 0.3, "step": 67270 }, { "epoch": 179.41333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004902700885113368, "loss": 0.306, "step": 67280 }, { "epoch": 179.44, "grad_norm": 0.177734375, "learning_rate": 0.0004902671932881952, "loss": 0.3134, "step": 67290 }, { "epoch": 179.46666666666667, "grad_norm": 0.171875, "learning_rate": 0.0004902642976429191, "loss": 0.3167, "step": 67300 }, { "epoch": 179.49333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004902614015755135, "loss": 0.3065, "step": 67310 }, { "epoch": 179.52, "grad_norm": 0.173828125, "learning_rate": 0.0004902585050859835, "loss": 0.3105, "step": 67320 }, { "epoch": 179.54666666666665, "grad_norm": 0.2353515625, "learning_rate": 0.000490255608174334, "loss": 0.3006, "step": 67330 }, { "epoch": 179.57333333333332, "grad_norm": 0.236328125, "learning_rate": 0.0004902527108405705, "loss": 0.304, "step": 67340 }, { "epoch": 179.6, "grad_norm": 0.1865234375, "learning_rate": 0.0004902498130846977, "loss": 0.3008, "step": 67350 }, { "epoch": 179.62666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.0004902469149067208, "loss": 0.2959, "step": 67360 }, { "epoch": 179.65333333333334, "grad_norm": 0.259765625, "learning_rate": 0.000490244016306645, "loss": 0.3093, "step": 67370 }, { "epoch": 179.68, "grad_norm": 0.1943359375, "learning_rate": 0.0004902411172844753, "loss": 0.2976, "step": 67380 }, { "epoch": 179.70666666666668, "grad_norm": 0.2119140625, "learning_rate": 0.0004902382178402168, "loss": 0.2977, "step": 67390 }, { "epoch": 179.73333333333332, "grad_norm": 0.2109375, "learning_rate": 0.0004902353179738747, "loss": 0.3132, "step": 67400 }, { "epoch": 179.76, "grad_norm": 0.1982421875, "learning_rate": 0.0004902324176854539, "loss": 0.3154, "step": 67410 }, { "epoch": 179.78666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004902295169749597, "loss": 0.3161, "step": 67420 }, { "epoch": 179.81333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.000490226615842397, "loss": 0.2982, "step": 67430 }, { "epoch": 179.84, "grad_norm": 0.20703125, "learning_rate": 0.000490223714287771, "loss": 0.2988, "step": 67440 }, { "epoch": 179.86666666666667, "grad_norm": 0.173828125, "learning_rate": 0.0004902208123110869, "loss": 0.3006, "step": 67450 }, { "epoch": 179.89333333333335, "grad_norm": 0.23828125, "learning_rate": 0.0004902179099123496, "loss": 0.2997, "step": 67460 }, { "epoch": 179.92, "grad_norm": 0.2001953125, "learning_rate": 0.0004902150070915643, "loss": 0.301, "step": 67470 }, { "epoch": 179.94666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004902121038487361, "loss": 0.3029, "step": 67480 }, { "epoch": 179.97333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004902092001838702, "loss": 0.31, "step": 67490 }, { "epoch": 180.0, "grad_norm": 0.169921875, "learning_rate": 0.0004902062960969715, "loss": 0.2989, "step": 67500 }, { "epoch": 180.0, "eval_loss": 0.39768654108047485, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4405, "eval_samples_per_second": 1.532, "eval_steps_per_second": 0.096, "step": 67500 }, { "epoch": 180.02666666666667, "grad_norm": 0.212890625, "learning_rate": 0.0004902033915880451, "loss": 0.3212, "step": 67510 }, { "epoch": 180.05333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004902004866570963, "loss": 0.3275, "step": 67520 }, { "epoch": 180.08, "grad_norm": 0.18359375, "learning_rate": 0.0004901975813041302, "loss": 0.3111, "step": 67530 }, { "epoch": 180.10666666666665, "grad_norm": 0.1953125, "learning_rate": 0.0004901946755291516, "loss": 0.3135, "step": 67540 }, { "epoch": 180.13333333333333, "grad_norm": 0.201171875, "learning_rate": 0.000490191769332166, "loss": 0.3045, "step": 67550 }, { "epoch": 180.16, "grad_norm": 0.1826171875, "learning_rate": 0.0004901888627131781, "loss": 0.3116, "step": 67560 }, { "epoch": 180.18666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004901859556721935, "loss": 0.3075, "step": 67570 }, { "epoch": 180.21333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004901830482092169, "loss": 0.2961, "step": 67580 }, { "epoch": 180.24, "grad_norm": 0.240234375, "learning_rate": 0.0004901801403242535, "loss": 0.299, "step": 67590 }, { "epoch": 180.26666666666668, "grad_norm": 0.1748046875, "learning_rate": 0.0004901772320173085, "loss": 0.3056, "step": 67600 }, { "epoch": 180.29333333333332, "grad_norm": 0.1865234375, "learning_rate": 0.000490174323288387, "loss": 0.3014, "step": 67610 }, { "epoch": 180.32, "grad_norm": 0.171875, "learning_rate": 0.000490171414137494, "loss": 0.3084, "step": 67620 }, { "epoch": 180.34666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004901685045646347, "loss": 0.3077, "step": 67630 }, { "epoch": 180.37333333333333, "grad_norm": 0.2080078125, "learning_rate": 0.0004901655945698143, "loss": 0.2999, "step": 67640 }, { "epoch": 180.4, "grad_norm": 0.1943359375, "learning_rate": 0.0004901626841530376, "loss": 0.3013, "step": 67650 }, { "epoch": 180.42666666666668, "grad_norm": 0.1796875, "learning_rate": 0.00049015977331431, "loss": 0.3083, "step": 67660 }, { "epoch": 180.45333333333335, "grad_norm": 0.1982421875, "learning_rate": 0.0004901568620536366, "loss": 0.3172, "step": 67670 }, { "epoch": 180.48, "grad_norm": 0.2216796875, "learning_rate": 0.0004901539503710224, "loss": 0.3124, "step": 67680 }, { "epoch": 180.50666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004901510382664726, "loss": 0.3092, "step": 67690 }, { "epoch": 180.53333333333333, "grad_norm": 0.1708984375, "learning_rate": 0.0004901481257399922, "loss": 0.3042, "step": 67700 }, { "epoch": 180.56, "grad_norm": 0.2001953125, "learning_rate": 0.0004901452127915865, "loss": 0.3008, "step": 67710 }, { "epoch": 180.58666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004901422994212605, "loss": 0.3049, "step": 67720 }, { "epoch": 180.61333333333334, "grad_norm": 0.1611328125, "learning_rate": 0.0004901393856290193, "loss": 0.2974, "step": 67730 }, { "epoch": 180.64, "grad_norm": 0.1943359375, "learning_rate": 0.000490136471414868, "loss": 0.2978, "step": 67740 }, { "epoch": 180.66666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004901335567788119, "loss": 0.3133, "step": 67750 }, { "epoch": 180.69333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.000490130641720856, "loss": 0.2931, "step": 67760 }, { "epoch": 180.72, "grad_norm": 0.28515625, "learning_rate": 0.0004901277262410053, "loss": 0.3081, "step": 67770 }, { "epoch": 180.74666666666667, "grad_norm": 0.220703125, "learning_rate": 0.0004901248103392651, "loss": 0.3101, "step": 67780 }, { "epoch": 180.77333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004901218940156404, "loss": 0.3209, "step": 67790 }, { "epoch": 180.8, "grad_norm": 0.220703125, "learning_rate": 0.0004901189772701365, "loss": 0.3075, "step": 67800 }, { "epoch": 180.82666666666665, "grad_norm": 0.1865234375, "learning_rate": 0.0004901160601027583, "loss": 0.2963, "step": 67810 }, { "epoch": 180.85333333333332, "grad_norm": 0.17578125, "learning_rate": 0.0004901131425135111, "loss": 0.3002, "step": 67820 }, { "epoch": 180.88, "grad_norm": 0.2138671875, "learning_rate": 0.0004901102245023999, "loss": 0.2994, "step": 67830 }, { "epoch": 180.90666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.00049010730606943, "loss": 0.3019, "step": 67840 }, { "epoch": 180.93333333333334, "grad_norm": 0.181640625, "learning_rate": 0.0004901043872146063, "loss": 0.302, "step": 67850 }, { "epoch": 180.96, "grad_norm": 0.2041015625, "learning_rate": 0.0004901014679379341, "loss": 0.3017, "step": 67860 }, { "epoch": 180.98666666666668, "grad_norm": 0.19921875, "learning_rate": 0.0004900985482394185, "loss": 0.3137, "step": 67870 }, { "epoch": 181.0, "eval_loss": 0.39718955755233765, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2027, "eval_samples_per_second": 1.428, "eval_steps_per_second": 0.089, "step": 67875 }, { "epoch": 181.01333333333332, "grad_norm": 0.205078125, "learning_rate": 0.0004900956281190645, "loss": 0.3047, "step": 67880 }, { "epoch": 181.04, "grad_norm": 0.19140625, "learning_rate": 0.0004900927075768774, "loss": 0.331, "step": 67890 }, { "epoch": 181.06666666666666, "grad_norm": 0.283203125, "learning_rate": 0.0004900897866128623, "loss": 0.3155, "step": 67900 }, { "epoch": 181.09333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004900868652270243, "loss": 0.3124, "step": 67910 }, { "epoch": 181.12, "grad_norm": 0.1875, "learning_rate": 0.0004900839434193684, "loss": 0.3078, "step": 67920 }, { "epoch": 181.14666666666668, "grad_norm": 0.1865234375, "learning_rate": 0.0004900810211899, "loss": 0.3092, "step": 67930 }, { "epoch": 181.17333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.0004900780985386241, "loss": 0.3099, "step": 67940 }, { "epoch": 181.2, "grad_norm": 0.2109375, "learning_rate": 0.0004900751754655458, "loss": 0.303, "step": 67950 }, { "epoch": 181.22666666666666, "grad_norm": 0.1796875, "learning_rate": 0.0004900722519706702, "loss": 0.2966, "step": 67960 }, { "epoch": 181.25333333333333, "grad_norm": 0.1787109375, "learning_rate": 0.0004900693280540026, "loss": 0.2969, "step": 67970 }, { "epoch": 181.28, "grad_norm": 0.2001953125, "learning_rate": 0.000490066403715548, "loss": 0.3146, "step": 67980 }, { "epoch": 181.30666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004900634789553116, "loss": 0.2972, "step": 67990 }, { "epoch": 181.33333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004900605537732984, "loss": 0.3115, "step": 68000 }, { "epoch": 181.36, "grad_norm": 0.212890625, "learning_rate": 0.0004900576281695138, "loss": 0.3013, "step": 68010 }, { "epoch": 181.38666666666666, "grad_norm": 0.2265625, "learning_rate": 0.0004900547021439627, "loss": 0.2995, "step": 68020 }, { "epoch": 181.41333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004900517756966504, "loss": 0.3051, "step": 68030 }, { "epoch": 181.44, "grad_norm": 0.216796875, "learning_rate": 0.000490048848827582, "loss": 0.3121, "step": 68040 }, { "epoch": 181.46666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0004900459215367626, "loss": 0.3162, "step": 68050 }, { "epoch": 181.49333333333334, "grad_norm": 0.2470703125, "learning_rate": 0.0004900429938241974, "loss": 0.306, "step": 68060 }, { "epoch": 181.52, "grad_norm": 0.1826171875, "learning_rate": 0.0004900400656898914, "loss": 0.31, "step": 68070 }, { "epoch": 181.54666666666665, "grad_norm": 0.193359375, "learning_rate": 0.0004900371371338499, "loss": 0.3001, "step": 68080 }, { "epoch": 181.57333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004900342081560781, "loss": 0.3041, "step": 68090 }, { "epoch": 181.6, "grad_norm": 0.1865234375, "learning_rate": 0.0004900312787565809, "loss": 0.3003, "step": 68100 }, { "epoch": 181.62666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004900283489353637, "loss": 0.2957, "step": 68110 }, { "epoch": 181.65333333333334, "grad_norm": 0.193359375, "learning_rate": 0.0004900254186924315, "loss": 0.3084, "step": 68120 }, { "epoch": 181.68, "grad_norm": 0.185546875, "learning_rate": 0.0004900224880277894, "loss": 0.2969, "step": 68130 }, { "epoch": 181.70666666666668, "grad_norm": 0.265625, "learning_rate": 0.0004900195569414427, "loss": 0.2983, "step": 68140 }, { "epoch": 181.73333333333332, "grad_norm": 0.263671875, "learning_rate": 0.0004900166254333965, "loss": 0.3132, "step": 68150 }, { "epoch": 181.76, "grad_norm": 0.1923828125, "learning_rate": 0.0004900136935036558, "loss": 0.3152, "step": 68160 }, { "epoch": 181.78666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004900107611522261, "loss": 0.3161, "step": 68170 }, { "epoch": 181.81333333333333, "grad_norm": 0.240234375, "learning_rate": 0.0004900078283791123, "loss": 0.299, "step": 68180 }, { "epoch": 181.84, "grad_norm": 0.1826171875, "learning_rate": 0.0004900048951843195, "loss": 0.2982, "step": 68190 }, { "epoch": 181.86666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.000490001961567853, "loss": 0.2996, "step": 68200 }, { "epoch": 181.89333333333335, "grad_norm": 0.1796875, "learning_rate": 0.000489999027529718, "loss": 0.2998, "step": 68210 }, { "epoch": 181.92, "grad_norm": 0.2001953125, "learning_rate": 0.0004899960930699194, "loss": 0.3008, "step": 68220 }, { "epoch": 181.94666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004899931581884625, "loss": 0.303, "step": 68230 }, { "epoch": 181.97333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004899902228853526, "loss": 0.3101, "step": 68240 }, { "epoch": 182.0, "grad_norm": 0.2236328125, "learning_rate": 0.0004899872871605946, "loss": 0.2986, "step": 68250 }, { "epoch": 182.0, "eval_loss": 0.39623311161994934, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1379, "eval_samples_per_second": 1.437, "eval_steps_per_second": 0.09, "step": 68250 }, { "epoch": 182.02666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004899843510141939, "loss": 0.3206, "step": 68260 }, { "epoch": 182.05333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004899814144461554, "loss": 0.3272, "step": 68270 }, { "epoch": 182.08, "grad_norm": 0.1904296875, "learning_rate": 0.0004899784774564845, "loss": 0.3108, "step": 68280 }, { "epoch": 182.10666666666665, "grad_norm": 0.166015625, "learning_rate": 0.0004899755400451862, "loss": 0.3127, "step": 68290 }, { "epoch": 182.13333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004899726022122658, "loss": 0.3042, "step": 68300 }, { "epoch": 182.16, "grad_norm": 0.1796875, "learning_rate": 0.0004899696639577284, "loss": 0.3107, "step": 68310 }, { "epoch": 182.18666666666667, "grad_norm": 0.185546875, "learning_rate": 0.000489966725281579, "loss": 0.3072, "step": 68320 }, { "epoch": 182.21333333333334, "grad_norm": 0.23828125, "learning_rate": 0.000489963786183823, "loss": 0.2958, "step": 68330 }, { "epoch": 182.24, "grad_norm": 0.2294921875, "learning_rate": 0.0004899608466644655, "loss": 0.2995, "step": 68340 }, { "epoch": 182.26666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.0004899579067235116, "loss": 0.3048, "step": 68350 }, { "epoch": 182.29333333333332, "grad_norm": 0.17578125, "learning_rate": 0.0004899549663609665, "loss": 0.3017, "step": 68360 }, { "epoch": 182.32, "grad_norm": 0.1669921875, "learning_rate": 0.0004899520255768353, "loss": 0.3079, "step": 68370 }, { "epoch": 182.34666666666666, "grad_norm": 0.26953125, "learning_rate": 0.0004899490843711233, "loss": 0.3071, "step": 68380 }, { "epoch": 182.37333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004899461427438356, "loss": 0.2993, "step": 68390 }, { "epoch": 182.4, "grad_norm": 0.1953125, "learning_rate": 0.0004899432006949774, "loss": 0.3011, "step": 68400 }, { "epoch": 182.42666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004899402582245538, "loss": 0.3083, "step": 68410 }, { "epoch": 182.45333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.00048993731533257, "loss": 0.3162, "step": 68420 }, { "epoch": 182.48, "grad_norm": 0.18359375, "learning_rate": 0.0004899343720190313, "loss": 0.3119, "step": 68430 }, { "epoch": 182.50666666666666, "grad_norm": 0.1953125, "learning_rate": 0.0004899314282839426, "loss": 0.309, "step": 68440 }, { "epoch": 182.53333333333333, "grad_norm": 0.2333984375, "learning_rate": 0.0004899284841273092, "loss": 0.3038, "step": 68450 }, { "epoch": 182.56, "grad_norm": 0.22265625, "learning_rate": 0.0004899255395491365, "loss": 0.3004, "step": 68460 }, { "epoch": 182.58666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004899225945494293, "loss": 0.3041, "step": 68470 }, { "epoch": 182.61333333333334, "grad_norm": 0.1669921875, "learning_rate": 0.0004899196491281929, "loss": 0.2969, "step": 68480 }, { "epoch": 182.64, "grad_norm": 0.2109375, "learning_rate": 0.0004899167032854327, "loss": 0.2974, "step": 68490 }, { "epoch": 182.66666666666666, "grad_norm": 0.2177734375, "learning_rate": 0.0004899137570211536, "loss": 0.3128, "step": 68500 }, { "epoch": 182.69333333333333, "grad_norm": 0.177734375, "learning_rate": 0.0004899108103353607, "loss": 0.2922, "step": 68510 }, { "epoch": 182.72, "grad_norm": 0.29296875, "learning_rate": 0.0004899078632280596, "loss": 0.3071, "step": 68520 }, { "epoch": 182.74666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004899049156992551, "loss": 0.3091, "step": 68530 }, { "epoch": 182.77333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004899019677489525, "loss": 0.3202, "step": 68540 }, { "epoch": 182.8, "grad_norm": 0.2080078125, "learning_rate": 0.0004898990193771571, "loss": 0.3075, "step": 68550 }, { "epoch": 182.82666666666665, "grad_norm": 0.28125, "learning_rate": 0.0004898960705838739, "loss": 0.2961, "step": 68560 }, { "epoch": 182.85333333333332, "grad_norm": 0.208984375, "learning_rate": 0.0004898931213691082, "loss": 0.2996, "step": 68570 }, { "epoch": 182.88, "grad_norm": 0.19921875, "learning_rate": 0.0004898901717328649, "loss": 0.2995, "step": 68580 }, { "epoch": 182.90666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.0004898872216751496, "loss": 0.301, "step": 68590 }, { "epoch": 182.93333333333334, "grad_norm": 0.2421875, "learning_rate": 0.0004898842711959673, "loss": 0.3016, "step": 68600 }, { "epoch": 182.96, "grad_norm": 0.173828125, "learning_rate": 0.0004898813202953231, "loss": 0.3018, "step": 68610 }, { "epoch": 182.98666666666668, "grad_norm": 0.19921875, "learning_rate": 0.0004898783689732222, "loss": 0.3132, "step": 68620 }, { "epoch": 183.0, "eval_loss": 0.3966831862926483, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8776, "eval_samples_per_second": 1.471, "eval_steps_per_second": 0.092, "step": 68625 }, { "epoch": 183.01333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004898754172296699, "loss": 0.3036, "step": 68630 }, { "epoch": 183.04, "grad_norm": 0.1884765625, "learning_rate": 0.0004898724650646714, "loss": 0.33, "step": 68640 }, { "epoch": 183.06666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0004898695124782318, "loss": 0.315, "step": 68650 }, { "epoch": 183.09333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004898665594703563, "loss": 0.3118, "step": 68660 }, { "epoch": 183.12, "grad_norm": 0.2392578125, "learning_rate": 0.00048986360604105, "loss": 0.308, "step": 68670 }, { "epoch": 183.14666666666668, "grad_norm": 0.224609375, "learning_rate": 0.0004898606521903183, "loss": 0.309, "step": 68680 }, { "epoch": 183.17333333333335, "grad_norm": 0.24609375, "learning_rate": 0.0004898576979181663, "loss": 0.3094, "step": 68690 }, { "epoch": 183.2, "grad_norm": 0.2216796875, "learning_rate": 0.000489854743224599, "loss": 0.3024, "step": 68700 }, { "epoch": 183.22666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004898517881096219, "loss": 0.2962, "step": 68710 }, { "epoch": 183.25333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004898488325732399, "loss": 0.2964, "step": 68720 }, { "epoch": 183.28, "grad_norm": 0.224609375, "learning_rate": 0.0004898458766154584, "loss": 0.314, "step": 68730 }, { "epoch": 183.30666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004898429202362827, "loss": 0.2968, "step": 68740 }, { "epoch": 183.33333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004898399634357175, "loss": 0.3105, "step": 68750 }, { "epoch": 183.36, "grad_norm": 0.203125, "learning_rate": 0.0004898370062137686, "loss": 0.3017, "step": 68760 }, { "epoch": 183.38666666666666, "grad_norm": 0.2275390625, "learning_rate": 0.0004898340485704408, "loss": 0.2997, "step": 68770 }, { "epoch": 183.41333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004898310905057394, "loss": 0.3053, "step": 68780 }, { "epoch": 183.44, "grad_norm": 0.2421875, "learning_rate": 0.0004898281320196697, "loss": 0.3124, "step": 68790 }, { "epoch": 183.46666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004898251731122367, "loss": 0.3162, "step": 68800 }, { "epoch": 183.49333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004898222137834458, "loss": 0.3062, "step": 68810 }, { "epoch": 183.52, "grad_norm": 0.197265625, "learning_rate": 0.000489819254033302, "loss": 0.3103, "step": 68820 }, { "epoch": 183.54666666666665, "grad_norm": 0.1669921875, "learning_rate": 0.0004898162938618107, "loss": 0.3001, "step": 68830 }, { "epoch": 183.57333333333332, "grad_norm": 0.177734375, "learning_rate": 0.0004898133332689769, "loss": 0.3039, "step": 68840 }, { "epoch": 183.6, "grad_norm": 0.1943359375, "learning_rate": 0.0004898103722548061, "loss": 0.3008, "step": 68850 }, { "epoch": 183.62666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004898074108193031, "loss": 0.2962, "step": 68860 }, { "epoch": 183.65333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004898044489624735, "loss": 0.3086, "step": 68870 }, { "epoch": 183.68, "grad_norm": 0.197265625, "learning_rate": 0.0004898014866843221, "loss": 0.297, "step": 68880 }, { "epoch": 183.70666666666668, "grad_norm": 0.2236328125, "learning_rate": 0.0004897985239848545, "loss": 0.2976, "step": 68890 }, { "epoch": 183.73333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004897955608640756, "loss": 0.313, "step": 68900 }, { "epoch": 183.76, "grad_norm": 0.181640625, "learning_rate": 0.0004897925973219909, "loss": 0.3148, "step": 68910 }, { "epoch": 183.78666666666666, "grad_norm": 0.189453125, "learning_rate": 0.0004897896333586053, "loss": 0.3156, "step": 68920 }, { "epoch": 183.81333333333333, "grad_norm": 0.23828125, "learning_rate": 0.0004897866689739242, "loss": 0.2987, "step": 68930 }, { "epoch": 183.84, "grad_norm": 0.2021484375, "learning_rate": 0.0004897837041679527, "loss": 0.2981, "step": 68940 }, { "epoch": 183.86666666666667, "grad_norm": 0.240234375, "learning_rate": 0.0004897807389406962, "loss": 0.3003, "step": 68950 }, { "epoch": 183.89333333333335, "grad_norm": 0.1904296875, "learning_rate": 0.0004897777732921596, "loss": 0.2992, "step": 68960 }, { "epoch": 183.92, "grad_norm": 0.2236328125, "learning_rate": 0.0004897748072223483, "loss": 0.3011, "step": 68970 }, { "epoch": 183.94666666666666, "grad_norm": 0.2099609375, "learning_rate": 0.0004897718407312677, "loss": 0.3026, "step": 68980 }, { "epoch": 183.97333333333333, "grad_norm": 0.224609375, "learning_rate": 0.0004897688738189226, "loss": 0.3095, "step": 68990 }, { "epoch": 184.0, "grad_norm": 0.2294921875, "learning_rate": 0.0004897659064853185, "loss": 0.2987, "step": 69000 }, { "epoch": 184.0, "eval_loss": 0.3965569734573364, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4819, "eval_samples_per_second": 1.526, "eval_steps_per_second": 0.095, "step": 69000 }, { "epoch": 184.02666666666667, "grad_norm": 0.27734375, "learning_rate": 0.0004897629387304605, "loss": 0.3207, "step": 69010 }, { "epoch": 184.05333333333334, "grad_norm": 0.1953125, "learning_rate": 0.000489759970554354, "loss": 0.3277, "step": 69020 }, { "epoch": 184.08, "grad_norm": 0.1943359375, "learning_rate": 0.0004897570019570038, "loss": 0.3104, "step": 69030 }, { "epoch": 184.10666666666665, "grad_norm": 0.1767578125, "learning_rate": 0.0004897540329384156, "loss": 0.3128, "step": 69040 }, { "epoch": 184.13333333333333, "grad_norm": 0.2275390625, "learning_rate": 0.0004897510634985943, "loss": 0.3036, "step": 69050 }, { "epoch": 184.16, "grad_norm": 0.259765625, "learning_rate": 0.0004897480936375452, "loss": 0.3115, "step": 69060 }, { "epoch": 184.18666666666667, "grad_norm": 0.326171875, "learning_rate": 0.0004897451233552736, "loss": 0.3073, "step": 69070 }, { "epoch": 184.21333333333334, "grad_norm": 0.26171875, "learning_rate": 0.0004897421526517846, "loss": 0.2956, "step": 69080 }, { "epoch": 184.24, "grad_norm": 0.1962890625, "learning_rate": 0.0004897391815270834, "loss": 0.2997, "step": 69090 }, { "epoch": 184.26666666666668, "grad_norm": 0.216796875, "learning_rate": 0.0004897362099811754, "loss": 0.3052, "step": 69100 }, { "epoch": 184.29333333333332, "grad_norm": 0.2119140625, "learning_rate": 0.0004897332380140657, "loss": 0.3013, "step": 69110 }, { "epoch": 184.32, "grad_norm": 0.171875, "learning_rate": 0.0004897302656257594, "loss": 0.3079, "step": 69120 }, { "epoch": 184.34666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.000489727292816262, "loss": 0.3067, "step": 69130 }, { "epoch": 184.37333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004897243195855785, "loss": 0.2995, "step": 69140 }, { "epoch": 184.4, "grad_norm": 0.1962890625, "learning_rate": 0.0004897213459337142, "loss": 0.3009, "step": 69150 }, { "epoch": 184.42666666666668, "grad_norm": 0.2314453125, "learning_rate": 0.0004897183718606744, "loss": 0.3077, "step": 69160 }, { "epoch": 184.45333333333335, "grad_norm": 0.212890625, "learning_rate": 0.0004897153973664642, "loss": 0.3161, "step": 69170 }, { "epoch": 184.48, "grad_norm": 0.205078125, "learning_rate": 0.0004897124224510889, "loss": 0.3122, "step": 69180 }, { "epoch": 184.50666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004897094471145537, "loss": 0.3089, "step": 69190 }, { "epoch": 184.53333333333333, "grad_norm": 0.16015625, "learning_rate": 0.0004897064713568637, "loss": 0.3038, "step": 69200 }, { "epoch": 184.56, "grad_norm": 0.2490234375, "learning_rate": 0.0004897034951780244, "loss": 0.3004, "step": 69210 }, { "epoch": 184.58666666666667, "grad_norm": 0.2109375, "learning_rate": 0.0004897005185780409, "loss": 0.3038, "step": 69220 }, { "epoch": 184.61333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004896975415569183, "loss": 0.2962, "step": 69230 }, { "epoch": 184.64, "grad_norm": 0.1875, "learning_rate": 0.000489694564114662, "loss": 0.297, "step": 69240 }, { "epoch": 184.66666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004896915862512772, "loss": 0.3131, "step": 69250 }, { "epoch": 184.69333333333333, "grad_norm": 0.1728515625, "learning_rate": 0.0004896886079667691, "loss": 0.2911, "step": 69260 }, { "epoch": 184.72, "grad_norm": 0.2119140625, "learning_rate": 0.000489685629261143, "loss": 0.3076, "step": 69270 }, { "epoch": 184.74666666666667, "grad_norm": 0.1904296875, "learning_rate": 0.000489682650134404, "loss": 0.3088, "step": 69280 }, { "epoch": 184.77333333333334, "grad_norm": 0.2490234375, "learning_rate": 0.0004896796705865573, "loss": 0.32, "step": 69290 }, { "epoch": 184.8, "grad_norm": 0.203125, "learning_rate": 0.0004896766906176085, "loss": 0.3072, "step": 69300 }, { "epoch": 184.82666666666665, "grad_norm": 0.173828125, "learning_rate": 0.0004896737102275625, "loss": 0.296, "step": 69310 }, { "epoch": 184.85333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004896707294164245, "loss": 0.2995, "step": 69320 }, { "epoch": 184.88, "grad_norm": 0.17578125, "learning_rate": 0.0004896677481842, "loss": 0.2994, "step": 69330 }, { "epoch": 184.90666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.000489664766530894, "loss": 0.3007, "step": 69340 }, { "epoch": 184.93333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004896617844565119, "loss": 0.301, "step": 69350 }, { "epoch": 184.96, "grad_norm": 0.171875, "learning_rate": 0.0004896588019610587, "loss": 0.3015, "step": 69360 }, { "epoch": 184.98666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.00048965581904454, "loss": 0.3132, "step": 69370 }, { "epoch": 185.0, "eval_loss": 0.39723387360572815, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.0418, "eval_samples_per_second": 1.329, "eval_steps_per_second": 0.083, "step": 69375 }, { "epoch": 185.01333333333332, "grad_norm": 0.2158203125, "learning_rate": 0.0004896528357069607, "loss": 0.3037, "step": 69380 }, { "epoch": 185.04, "grad_norm": 0.1806640625, "learning_rate": 0.0004896498519483263, "loss": 0.3299, "step": 69390 }, { "epoch": 185.06666666666666, "grad_norm": 0.25, "learning_rate": 0.0004896468677686419, "loss": 0.3148, "step": 69400 }, { "epoch": 185.09333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004896438831679128, "loss": 0.3116, "step": 69410 }, { "epoch": 185.12, "grad_norm": 0.19921875, "learning_rate": 0.0004896408981461442, "loss": 0.3078, "step": 69420 }, { "epoch": 185.14666666666668, "grad_norm": 0.1796875, "learning_rate": 0.0004896379127033414, "loss": 0.3086, "step": 69430 }, { "epoch": 185.17333333333335, "grad_norm": 0.275390625, "learning_rate": 0.0004896349268395096, "loss": 0.3088, "step": 69440 }, { "epoch": 185.2, "grad_norm": 0.2578125, "learning_rate": 0.000489631940554654, "loss": 0.3022, "step": 69450 }, { "epoch": 185.22666666666666, "grad_norm": 0.212890625, "learning_rate": 0.00048962895384878, "loss": 0.2964, "step": 69460 }, { "epoch": 185.25333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004896259667218927, "loss": 0.2964, "step": 69470 }, { "epoch": 185.28, "grad_norm": 0.2412109375, "learning_rate": 0.0004896229791739973, "loss": 0.314, "step": 69480 }, { "epoch": 185.30666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004896199912050993, "loss": 0.2967, "step": 69490 }, { "epoch": 185.33333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004896170028152037, "loss": 0.3108, "step": 69500 }, { "epoch": 185.36, "grad_norm": 0.19921875, "learning_rate": 0.0004896140140043159, "loss": 0.3018, "step": 69510 }, { "epoch": 185.38666666666666, "grad_norm": 0.2314453125, "learning_rate": 0.0004896110247724411, "loss": 0.299, "step": 69520 }, { "epoch": 185.41333333333333, "grad_norm": 0.1875, "learning_rate": 0.0004896080351195845, "loss": 0.3045, "step": 69530 }, { "epoch": 185.44, "grad_norm": 0.20703125, "learning_rate": 0.0004896050450457516, "loss": 0.3125, "step": 69540 }, { "epoch": 185.46666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004896020545509472, "loss": 0.3159, "step": 69550 }, { "epoch": 185.49333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.000489599063635177, "loss": 0.3058, "step": 69560 }, { "epoch": 185.52, "grad_norm": 0.2001953125, "learning_rate": 0.0004895960722984459, "loss": 0.31, "step": 69570 }, { "epoch": 185.54666666666665, "grad_norm": 0.1806640625, "learning_rate": 0.0004895930805407595, "loss": 0.3, "step": 69580 }, { "epoch": 185.57333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004895900883621227, "loss": 0.3033, "step": 69590 }, { "epoch": 185.6, "grad_norm": 0.267578125, "learning_rate": 0.000489587095762541, "loss": 0.3004, "step": 69600 }, { "epoch": 185.62666666666667, "grad_norm": 0.19140625, "learning_rate": 0.0004895841027420197, "loss": 0.2957, "step": 69610 }, { "epoch": 185.65333333333334, "grad_norm": 0.19921875, "learning_rate": 0.0004895811093005637, "loss": 0.3081, "step": 69620 }, { "epoch": 185.68, "grad_norm": 0.2197265625, "learning_rate": 0.0004895781154381787, "loss": 0.2965, "step": 69630 }, { "epoch": 185.70666666666668, "grad_norm": 0.267578125, "learning_rate": 0.0004895751211548698, "loss": 0.2978, "step": 69640 }, { "epoch": 185.73333333333332, "grad_norm": 0.310546875, "learning_rate": 0.0004895721264506422, "loss": 0.3131, "step": 69650 }, { "epoch": 185.76, "grad_norm": 0.251953125, "learning_rate": 0.0004895691313255012, "loss": 0.3151, "step": 69660 }, { "epoch": 185.78666666666666, "grad_norm": 0.21875, "learning_rate": 0.000489566135779452, "loss": 0.3156, "step": 69670 }, { "epoch": 185.81333333333333, "grad_norm": 0.40625, "learning_rate": 0.0004895631398124999, "loss": 0.2985, "step": 69680 }, { "epoch": 185.84, "grad_norm": 0.2353515625, "learning_rate": 0.0004895601434246503, "loss": 0.2976, "step": 69690 }, { "epoch": 185.86666666666667, "grad_norm": 0.7109375, "learning_rate": 0.0004895571466159083, "loss": 0.2998, "step": 69700 }, { "epoch": 185.89333333333335, "grad_norm": 1.296875, "learning_rate": 0.0004895541493862791, "loss": 0.3017, "step": 69710 }, { "epoch": 185.92, "grad_norm": 1.28125, "learning_rate": 0.0004895511517357682, "loss": 0.3016, "step": 69720 }, { "epoch": 185.94666666666666, "grad_norm": 1.1328125, "learning_rate": 0.0004895481536643807, "loss": 0.3031, "step": 69730 }, { "epoch": 185.97333333333333, "grad_norm": 1.1953125, "learning_rate": 0.000489545155172122, "loss": 0.3097, "step": 69740 }, { "epoch": 186.0, "grad_norm": 1.0546875, "learning_rate": 0.0004895421562589971, "loss": 0.2983, "step": 69750 }, { "epoch": 186.0, "eval_loss": 0.3992590308189392, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5001, "eval_samples_per_second": 1.524, "eval_steps_per_second": 0.095, "step": 69750 }, { "epoch": 186.02666666666667, "grad_norm": 1.2734375, "learning_rate": 0.0004895391569250116, "loss": 0.32, "step": 69760 }, { "epoch": 186.05333333333334, "grad_norm": 1.25, "learning_rate": 0.0004895361571701705, "loss": 0.3267, "step": 69770 }, { "epoch": 186.08, "grad_norm": 0.94140625, "learning_rate": 0.0004895331569944793, "loss": 0.3105, "step": 69780 }, { "epoch": 186.10666666666665, "grad_norm": 1.0390625, "learning_rate": 0.0004895301563979432, "loss": 0.3126, "step": 69790 }, { "epoch": 186.13333333333333, "grad_norm": 1.140625, "learning_rate": 0.0004895271553805673, "loss": 0.3058, "step": 69800 }, { "epoch": 186.16, "grad_norm": 0.5625, "learning_rate": 0.0004895241539423571, "loss": 0.3099, "step": 69810 }, { "epoch": 186.18666666666667, "grad_norm": 0.25390625, "learning_rate": 0.0004895211520833178, "loss": 0.3052, "step": 69820 }, { "epoch": 186.21333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004895181498034545, "loss": 0.294, "step": 69830 }, { "epoch": 186.24, "grad_norm": 0.21875, "learning_rate": 0.0004895151471027727, "loss": 0.2981, "step": 69840 }, { "epoch": 186.26666666666668, "grad_norm": 0.20703125, "learning_rate": 0.0004895121439812776, "loss": 0.3039, "step": 69850 }, { "epoch": 186.29333333333332, "grad_norm": 0.177734375, "learning_rate": 0.0004895091404389745, "loss": 0.2998, "step": 69860 }, { "epoch": 186.32, "grad_norm": 0.171875, "learning_rate": 0.0004895061364758687, "loss": 0.3071, "step": 69870 }, { "epoch": 186.34666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004895031320919654, "loss": 0.3057, "step": 69880 }, { "epoch": 186.37333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004895001272872698, "loss": 0.2983, "step": 69890 }, { "epoch": 186.4, "grad_norm": 0.1904296875, "learning_rate": 0.0004894971220617874, "loss": 0.3001, "step": 69900 }, { "epoch": 186.42666666666668, "grad_norm": 0.1953125, "learning_rate": 0.0004894941164155234, "loss": 0.307, "step": 69910 }, { "epoch": 186.45333333333335, "grad_norm": 0.1875, "learning_rate": 0.0004894911103484831, "loss": 0.315, "step": 69920 }, { "epoch": 186.48, "grad_norm": 0.171875, "learning_rate": 0.0004894881038606715, "loss": 0.3107, "step": 69930 }, { "epoch": 186.50666666666666, "grad_norm": 0.19140625, "learning_rate": 0.0004894850969520944, "loss": 0.3081, "step": 69940 }, { "epoch": 186.53333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004894820896227565, "loss": 0.3029, "step": 69950 }, { "epoch": 186.56, "grad_norm": 0.2021484375, "learning_rate": 0.0004894790818726636, "loss": 0.2997, "step": 69960 }, { "epoch": 186.58666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004894760737018208, "loss": 0.3035, "step": 69970 }, { "epoch": 186.61333333333334, "grad_norm": 0.177734375, "learning_rate": 0.0004894730651102332, "loss": 0.2954, "step": 69980 }, { "epoch": 186.64, "grad_norm": 0.1728515625, "learning_rate": 0.0004894700560979063, "loss": 0.2961, "step": 69990 }, { "epoch": 186.66666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004894670466648453, "loss": 0.3116, "step": 70000 }, { "epoch": 186.69333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004894640368110555, "loss": 0.2908, "step": 70010 }, { "epoch": 186.72, "grad_norm": 0.2138671875, "learning_rate": 0.0004894610265365423, "loss": 0.3062, "step": 70020 }, { "epoch": 186.74666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.0004894580158413109, "loss": 0.3074, "step": 70030 }, { "epoch": 186.77333333333334, "grad_norm": 0.27734375, "learning_rate": 0.0004894550047253664, "loss": 0.3198, "step": 70040 }, { "epoch": 186.8, "grad_norm": 0.1923828125, "learning_rate": 0.0004894519931887144, "loss": 0.3065, "step": 70050 }, { "epoch": 186.82666666666665, "grad_norm": 0.267578125, "learning_rate": 0.00048944898123136, "loss": 0.2949, "step": 70060 }, { "epoch": 186.85333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004894459688533087, "loss": 0.2993, "step": 70070 }, { "epoch": 186.88, "grad_norm": 0.193359375, "learning_rate": 0.0004894429560545655, "loss": 0.2992, "step": 70080 }, { "epoch": 186.90666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004894399428351359, "loss": 0.3015, "step": 70090 }, { "epoch": 186.93333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004894369291950251, "loss": 0.3021, "step": 70100 }, { "epoch": 186.96, "grad_norm": 0.2197265625, "learning_rate": 0.0004894339151342384, "loss": 0.301, "step": 70110 }, { "epoch": 186.98666666666668, "grad_norm": 0.193359375, "learning_rate": 0.0004894309006527812, "loss": 0.3127, "step": 70120 }, { "epoch": 187.0, "eval_loss": 0.3980826735496521, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0873, "eval_samples_per_second": 1.443, "eval_steps_per_second": 0.09, "step": 70125 }, { "epoch": 187.01333333333332, "grad_norm": 0.2001953125, "learning_rate": 0.0004894278857506587, "loss": 0.3037, "step": 70130 }, { "epoch": 187.04, "grad_norm": 0.1865234375, "learning_rate": 0.0004894248704278762, "loss": 0.33, "step": 70140 }, { "epoch": 187.06666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.000489421854684439, "loss": 0.3147, "step": 70150 }, { "epoch": 187.09333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004894188385203524, "loss": 0.3108, "step": 70160 }, { "epoch": 187.12, "grad_norm": 0.1748046875, "learning_rate": 0.0004894158219356217, "loss": 0.3082, "step": 70170 }, { "epoch": 187.14666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004894128049302522, "loss": 0.3086, "step": 70180 }, { "epoch": 187.17333333333335, "grad_norm": 0.24609375, "learning_rate": 0.0004894097875042492, "loss": 0.3087, "step": 70190 }, { "epoch": 187.2, "grad_norm": 0.2119140625, "learning_rate": 0.0004894067696576181, "loss": 0.3017, "step": 70200 }, { "epoch": 187.22666666666666, "grad_norm": 0.177734375, "learning_rate": 0.0004894037513903641, "loss": 0.2963, "step": 70210 }, { "epoch": 187.25333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004894007327024925, "loss": 0.2956, "step": 70220 }, { "epoch": 187.28, "grad_norm": 0.2431640625, "learning_rate": 0.0004893977135940086, "loss": 0.3135, "step": 70230 }, { "epoch": 187.30666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004893946940649177, "loss": 0.2957, "step": 70240 }, { "epoch": 187.33333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004893916741152253, "loss": 0.3104, "step": 70250 }, { "epoch": 187.36, "grad_norm": 0.2177734375, "learning_rate": 0.0004893886537449363, "loss": 0.3013, "step": 70260 }, { "epoch": 187.38666666666666, "grad_norm": 0.220703125, "learning_rate": 0.0004893856329540563, "loss": 0.2986, "step": 70270 }, { "epoch": 187.41333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004893826117425907, "loss": 0.304, "step": 70280 }, { "epoch": 187.44, "grad_norm": 0.2314453125, "learning_rate": 0.0004893795901105446, "loss": 0.3121, "step": 70290 }, { "epoch": 187.46666666666667, "grad_norm": 0.19921875, "learning_rate": 0.0004893765680579233, "loss": 0.3162, "step": 70300 }, { "epoch": 187.49333333333334, "grad_norm": 0.22265625, "learning_rate": 0.0004893735455847322, "loss": 0.3058, "step": 70310 }, { "epoch": 187.52, "grad_norm": 0.21875, "learning_rate": 0.0004893705226909766, "loss": 0.3091, "step": 70320 }, { "epoch": 187.54666666666665, "grad_norm": 0.177734375, "learning_rate": 0.0004893674993766618, "loss": 0.2995, "step": 70330 }, { "epoch": 187.57333333333332, "grad_norm": 0.16796875, "learning_rate": 0.000489364475641793, "loss": 0.3033, "step": 70340 }, { "epoch": 187.6, "grad_norm": 0.1953125, "learning_rate": 0.0004893614514863757, "loss": 0.3003, "step": 70350 }, { "epoch": 187.62666666666667, "grad_norm": 0.2197265625, "learning_rate": 0.0004893584269104153, "loss": 0.2952, "step": 70360 }, { "epoch": 187.65333333333334, "grad_norm": 0.2353515625, "learning_rate": 0.0004893554019139168, "loss": 0.3081, "step": 70370 }, { "epoch": 187.68, "grad_norm": 0.263671875, "learning_rate": 0.0004893523764968857, "loss": 0.2964, "step": 70380 }, { "epoch": 187.70666666666668, "grad_norm": 0.259765625, "learning_rate": 0.0004893493506593272, "loss": 0.2976, "step": 70390 }, { "epoch": 187.73333333333332, "grad_norm": 0.2119140625, "learning_rate": 0.0004893463244012467, "loss": 0.3125, "step": 70400 }, { "epoch": 187.76, "grad_norm": 0.220703125, "learning_rate": 0.0004893432977226496, "loss": 0.3143, "step": 70410 }, { "epoch": 187.78666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004893402706235412, "loss": 0.315, "step": 70420 }, { "epoch": 187.81333333333333, "grad_norm": 0.2060546875, "learning_rate": 0.0004893372431039266, "loss": 0.2977, "step": 70430 }, { "epoch": 187.84, "grad_norm": 0.1884765625, "learning_rate": 0.0004893342151638114, "loss": 0.2973, "step": 70440 }, { "epoch": 187.86666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.0004893311868032007, "loss": 0.2992, "step": 70450 }, { "epoch": 187.89333333333335, "grad_norm": 0.1689453125, "learning_rate": 0.0004893281580220999, "loss": 0.2997, "step": 70460 }, { "epoch": 187.92, "grad_norm": 0.251953125, "learning_rate": 0.0004893251288205142, "loss": 0.3008, "step": 70470 }, { "epoch": 187.94666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004893220991984493, "loss": 0.3025, "step": 70480 }, { "epoch": 187.97333333333333, "grad_norm": 0.3984375, "learning_rate": 0.0004893190691559102, "loss": 0.3098, "step": 70490 }, { "epoch": 188.0, "grad_norm": 0.2734375, "learning_rate": 0.0004893160386929023, "loss": 0.2981, "step": 70500 }, { "epoch": 188.0, "eval_loss": 0.39796826243400574, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.5303, "eval_samples_per_second": 1.519, "eval_steps_per_second": 0.095, "step": 70500 }, { "epoch": 188.02666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004893130078094308, "loss": 0.321, "step": 70510 }, { "epoch": 188.05333333333334, "grad_norm": 0.185546875, "learning_rate": 0.0004893099765055014, "loss": 0.3273, "step": 70520 }, { "epoch": 188.08, "grad_norm": 0.2236328125, "learning_rate": 0.0004893069447811189, "loss": 0.3112, "step": 70530 }, { "epoch": 188.10666666666665, "grad_norm": 0.2177734375, "learning_rate": 0.0004893039126362891, "loss": 0.3127, "step": 70540 }, { "epoch": 188.13333333333333, "grad_norm": 0.22265625, "learning_rate": 0.0004893008800710171, "loss": 0.3044, "step": 70550 }, { "epoch": 188.16, "grad_norm": 0.2119140625, "learning_rate": 0.0004892978470853081, "loss": 0.3109, "step": 70560 }, { "epoch": 188.18666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004892948136791677, "loss": 0.3062, "step": 70570 }, { "epoch": 188.21333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004892917798526012, "loss": 0.295, "step": 70580 }, { "epoch": 188.24, "grad_norm": 0.2177734375, "learning_rate": 0.0004892887456056138, "loss": 0.2987, "step": 70590 }, { "epoch": 188.26666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0004892857109382108, "loss": 0.3048, "step": 70600 }, { "epoch": 188.29333333333332, "grad_norm": 0.185546875, "learning_rate": 0.0004892826758503976, "loss": 0.3003, "step": 70610 }, { "epoch": 188.32, "grad_norm": 0.2001953125, "learning_rate": 0.0004892796403421796, "loss": 0.3077, "step": 70620 }, { "epoch": 188.34666666666666, "grad_norm": 0.21875, "learning_rate": 0.000489276604413562, "loss": 0.3064, "step": 70630 }, { "epoch": 188.37333333333333, "grad_norm": 0.2001953125, "learning_rate": 0.0004892735680645503, "loss": 0.2989, "step": 70640 }, { "epoch": 188.4, "grad_norm": 0.310546875, "learning_rate": 0.0004892705312951498, "loss": 0.3006, "step": 70650 }, { "epoch": 188.42666666666668, "grad_norm": 0.19140625, "learning_rate": 0.0004892674941053656, "loss": 0.3077, "step": 70660 }, { "epoch": 188.45333333333335, "grad_norm": 0.216796875, "learning_rate": 0.0004892644564952033, "loss": 0.3158, "step": 70670 }, { "epoch": 188.48, "grad_norm": 0.19140625, "learning_rate": 0.0004892614184646681, "loss": 0.3113, "step": 70680 }, { "epoch": 188.50666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004892583800137655, "loss": 0.3082, "step": 70690 }, { "epoch": 188.53333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004892553411425006, "loss": 0.3032, "step": 70700 }, { "epoch": 188.56, "grad_norm": 0.212890625, "learning_rate": 0.000489252301850879, "loss": 0.2994, "step": 70710 }, { "epoch": 188.58666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004892492621389058, "loss": 0.3033, "step": 70720 }, { "epoch": 188.61333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004892462220065865, "loss": 0.2963, "step": 70730 }, { "epoch": 188.64, "grad_norm": 0.2255859375, "learning_rate": 0.0004892431814539263, "loss": 0.2965, "step": 70740 }, { "epoch": 188.66666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0004892401404809308, "loss": 0.3122, "step": 70750 }, { "epoch": 188.69333333333333, "grad_norm": 0.173828125, "learning_rate": 0.0004892370990876051, "loss": 0.2914, "step": 70760 }, { "epoch": 188.72, "grad_norm": 0.2294921875, "learning_rate": 0.0004892340572739545, "loss": 0.3073, "step": 70770 }, { "epoch": 188.74666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004892310150399846, "loss": 0.3087, "step": 70780 }, { "epoch": 188.77333333333334, "grad_norm": 0.2275390625, "learning_rate": 0.0004892279723857005, "loss": 0.3197, "step": 70790 }, { "epoch": 188.8, "grad_norm": 0.19921875, "learning_rate": 0.0004892249293111077, "loss": 0.3064, "step": 70800 }, { "epoch": 188.82666666666665, "grad_norm": 0.1875, "learning_rate": 0.0004892218858162115, "loss": 0.2951, "step": 70810 }, { "epoch": 188.85333333333332, "grad_norm": 0.1953125, "learning_rate": 0.0004892188419010172, "loss": 0.3003, "step": 70820 }, { "epoch": 188.88, "grad_norm": 0.18359375, "learning_rate": 0.0004892157975655302, "loss": 0.2995, "step": 70830 }, { "epoch": 188.90666666666667, "grad_norm": 0.2021484375, "learning_rate": 0.000489212752809756, "loss": 0.301, "step": 70840 }, { "epoch": 188.93333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.0004892097076336997, "loss": 0.3015, "step": 70850 }, { "epoch": 188.96, "grad_norm": 0.2109375, "learning_rate": 0.0004892066620373666, "loss": 0.3014, "step": 70860 }, { "epoch": 188.98666666666668, "grad_norm": 0.201171875, "learning_rate": 0.0004892036160207624, "loss": 0.3127, "step": 70870 }, { "epoch": 189.0, "eval_loss": 0.39831775426864624, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.2317, "eval_samples_per_second": 1.425, "eval_steps_per_second": 0.089, "step": 70875 }, { "epoch": 189.01333333333332, "grad_norm": 0.236328125, "learning_rate": 0.0004892005695838921, "loss": 0.3041, "step": 70880 }, { "epoch": 189.04, "grad_norm": 0.1953125, "learning_rate": 0.0004891975227267612, "loss": 0.3304, "step": 70890 }, { "epoch": 189.06666666666666, "grad_norm": 0.26171875, "learning_rate": 0.0004891944754493752, "loss": 0.3151, "step": 70900 }, { "epoch": 189.09333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004891914277517391, "loss": 0.3114, "step": 70910 }, { "epoch": 189.12, "grad_norm": 0.2275390625, "learning_rate": 0.0004891883796338585, "loss": 0.3082, "step": 70920 }, { "epoch": 189.14666666666668, "grad_norm": 0.19140625, "learning_rate": 0.0004891853310957388, "loss": 0.3081, "step": 70930 }, { "epoch": 189.17333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.0004891822821373853, "loss": 0.3083, "step": 70940 }, { "epoch": 189.2, "grad_norm": 0.2314453125, "learning_rate": 0.0004891792327588032, "loss": 0.3015, "step": 70950 }, { "epoch": 189.22666666666666, "grad_norm": 0.212890625, "learning_rate": 0.0004891761829599981, "loss": 0.2963, "step": 70960 }, { "epoch": 189.25333333333333, "grad_norm": 0.2041015625, "learning_rate": 0.0004891731327409751, "loss": 0.2952, "step": 70970 }, { "epoch": 189.28, "grad_norm": 0.2333984375, "learning_rate": 0.0004891700821017398, "loss": 0.3137, "step": 70980 }, { "epoch": 189.30666666666667, "grad_norm": 0.205078125, "learning_rate": 0.0004891670310422975, "loss": 0.2962, "step": 70990 }, { "epoch": 189.33333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004891639795626535, "loss": 0.3106, "step": 71000 }, { "epoch": 189.36, "grad_norm": 0.2265625, "learning_rate": 0.0004891609276628131, "loss": 0.3009, "step": 71010 }, { "epoch": 189.38666666666666, "grad_norm": 0.2119140625, "learning_rate": 0.0004891578753427818, "loss": 0.2983, "step": 71020 }, { "epoch": 189.41333333333333, "grad_norm": 0.1796875, "learning_rate": 0.0004891548226025648, "loss": 0.3048, "step": 71030 }, { "epoch": 189.44, "grad_norm": 0.1962890625, "learning_rate": 0.0004891517694421678, "loss": 0.3117, "step": 71040 }, { "epoch": 189.46666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004891487158615957, "loss": 0.3159, "step": 71050 }, { "epoch": 189.49333333333334, "grad_norm": 0.26953125, "learning_rate": 0.0004891456618608543, "loss": 0.3053, "step": 71060 }, { "epoch": 189.52, "grad_norm": 0.1904296875, "learning_rate": 0.0004891426074399486, "loss": 0.3093, "step": 71070 }, { "epoch": 189.54666666666665, "grad_norm": 0.2177734375, "learning_rate": 0.0004891395525988842, "loss": 0.2998, "step": 71080 }, { "epoch": 189.57333333333332, "grad_norm": 0.189453125, "learning_rate": 0.0004891364973376664, "loss": 0.3029, "step": 71090 }, { "epoch": 189.6, "grad_norm": 0.2080078125, "learning_rate": 0.0004891334416563006, "loss": 0.3002, "step": 71100 }, { "epoch": 189.62666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004891303855547921, "loss": 0.2952, "step": 71110 }, { "epoch": 189.65333333333334, "grad_norm": 0.23828125, "learning_rate": 0.0004891273290331462, "loss": 0.3076, "step": 71120 }, { "epoch": 189.68, "grad_norm": 0.2197265625, "learning_rate": 0.0004891242720913686, "loss": 0.296, "step": 71130 }, { "epoch": 189.70666666666668, "grad_norm": 0.232421875, "learning_rate": 0.0004891212147294644, "loss": 0.2973, "step": 71140 }, { "epoch": 189.73333333333332, "grad_norm": 0.2578125, "learning_rate": 0.0004891181569474389, "loss": 0.3129, "step": 71150 }, { "epoch": 189.76, "grad_norm": 0.193359375, "learning_rate": 0.0004891150987452976, "loss": 0.3138, "step": 71160 }, { "epoch": 189.78666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004891120401230459, "loss": 0.3156, "step": 71170 }, { "epoch": 189.81333333333333, "grad_norm": 0.24609375, "learning_rate": 0.0004891089810806892, "loss": 0.2976, "step": 71180 }, { "epoch": 189.84, "grad_norm": 0.1787109375, "learning_rate": 0.0004891059216182327, "loss": 0.2979, "step": 71190 }, { "epoch": 189.86666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.000489102861735682, "loss": 0.2994, "step": 71200 }, { "epoch": 189.89333333333335, "grad_norm": 0.181640625, "learning_rate": 0.0004890998014330422, "loss": 0.2989, "step": 71210 }, { "epoch": 189.92, "grad_norm": 0.25, "learning_rate": 0.000489096740710319, "loss": 0.3007, "step": 71220 }, { "epoch": 189.94666666666666, "grad_norm": 0.1767578125, "learning_rate": 0.0004890936795675175, "loss": 0.3026, "step": 71230 }, { "epoch": 189.97333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004890906180046433, "loss": 0.3091, "step": 71240 }, { "epoch": 190.0, "grad_norm": 0.1728515625, "learning_rate": 0.0004890875560217016, "loss": 0.2982, "step": 71250 }, { "epoch": 190.0, "eval_loss": 0.3961564302444458, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7474, "eval_samples_per_second": 1.489, "eval_steps_per_second": 0.093, "step": 71250 }, { "epoch": 190.02666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004890844936186979, "loss": 0.32, "step": 71260 }, { "epoch": 190.05333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004890814307956375, "loss": 0.3268, "step": 71270 }, { "epoch": 190.08, "grad_norm": 0.193359375, "learning_rate": 0.0004890783675525257, "loss": 0.3115, "step": 71280 }, { "epoch": 190.10666666666665, "grad_norm": 0.185546875, "learning_rate": 0.0004890753038893683, "loss": 0.3126, "step": 71290 }, { "epoch": 190.13333333333333, "grad_norm": 0.2099609375, "learning_rate": 0.0004890722398061702, "loss": 0.3038, "step": 71300 }, { "epoch": 190.16, "grad_norm": 0.1923828125, "learning_rate": 0.0004890691753029368, "loss": 0.3108, "step": 71310 }, { "epoch": 190.18666666666667, "grad_norm": 0.2119140625, "learning_rate": 0.000489066110379674, "loss": 0.3056, "step": 71320 }, { "epoch": 190.21333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.0004890630450363866, "loss": 0.2948, "step": 71330 }, { "epoch": 190.24, "grad_norm": 0.19140625, "learning_rate": 0.0004890599792730802, "loss": 0.2982, "step": 71340 }, { "epoch": 190.26666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0004890569130897604, "loss": 0.3044, "step": 71350 }, { "epoch": 190.29333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004890538464864321, "loss": 0.2999, "step": 71360 }, { "epoch": 190.32, "grad_norm": 0.1767578125, "learning_rate": 0.0004890507794631011, "loss": 0.3075, "step": 71370 }, { "epoch": 190.34666666666666, "grad_norm": 0.2001953125, "learning_rate": 0.0004890477120197728, "loss": 0.3064, "step": 71380 }, { "epoch": 190.37333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.0004890446441564524, "loss": 0.2985, "step": 71390 }, { "epoch": 190.4, "grad_norm": 0.189453125, "learning_rate": 0.0004890415758731452, "loss": 0.2995, "step": 71400 }, { "epoch": 190.42666666666668, "grad_norm": 0.1806640625, "learning_rate": 0.0004890385071698569, "loss": 0.3077, "step": 71410 }, { "epoch": 190.45333333333335, "grad_norm": 0.265625, "learning_rate": 0.0004890354380465927, "loss": 0.3164, "step": 71420 }, { "epoch": 190.48, "grad_norm": 0.2255859375, "learning_rate": 0.000489032368503358, "loss": 0.3114, "step": 71430 }, { "epoch": 190.50666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004890292985401582, "loss": 0.3084, "step": 71440 }, { "epoch": 190.53333333333333, "grad_norm": 0.25390625, "learning_rate": 0.0004890262281569988, "loss": 0.3031, "step": 71450 }, { "epoch": 190.56, "grad_norm": 0.255859375, "learning_rate": 0.000489023157353885, "loss": 0.2996, "step": 71460 }, { "epoch": 190.58666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004890200861308223, "loss": 0.3032, "step": 71470 }, { "epoch": 190.61333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004890170144878161, "loss": 0.2957, "step": 71480 }, { "epoch": 190.64, "grad_norm": 0.1806640625, "learning_rate": 0.0004890139424248718, "loss": 0.2968, "step": 71490 }, { "epoch": 190.66666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0004890108699419949, "loss": 0.3122, "step": 71500 }, { "epoch": 190.69333333333333, "grad_norm": 0.2431640625, "learning_rate": 0.0004890077970391905, "loss": 0.2911, "step": 71510 }, { "epoch": 190.72, "grad_norm": 0.234375, "learning_rate": 0.0004890047237164643, "loss": 0.3067, "step": 71520 }, { "epoch": 190.74666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004890016499738216, "loss": 0.3081, "step": 71530 }, { "epoch": 190.77333333333334, "grad_norm": 0.1943359375, "learning_rate": 0.0004889985758112677, "loss": 0.3193, "step": 71540 }, { "epoch": 190.8, "grad_norm": 0.205078125, "learning_rate": 0.0004889955012288081, "loss": 0.3056, "step": 71550 }, { "epoch": 190.82666666666665, "grad_norm": 0.220703125, "learning_rate": 0.0004889924262264483, "loss": 0.2953, "step": 71560 }, { "epoch": 190.85333333333332, "grad_norm": 0.2041015625, "learning_rate": 0.0004889893508041934, "loss": 0.2993, "step": 71570 }, { "epoch": 190.88, "grad_norm": 0.193359375, "learning_rate": 0.0004889862749620492, "loss": 0.2986, "step": 71580 }, { "epoch": 190.90666666666667, "grad_norm": 0.232421875, "learning_rate": 0.0004889831987000208, "loss": 0.3003, "step": 71590 }, { "epoch": 190.93333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004889801220181136, "loss": 0.3011, "step": 71600 }, { "epoch": 190.96, "grad_norm": 0.193359375, "learning_rate": 0.0004889770449163332, "loss": 0.3008, "step": 71610 }, { "epoch": 190.98666666666668, "grad_norm": 0.244140625, "learning_rate": 0.0004889739673946849, "loss": 0.3122, "step": 71620 }, { "epoch": 191.0, "eval_loss": 0.39794921875, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0176, "eval_samples_per_second": 1.452, "eval_steps_per_second": 0.091, "step": 71625 }, { "epoch": 191.01333333333332, "grad_norm": 0.2275390625, "learning_rate": 0.0004889708894531742, "loss": 0.3028, "step": 71630 }, { "epoch": 191.04, "grad_norm": 0.1962890625, "learning_rate": 0.0004889678110918064, "loss": 0.3298, "step": 71640 }, { "epoch": 191.06666666666666, "grad_norm": 0.2490234375, "learning_rate": 0.0004889647323105869, "loss": 0.3145, "step": 71650 }, { "epoch": 191.09333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004889616531095212, "loss": 0.3112, "step": 71660 }, { "epoch": 191.12, "grad_norm": 0.2255859375, "learning_rate": 0.0004889585734886146, "loss": 0.3077, "step": 71670 }, { "epoch": 191.14666666666668, "grad_norm": 0.2392578125, "learning_rate": 0.0004889554934478726, "loss": 0.3086, "step": 71680 }, { "epoch": 191.17333333333335, "grad_norm": 0.208984375, "learning_rate": 0.0004889524129873006, "loss": 0.3085, "step": 71690 }, { "epoch": 191.2, "grad_norm": 0.2451171875, "learning_rate": 0.000488949332106904, "loss": 0.3018, "step": 71700 }, { "epoch": 191.22666666666666, "grad_norm": 0.23046875, "learning_rate": 0.0004889462508066881, "loss": 0.2956, "step": 71710 }, { "epoch": 191.25333333333333, "grad_norm": 0.212890625, "learning_rate": 0.0004889431690866584, "loss": 0.2954, "step": 71720 }, { "epoch": 191.28, "grad_norm": 0.2255859375, "learning_rate": 0.0004889400869468205, "loss": 0.3131, "step": 71730 }, { "epoch": 191.30666666666667, "grad_norm": 0.1953125, "learning_rate": 0.0004889370043871796, "loss": 0.2959, "step": 71740 }, { "epoch": 191.33333333333334, "grad_norm": 0.2001953125, "learning_rate": 0.0004889339214077411, "loss": 0.3096, "step": 71750 }, { "epoch": 191.36, "grad_norm": 0.203125, "learning_rate": 0.0004889308380085105, "loss": 0.3016, "step": 71760 }, { "epoch": 191.38666666666666, "grad_norm": 0.201171875, "learning_rate": 0.0004889277541894932, "loss": 0.2988, "step": 71770 }, { "epoch": 191.41333333333333, "grad_norm": 0.1845703125, "learning_rate": 0.0004889246699506946, "loss": 0.304, "step": 71780 }, { "epoch": 191.44, "grad_norm": 0.1884765625, "learning_rate": 0.0004889215852921201, "loss": 0.312, "step": 71790 }, { "epoch": 191.46666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004889185002137752, "loss": 0.3159, "step": 71800 }, { "epoch": 191.49333333333334, "grad_norm": 0.2119140625, "learning_rate": 0.0004889154147156654, "loss": 0.3053, "step": 71810 }, { "epoch": 191.52, "grad_norm": 0.1923828125, "learning_rate": 0.0004889123287977958, "loss": 0.3084, "step": 71820 }, { "epoch": 191.54666666666665, "grad_norm": 0.216796875, "learning_rate": 0.0004889092424601721, "loss": 0.2992, "step": 71830 }, { "epoch": 191.57333333333332, "grad_norm": 0.1689453125, "learning_rate": 0.0004889061557027997, "loss": 0.3033, "step": 71840 }, { "epoch": 191.6, "grad_norm": 0.1962890625, "learning_rate": 0.0004889030685256839, "loss": 0.3003, "step": 71850 }, { "epoch": 191.62666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004888999809288301, "loss": 0.2952, "step": 71860 }, { "epoch": 191.65333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.000488896892912244, "loss": 0.3074, "step": 71870 }, { "epoch": 191.68, "grad_norm": 0.171875, "learning_rate": 0.0004888938044759307, "loss": 0.2958, "step": 71880 }, { "epoch": 191.70666666666668, "grad_norm": 0.236328125, "learning_rate": 0.0004888907156198959, "loss": 0.2972, "step": 71890 }, { "epoch": 191.73333333333332, "grad_norm": 0.283203125, "learning_rate": 0.0004888876263441447, "loss": 0.3119, "step": 71900 }, { "epoch": 191.76, "grad_norm": 0.29296875, "learning_rate": 0.0004888845366486828, "loss": 0.3136, "step": 71910 }, { "epoch": 191.78666666666666, "grad_norm": 0.1884765625, "learning_rate": 0.0004888814465335156, "loss": 0.3145, "step": 71920 }, { "epoch": 191.81333333333333, "grad_norm": 0.2197265625, "learning_rate": 0.0004888783559986484, "loss": 0.2977, "step": 71930 }, { "epoch": 191.84, "grad_norm": 0.2080078125, "learning_rate": 0.0004888752650440868, "loss": 0.297, "step": 71940 }, { "epoch": 191.86666666666667, "grad_norm": 0.1650390625, "learning_rate": 0.000488872173669836, "loss": 0.2995, "step": 71950 }, { "epoch": 191.89333333333335, "grad_norm": 0.287109375, "learning_rate": 0.0004888690818759016, "loss": 0.2987, "step": 71960 }, { "epoch": 191.92, "grad_norm": 0.228515625, "learning_rate": 0.0004888659896622891, "loss": 0.3002, "step": 71970 }, { "epoch": 191.94666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004888628970290038, "loss": 0.3022, "step": 71980 }, { "epoch": 191.97333333333333, "grad_norm": 0.2158203125, "learning_rate": 0.0004888598039760511, "loss": 0.3086, "step": 71990 }, { "epoch": 192.0, "grad_norm": 0.1787109375, "learning_rate": 0.0004888567105034365, "loss": 0.2977, "step": 72000 }, { "epoch": 192.0, "eval_loss": 0.39854586124420166, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.3252, "eval_samples_per_second": 1.413, "eval_steps_per_second": 0.088, "step": 72000 }, { "epoch": 192.02666666666667, "grad_norm": 0.20703125, "learning_rate": 0.0004888536166111655, "loss": 0.3197, "step": 72010 }, { "epoch": 192.05333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004888505222992434, "loss": 0.3264, "step": 72020 }, { "epoch": 192.08, "grad_norm": 0.19921875, "learning_rate": 0.0004888474275676758, "loss": 0.3107, "step": 72030 }, { "epoch": 192.10666666666665, "grad_norm": 0.1865234375, "learning_rate": 0.0004888443324164679, "loss": 0.3118, "step": 72040 }, { "epoch": 192.13333333333333, "grad_norm": 0.197265625, "learning_rate": 0.0004888412368456254, "loss": 0.3033, "step": 72050 }, { "epoch": 192.16, "grad_norm": 0.1953125, "learning_rate": 0.0004888381408551536, "loss": 0.31, "step": 72060 }, { "epoch": 192.18666666666667, "grad_norm": 0.220703125, "learning_rate": 0.000488835044445058, "loss": 0.3062, "step": 72070 }, { "epoch": 192.21333333333334, "grad_norm": 0.20703125, "learning_rate": 0.000488831947615344, "loss": 0.2947, "step": 72080 }, { "epoch": 192.24, "grad_norm": 0.1962890625, "learning_rate": 0.0004888288503660169, "loss": 0.2984, "step": 72090 }, { "epoch": 192.26666666666668, "grad_norm": 0.193359375, "learning_rate": 0.0004888257526970824, "loss": 0.3036, "step": 72100 }, { "epoch": 192.29333333333332, "grad_norm": 0.173828125, "learning_rate": 0.0004888226546085458, "loss": 0.3005, "step": 72110 }, { "epoch": 192.32, "grad_norm": 0.1865234375, "learning_rate": 0.0004888195561004126, "loss": 0.3081, "step": 72120 }, { "epoch": 192.34666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.0004888164571726882, "loss": 0.3062, "step": 72130 }, { "epoch": 192.37333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004888133578253781, "loss": 0.2987, "step": 72140 }, { "epoch": 192.4, "grad_norm": 0.1787109375, "learning_rate": 0.0004888102580584876, "loss": 0.2999, "step": 72150 }, { "epoch": 192.42666666666668, "grad_norm": 0.181640625, "learning_rate": 0.0004888071578720223, "loss": 0.3067, "step": 72160 }, { "epoch": 192.45333333333335, "grad_norm": 0.291015625, "learning_rate": 0.0004888040572659877, "loss": 0.3157, "step": 72170 }, { "epoch": 192.48, "grad_norm": 0.21875, "learning_rate": 0.0004888009562403889, "loss": 0.3112, "step": 72180 }, { "epoch": 192.50666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004887978547952318, "loss": 0.3082, "step": 72190 }, { "epoch": 192.53333333333333, "grad_norm": 0.1806640625, "learning_rate": 0.0004887947529305216, "loss": 0.3031, "step": 72200 }, { "epoch": 192.56, "grad_norm": 0.1982421875, "learning_rate": 0.0004887916506462638, "loss": 0.2991, "step": 72210 }, { "epoch": 192.58666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004887885479424637, "loss": 0.3032, "step": 72220 }, { "epoch": 192.61333333333334, "grad_norm": 0.1650390625, "learning_rate": 0.000488785444819127, "loss": 0.2956, "step": 72230 }, { "epoch": 192.64, "grad_norm": 0.1728515625, "learning_rate": 0.0004887823412762591, "loss": 0.2965, "step": 72240 }, { "epoch": 192.66666666666666, "grad_norm": 0.18359375, "learning_rate": 0.0004887792373138653, "loss": 0.3124, "step": 72250 }, { "epoch": 192.69333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004887761329319513, "loss": 0.2915, "step": 72260 }, { "epoch": 192.72, "grad_norm": 0.197265625, "learning_rate": 0.0004887730281305222, "loss": 0.307, "step": 72270 }, { "epoch": 192.74666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004887699229095837, "loss": 0.3076, "step": 72280 }, { "epoch": 192.77333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.0004887668172691413, "loss": 0.3192, "step": 72290 }, { "epoch": 192.8, "grad_norm": 0.20703125, "learning_rate": 0.0004887637112092004, "loss": 0.3064, "step": 72300 }, { "epoch": 192.82666666666665, "grad_norm": 0.2490234375, "learning_rate": 0.0004887606047297663, "loss": 0.2952, "step": 72310 }, { "epoch": 192.85333333333332, "grad_norm": 0.21875, "learning_rate": 0.0004887574978308446, "loss": 0.2987, "step": 72320 }, { "epoch": 192.88, "grad_norm": 0.1767578125, "learning_rate": 0.0004887543905124408, "loss": 0.2982, "step": 72330 }, { "epoch": 192.90666666666667, "grad_norm": 0.2451171875, "learning_rate": 0.0004887512827745603, "loss": 0.3002, "step": 72340 }, { "epoch": 192.93333333333334, "grad_norm": 0.1748046875, "learning_rate": 0.0004887481746172087, "loss": 0.3005, "step": 72350 }, { "epoch": 192.96, "grad_norm": 0.169921875, "learning_rate": 0.0004887450660403911, "loss": 0.3003, "step": 72360 }, { "epoch": 192.98666666666668, "grad_norm": 0.1962890625, "learning_rate": 0.0004887419570441134, "loss": 0.3128, "step": 72370 }, { "epoch": 193.0, "eval_loss": 0.39935240149497986, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.4268, "eval_samples_per_second": 1.535, "eval_steps_per_second": 0.096, "step": 72375 }, { "epoch": 193.01333333333332, "grad_norm": 0.2119140625, "learning_rate": 0.0004887388476283807, "loss": 0.3032, "step": 72380 }, { "epoch": 193.04, "grad_norm": 0.1904296875, "learning_rate": 0.0004887357377931987, "loss": 0.3293, "step": 72390 }, { "epoch": 193.06666666666666, "grad_norm": 0.251953125, "learning_rate": 0.0004887326275385727, "loss": 0.3149, "step": 72400 }, { "epoch": 193.09333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004887295168645083, "loss": 0.3113, "step": 72410 }, { "epoch": 193.12, "grad_norm": 0.18359375, "learning_rate": 0.0004887264057710108, "loss": 0.3074, "step": 72420 }, { "epoch": 193.14666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.0004887232942580858, "loss": 0.3076, "step": 72430 }, { "epoch": 193.17333333333335, "grad_norm": 0.2119140625, "learning_rate": 0.0004887201823257389, "loss": 0.3088, "step": 72440 }, { "epoch": 193.2, "grad_norm": 0.212890625, "learning_rate": 0.0004887170699739752, "loss": 0.3013, "step": 72450 }, { "epoch": 193.22666666666666, "grad_norm": 0.21875, "learning_rate": 0.0004887139572028005, "loss": 0.2954, "step": 72460 }, { "epoch": 193.25333333333333, "grad_norm": 0.16796875, "learning_rate": 0.0004887108440122201, "loss": 0.2954, "step": 72470 }, { "epoch": 193.28, "grad_norm": 0.2197265625, "learning_rate": 0.0004887077304022396, "loss": 0.3127, "step": 72480 }, { "epoch": 193.30666666666667, "grad_norm": 0.189453125, "learning_rate": 0.0004887046163728643, "loss": 0.2961, "step": 72490 }, { "epoch": 193.33333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004887015019240997, "loss": 0.3098, "step": 72500 }, { "epoch": 193.36, "grad_norm": 0.201171875, "learning_rate": 0.0004886983870559514, "loss": 0.3009, "step": 72510 }, { "epoch": 193.38666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004886952717684249, "loss": 0.2985, "step": 72520 }, { "epoch": 193.41333333333333, "grad_norm": 0.263671875, "learning_rate": 0.0004886921560615253, "loss": 0.304, "step": 72530 }, { "epoch": 193.44, "grad_norm": 0.2255859375, "learning_rate": 0.0004886890399352586, "loss": 0.3115, "step": 72540 }, { "epoch": 193.46666666666667, "grad_norm": 0.2216796875, "learning_rate": 0.0004886859233896299, "loss": 0.3155, "step": 72550 }, { "epoch": 193.49333333333334, "grad_norm": 0.220703125, "learning_rate": 0.0004886828064246449, "loss": 0.3058, "step": 72560 }, { "epoch": 193.52, "grad_norm": 0.1826171875, "learning_rate": 0.0004886796890403089, "loss": 0.3094, "step": 72570 }, { "epoch": 193.54666666666665, "grad_norm": 0.201171875, "learning_rate": 0.0004886765712366274, "loss": 0.2997, "step": 72580 }, { "epoch": 193.57333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.000488673453013606, "loss": 0.3029, "step": 72590 }, { "epoch": 193.6, "grad_norm": 0.2138671875, "learning_rate": 0.0004886703343712501, "loss": 0.2997, "step": 72600 }, { "epoch": 193.62666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.0004886672153095651, "loss": 0.2946, "step": 72610 }, { "epoch": 193.65333333333334, "grad_norm": 0.234375, "learning_rate": 0.0004886640958285567, "loss": 0.3074, "step": 72620 }, { "epoch": 193.68, "grad_norm": 0.2275390625, "learning_rate": 0.0004886609759282302, "loss": 0.2963, "step": 72630 }, { "epoch": 193.70666666666668, "grad_norm": 0.2294921875, "learning_rate": 0.0004886578556085911, "loss": 0.2969, "step": 72640 }, { "epoch": 193.73333333333332, "grad_norm": 0.25, "learning_rate": 0.000488654734869645, "loss": 0.3123, "step": 72650 }, { "epoch": 193.76, "grad_norm": 0.271484375, "learning_rate": 0.0004886516137113971, "loss": 0.3134, "step": 72660 }, { "epoch": 193.78666666666666, "grad_norm": 0.185546875, "learning_rate": 0.0004886484921338533, "loss": 0.3148, "step": 72670 }, { "epoch": 193.81333333333333, "grad_norm": 0.208984375, "learning_rate": 0.0004886453701370187, "loss": 0.297, "step": 72680 }, { "epoch": 193.84, "grad_norm": 0.1904296875, "learning_rate": 0.0004886422477208991, "loss": 0.2965, "step": 72690 }, { "epoch": 193.86666666666667, "grad_norm": 0.201171875, "learning_rate": 0.0004886391248854996, "loss": 0.2984, "step": 72700 }, { "epoch": 193.89333333333335, "grad_norm": 0.203125, "learning_rate": 0.0004886360016308261, "loss": 0.2984, "step": 72710 }, { "epoch": 193.92, "grad_norm": 0.263671875, "learning_rate": 0.000488632877956884, "loss": 0.3004, "step": 72720 }, { "epoch": 193.94666666666666, "grad_norm": 0.1787109375, "learning_rate": 0.0004886297538636785, "loss": 0.3021, "step": 72730 }, { "epoch": 193.97333333333333, "grad_norm": 0.2421875, "learning_rate": 0.0004886266293512153, "loss": 0.3093, "step": 72740 }, { "epoch": 194.0, "grad_norm": 0.171875, "learning_rate": 0.0004886235044195, "loss": 0.2977, "step": 72750 }, { "epoch": 194.0, "eval_loss": 0.3995967209339142, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6897, "eval_samples_per_second": 1.497, "eval_steps_per_second": 0.094, "step": 72750 }, { "epoch": 194.02666666666667, "grad_norm": 0.2080078125, "learning_rate": 0.0004886203790685379, "loss": 0.3197, "step": 72760 }, { "epoch": 194.05333333333334, "grad_norm": 0.2265625, "learning_rate": 0.0004886172532983345, "loss": 0.3267, "step": 72770 }, { "epoch": 194.08, "grad_norm": 0.2060546875, "learning_rate": 0.0004886141271088953, "loss": 0.3098, "step": 72780 }, { "epoch": 194.10666666666665, "grad_norm": 0.24609375, "learning_rate": 0.000488611000500226, "loss": 0.312, "step": 72790 }, { "epoch": 194.13333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004886078734723319, "loss": 0.3037, "step": 72800 }, { "epoch": 194.16, "grad_norm": 0.1953125, "learning_rate": 0.0004886047460252184, "loss": 0.3102, "step": 72810 }, { "epoch": 194.18666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004886016181588912, "loss": 0.3056, "step": 72820 }, { "epoch": 194.21333333333334, "grad_norm": 0.1796875, "learning_rate": 0.0004885984898733558, "loss": 0.2949, "step": 72830 }, { "epoch": 194.24, "grad_norm": 0.2021484375, "learning_rate": 0.0004885953611686175, "loss": 0.2981, "step": 72840 }, { "epoch": 194.26666666666668, "grad_norm": 0.2431640625, "learning_rate": 0.0004885922320446819, "loss": 0.3039, "step": 72850 }, { "epoch": 194.29333333333332, "grad_norm": 0.2158203125, "learning_rate": 0.0004885891025015545, "loss": 0.3006, "step": 72860 }, { "epoch": 194.32, "grad_norm": 0.2119140625, "learning_rate": 0.000488585972539241, "loss": 0.3073, "step": 72870 }, { "epoch": 194.34666666666666, "grad_norm": 0.228515625, "learning_rate": 0.0004885828421577465, "loss": 0.306, "step": 72880 }, { "epoch": 194.37333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004885797113570768, "loss": 0.2982, "step": 72890 }, { "epoch": 194.4, "grad_norm": 0.216796875, "learning_rate": 0.0004885765801372373, "loss": 0.3002, "step": 72900 }, { "epoch": 194.42666666666668, "grad_norm": 0.224609375, "learning_rate": 0.0004885734484982334, "loss": 0.3071, "step": 72910 }, { "epoch": 194.45333333333335, "grad_norm": 0.193359375, "learning_rate": 0.0004885703164400708, "loss": 0.3156, "step": 72920 }, { "epoch": 194.48, "grad_norm": 0.2119140625, "learning_rate": 0.0004885671839627549, "loss": 0.3111, "step": 72930 }, { "epoch": 194.50666666666666, "grad_norm": 0.244140625, "learning_rate": 0.0004885640510662912, "loss": 0.3078, "step": 72940 }, { "epoch": 194.53333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004885609177506852, "loss": 0.3027, "step": 72950 }, { "epoch": 194.56, "grad_norm": 0.22265625, "learning_rate": 0.0004885577840159425, "loss": 0.2992, "step": 72960 }, { "epoch": 194.58666666666667, "grad_norm": 0.23046875, "learning_rate": 0.0004885546498620685, "loss": 0.3029, "step": 72970 }, { "epoch": 194.61333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004885515152890687, "loss": 0.2953, "step": 72980 }, { "epoch": 194.64, "grad_norm": 0.1728515625, "learning_rate": 0.0004885483802969487, "loss": 0.296, "step": 72990 }, { "epoch": 194.66666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.000488545244885714, "loss": 0.3122, "step": 73000 }, { "epoch": 194.69333333333333, "grad_norm": 0.244140625, "learning_rate": 0.0004885421090553699, "loss": 0.2906, "step": 73010 }, { "epoch": 194.72, "grad_norm": 0.21875, "learning_rate": 0.0004885389728059221, "loss": 0.3066, "step": 73020 }, { "epoch": 194.74666666666667, "grad_norm": 0.2099609375, "learning_rate": 0.0004885358361373761, "loss": 0.308, "step": 73030 }, { "epoch": 194.77333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0004885326990497375, "loss": 0.3187, "step": 73040 }, { "epoch": 194.8, "grad_norm": 0.2158203125, "learning_rate": 0.0004885295615430117, "loss": 0.306, "step": 73050 }, { "epoch": 194.82666666666665, "grad_norm": 0.2001953125, "learning_rate": 0.0004885264236172041, "loss": 0.295, "step": 73060 }, { "epoch": 194.85333333333332, "grad_norm": 0.19921875, "learning_rate": 0.0004885232852723203, "loss": 0.2987, "step": 73070 }, { "epoch": 194.88, "grad_norm": 0.18359375, "learning_rate": 0.000488520146508366, "loss": 0.2989, "step": 73080 }, { "epoch": 194.90666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004885170073253464, "loss": 0.2996, "step": 73090 }, { "epoch": 194.93333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004885138677232674, "loss": 0.3008, "step": 73100 }, { "epoch": 194.96, "grad_norm": 0.1669921875, "learning_rate": 0.0004885107277021341, "loss": 0.3005, "step": 73110 }, { "epoch": 194.98666666666668, "grad_norm": 0.2158203125, "learning_rate": 0.0004885075872619522, "loss": 0.3118, "step": 73120 }, { "epoch": 195.0, "eval_loss": 0.3971620202064514, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8027, "eval_samples_per_second": 1.481, "eval_steps_per_second": 0.093, "step": 73125 }, { "epoch": 195.01333333333332, "grad_norm": 0.1865234375, "learning_rate": 0.0004885044464027272, "loss": 0.3027, "step": 73130 }, { "epoch": 195.04, "grad_norm": 0.19921875, "learning_rate": 0.0004885013051244648, "loss": 0.3289, "step": 73140 }, { "epoch": 195.06666666666666, "grad_norm": 0.255859375, "learning_rate": 0.0004884981634271702, "loss": 0.3146, "step": 73150 }, { "epoch": 195.09333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004884950213108492, "loss": 0.3102, "step": 73160 }, { "epoch": 195.12, "grad_norm": 0.212890625, "learning_rate": 0.0004884918787755071, "loss": 0.3065, "step": 73170 }, { "epoch": 195.14666666666668, "grad_norm": 0.205078125, "learning_rate": 0.0004884887358211496, "loss": 0.3075, "step": 73180 }, { "epoch": 195.17333333333335, "grad_norm": 0.22265625, "learning_rate": 0.0004884855924477821, "loss": 0.3079, "step": 73190 }, { "epoch": 195.2, "grad_norm": 0.19921875, "learning_rate": 0.0004884824486554102, "loss": 0.3013, "step": 73200 }, { "epoch": 195.22666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.0004884793044440393, "loss": 0.2952, "step": 73210 }, { "epoch": 195.25333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.0004884761598136752, "loss": 0.2949, "step": 73220 }, { "epoch": 195.28, "grad_norm": 0.212890625, "learning_rate": 0.000488473014764323, "loss": 0.3132, "step": 73230 }, { "epoch": 195.30666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.0004884698692959887, "loss": 0.2951, "step": 73240 }, { "epoch": 195.33333333333334, "grad_norm": 0.18359375, "learning_rate": 0.0004884667234086774, "loss": 0.3091, "step": 73250 }, { "epoch": 195.36, "grad_norm": 0.1865234375, "learning_rate": 0.0004884635771023949, "loss": 0.3006, "step": 73260 }, { "epoch": 195.38666666666666, "grad_norm": 0.2373046875, "learning_rate": 0.0004884604303771467, "loss": 0.2981, "step": 73270 }, { "epoch": 195.41333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004884572832329382, "loss": 0.3041, "step": 73280 }, { "epoch": 195.44, "grad_norm": 0.2177734375, "learning_rate": 0.0004884541356697749, "loss": 0.3117, "step": 73290 }, { "epoch": 195.46666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.0004884509876876626, "loss": 0.3151, "step": 73300 }, { "epoch": 195.49333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004884478392866066, "loss": 0.3054, "step": 73310 }, { "epoch": 195.52, "grad_norm": 0.177734375, "learning_rate": 0.0004884446904666126, "loss": 0.3089, "step": 73320 }, { "epoch": 195.54666666666665, "grad_norm": 0.28515625, "learning_rate": 0.0004884415412276859, "loss": 0.2989, "step": 73330 }, { "epoch": 195.57333333333332, "grad_norm": 0.19921875, "learning_rate": 0.0004884383915698322, "loss": 0.3023, "step": 73340 }, { "epoch": 195.6, "grad_norm": 0.193359375, "learning_rate": 0.0004884352414930571, "loss": 0.2995, "step": 73350 }, { "epoch": 195.62666666666667, "grad_norm": 0.30859375, "learning_rate": 0.0004884320909973658, "loss": 0.2942, "step": 73360 }, { "epoch": 195.65333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.0004884289400827643, "loss": 0.3068, "step": 73370 }, { "epoch": 195.68, "grad_norm": 0.1845703125, "learning_rate": 0.0004884257887492578, "loss": 0.296, "step": 73380 }, { "epoch": 195.70666666666668, "grad_norm": 0.2392578125, "learning_rate": 0.0004884226369968518, "loss": 0.2971, "step": 73390 }, { "epoch": 195.73333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004884194848255522, "loss": 0.3119, "step": 73400 }, { "epoch": 195.76, "grad_norm": 0.23046875, "learning_rate": 0.0004884163322353642, "loss": 0.3134, "step": 73410 }, { "epoch": 195.78666666666666, "grad_norm": 0.1875, "learning_rate": 0.0004884131792262935, "loss": 0.3144, "step": 73420 }, { "epoch": 195.81333333333333, "grad_norm": 0.251953125, "learning_rate": 0.0004884100257983456, "loss": 0.297, "step": 73430 }, { "epoch": 195.84, "grad_norm": 0.189453125, "learning_rate": 0.000488406871951526, "loss": 0.2967, "step": 73440 }, { "epoch": 195.86666666666667, "grad_norm": 0.197265625, "learning_rate": 0.0004884037176858402, "loss": 0.2984, "step": 73450 }, { "epoch": 195.89333333333335, "grad_norm": 0.1787109375, "learning_rate": 0.000488400563001294, "loss": 0.299, "step": 73460 }, { "epoch": 195.92, "grad_norm": 0.2001953125, "learning_rate": 0.0004883974078978927, "loss": 0.3, "step": 73470 }, { "epoch": 195.94666666666666, "grad_norm": 0.208984375, "learning_rate": 0.0004883942523756417, "loss": 0.3014, "step": 73480 }, { "epoch": 195.97333333333333, "grad_norm": 0.2109375, "learning_rate": 0.0004883910964345469, "loss": 0.3082, "step": 73490 }, { "epoch": 196.0, "grad_norm": 0.1796875, "learning_rate": 0.0004883879400746137, "loss": 0.2972, "step": 73500 }, { "epoch": 196.0, "eval_loss": 0.39889007806777954, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8768, "eval_samples_per_second": 1.471, "eval_steps_per_second": 0.092, "step": 73500 }, { "epoch": 196.02666666666667, "grad_norm": 0.216796875, "learning_rate": 0.0004883847832958477, "loss": 0.3193, "step": 73510 }, { "epoch": 196.05333333333334, "grad_norm": 0.1953125, "learning_rate": 0.0004883816260982543, "loss": 0.3262, "step": 73520 }, { "epoch": 196.08, "grad_norm": 0.234375, "learning_rate": 0.0004883784684818391, "loss": 0.3101, "step": 73530 }, { "epoch": 196.10666666666665, "grad_norm": 0.2294921875, "learning_rate": 0.0004883753104466078, "loss": 0.3121, "step": 73540 }, { "epoch": 196.13333333333333, "grad_norm": 0.1884765625, "learning_rate": 0.0004883721519925656, "loss": 0.3028, "step": 73550 }, { "epoch": 196.16, "grad_norm": 0.17578125, "learning_rate": 0.0004883689931197184, "loss": 0.3103, "step": 73560 }, { "epoch": 196.18666666666667, "grad_norm": 0.1728515625, "learning_rate": 0.0004883658338280716, "loss": 0.3063, "step": 73570 }, { "epoch": 196.21333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.000488362674117631, "loss": 0.2945, "step": 73580 }, { "epoch": 196.24, "grad_norm": 0.23046875, "learning_rate": 0.0004883595139884016, "loss": 0.2985, "step": 73590 }, { "epoch": 196.26666666666668, "grad_norm": 0.2177734375, "learning_rate": 0.0004883563534403894, "loss": 0.3036, "step": 73600 }, { "epoch": 196.29333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004883531924735998, "loss": 0.3002, "step": 73610 }, { "epoch": 196.32, "grad_norm": 0.2138671875, "learning_rate": 0.0004883500310880385, "loss": 0.3071, "step": 73620 }, { "epoch": 196.34666666666666, "grad_norm": 0.25390625, "learning_rate": 0.0004883468692837108, "loss": 0.306, "step": 73630 }, { "epoch": 196.37333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.0004883437070606226, "loss": 0.2984, "step": 73640 }, { "epoch": 196.4, "grad_norm": 0.18359375, "learning_rate": 0.000488340544418779, "loss": 0.3002, "step": 73650 }, { "epoch": 196.42666666666668, "grad_norm": 0.1669921875, "learning_rate": 0.000488337381358186, "loss": 0.3067, "step": 73660 }, { "epoch": 196.45333333333335, "grad_norm": 0.1943359375, "learning_rate": 0.000488334217878849, "loss": 0.3153, "step": 73670 }, { "epoch": 196.48, "grad_norm": 0.19140625, "learning_rate": 0.0004883310539807732, "loss": 0.3104, "step": 73680 }, { "epoch": 196.50666666666666, "grad_norm": 0.17578125, "learning_rate": 0.0004883278896639648, "loss": 0.3079, "step": 73690 }, { "epoch": 196.53333333333333, "grad_norm": 0.19921875, "learning_rate": 0.000488324724928429, "loss": 0.3022, "step": 73700 }, { "epoch": 196.56, "grad_norm": 0.1748046875, "learning_rate": 0.0004883215597741712, "loss": 0.299, "step": 73710 }, { "epoch": 196.58666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004883183942011974, "loss": 0.3027, "step": 73720 }, { "epoch": 196.61333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.0004883152282095127, "loss": 0.2955, "step": 73730 }, { "epoch": 196.64, "grad_norm": 0.16796875, "learning_rate": 0.000488312061799123, "loss": 0.2954, "step": 73740 }, { "epoch": 196.66666666666666, "grad_norm": 0.224609375, "learning_rate": 0.0004883088949700339, "loss": 0.3113, "step": 73750 }, { "epoch": 196.69333333333333, "grad_norm": 0.166015625, "learning_rate": 0.0004883057277222506, "loss": 0.2904, "step": 73760 }, { "epoch": 196.72, "grad_norm": 0.29296875, "learning_rate": 0.0004883025600557789, "loss": 0.3064, "step": 73770 }, { "epoch": 196.74666666666667, "grad_norm": 0.1689453125, "learning_rate": 0.0004882993919706243, "loss": 0.308, "step": 73780 }, { "epoch": 196.77333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004882962234667926, "loss": 0.3197, "step": 73790 }, { "epoch": 196.8, "grad_norm": 0.2197265625, "learning_rate": 0.0004882930545442891, "loss": 0.3059, "step": 73800 }, { "epoch": 196.82666666666665, "grad_norm": 0.2109375, "learning_rate": 0.0004882898852031194, "loss": 0.2949, "step": 73810 }, { "epoch": 196.85333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.000488286715443289, "loss": 0.2989, "step": 73820 }, { "epoch": 196.88, "grad_norm": 0.18359375, "learning_rate": 0.0004882835452648037, "loss": 0.2979, "step": 73830 }, { "epoch": 196.90666666666667, "grad_norm": 0.2470703125, "learning_rate": 0.0004882803746676691, "loss": 0.3002, "step": 73840 }, { "epoch": 196.93333333333334, "grad_norm": 0.17578125, "learning_rate": 0.00048827720365189045, "loss": 0.3002, "step": 73850 }, { "epoch": 196.96, "grad_norm": 0.1982421875, "learning_rate": 0.0004882740322174735, "loss": 0.3002, "step": 73860 }, { "epoch": 196.98666666666668, "grad_norm": 0.1943359375, "learning_rate": 0.00048827086036442387, "loss": 0.3118, "step": 73870 }, { "epoch": 197.0, "eval_loss": 0.39731070399284363, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.1235, "eval_samples_per_second": 1.438, "eval_steps_per_second": 0.09, "step": 73875 }, { "epoch": 197.01333333333332, "grad_norm": 0.234375, "learning_rate": 0.000488267688092747, "loss": 0.3029, "step": 73880 }, { "epoch": 197.04, "grad_norm": 0.189453125, "learning_rate": 0.00048826451540244867, "loss": 0.3292, "step": 73890 }, { "epoch": 197.06666666666666, "grad_norm": 0.232421875, "learning_rate": 0.0004882613422935342, "loss": 0.3136, "step": 73900 }, { "epoch": 197.09333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004882581687660093, "loss": 0.3103, "step": 73910 }, { "epoch": 197.12, "grad_norm": 0.19921875, "learning_rate": 0.00048825499481987955, "loss": 0.3064, "step": 73920 }, { "epoch": 197.14666666666668, "grad_norm": 0.1806640625, "learning_rate": 0.0004882518204551506, "loss": 0.3076, "step": 73930 }, { "epoch": 197.17333333333335, "grad_norm": 0.1982421875, "learning_rate": 0.0004882486456718278, "loss": 0.3076, "step": 73940 }, { "epoch": 197.2, "grad_norm": 0.2138671875, "learning_rate": 0.000488245470469917, "loss": 0.3011, "step": 73950 }, { "epoch": 197.22666666666666, "grad_norm": 0.2236328125, "learning_rate": 0.0004882422948494236, "loss": 0.2954, "step": 73960 }, { "epoch": 197.25333333333333, "grad_norm": 0.234375, "learning_rate": 0.00048823911881035317, "loss": 0.2952, "step": 73970 }, { "epoch": 197.28, "grad_norm": 0.2333984375, "learning_rate": 0.0004882359423527114, "loss": 0.3129, "step": 73980 }, { "epoch": 197.30666666666667, "grad_norm": 0.2109375, "learning_rate": 0.00048823276547650375, "loss": 0.2951, "step": 73990 }, { "epoch": 197.33333333333334, "grad_norm": 0.240234375, "learning_rate": 0.0004882295881817359, "loss": 0.3097, "step": 74000 }, { "epoch": 197.36, "grad_norm": 0.1845703125, "learning_rate": 0.0004882264104684134, "loss": 0.3004, "step": 74010 }, { "epoch": 197.38666666666666, "grad_norm": 0.240234375, "learning_rate": 0.0004882232323365419, "loss": 0.2979, "step": 74020 }, { "epoch": 197.41333333333333, "grad_norm": 0.2021484375, "learning_rate": 0.0004882200537861269, "loss": 0.3037, "step": 74030 }, { "epoch": 197.44, "grad_norm": 0.21484375, "learning_rate": 0.0004882168748171739, "loss": 0.3115, "step": 74040 }, { "epoch": 197.46666666666667, "grad_norm": 0.20703125, "learning_rate": 0.00048821369542968875, "loss": 0.3155, "step": 74050 }, { "epoch": 197.49333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004882105156236767, "loss": 0.3047, "step": 74060 }, { "epoch": 197.52, "grad_norm": 0.2490234375, "learning_rate": 0.0004882073353991436, "loss": 0.3086, "step": 74070 }, { "epoch": 197.54666666666665, "grad_norm": 0.265625, "learning_rate": 0.00048820415475609493, "loss": 0.2988, "step": 74080 }, { "epoch": 197.57333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004882009736945363, "loss": 0.302, "step": 74090 }, { "epoch": 197.6, "grad_norm": 0.19921875, "learning_rate": 0.00048819779221447333, "loss": 0.2994, "step": 74100 }, { "epoch": 197.62666666666667, "grad_norm": 0.1943359375, "learning_rate": 0.0004881946103159115, "loss": 0.2943, "step": 74110 }, { "epoch": 197.65333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.00048819142799885653, "loss": 0.3065, "step": 74120 }, { "epoch": 197.68, "grad_norm": 0.1806640625, "learning_rate": 0.00048818824526331397, "loss": 0.2961, "step": 74130 }, { "epoch": 197.70666666666668, "grad_norm": 0.2578125, "learning_rate": 0.00048818506210928937, "loss": 0.2968, "step": 74140 }, { "epoch": 197.73333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.0004881818785367883, "loss": 0.3123, "step": 74150 }, { "epoch": 197.76, "grad_norm": 0.22265625, "learning_rate": 0.0004881786945458165, "loss": 0.3134, "step": 74160 }, { "epoch": 197.78666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004881755101363794, "loss": 0.3139, "step": 74170 }, { "epoch": 197.81333333333333, "grad_norm": 0.25, "learning_rate": 0.00048817232530848267, "loss": 0.2968, "step": 74180 }, { "epoch": 197.84, "grad_norm": 0.1884765625, "learning_rate": 0.00048816914006213186, "loss": 0.2969, "step": 74190 }, { "epoch": 197.86666666666667, "grad_norm": 0.17578125, "learning_rate": 0.0004881659543973327, "loss": 0.2987, "step": 74200 }, { "epoch": 197.89333333333335, "grad_norm": 0.1669921875, "learning_rate": 0.0004881627683140906, "loss": 0.299, "step": 74210 }, { "epoch": 197.92, "grad_norm": 0.216796875, "learning_rate": 0.00048815958181241135, "loss": 0.2994, "step": 74220 }, { "epoch": 197.94666666666666, "grad_norm": 0.1875, "learning_rate": 0.00048815639489230034, "loss": 0.3016, "step": 74230 }, { "epoch": 197.97333333333333, "grad_norm": 0.2470703125, "learning_rate": 0.00048815320755376336, "loss": 0.3083, "step": 74240 }, { "epoch": 198.0, "grad_norm": 0.1865234375, "learning_rate": 0.00048815001979680587, "loss": 0.2966, "step": 74250 }, { "epoch": 198.0, "eval_loss": 0.39946767687797546, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.8408, "eval_samples_per_second": 1.476, "eval_steps_per_second": 0.092, "step": 74250 }, { "epoch": 198.02666666666667, "grad_norm": 0.287109375, "learning_rate": 0.0004881468316214335, "loss": 0.3196, "step": 74260 }, { "epoch": 198.05333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.000488143643027652, "loss": 0.3258, "step": 74270 }, { "epoch": 198.08, "grad_norm": 0.18359375, "learning_rate": 0.0004881404540154667, "loss": 0.3093, "step": 74280 }, { "epoch": 198.10666666666665, "grad_norm": 0.169921875, "learning_rate": 0.0004881372645848835, "loss": 0.3112, "step": 74290 }, { "epoch": 198.13333333333333, "grad_norm": 0.2177734375, "learning_rate": 0.00048813407473590777, "loss": 0.3027, "step": 74300 }, { "epoch": 198.16, "grad_norm": 0.2490234375, "learning_rate": 0.0004881308844685452, "loss": 0.3096, "step": 74310 }, { "epoch": 198.18666666666667, "grad_norm": 0.1962890625, "learning_rate": 0.00048812769378280143, "loss": 0.305, "step": 74320 }, { "epoch": 198.21333333333334, "grad_norm": 0.203125, "learning_rate": 0.00048812450267868204, "loss": 0.2936, "step": 74330 }, { "epoch": 198.24, "grad_norm": 0.224609375, "learning_rate": 0.0004881213111561925, "loss": 0.2978, "step": 74340 }, { "epoch": 198.26666666666668, "grad_norm": 0.1875, "learning_rate": 0.00048811811921533867, "loss": 0.3038, "step": 74350 }, { "epoch": 198.29333333333332, "grad_norm": 0.294921875, "learning_rate": 0.000488114926856126, "loss": 0.2991, "step": 74360 }, { "epoch": 198.32, "grad_norm": 0.25390625, "learning_rate": 0.0004881117340785602, "loss": 0.3064, "step": 74370 }, { "epoch": 198.34666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004881085408826468, "loss": 0.3053, "step": 74380 }, { "epoch": 198.37333333333333, "grad_norm": 0.1943359375, "learning_rate": 0.00048810534726839136, "loss": 0.2978, "step": 74390 }, { "epoch": 198.4, "grad_norm": 0.1796875, "learning_rate": 0.00048810215323579956, "loss": 0.299, "step": 74400 }, { "epoch": 198.42666666666668, "grad_norm": 0.2080078125, "learning_rate": 0.000488098958784877, "loss": 0.3068, "step": 74410 }, { "epoch": 198.45333333333335, "grad_norm": 0.220703125, "learning_rate": 0.00048809576391562934, "loss": 0.3146, "step": 74420 }, { "epoch": 198.48, "grad_norm": 0.220703125, "learning_rate": 0.0004880925686280621, "loss": 0.3108, "step": 74430 }, { "epoch": 198.50666666666666, "grad_norm": 0.181640625, "learning_rate": 0.000488089372922181, "loss": 0.3076, "step": 74440 }, { "epoch": 198.53333333333333, "grad_norm": 0.1708984375, "learning_rate": 0.0004880861767979916, "loss": 0.3023, "step": 74450 }, { "epoch": 198.56, "grad_norm": 0.1904296875, "learning_rate": 0.0004880829802554995, "loss": 0.2991, "step": 74460 }, { "epoch": 198.58666666666667, "grad_norm": 0.1875, "learning_rate": 0.0004880797832947103, "loss": 0.3028, "step": 74470 }, { "epoch": 198.61333333333334, "grad_norm": 0.173828125, "learning_rate": 0.00048807658591562965, "loss": 0.2944, "step": 74480 }, { "epoch": 198.64, "grad_norm": 0.181640625, "learning_rate": 0.00048807338811826317, "loss": 0.2952, "step": 74490 }, { "epoch": 198.66666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.00048807018990261653, "loss": 0.3119, "step": 74500 }, { "epoch": 198.69333333333333, "grad_norm": 0.34375, "learning_rate": 0.0004880669912686953, "loss": 0.2902, "step": 74510 }, { "epoch": 198.72, "grad_norm": 0.287109375, "learning_rate": 0.00048806379221650497, "loss": 0.3064, "step": 74520 }, { "epoch": 198.74666666666667, "grad_norm": 0.181640625, "learning_rate": 0.00048806059274605137, "loss": 0.3077, "step": 74530 }, { "epoch": 198.77333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.00048805739285734, "loss": 0.3185, "step": 74540 }, { "epoch": 198.8, "grad_norm": 0.1806640625, "learning_rate": 0.00048805419255037655, "loss": 0.3058, "step": 74550 }, { "epoch": 198.82666666666665, "grad_norm": 0.2158203125, "learning_rate": 0.0004880509918251666, "loss": 0.2941, "step": 74560 }, { "epoch": 198.85333333333332, "grad_norm": 0.193359375, "learning_rate": 0.00048804779068171576, "loss": 0.2985, "step": 74570 }, { "epoch": 198.88, "grad_norm": 0.1923828125, "learning_rate": 0.00048804458912002976, "loss": 0.2979, "step": 74580 }, { "epoch": 198.90666666666667, "grad_norm": 0.2041015625, "learning_rate": 0.00048804138714011406, "loss": 0.2994, "step": 74590 }, { "epoch": 198.93333333333334, "grad_norm": 0.18359375, "learning_rate": 0.00048803818474197437, "loss": 0.3003, "step": 74600 }, { "epoch": 198.96, "grad_norm": 0.197265625, "learning_rate": 0.0004880349819256164, "loss": 0.3, "step": 74610 }, { "epoch": 198.98666666666668, "grad_norm": 0.26953125, "learning_rate": 0.00048803177869104555, "loss": 0.3111, "step": 74620 }, { "epoch": 199.0, "eval_loss": 0.39611828327178955, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.7927, "eval_samples_per_second": 1.482, "eval_steps_per_second": 0.093, "step": 74625 }, { "epoch": 199.01333333333332, "grad_norm": 0.265625, "learning_rate": 0.0004880285750382677, "loss": 0.3021, "step": 74630 }, { "epoch": 199.04, "grad_norm": 0.2001953125, "learning_rate": 0.0004880253709672883, "loss": 0.3285, "step": 74640 }, { "epoch": 199.06666666666666, "grad_norm": 0.28515625, "learning_rate": 0.0004880221664781131, "loss": 0.3137, "step": 74650 }, { "epoch": 199.09333333333333, "grad_norm": 0.271484375, "learning_rate": 0.00048801896157074767, "loss": 0.3101, "step": 74660 }, { "epoch": 199.12, "grad_norm": 0.1806640625, "learning_rate": 0.0004880157562451976, "loss": 0.307, "step": 74670 }, { "epoch": 199.14666666666668, "grad_norm": 0.203125, "learning_rate": 0.00048801255050146865, "loss": 0.3068, "step": 74680 }, { "epoch": 199.17333333333335, "grad_norm": 0.23046875, "learning_rate": 0.0004880093443395663, "loss": 0.3073, "step": 74690 }, { "epoch": 199.2, "grad_norm": 0.2265625, "learning_rate": 0.00048800613775949633, "loss": 0.3012, "step": 74700 }, { "epoch": 199.22666666666666, "grad_norm": 0.203125, "learning_rate": 0.00048800293076126425, "loss": 0.2945, "step": 74710 }, { "epoch": 199.25333333333333, "grad_norm": 0.1904296875, "learning_rate": 0.00048799972334487567, "loss": 0.2947, "step": 74720 }, { "epoch": 199.28, "grad_norm": 0.216796875, "learning_rate": 0.00048799651551033644, "loss": 0.3129, "step": 74730 }, { "epoch": 199.30666666666667, "grad_norm": 0.1923828125, "learning_rate": 0.0004879933072576519, "loss": 0.2951, "step": 74740 }, { "epoch": 199.33333333333334, "grad_norm": 0.1982421875, "learning_rate": 0.000487990098586828, "loss": 0.3091, "step": 74750 }, { "epoch": 199.36, "grad_norm": 0.1875, "learning_rate": 0.00048798688949787015, "loss": 0.3005, "step": 74760 }, { "epoch": 199.38666666666666, "grad_norm": 0.25, "learning_rate": 0.000487983679990784, "loss": 0.2974, "step": 74770 }, { "epoch": 199.41333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.00048798047006557533, "loss": 0.3033, "step": 74780 }, { "epoch": 199.44, "grad_norm": 0.2236328125, "learning_rate": 0.0004879772597222497, "loss": 0.3106, "step": 74790 }, { "epoch": 199.46666666666667, "grad_norm": 0.2275390625, "learning_rate": 0.00048797404896081263, "loss": 0.3153, "step": 74800 }, { "epoch": 199.49333333333334, "grad_norm": 0.24609375, "learning_rate": 0.00048797083778127, "loss": 0.3041, "step": 74810 }, { "epoch": 199.52, "grad_norm": 0.169921875, "learning_rate": 0.00048796762618362726, "loss": 0.308, "step": 74820 }, { "epoch": 199.54666666666665, "grad_norm": 0.1962890625, "learning_rate": 0.00048796441416789016, "loss": 0.299, "step": 74830 }, { "epoch": 199.57333333333332, "grad_norm": 0.2470703125, "learning_rate": 0.0004879612017340643, "loss": 0.3022, "step": 74840 }, { "epoch": 199.6, "grad_norm": 0.1943359375, "learning_rate": 0.0004879579888821553, "loss": 0.2985, "step": 74850 }, { "epoch": 199.62666666666667, "grad_norm": 0.171875, "learning_rate": 0.00048795477561216886, "loss": 0.2938, "step": 74860 }, { "epoch": 199.65333333333334, "grad_norm": 0.173828125, "learning_rate": 0.0004879515619241106, "loss": 0.3068, "step": 74870 }, { "epoch": 199.68, "grad_norm": 0.2021484375, "learning_rate": 0.00048794834781798615, "loss": 0.2952, "step": 74880 }, { "epoch": 199.70666666666668, "grad_norm": 0.2431640625, "learning_rate": 0.00048794513329380117, "loss": 0.2967, "step": 74890 }, { "epoch": 199.73333333333332, "grad_norm": 0.23828125, "learning_rate": 0.00048794191835156134, "loss": 0.3114, "step": 74900 }, { "epoch": 199.76, "grad_norm": 0.197265625, "learning_rate": 0.0004879387029912723, "loss": 0.3127, "step": 74910 }, { "epoch": 199.78666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004879354872129396, "loss": 0.3144, "step": 74920 }, { "epoch": 199.81333333333333, "grad_norm": 0.2490234375, "learning_rate": 0.000487932271016569, "loss": 0.2963, "step": 74930 }, { "epoch": 199.84, "grad_norm": 0.2099609375, "learning_rate": 0.0004879290544021661, "loss": 0.2966, "step": 74940 }, { "epoch": 199.86666666666667, "grad_norm": 0.1748046875, "learning_rate": 0.0004879258373697366, "loss": 0.2983, "step": 74950 }, { "epoch": 199.89333333333335, "grad_norm": 0.177734375, "learning_rate": 0.0004879226199192861, "loss": 0.2982, "step": 74960 }, { "epoch": 199.92, "grad_norm": 0.240234375, "learning_rate": 0.0004879194020508203, "loss": 0.299, "step": 74970 }, { "epoch": 199.94666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.0004879161837643448, "loss": 0.3012, "step": 74980 }, { "epoch": 199.97333333333333, "grad_norm": 0.2119140625, "learning_rate": 0.0004879129650598653, "loss": 0.3076, "step": 74990 }, { "epoch": 200.0, "grad_norm": 0.2314453125, "learning_rate": 0.00048790974593738745, "loss": 0.2966, "step": 75000 }, { "epoch": 200.0, "eval_loss": 0.3961365818977356, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.8029, "eval_samples_per_second": 1.356, "eval_steps_per_second": 0.085, "step": 75000 }, { "epoch": 200.02666666666667, "grad_norm": 0.1796875, "learning_rate": 0.0004879065263969169, "loss": 0.3191, "step": 75010 }, { "epoch": 200.05333333333334, "grad_norm": 0.2314453125, "learning_rate": 0.0004879033064384593, "loss": 0.3257, "step": 75020 }, { "epoch": 200.08, "grad_norm": 0.1884765625, "learning_rate": 0.00048790008606202024, "loss": 0.3096, "step": 75030 }, { "epoch": 200.10666666666665, "grad_norm": 0.16796875, "learning_rate": 0.0004878968652676055, "loss": 0.3116, "step": 75040 }, { "epoch": 200.13333333333333, "grad_norm": 0.201171875, "learning_rate": 0.00048789364405522065, "loss": 0.3025, "step": 75050 }, { "epoch": 200.16, "grad_norm": 0.18359375, "learning_rate": 0.00048789042242487144, "loss": 0.31, "step": 75060 }, { "epoch": 200.18666666666667, "grad_norm": 0.1953125, "learning_rate": 0.00048788720037656343, "loss": 0.3051, "step": 75070 }, { "epoch": 200.21333333333334, "grad_norm": 0.20703125, "learning_rate": 0.0004878839779103023, "loss": 0.2936, "step": 75080 }, { "epoch": 200.24, "grad_norm": 0.2138671875, "learning_rate": 0.0004878807550260938, "loss": 0.2974, "step": 75090 }, { "epoch": 200.26666666666668, "grad_norm": 0.2138671875, "learning_rate": 0.0004878775317239435, "loss": 0.3034, "step": 75100 }, { "epoch": 200.29333333333332, "grad_norm": 0.193359375, "learning_rate": 0.0004878743080038571, "loss": 0.2988, "step": 75110 }, { "epoch": 200.32, "grad_norm": 0.2216796875, "learning_rate": 0.00048787108386584024, "loss": 0.3071, "step": 75120 }, { "epoch": 200.34666666666666, "grad_norm": 0.208984375, "learning_rate": 0.00048786785930989864, "loss": 0.3054, "step": 75130 }, { "epoch": 200.37333333333333, "grad_norm": 0.1865234375, "learning_rate": 0.0004878646343360378, "loss": 0.2973, "step": 75140 }, { "epoch": 200.4, "grad_norm": 0.2373046875, "learning_rate": 0.0004878614089442637, "loss": 0.2991, "step": 75150 }, { "epoch": 200.42666666666668, "grad_norm": 0.1650390625, "learning_rate": 0.00048785818313458164, "loss": 0.3065, "step": 75160 }, { "epoch": 200.45333333333335, "grad_norm": 0.232421875, "learning_rate": 0.00048785495690699756, "loss": 0.3144, "step": 75170 }, { "epoch": 200.48, "grad_norm": 0.2392578125, "learning_rate": 0.00048785173026151703, "loss": 0.3104, "step": 75180 }, { "epoch": 200.50666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.00048784850319814573, "loss": 0.3068, "step": 75190 }, { "epoch": 200.53333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004878452757168893, "loss": 0.3027, "step": 75200 }, { "epoch": 200.56, "grad_norm": 0.2001953125, "learning_rate": 0.00048784204781775344, "loss": 0.2985, "step": 75210 }, { "epoch": 200.58666666666667, "grad_norm": 0.20703125, "learning_rate": 0.00048783881950074384, "loss": 0.3024, "step": 75220 }, { "epoch": 200.61333333333334, "grad_norm": 0.20703125, "learning_rate": 0.00048783559076586607, "loss": 0.2945, "step": 75230 }, { "epoch": 200.64, "grad_norm": 0.193359375, "learning_rate": 0.00048783236161312595, "loss": 0.2952, "step": 75240 }, { "epoch": 200.66666666666666, "grad_norm": 0.1943359375, "learning_rate": 0.0004878291320425291, "loss": 0.311, "step": 75250 }, { "epoch": 200.69333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004878259020540811, "loss": 0.2896, "step": 75260 }, { "epoch": 200.72, "grad_norm": 0.236328125, "learning_rate": 0.00048782267164778774, "loss": 0.3064, "step": 75270 }, { "epoch": 200.74666666666667, "grad_norm": 0.24609375, "learning_rate": 0.0004878194408236547, "loss": 0.307, "step": 75280 }, { "epoch": 200.77333333333334, "grad_norm": 0.22265625, "learning_rate": 0.00048781620958168753, "loss": 0.3181, "step": 75290 }, { "epoch": 200.8, "grad_norm": 0.1923828125, "learning_rate": 0.0004878129779218921, "loss": 0.3053, "step": 75300 }, { "epoch": 200.82666666666665, "grad_norm": 0.2119140625, "learning_rate": 0.00048780974584427384, "loss": 0.2942, "step": 75310 }, { "epoch": 200.85333333333332, "grad_norm": 0.1806640625, "learning_rate": 0.0004878065133488386, "loss": 0.2985, "step": 75320 }, { "epoch": 200.88, "grad_norm": 0.2177734375, "learning_rate": 0.00048780328043559215, "loss": 0.2974, "step": 75330 }, { "epoch": 200.90666666666667, "grad_norm": 0.2314453125, "learning_rate": 0.00048780004710454, "loss": 0.2994, "step": 75340 }, { "epoch": 200.93333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.00048779681335568784, "loss": 0.3001, "step": 75350 }, { "epoch": 200.96, "grad_norm": 0.1787109375, "learning_rate": 0.00048779357918904133, "loss": 0.3, "step": 75360 }, { "epoch": 200.98666666666668, "grad_norm": 0.2080078125, "learning_rate": 0.00048779034460460623, "loss": 0.3108, "step": 75370 }, { "epoch": 201.0, "eval_loss": 0.39679020643234253, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0587, "eval_samples_per_second": 1.447, "eval_steps_per_second": 0.09, "step": 75375 }, { "epoch": 201.01333333333332, "grad_norm": 0.1953125, "learning_rate": 0.00048778710960238825, "loss": 0.3024, "step": 75380 }, { "epoch": 201.04, "grad_norm": 0.1806640625, "learning_rate": 0.0004877838741823931, "loss": 0.3286, "step": 75390 }, { "epoch": 201.06666666666666, "grad_norm": 0.263671875, "learning_rate": 0.0004877806383446263, "loss": 0.3142, "step": 75400 }, { "epoch": 201.09333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004877774020890936, "loss": 0.3102, "step": 75410 }, { "epoch": 201.12, "grad_norm": 0.201171875, "learning_rate": 0.00048777416541580075, "loss": 0.3062, "step": 75420 }, { "epoch": 201.14666666666668, "grad_norm": 0.1904296875, "learning_rate": 0.00048777092832475344, "loss": 0.3068, "step": 75430 }, { "epoch": 201.17333333333335, "grad_norm": 0.2431640625, "learning_rate": 0.0004877676908159573, "loss": 0.307, "step": 75440 }, { "epoch": 201.2, "grad_norm": 0.265625, "learning_rate": 0.00048776445288941793, "loss": 0.3006, "step": 75450 }, { "epoch": 201.22666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004877612145451413, "loss": 0.2947, "step": 75460 }, { "epoch": 201.25333333333333, "grad_norm": 0.228515625, "learning_rate": 0.0004877579757831328, "loss": 0.294, "step": 75470 }, { "epoch": 201.28, "grad_norm": 0.248046875, "learning_rate": 0.0004877547366033983, "loss": 0.3125, "step": 75480 }, { "epoch": 201.30666666666667, "grad_norm": 0.2158203125, "learning_rate": 0.0004877514970059434, "loss": 0.2945, "step": 75490 }, { "epoch": 201.33333333333334, "grad_norm": 0.2080078125, "learning_rate": 0.00048774825699077386, "loss": 0.3092, "step": 75500 }, { "epoch": 201.36, "grad_norm": 0.1953125, "learning_rate": 0.0004877450165578953, "loss": 0.2998, "step": 75510 }, { "epoch": 201.38666666666666, "grad_norm": 0.2255859375, "learning_rate": 0.00048774177570731346, "loss": 0.2978, "step": 75520 }, { "epoch": 201.41333333333333, "grad_norm": 0.265625, "learning_rate": 0.00048773853443903403, "loss": 0.3035, "step": 75530 }, { "epoch": 201.44, "grad_norm": 0.296875, "learning_rate": 0.0004877352927530627, "loss": 0.3114, "step": 75540 }, { "epoch": 201.46666666666667, "grad_norm": 0.259765625, "learning_rate": 0.0004877320506494052, "loss": 0.3146, "step": 75550 }, { "epoch": 201.49333333333334, "grad_norm": 0.2236328125, "learning_rate": 0.00048772880812806717, "loss": 0.3042, "step": 75560 }, { "epoch": 201.52, "grad_norm": 0.203125, "learning_rate": 0.0004877255651890543, "loss": 0.3085, "step": 75570 }, { "epoch": 201.54666666666665, "grad_norm": 0.1943359375, "learning_rate": 0.00048772232183237244, "loss": 0.2987, "step": 75580 }, { "epoch": 201.57333333333332, "grad_norm": 0.1787109375, "learning_rate": 0.000487719078058027, "loss": 0.3021, "step": 75590 }, { "epoch": 201.6, "grad_norm": 0.1923828125, "learning_rate": 0.0004877158338660239, "loss": 0.2988, "step": 75600 }, { "epoch": 201.62666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.00048771258925636886, "loss": 0.2939, "step": 75610 }, { "epoch": 201.65333333333334, "grad_norm": 0.1923828125, "learning_rate": 0.0004877093442290674, "loss": 0.3065, "step": 75620 }, { "epoch": 201.68, "grad_norm": 0.1796875, "learning_rate": 0.00048770609878412543, "loss": 0.2943, "step": 75630 }, { "epoch": 201.70666666666668, "grad_norm": 0.2373046875, "learning_rate": 0.00048770285292154845, "loss": 0.2965, "step": 75640 }, { "epoch": 201.73333333333332, "grad_norm": 0.1796875, "learning_rate": 0.00048769960664134227, "loss": 0.3109, "step": 75650 }, { "epoch": 201.76, "grad_norm": 0.2041015625, "learning_rate": 0.0004876963599435127, "loss": 0.3127, "step": 75660 }, { "epoch": 201.78666666666666, "grad_norm": 0.1904296875, "learning_rate": 0.00048769311282806523, "loss": 0.3137, "step": 75670 }, { "epoch": 201.81333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004876898652950057, "loss": 0.2968, "step": 75680 }, { "epoch": 201.84, "grad_norm": 0.185546875, "learning_rate": 0.00048768661734433974, "loss": 0.2959, "step": 75690 }, { "epoch": 201.86666666666667, "grad_norm": 0.1806640625, "learning_rate": 0.00048768336897607315, "loss": 0.2984, "step": 75700 }, { "epoch": 201.89333333333335, "grad_norm": 0.1962890625, "learning_rate": 0.0004876801201902115, "loss": 0.298, "step": 75710 }, { "epoch": 201.92, "grad_norm": 0.306640625, "learning_rate": 0.0004876768709867606, "loss": 0.2997, "step": 75720 }, { "epoch": 201.94666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.0004876736213657262, "loss": 0.3007, "step": 75730 }, { "epoch": 201.97333333333333, "grad_norm": 0.234375, "learning_rate": 0.00048767037132711397, "loss": 0.3077, "step": 75740 }, { "epoch": 202.0, "grad_norm": 0.1923828125, "learning_rate": 0.0004876671208709296, "loss": 0.2969, "step": 75750 }, { "epoch": 202.0, "eval_loss": 0.3992685079574585, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0674, "eval_samples_per_second": 1.446, "eval_steps_per_second": 0.09, "step": 75750 }, { "epoch": 202.02666666666667, "grad_norm": 0.208984375, "learning_rate": 0.00048766386999717873, "loss": 0.3194, "step": 75760 }, { "epoch": 202.05333333333334, "grad_norm": 0.251953125, "learning_rate": 0.0004876606187058671, "loss": 0.3256, "step": 75770 }, { "epoch": 202.08, "grad_norm": 0.1904296875, "learning_rate": 0.00048765736699700056, "loss": 0.3097, "step": 75780 }, { "epoch": 202.10666666666665, "grad_norm": 0.1806640625, "learning_rate": 0.0004876541148705847, "loss": 0.3111, "step": 75790 }, { "epoch": 202.13333333333333, "grad_norm": 0.2373046875, "learning_rate": 0.00048765086232662526, "loss": 0.3026, "step": 75800 }, { "epoch": 202.16, "grad_norm": 0.2041015625, "learning_rate": 0.000487647609365128, "loss": 0.3097, "step": 75810 }, { "epoch": 202.18666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.0004876443559860985, "loss": 0.3048, "step": 75820 }, { "epoch": 202.21333333333334, "grad_norm": 0.267578125, "learning_rate": 0.0004876411021895426, "loss": 0.2935, "step": 75830 }, { "epoch": 202.24, "grad_norm": 0.193359375, "learning_rate": 0.000487637847975466, "loss": 0.2976, "step": 75840 }, { "epoch": 202.26666666666668, "grad_norm": 0.220703125, "learning_rate": 0.0004876345933438744, "loss": 0.3033, "step": 75850 }, { "epoch": 202.29333333333332, "grad_norm": 0.1943359375, "learning_rate": 0.0004876313382947735, "loss": 0.2999, "step": 75860 }, { "epoch": 202.32, "grad_norm": 0.19140625, "learning_rate": 0.00048762808282816906, "loss": 0.3068, "step": 75870 }, { "epoch": 202.34666666666666, "grad_norm": 0.2138671875, "learning_rate": 0.0004876248269440668, "loss": 0.305, "step": 75880 }, { "epoch": 202.37333333333333, "grad_norm": 0.2138671875, "learning_rate": 0.0004876215706424724, "loss": 0.2979, "step": 75890 }, { "epoch": 202.4, "grad_norm": 0.2099609375, "learning_rate": 0.00048761831392339156, "loss": 0.299, "step": 75900 }, { "epoch": 202.42666666666668, "grad_norm": 0.2275390625, "learning_rate": 0.00048761505678683007, "loss": 0.3062, "step": 75910 }, { "epoch": 202.45333333333335, "grad_norm": 0.208984375, "learning_rate": 0.00048761179923279365, "loss": 0.3142, "step": 75920 }, { "epoch": 202.48, "grad_norm": 0.1923828125, "learning_rate": 0.00048760854126128796, "loss": 0.3103, "step": 75930 }, { "epoch": 202.50666666666666, "grad_norm": 0.197265625, "learning_rate": 0.0004876052828723188, "loss": 0.3068, "step": 75940 }, { "epoch": 202.53333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004876020240658918, "loss": 0.3023, "step": 75950 }, { "epoch": 202.56, "grad_norm": 0.1787109375, "learning_rate": 0.00048759876484201275, "loss": 0.2982, "step": 75960 }, { "epoch": 202.58666666666667, "grad_norm": 0.1826171875, "learning_rate": 0.0004875955052006874, "loss": 0.3024, "step": 75970 }, { "epoch": 202.61333333333334, "grad_norm": 0.1630859375, "learning_rate": 0.0004875922451419215, "loss": 0.2951, "step": 75980 }, { "epoch": 202.64, "grad_norm": 0.19140625, "learning_rate": 0.0004875889846657206, "loss": 0.2954, "step": 75990 }, { "epoch": 202.66666666666666, "grad_norm": 0.2080078125, "learning_rate": 0.00048758572377209067, "loss": 0.3114, "step": 76000 }, { "epoch": 202.69333333333333, "grad_norm": 0.189453125, "learning_rate": 0.0004875824624610372, "loss": 0.29, "step": 76010 }, { "epoch": 202.72, "grad_norm": 0.2021484375, "learning_rate": 0.0004875792007325661, "loss": 0.3057, "step": 76020 }, { "epoch": 202.74666666666667, "grad_norm": 0.2001953125, "learning_rate": 0.00048757593858668306, "loss": 0.3065, "step": 76030 }, { "epoch": 202.77333333333334, "grad_norm": 0.189453125, "learning_rate": 0.0004875726760233937, "loss": 0.3181, "step": 76040 }, { "epoch": 202.8, "grad_norm": 0.1904296875, "learning_rate": 0.00048756941304270397, "loss": 0.3054, "step": 76050 }, { "epoch": 202.82666666666665, "grad_norm": 0.1943359375, "learning_rate": 0.00048756614964461944, "loss": 0.2941, "step": 76060 }, { "epoch": 202.85333333333332, "grad_norm": 0.1845703125, "learning_rate": 0.00048756288582914585, "loss": 0.2986, "step": 76070 }, { "epoch": 202.88, "grad_norm": 0.197265625, "learning_rate": 0.00048755962159628897, "loss": 0.2972, "step": 76080 }, { "epoch": 202.90666666666667, "grad_norm": 0.2236328125, "learning_rate": 0.0004875563569460545, "loss": 0.2989, "step": 76090 }, { "epoch": 202.93333333333334, "grad_norm": 0.2216796875, "learning_rate": 0.0004875530918784483, "loss": 0.2997, "step": 76100 }, { "epoch": 202.96, "grad_norm": 0.201171875, "learning_rate": 0.00048754982639347594, "loss": 0.2997, "step": 76110 }, { "epoch": 202.98666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0004875465604911432, "loss": 0.3113, "step": 76120 }, { "epoch": 203.0, "eval_loss": 0.39632460474967957, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.6389, "eval_samples_per_second": 1.504, "eval_steps_per_second": 0.094, "step": 76125 }, { "epoch": 203.01333333333332, "grad_norm": 0.203125, "learning_rate": 0.0004875432941714559, "loss": 0.3019, "step": 76130 }, { "epoch": 203.04, "grad_norm": 0.169921875, "learning_rate": 0.0004875400274344197, "loss": 0.3279, "step": 76140 }, { "epoch": 203.06666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004875367602800405, "loss": 0.3138, "step": 76150 }, { "epoch": 203.09333333333333, "grad_norm": 0.193359375, "learning_rate": 0.0004875334927083237, "loss": 0.3097, "step": 76160 }, { "epoch": 203.12, "grad_norm": 0.2001953125, "learning_rate": 0.0004875302247192754, "loss": 0.3061, "step": 76170 }, { "epoch": 203.14666666666668, "grad_norm": 0.2080078125, "learning_rate": 0.0004875269563129011, "loss": 0.3065, "step": 76180 }, { "epoch": 203.17333333333335, "grad_norm": 0.201171875, "learning_rate": 0.00048752368748920664, "loss": 0.3071, "step": 76190 }, { "epoch": 203.2, "grad_norm": 0.2080078125, "learning_rate": 0.0004875204182481978, "loss": 0.3009, "step": 76200 }, { "epoch": 203.22666666666666, "grad_norm": 0.2216796875, "learning_rate": 0.0004875171485898803, "loss": 0.2943, "step": 76210 }, { "epoch": 203.25333333333333, "grad_norm": 0.181640625, "learning_rate": 0.0004875138785142598, "loss": 0.2941, "step": 76220 }, { "epoch": 203.28, "grad_norm": 0.2158203125, "learning_rate": 0.00048751060802134207, "loss": 0.3125, "step": 76230 }, { "epoch": 203.30666666666667, "grad_norm": 0.16796875, "learning_rate": 0.00048750733711113293, "loss": 0.2949, "step": 76240 }, { "epoch": 203.33333333333334, "grad_norm": 0.1826171875, "learning_rate": 0.0004875040657836381, "loss": 0.3085, "step": 76250 }, { "epoch": 203.36, "grad_norm": 0.2119140625, "learning_rate": 0.0004875007940388634, "loss": 0.2995, "step": 76260 }, { "epoch": 203.38666666666666, "grad_norm": 0.228515625, "learning_rate": 0.00048749752187681437, "loss": 0.2975, "step": 76270 }, { "epoch": 203.41333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004874942492974969, "loss": 0.303, "step": 76280 }, { "epoch": 203.44, "grad_norm": 0.279296875, "learning_rate": 0.0004874909763009168, "loss": 0.3112, "step": 76290 }, { "epoch": 203.46666666666667, "grad_norm": 0.19921875, "learning_rate": 0.00048748770288707964, "loss": 0.3144, "step": 76300 }, { "epoch": 203.49333333333334, "grad_norm": 0.20703125, "learning_rate": 0.00048748442905599136, "loss": 0.3041, "step": 76310 }, { "epoch": 203.52, "grad_norm": 0.2021484375, "learning_rate": 0.00048748115480765764, "loss": 0.308, "step": 76320 }, { "epoch": 203.54666666666665, "grad_norm": 0.1875, "learning_rate": 0.00048747788014208415, "loss": 0.2983, "step": 76330 }, { "epoch": 203.57333333333332, "grad_norm": 0.1748046875, "learning_rate": 0.00048747460505927677, "loss": 0.3015, "step": 76340 }, { "epoch": 203.6, "grad_norm": 0.197265625, "learning_rate": 0.00048747132955924123, "loss": 0.2986, "step": 76350 }, { "epoch": 203.62666666666667, "grad_norm": 0.1884765625, "learning_rate": 0.00048746805364198323, "loss": 0.2938, "step": 76360 }, { "epoch": 203.65333333333334, "grad_norm": 0.2451171875, "learning_rate": 0.0004874647773075085, "loss": 0.3066, "step": 76370 }, { "epoch": 203.68, "grad_norm": 0.2392578125, "learning_rate": 0.0004874615005558228, "loss": 0.2948, "step": 76380 }, { "epoch": 203.70666666666668, "grad_norm": 0.34375, "learning_rate": 0.0004874582233869321, "loss": 0.2961, "step": 76390 }, { "epoch": 203.73333333333332, "grad_norm": 0.18359375, "learning_rate": 0.0004874549458008419, "loss": 0.3111, "step": 76400 }, { "epoch": 203.76, "grad_norm": 0.2236328125, "learning_rate": 0.000487451667797558, "loss": 0.3126, "step": 76410 }, { "epoch": 203.78666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.00048744838937708626, "loss": 0.3139, "step": 76420 }, { "epoch": 203.81333333333333, "grad_norm": 0.3203125, "learning_rate": 0.0004874451105394324, "loss": 0.2967, "step": 76430 }, { "epoch": 203.84, "grad_norm": 0.185546875, "learning_rate": 0.00048744183128460216, "loss": 0.2964, "step": 76440 }, { "epoch": 203.86666666666667, "grad_norm": 0.185546875, "learning_rate": 0.00048743855161260133, "loss": 0.298, "step": 76450 }, { "epoch": 203.89333333333335, "grad_norm": 0.1826171875, "learning_rate": 0.0004874352715234356, "loss": 0.2982, "step": 76460 }, { "epoch": 203.92, "grad_norm": 0.2158203125, "learning_rate": 0.0004874319910171108, "loss": 0.2987, "step": 76470 }, { "epoch": 203.94666666666666, "grad_norm": 0.265625, "learning_rate": 0.00048742871009363264, "loss": 0.3006, "step": 76480 }, { "epoch": 203.97333333333333, "grad_norm": 0.21484375, "learning_rate": 0.000487425428753007, "loss": 0.308, "step": 76490 }, { "epoch": 204.0, "grad_norm": 0.16796875, "learning_rate": 0.00048742214699523954, "loss": 0.2972, "step": 76500 }, { "epoch": 204.0, "eval_loss": 0.3993959128856659, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.148, "eval_samples_per_second": 1.317, "eval_steps_per_second": 0.082, "step": 76500 }, { "epoch": 204.02666666666667, "grad_norm": 0.22265625, "learning_rate": 0.00048741886482033605, "loss": 0.3188, "step": 76510 }, { "epoch": 204.05333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004874155822283023, "loss": 0.3259, "step": 76520 }, { "epoch": 204.08, "grad_norm": 0.2236328125, "learning_rate": 0.0004874122992191441, "loss": 0.3091, "step": 76530 }, { "epoch": 204.10666666666665, "grad_norm": 0.25390625, "learning_rate": 0.00048740901579286713, "loss": 0.3108, "step": 76540 }, { "epoch": 204.13333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004874057319494772, "loss": 0.3024, "step": 76550 }, { "epoch": 204.16, "grad_norm": 0.173828125, "learning_rate": 0.00048740244768898013, "loss": 0.3092, "step": 76560 }, { "epoch": 204.18666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.0004873991630113816, "loss": 0.3045, "step": 76570 }, { "epoch": 204.21333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.00048739587791668743, "loss": 0.2938, "step": 76580 }, { "epoch": 204.24, "grad_norm": 0.2099609375, "learning_rate": 0.0004873925924049034, "loss": 0.2978, "step": 76590 }, { "epoch": 204.26666666666668, "grad_norm": 0.240234375, "learning_rate": 0.0004873893064760353, "loss": 0.3034, "step": 76600 }, { "epoch": 204.29333333333332, "grad_norm": 0.1904296875, "learning_rate": 0.0004873860201300888, "loss": 0.299, "step": 76610 }, { "epoch": 204.32, "grad_norm": 0.1669921875, "learning_rate": 0.00048738273336706983, "loss": 0.3061, "step": 76620 }, { "epoch": 204.34666666666666, "grad_norm": 0.2021484375, "learning_rate": 0.00048737944618698403, "loss": 0.3047, "step": 76630 }, { "epoch": 204.37333333333333, "grad_norm": 0.185546875, "learning_rate": 0.00048737615858983726, "loss": 0.297, "step": 76640 }, { "epoch": 204.4, "grad_norm": 0.208984375, "learning_rate": 0.0004873728705756352, "loss": 0.2992, "step": 76650 }, { "epoch": 204.42666666666668, "grad_norm": 0.181640625, "learning_rate": 0.0004873695821443838, "loss": 0.3057, "step": 76660 }, { "epoch": 204.45333333333335, "grad_norm": 0.2431640625, "learning_rate": 0.0004873662932960886, "loss": 0.3144, "step": 76670 }, { "epoch": 204.48, "grad_norm": 0.1953125, "learning_rate": 0.0004873630040307556, "loss": 0.3097, "step": 76680 }, { "epoch": 204.50666666666666, "grad_norm": 0.1845703125, "learning_rate": 0.0004873597143483904, "loss": 0.3067, "step": 76690 }, { "epoch": 204.53333333333333, "grad_norm": 0.1572265625, "learning_rate": 0.00048735642424899893, "loss": 0.3016, "step": 76700 }, { "epoch": 204.56, "grad_norm": 0.2021484375, "learning_rate": 0.0004873531337325869, "loss": 0.2981, "step": 76710 }, { "epoch": 204.58666666666667, "grad_norm": 0.203125, "learning_rate": 0.00048734984279916004, "loss": 0.3025, "step": 76720 }, { "epoch": 204.61333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004873465514487243, "loss": 0.2946, "step": 76730 }, { "epoch": 204.64, "grad_norm": 0.1904296875, "learning_rate": 0.0004873432596812852, "loss": 0.2948, "step": 76740 }, { "epoch": 204.66666666666666, "grad_norm": 0.212890625, "learning_rate": 0.00048733996749684885, "loss": 0.3105, "step": 76750 }, { "epoch": 204.69333333333333, "grad_norm": 0.1669921875, "learning_rate": 0.0004873366748954208, "loss": 0.2898, "step": 76760 }, { "epoch": 204.72, "grad_norm": 0.2080078125, "learning_rate": 0.0004873333818770068, "loss": 0.3057, "step": 76770 }, { "epoch": 204.74666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004873300884416128, "loss": 0.3064, "step": 76780 }, { "epoch": 204.77333333333334, "grad_norm": 0.2109375, "learning_rate": 0.0004873267945892445, "loss": 0.3179, "step": 76790 }, { "epoch": 204.8, "grad_norm": 0.2216796875, "learning_rate": 0.0004873235003199077, "loss": 0.3048, "step": 76800 }, { "epoch": 204.82666666666665, "grad_norm": 0.1904296875, "learning_rate": 0.00048732020563360825, "loss": 0.2941, "step": 76810 }, { "epoch": 204.85333333333332, "grad_norm": 0.2060546875, "learning_rate": 0.00048731691053035175, "loss": 0.2984, "step": 76820 }, { "epoch": 204.88, "grad_norm": 0.205078125, "learning_rate": 0.0004873136150101443, "loss": 0.2972, "step": 76830 }, { "epoch": 204.90666666666667, "grad_norm": 0.203125, "learning_rate": 0.0004873103190729914, "loss": 0.299, "step": 76840 }, { "epoch": 204.93333333333334, "grad_norm": 0.17578125, "learning_rate": 0.00048730702271889895, "loss": 0.2995, "step": 76850 }, { "epoch": 204.96, "grad_norm": 0.20703125, "learning_rate": 0.0004873037259478727, "loss": 0.2998, "step": 76860 }, { "epoch": 204.98666666666668, "grad_norm": 0.2265625, "learning_rate": 0.00048730042875991855, "loss": 0.3107, "step": 76870 }, { "epoch": 205.0, "eval_loss": 0.39733168482780457, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.394, "eval_samples_per_second": 1.404, "eval_steps_per_second": 0.088, "step": 76875 }, { "epoch": 205.01333333333332, "grad_norm": 0.224609375, "learning_rate": 0.00048729713115504216, "loss": 0.3017, "step": 76880 }, { "epoch": 205.04, "grad_norm": 0.2080078125, "learning_rate": 0.0004872938331332495, "loss": 0.3278, "step": 76890 }, { "epoch": 205.06666666666666, "grad_norm": 0.216796875, "learning_rate": 0.00048729053469454616, "loss": 0.3132, "step": 76900 }, { "epoch": 205.09333333333333, "grad_norm": 0.185546875, "learning_rate": 0.0004872872358389381, "loss": 0.3088, "step": 76910 }, { "epoch": 205.12, "grad_norm": 0.1806640625, "learning_rate": 0.00048728393656643094, "loss": 0.3062, "step": 76920 }, { "epoch": 205.14666666666668, "grad_norm": 0.1806640625, "learning_rate": 0.00048728063687703064, "loss": 0.3068, "step": 76930 }, { "epoch": 205.17333333333335, "grad_norm": 0.1923828125, "learning_rate": 0.00048727733677074296, "loss": 0.3071, "step": 76940 }, { "epoch": 205.2, "grad_norm": 0.1962890625, "learning_rate": 0.0004872740362475737, "loss": 0.3006, "step": 76950 }, { "epoch": 205.22666666666666, "grad_norm": 0.2109375, "learning_rate": 0.0004872707353075285, "loss": 0.2943, "step": 76960 }, { "epoch": 205.25333333333333, "grad_norm": 0.21875, "learning_rate": 0.00048726743395061345, "loss": 0.2942, "step": 76970 }, { "epoch": 205.28, "grad_norm": 0.234375, "learning_rate": 0.00048726413217683415, "loss": 0.312, "step": 76980 }, { "epoch": 205.30666666666667, "grad_norm": 0.2421875, "learning_rate": 0.0004872608299861964, "loss": 0.2945, "step": 76990 }, { "epoch": 205.33333333333334, "grad_norm": 0.201171875, "learning_rate": 0.0004872575273787061, "loss": 0.3085, "step": 77000 }, { "epoch": 205.36, "grad_norm": 0.1787109375, "learning_rate": 0.00048725422435436897, "loss": 0.299, "step": 77010 }, { "epoch": 205.38666666666666, "grad_norm": 0.2060546875, "learning_rate": 0.0004872509209131909, "loss": 0.2971, "step": 77020 }, { "epoch": 205.41333333333333, "grad_norm": 0.1767578125, "learning_rate": 0.0004872476170551776, "loss": 0.3027, "step": 77030 }, { "epoch": 205.44, "grad_norm": 0.1923828125, "learning_rate": 0.00048724431278033485, "loss": 0.3101, "step": 77040 }, { "epoch": 205.46666666666667, "grad_norm": 0.212890625, "learning_rate": 0.00048724100808866853, "loss": 0.314, "step": 77050 }, { "epoch": 205.49333333333334, "grad_norm": 0.220703125, "learning_rate": 0.00048723770298018455, "loss": 0.3042, "step": 77060 }, { "epoch": 205.52, "grad_norm": 0.2265625, "learning_rate": 0.0004872343974548885, "loss": 0.3075, "step": 77070 }, { "epoch": 205.54666666666665, "grad_norm": 0.296875, "learning_rate": 0.0004872310915127863, "loss": 0.2981, "step": 77080 }, { "epoch": 205.57333333333332, "grad_norm": 0.177734375, "learning_rate": 0.00048722778515388377, "loss": 0.3016, "step": 77090 }, { "epoch": 205.6, "grad_norm": 0.2080078125, "learning_rate": 0.00048722447837818675, "loss": 0.2989, "step": 77100 }, { "epoch": 205.62666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004872211711857009, "loss": 0.2932, "step": 77110 }, { "epoch": 205.65333333333334, "grad_norm": 0.2734375, "learning_rate": 0.0004872178635764322, "loss": 0.3058, "step": 77120 }, { "epoch": 205.68, "grad_norm": 0.2373046875, "learning_rate": 0.0004872145555503864, "loss": 0.2947, "step": 77130 }, { "epoch": 205.70666666666668, "grad_norm": 0.2265625, "learning_rate": 0.0004872112471075692, "loss": 0.2958, "step": 77140 }, { "epoch": 205.73333333333332, "grad_norm": 0.2138671875, "learning_rate": 0.0004872079382479866, "loss": 0.3102, "step": 77150 }, { "epoch": 205.76, "grad_norm": 0.19140625, "learning_rate": 0.0004872046289716442, "loss": 0.3119, "step": 77160 }, { "epoch": 205.78666666666666, "grad_norm": 0.1953125, "learning_rate": 0.00048720131927854803, "loss": 0.3134, "step": 77170 }, { "epoch": 205.81333333333333, "grad_norm": 0.21484375, "learning_rate": 0.0004871980091687039, "loss": 0.2962, "step": 77180 }, { "epoch": 205.84, "grad_norm": 0.1748046875, "learning_rate": 0.0004871946986421174, "loss": 0.2957, "step": 77190 }, { "epoch": 205.86666666666667, "grad_norm": 0.177734375, "learning_rate": 0.00048719138769879455, "loss": 0.2974, "step": 77200 }, { "epoch": 205.89333333333335, "grad_norm": 0.22265625, "learning_rate": 0.0004871880763387411, "loss": 0.298, "step": 77210 }, { "epoch": 205.92, "grad_norm": 0.259765625, "learning_rate": 0.00048718476456196294, "loss": 0.2989, "step": 77220 }, { "epoch": 205.94666666666666, "grad_norm": 0.25, "learning_rate": 0.00048718145236846565, "loss": 0.3001, "step": 77230 }, { "epoch": 205.97333333333333, "grad_norm": 0.201171875, "learning_rate": 0.00048717813975825543, "loss": 0.3074, "step": 77240 }, { "epoch": 206.0, "grad_norm": 0.18359375, "learning_rate": 0.00048717482673133773, "loss": 0.2963, "step": 77250 }, { "epoch": 206.0, "eval_loss": 0.3985230326652527, "eval_model_preparation_time": 0.0029, "eval_runtime": 12.113, "eval_samples_per_second": 1.321, "eval_steps_per_second": 0.083, "step": 77250 }, { "epoch": 206.02666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004871715132877186, "loss": 0.3186, "step": 77260 }, { "epoch": 206.05333333333334, "grad_norm": 0.1884765625, "learning_rate": 0.00048716819942740374, "loss": 0.325, "step": 77270 }, { "epoch": 206.08, "grad_norm": 0.2353515625, "learning_rate": 0.0004871648851503991, "loss": 0.309, "step": 77280 }, { "epoch": 206.10666666666665, "grad_norm": 0.19140625, "learning_rate": 0.0004871615704567104, "loss": 0.3109, "step": 77290 }, { "epoch": 206.13333333333333, "grad_norm": 0.1953125, "learning_rate": 0.0004871582553463434, "loss": 0.3019, "step": 77300 }, { "epoch": 206.16, "grad_norm": 0.2255859375, "learning_rate": 0.00048715493981930414, "loss": 0.3094, "step": 77310 }, { "epoch": 206.18666666666667, "grad_norm": 0.1845703125, "learning_rate": 0.00048715162387559833, "loss": 0.3047, "step": 77320 }, { "epoch": 206.21333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.00048714830751523167, "loss": 0.2932, "step": 77330 }, { "epoch": 206.24, "grad_norm": 0.1845703125, "learning_rate": 0.0004871449907382102, "loss": 0.2969, "step": 77340 }, { "epoch": 206.26666666666668, "grad_norm": 0.19140625, "learning_rate": 0.0004871416735445396, "loss": 0.3024, "step": 77350 }, { "epoch": 206.29333333333332, "grad_norm": 0.23828125, "learning_rate": 0.00048713835593422575, "loss": 0.2988, "step": 77360 }, { "epoch": 206.32, "grad_norm": 0.1826171875, "learning_rate": 0.00048713503790727446, "loss": 0.3062, "step": 77370 }, { "epoch": 206.34666666666666, "grad_norm": 0.205078125, "learning_rate": 0.0004871317194636916, "loss": 0.3044, "step": 77380 }, { "epoch": 206.37333333333333, "grad_norm": 0.2236328125, "learning_rate": 0.0004871284006034831, "loss": 0.2975, "step": 77390 }, { "epoch": 206.4, "grad_norm": 0.197265625, "learning_rate": 0.00048712508132665443, "loss": 0.2987, "step": 77400 }, { "epoch": 206.42666666666668, "grad_norm": 0.1591796875, "learning_rate": 0.0004871217616332119, "loss": 0.3062, "step": 77410 }, { "epoch": 206.45333333333335, "grad_norm": 0.2119140625, "learning_rate": 0.00048711844152316095, "loss": 0.314, "step": 77420 }, { "epoch": 206.48, "grad_norm": 0.2431640625, "learning_rate": 0.00048711512099650756, "loss": 0.3099, "step": 77430 }, { "epoch": 206.50666666666666, "grad_norm": 0.2236328125, "learning_rate": 0.0004871118000532576, "loss": 0.3068, "step": 77440 }, { "epoch": 206.53333333333333, "grad_norm": 0.19921875, "learning_rate": 0.0004871084786934169, "loss": 0.3012, "step": 77450 }, { "epoch": 206.56, "grad_norm": 0.197265625, "learning_rate": 0.00048710515691699133, "loss": 0.2981, "step": 77460 }, { "epoch": 206.58666666666667, "grad_norm": 0.251953125, "learning_rate": 0.0004871018347239866, "loss": 0.3021, "step": 77470 }, { "epoch": 206.61333333333334, "grad_norm": 0.1728515625, "learning_rate": 0.0004870985121144086, "loss": 0.2945, "step": 77480 }, { "epoch": 206.64, "grad_norm": 0.171875, "learning_rate": 0.00048709518908826317, "loss": 0.2943, "step": 77490 }, { "epoch": 206.66666666666666, "grad_norm": 0.181640625, "learning_rate": 0.0004870918656455562, "loss": 0.3112, "step": 77500 }, { "epoch": 206.69333333333333, "grad_norm": 0.177734375, "learning_rate": 0.00048708854178629345, "loss": 0.2897, "step": 77510 }, { "epoch": 206.72, "grad_norm": 0.1962890625, "learning_rate": 0.0004870852175104809, "loss": 0.3056, "step": 77520 }, { "epoch": 206.74666666666667, "grad_norm": 0.1787109375, "learning_rate": 0.0004870818928181241, "loss": 0.3069, "step": 77530 }, { "epoch": 206.77333333333334, "grad_norm": 0.208984375, "learning_rate": 0.0004870785677092292, "loss": 0.3183, "step": 77540 }, { "epoch": 206.8, "grad_norm": 0.189453125, "learning_rate": 0.00048707524218380194, "loss": 0.3047, "step": 77550 }, { "epoch": 206.82666666666665, "grad_norm": 0.412109375, "learning_rate": 0.0004870719162418481, "loss": 0.2941, "step": 77560 }, { "epoch": 206.85333333333332, "grad_norm": 0.3046875, "learning_rate": 0.00048706858988337354, "loss": 0.2977, "step": 77570 }, { "epoch": 206.88, "grad_norm": 0.1904296875, "learning_rate": 0.00048706526310838416, "loss": 0.2969, "step": 77580 }, { "epoch": 206.90666666666667, "grad_norm": 0.208984375, "learning_rate": 0.0004870619359168859, "loss": 0.2988, "step": 77590 }, { "epoch": 206.93333333333334, "grad_norm": 0.2041015625, "learning_rate": 0.0004870586083088843, "loss": 0.2995, "step": 77600 }, { "epoch": 206.96, "grad_norm": 0.2158203125, "learning_rate": 0.0004870552802843855, "loss": 0.2993, "step": 77610 }, { "epoch": 206.98666666666668, "grad_norm": 0.1982421875, "learning_rate": 0.00048705195184339513, "loss": 0.3104, "step": 77620 }, { "epoch": 207.0, "eval_loss": 0.3973553776741028, "eval_model_preparation_time": 0.0029, "eval_runtime": 172.8842, "eval_samples_per_second": 0.093, "eval_steps_per_second": 0.006, "step": 77625 }, { "epoch": 207.01333333333332, "grad_norm": 0.1962890625, "learning_rate": 0.0004870486229859192, "loss": 0.3015, "step": 77630 }, { "epoch": 207.04, "grad_norm": 0.1865234375, "learning_rate": 0.0004870452937119636, "loss": 0.3284, "step": 77640 }, { "epoch": 207.06666666666666, "grad_norm": 0.22265625, "learning_rate": 0.000487041964021534, "loss": 0.3131, "step": 77650 }, { "epoch": 207.09333333333333, "grad_norm": 0.1962890625, "learning_rate": 0.0004870386339146363, "loss": 0.3088, "step": 77660 }, { "epoch": 207.12, "grad_norm": 0.1962890625, "learning_rate": 0.00048703530339127643, "loss": 0.306, "step": 77670 }, { "epoch": 207.14666666666668, "grad_norm": 0.2392578125, "learning_rate": 0.00048703197245146014, "loss": 0.3061, "step": 77680 }, { "epoch": 207.17333333333335, "grad_norm": 0.1962890625, "learning_rate": 0.0004870286410951934, "loss": 0.3068, "step": 77690 }, { "epoch": 207.2, "grad_norm": 0.1953125, "learning_rate": 0.00048702530932248194, "loss": 0.2998, "step": 77700 }, { "epoch": 207.22666666666666, "grad_norm": 0.220703125, "learning_rate": 0.00048702197713333174, "loss": 0.2946, "step": 77710 }, { "epoch": 207.25333333333333, "grad_norm": 0.19140625, "learning_rate": 0.0004870186445277486, "loss": 0.2946, "step": 77720 }, { "epoch": 207.28, "grad_norm": 0.2001953125, "learning_rate": 0.0004870153115057383, "loss": 0.3115, "step": 77730 }, { "epoch": 207.30666666666667, "grad_norm": 0.1708984375, "learning_rate": 0.0004870119780673068, "loss": 0.2942, "step": 77740 }, { "epoch": 207.33333333333334, "grad_norm": 0.1787109375, "learning_rate": 0.00048700864421245984, "loss": 0.3086, "step": 77750 }, { "epoch": 207.36, "grad_norm": 0.1962890625, "learning_rate": 0.0004870053099412034, "loss": 0.2993, "step": 77760 }, { "epoch": 207.38666666666666, "grad_norm": 0.2294921875, "learning_rate": 0.0004870019752535433, "loss": 0.2971, "step": 77770 }, { "epoch": 207.41333333333333, "grad_norm": 0.25, "learning_rate": 0.00048699864014948544, "loss": 0.3024, "step": 77780 }, { "epoch": 207.44, "grad_norm": 0.2265625, "learning_rate": 0.00048699530462903553, "loss": 0.3102, "step": 77790 }, { "epoch": 207.46666666666667, "grad_norm": 0.1865234375, "learning_rate": 0.00048699196869219963, "loss": 0.3148, "step": 77800 }, { "epoch": 207.49333333333334, "grad_norm": 0.2021484375, "learning_rate": 0.0004869886323389834, "loss": 0.3039, "step": 77810 }, { "epoch": 207.52, "grad_norm": 0.181640625, "learning_rate": 0.00048698529556939285, "loss": 0.308, "step": 77820 }, { "epoch": 207.54666666666665, "grad_norm": 0.224609375, "learning_rate": 0.00048698195838343386, "loss": 0.2979, "step": 77830 }, { "epoch": 207.57333333333332, "grad_norm": 0.1982421875, "learning_rate": 0.0004869786207811121, "loss": 0.3013, "step": 77840 }, { "epoch": 207.6, "grad_norm": 0.2080078125, "learning_rate": 0.00048697528276243364, "loss": 0.2977, "step": 77850 }, { "epoch": 207.62666666666667, "grad_norm": 0.177734375, "learning_rate": 0.0004869719443274043, "loss": 0.2937, "step": 77860 }, { "epoch": 207.65333333333334, "grad_norm": 0.1865234375, "learning_rate": 0.00048696860547602983, "loss": 0.3061, "step": 77870 }, { "epoch": 207.68, "grad_norm": 0.1748046875, "learning_rate": 0.00048696526620831625, "loss": 0.2947, "step": 77880 }, { "epoch": 207.70666666666668, "grad_norm": 0.220703125, "learning_rate": 0.0004869619265242693, "loss": 0.2951, "step": 77890 }, { "epoch": 207.73333333333332, "grad_norm": 0.203125, "learning_rate": 0.00048695858642389497, "loss": 0.3106, "step": 77900 }, { "epoch": 207.76, "grad_norm": 0.2099609375, "learning_rate": 0.00048695524590719897, "loss": 0.3115, "step": 77910 }, { "epoch": 207.78666666666666, "grad_norm": 0.1865234375, "learning_rate": 0.00048695190497418734, "loss": 0.3126, "step": 77920 }, { "epoch": 207.81333333333333, "grad_norm": 0.21875, "learning_rate": 0.0004869485636248658, "loss": 0.2958, "step": 77930 }, { "epoch": 207.84, "grad_norm": 0.224609375, "learning_rate": 0.0004869452218592404, "loss": 0.2957, "step": 77940 }, { "epoch": 207.86666666666667, "grad_norm": 0.2109375, "learning_rate": 0.00048694187967731684, "loss": 0.2979, "step": 77950 }, { "epoch": 207.89333333333335, "grad_norm": 0.1796875, "learning_rate": 0.000486938537079101, "loss": 0.2969, "step": 77960 }, { "epoch": 207.92, "grad_norm": 0.2265625, "learning_rate": 0.00048693519406459884, "loss": 0.2981, "step": 77970 }, { "epoch": 207.94666666666666, "grad_norm": 0.19921875, "learning_rate": 0.0004869318506338163, "loss": 0.3009, "step": 77980 }, { "epoch": 207.97333333333333, "grad_norm": 0.263671875, "learning_rate": 0.00048692850678675907, "loss": 0.3078, "step": 77990 }, { "epoch": 208.0, "grad_norm": 0.2158203125, "learning_rate": 0.0004869251625234331, "loss": 0.2967, "step": 78000 }, { "epoch": 208.0, "eval_loss": 0.39741426706314087, "eval_model_preparation_time": 0.0029, "eval_runtime": 11.0394, "eval_samples_per_second": 1.449, "eval_steps_per_second": 0.091, "step": 78000 }, { "epoch": 208.02666666666667, "grad_norm": 0.18359375, "learning_rate": 0.00048692181784384427, "loss": 0.3184, "step": 78010 }, { "epoch": 208.05333333333334, "grad_norm": 0.1806640625, "learning_rate": 0.0004869184727479985, "loss": 0.3251, "step": 78020 }, { "epoch": 208.08, "grad_norm": 0.212890625, "learning_rate": 0.0004869151272359016, "loss": 0.3085, "step": 78030 }, { "epoch": 208.10666666666665, "grad_norm": 0.1796875, "learning_rate": 0.0004869117813075595, "loss": 0.3109, "step": 78040 }, { "epoch": 208.13333333333333, "grad_norm": 0.19140625, "learning_rate": 0.000486908434962978, "loss": 0.3019, "step": 78050 }, { "epoch": 208.16, "grad_norm": 0.197265625, "learning_rate": 0.00048690508820216306, "loss": 0.3092, "step": 78060 }, { "epoch": 208.18666666666667, "grad_norm": 0.16796875, "learning_rate": 0.0004869017410251206, "loss": 0.3047, "step": 78070 }, { "epoch": 208.21333333333334, "grad_norm": 0.1845703125, "learning_rate": 0.00048689839343185636, "loss": 0.2932, "step": 78080 }, { "epoch": 208.24, "grad_norm": 0.2001953125, "learning_rate": 0.0004868950454223763, "loss": 0.2973, "step": 78090 }, { "epoch": 208.26666666666668, "grad_norm": 0.2099609375, "learning_rate": 0.0004868916969966863, "loss": 0.3029, "step": 78100 }, { "epoch": 208.29333333333332, "grad_norm": 0.169921875, "learning_rate": 0.0004868883481547923, "loss": 0.2992, "step": 78110 }, { "epoch": 208.32, "grad_norm": 0.177734375, "learning_rate": 0.00048688499889670015, "loss": 0.3057, "step": 78120 }, { "epoch": 208.34666666666666, "grad_norm": 0.216796875, "learning_rate": 0.0004868816492224156, "loss": 0.3047, "step": 78130 }, { "epoch": 208.37333333333333, "grad_norm": 0.1748046875, "learning_rate": 0.0004868782991319447, "loss": 0.2969, "step": 78140 }, { "epoch": 208.4, "grad_norm": 0.1962890625, "learning_rate": 0.00048687494862529327, "loss": 0.2981, "step": 78150 }, { "epoch": 208.42666666666668, "grad_norm": 0.1923828125, "learning_rate": 0.00048687159770246727, "loss": 0.3055, "step": 78160 }, { "epoch": 208.45333333333335, "grad_norm": 0.271484375, "learning_rate": 0.0004868682463634724, "loss": 0.3147, "step": 78170 }, { "epoch": 208.48, "grad_norm": 0.2216796875, "learning_rate": 0.0004868648946083147, "loss": 0.3098, "step": 78180 }, { "epoch": 208.50666666666666, "grad_norm": 0.2158203125, "learning_rate": 0.0004868615424370001, "loss": 0.3062, "step": 78190 }, { "epoch": 208.53333333333333, "grad_norm": 0.1923828125, "learning_rate": 0.00048685818984953443, "loss": 0.3013, "step": 78200 }, { "epoch": 208.56, "grad_norm": 0.2265625, "learning_rate": 0.00048685483684592356, "loss": 0.2982, "step": 78210 }, { "epoch": 208.58666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.00048685148342617334, "loss": 0.3023, "step": 78220 }, { "epoch": 208.61333333333334, "grad_norm": 0.1875, "learning_rate": 0.0004868481295902898, "loss": 0.2941, "step": 78230 }, { "epoch": 208.64, "grad_norm": 0.2060546875, "learning_rate": 0.00048684477533827866, "loss": 0.2952, "step": 78240 }, { "epoch": 208.66666666666666, "grad_norm": 0.193359375, "learning_rate": 0.0004868414206701459, "loss": 0.3104, "step": 78250 }, { "epoch": 208.69333333333333, "grad_norm": 0.2265625, "learning_rate": 0.0004868380655858975, "loss": 0.2902, "step": 78260 }, { "epoch": 208.72, "grad_norm": 0.19921875, "learning_rate": 0.0004868347100855392, "loss": 0.305, "step": 78270 }, { "epoch": 208.74666666666667, "grad_norm": 0.2060546875, "learning_rate": 0.000486831354169077, "loss": 0.3066, "step": 78280 }, { "epoch": 208.77333333333334, "grad_norm": 0.1962890625, "learning_rate": 0.00048682799783651676, "loss": 0.3174, "step": 78290 }, { "epoch": 208.8, "grad_norm": 0.2353515625, "learning_rate": 0.00048682464108786434, "loss": 0.3049, "step": 78300 }, { "epoch": 208.82666666666665, "grad_norm": 0.201171875, "learning_rate": 0.00048682128392312575, "loss": 0.294, "step": 78310 }, { "epoch": 208.85333333333332, "grad_norm": 0.1669921875, "learning_rate": 0.0004868179263423067, "loss": 0.2972, "step": 78320 }, { "epoch": 208.88, "grad_norm": 0.18359375, "learning_rate": 0.0004868145683454133, "loss": 0.2972, "step": 78330 }, { "epoch": 208.90666666666667, "grad_norm": 0.224609375, "learning_rate": 0.00048681120993245133, "loss": 0.2989, "step": 78340 }, { "epoch": 208.93333333333334, "grad_norm": 0.1904296875, "learning_rate": 0.0004868078511034267, "loss": 0.2993, "step": 78350 }, { "epoch": 208.96, "grad_norm": 0.19140625, "learning_rate": 0.0004868044918583453, "loss": 0.2984, "step": 78360 }, { "epoch": 208.98666666666668, "grad_norm": 0.197265625, "learning_rate": 0.0004868011321972131, "loss": 0.3106, "step": 78370 }, { "epoch": 209.0, "eval_loss": 0.39941051602363586, "eval_model_preparation_time": 0.0029, "eval_runtime": 10.578, "eval_samples_per_second": 1.513, "eval_steps_per_second": 0.095, "step": 78375 } ], "logging_steps": 10, "max_steps": 750000, "num_input_tokens_seen": 0, "num_train_epochs": 2000, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 64, "trial_name": null, "trial_params": null }