diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,56774 @@ +{ + "best_global_step": null, + "best_metric": null, + "best_model_checkpoint": null, + "epoch": 209.0, + "eval_steps": 500, + "global_step": 78375, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.02666666666666667, + "grad_norm": 5.3125, + "learning_rate": 9e-06, + "loss": 1.3367, + "step": 10 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 3.703125, + "learning_rate": 1.9e-05, + "loss": 1.1824, + "step": 20 + }, + { + "epoch": 0.08, + "grad_norm": 36.5, + "learning_rate": 2.9000000000000004e-05, + "loss": 1.099, + "step": 30 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 27.625, + "learning_rate": 3.9e-05, + "loss": 1.0526, + "step": 40 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 24.25, + "learning_rate": 4.9000000000000005e-05, + "loss": 0.9671, + "step": 50 + }, + { + "epoch": 0.16, + "grad_norm": 6.15625, + "learning_rate": 5.9e-05, + "loss": 0.8796, + "step": 60 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 51.25, + "learning_rate": 6.900000000000001e-05, + "loss": 0.8943, + "step": 70 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 17.125, + "learning_rate": 7.9e-05, + "loss": 1.0641, + "step": 80 + }, + { + "epoch": 0.24, + "grad_norm": 5.4375, + "learning_rate": 8.9e-05, + "loss": 0.7461, + "step": 90 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 32.25, + "learning_rate": 9.900000000000001e-05, + "loss": 0.794, + "step": 100 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 9.5625, + "learning_rate": 0.000109, + "loss": 0.7961, + "step": 110 + }, + { + "epoch": 0.32, + "grad_norm": 2.3125, + "learning_rate": 0.00011899999999999999, + "loss": 0.7733, + "step": 120 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 1.1640625, + "learning_rate": 0.00012900000000000002, + "loss": 0.7313, + "step": 130 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 27.75, + "learning_rate": 0.00013900000000000002, + "loss": 0.7616, + "step": 140 + }, + { + "epoch": 0.4, + "grad_norm": 6.5, + "learning_rate": 0.000149, + "loss": 0.8072, + "step": 150 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 13.8125, + "learning_rate": 0.00015900000000000002, + "loss": 0.7331, + "step": 160 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 11.625, + "learning_rate": 0.00016900000000000002, + "loss": 0.743, + "step": 170 + }, + { + "epoch": 0.48, + "grad_norm": 24.75, + "learning_rate": 0.000179, + "loss": 0.7827, + "step": 180 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 37.5, + "learning_rate": 0.000189, + "loss": 0.9353, + "step": 190 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 3.28125, + "learning_rate": 0.000199, + "loss": 0.7651, + "step": 200 + }, + { + "epoch": 0.56, + "grad_norm": 8.5625, + "learning_rate": 0.00020899999999999998, + "loss": 0.7216, + "step": 210 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 3.640625, + "learning_rate": 0.000219, + "loss": 0.6977, + "step": 220 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 7.5, + "learning_rate": 0.000229, + "loss": 0.6921, + "step": 230 + }, + { + "epoch": 0.64, + "grad_norm": 1.4296875, + "learning_rate": 0.00023899999999999998, + "loss": 0.6739, + "step": 240 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 9.5, + "learning_rate": 0.000249, + "loss": 0.7126, + "step": 250 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 17.75, + "learning_rate": 0.000259, + "loss": 0.7635, + "step": 260 + }, + { + "epoch": 0.72, + "grad_norm": 1.9765625, + "learning_rate": 0.00026900000000000003, + "loss": 0.6687, + "step": 270 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 1.078125, + "learning_rate": 0.000279, + "loss": 0.6598, + "step": 280 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 5.625, + "learning_rate": 0.000289, + "loss": 0.6839, + "step": 290 + }, + { + "epoch": 0.8, + "grad_norm": 3.171875, + "learning_rate": 0.000299, + "loss": 0.6751, + "step": 300 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 3.71875, + "learning_rate": 0.00030900000000000003, + "loss": 0.6606, + "step": 310 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 0.69921875, + "learning_rate": 0.000319, + "loss": 0.6375, + "step": 320 + }, + { + "epoch": 0.88, + "grad_norm": 1.8359375, + "learning_rate": 0.00032900000000000003, + "loss": 0.6087, + "step": 330 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 3.546875, + "learning_rate": 0.00033900000000000005, + "loss": 0.6182, + "step": 340 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 3.921875, + "learning_rate": 0.00034899999999999997, + "loss": 0.6035, + "step": 350 + }, + { + "epoch": 0.96, + "grad_norm": 12.5625, + "learning_rate": 0.000359, + "loss": 0.625, + "step": 360 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 6.59375, + "learning_rate": 0.000369, + "loss": 0.6316, + "step": 370 + }, + { + "epoch": 1.0, + "eval_loss": 0.6012489199638367, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.2753, + "eval_samples_per_second": 1.557, + "eval_steps_per_second": 0.097, + "step": 375 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 1.3359375, + "learning_rate": 0.000379, + "loss": 0.6093, + "step": 380 + }, + { + "epoch": 1.04, + "grad_norm": 6.25, + "learning_rate": 0.000389, + "loss": 0.6407, + "step": 390 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 4.875, + "learning_rate": 0.00039900000000000005, + "loss": 0.6221, + "step": 400 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 2.703125, + "learning_rate": 0.00040899999999999997, + "loss": 0.5996, + "step": 410 + }, + { + "epoch": 1.12, + "grad_norm": 2.359375, + "learning_rate": 0.000419, + "loss": 0.5921, + "step": 420 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 3.765625, + "learning_rate": 0.000429, + "loss": 0.6062, + "step": 430 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 3.390625, + "learning_rate": 0.000439, + "loss": 0.5903, + "step": 440 + }, + { + "epoch": 1.2, + "grad_norm": 1.6640625, + "learning_rate": 0.000449, + "loss": 0.5929, + "step": 450 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 2.640625, + "learning_rate": 0.00045900000000000004, + "loss": 0.5979, + "step": 460 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 1.5859375, + "learning_rate": 0.00046899999999999996, + "loss": 0.5772, + "step": 470 + }, + { + "epoch": 1.28, + "grad_norm": 0.6484375, + "learning_rate": 0.000479, + "loss": 0.6067, + "step": 480 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 8.9375, + "learning_rate": 0.000489, + "loss": 0.5896, + "step": 490 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 4.0625, + "learning_rate": 0.000499, + "loss": 0.6056, + "step": 500 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 1.8984375, + "learning_rate": 0.0004999999998221101, + "loss": 0.5801, + "step": 510 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 1.7734375, + "learning_rate": 0.0004999999992071816, + "loss": 0.5629, + "step": 520 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 1.9765625, + "learning_rate": 0.0004999999981530188, + "loss": 0.5518, + "step": 530 + }, + { + "epoch": 1.44, + "grad_norm": 2.671875, + "learning_rate": 0.0004999999966596214, + "loss": 0.5552, + "step": 540 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 1.2890625, + "learning_rate": 0.0004999999947269895, + "loss": 0.5581, + "step": 550 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 2.3125, + "learning_rate": 0.000499999992355123, + "loss": 0.5481, + "step": 560 + }, + { + "epoch": 1.52, + "grad_norm": 2.359375, + "learning_rate": 0.000499999989544022, + "loss": 0.5408, + "step": 570 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 1.4296875, + "learning_rate": 0.0004999999862936865, + "loss": 0.5321, + "step": 580 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 2.0, + "learning_rate": 0.0004999999826041164, + "loss": 0.5273, + "step": 590 + }, + { + "epoch": 1.6, + "grad_norm": 2.015625, + "learning_rate": 0.0004999999784753119, + "loss": 0.5224, + "step": 600 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 1.71875, + "learning_rate": 0.000499999973907273, + "loss": 0.5028, + "step": 610 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 1.7421875, + "learning_rate": 0.0004999999688999994, + "loss": 0.5226, + "step": 620 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 2.25, + "learning_rate": 0.0004999999634534915, + "loss": 0.5117, + "step": 630 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 1.6328125, + "learning_rate": 0.0004999999575677489, + "loss": 0.5115, + "step": 640 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 2.125, + "learning_rate": 0.0004999999512427719, + "loss": 0.531, + "step": 650 + }, + { + "epoch": 1.76, + "grad_norm": 1.9375, + "learning_rate": 0.0004999999444785606, + "loss": 0.5313, + "step": 660 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 1.796875, + "learning_rate": 0.0004999999372751148, + "loss": 0.5266, + "step": 670 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 1.5625, + "learning_rate": 0.0004999999296324346, + "loss": 0.5099, + "step": 680 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 2.390625, + "learning_rate": 0.0004999999215505199, + "loss": 0.5172, + "step": 690 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 1.7265625, + "learning_rate": 0.0004999999130293709, + "loss": 0.5121, + "step": 700 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 1.234375, + "learning_rate": 0.0004999999040689874, + "loss": 0.5034, + "step": 710 + }, + { + "epoch": 1.92, + "grad_norm": 1.6796875, + "learning_rate": 0.0004999998946693697, + "loss": 0.5201, + "step": 720 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 1.65625, + "learning_rate": 0.0004999998848305176, + "loss": 0.507, + "step": 730 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 1.171875, + "learning_rate": 0.000499999874552431, + "loss": 0.5157, + "step": 740 + }, + { + "epoch": 2.0, + "grad_norm": 1.765625, + "learning_rate": 0.0004999998638351102, + "loss": 0.5026, + "step": 750 + }, + { + "epoch": 2.0, + "eval_loss": 0.518104076385498, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.1096, + "eval_samples_per_second": 1.583, + "eval_steps_per_second": 0.099, + "step": 750 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 1.6796875, + "learning_rate": 0.0004999998526785551, + "loss": 0.5192, + "step": 760 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 1.6953125, + "learning_rate": 0.0004999998410827658, + "loss": 0.5238, + "step": 770 + }, + { + "epoch": 2.08, + "grad_norm": 1.8671875, + "learning_rate": 0.0004999998290477421, + "loss": 0.5122, + "step": 780 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 1.921875, + "learning_rate": 0.0004999998165734843, + "loss": 0.5049, + "step": 790 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 1.2421875, + "learning_rate": 0.0004999998036599923, + "loss": 0.5085, + "step": 800 + }, + { + "epoch": 2.16, + "grad_norm": 1.0546875, + "learning_rate": 0.000499999790307266, + "loss": 0.5109, + "step": 810 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 1.34375, + "learning_rate": 0.0004999997765153056, + "loss": 0.5024, + "step": 820 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 1.203125, + "learning_rate": 0.0004999997622841109, + "loss": 0.4982, + "step": 830 + }, + { + "epoch": 2.24, + "grad_norm": 1.1640625, + "learning_rate": 0.0004999997476136823, + "loss": 0.4989, + "step": 840 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 1.3125, + "learning_rate": 0.0004999997325040196, + "loss": 0.5008, + "step": 850 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 1.3515625, + "learning_rate": 0.0004999997169551227, + "loss": 0.4922, + "step": 860 + }, + { + "epoch": 2.32, + "grad_norm": 1.9296875, + "learning_rate": 0.0004999997009669918, + "loss": 0.4957, + "step": 870 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 1.5703125, + "learning_rate": 0.0004999996845396269, + "loss": 0.5048, + "step": 880 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 1.59375, + "learning_rate": 0.0004999996676730281, + "loss": 0.4992, + "step": 890 + }, + { + "epoch": 2.4, + "grad_norm": 1.2421875, + "learning_rate": 0.0004999996503671952, + "loss": 0.4932, + "step": 900 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 1.5703125, + "learning_rate": 0.0004999996326221284, + "loss": 0.4977, + "step": 910 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 2.140625, + "learning_rate": 0.0004999996144378279, + "loss": 0.5019, + "step": 920 + }, + { + "epoch": 2.48, + "grad_norm": 2.3125, + "learning_rate": 0.0004999995958142933, + "loss": 0.508, + "step": 930 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 1.3515625, + "learning_rate": 0.000499999576751525, + "loss": 0.4981, + "step": 940 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.000499999557249523, + "loss": 0.4856, + "step": 950 + }, + { + "epoch": 2.56, + "grad_norm": 0.1982421875, + "learning_rate": 0.000499999537308287, + "loss": 0.4876, + "step": 960 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 0.375, + "learning_rate": 0.0004999995169278174, + "loss": 0.4812, + "step": 970 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 0.140625, + "learning_rate": 0.0004999994961081142, + "loss": 0.4651, + "step": 980 + }, + { + "epoch": 2.64, + "grad_norm": 0.251953125, + "learning_rate": 0.0004999994748491773, + "loss": 0.4687, + "step": 990 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 0.169921875, + "learning_rate": 0.0004999994531510067, + "loss": 0.4854, + "step": 1000 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 0.400390625, + "learning_rate": 0.0004999994310136025, + "loss": 0.4672, + "step": 1010 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 0.80078125, + "learning_rate": 0.0004999994084369649, + "loss": 0.4839, + "step": 1020 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.0004999993854210938, + "loss": 0.4919, + "step": 1030 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0004999993619659892, + "loss": 0.4968, + "step": 1040 + }, + { + "epoch": 2.8, + "grad_norm": 0.1572265625, + "learning_rate": 0.0004999993380716512, + "loss": 0.4806, + "step": 1050 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 0.1279296875, + "learning_rate": 0.0004999993137380798, + "loss": 0.4736, + "step": 1060 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 0.2890625, + "learning_rate": 0.0004999992889652751, + "loss": 0.4831, + "step": 1070 + }, + { + "epoch": 2.88, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004999992637532371, + "loss": 0.4691, + "step": 1080 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 0.337890625, + "learning_rate": 0.0004999992381019659, + "loss": 0.4713, + "step": 1090 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 0.498046875, + "learning_rate": 0.0004999992120114614, + "loss": 0.4727, + "step": 1100 + }, + { + "epoch": 2.96, + "grad_norm": 0.326171875, + "learning_rate": 0.0004999991854817238, + "loss": 0.4699, + "step": 1110 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999991585127532, + "loss": 0.4851, + "step": 1120 + }, + { + "epoch": 3.0, + "eval_loss": 0.4860386550426483, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.2604, + "eval_samples_per_second": 1.559, + "eval_steps_per_second": 0.097, + "step": 1125 + }, + { + "epoch": 3.013333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004999991311045494, + "loss": 0.4724, + "step": 1130 + }, + { + "epoch": 3.04, + "grad_norm": 0.421875, + "learning_rate": 0.0004999991032571126, + "loss": 0.496, + "step": 1140 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 0.640625, + "learning_rate": 0.0004999990749704429, + "loss": 0.4826, + "step": 1150 + }, + { + "epoch": 3.0933333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999990462445403, + "loss": 0.4802, + "step": 1160 + }, + { + "epoch": 3.12, + "grad_norm": 0.208984375, + "learning_rate": 0.0004999990170794047, + "loss": 0.4735, + "step": 1170 + }, + { + "epoch": 3.1466666666666665, + "grad_norm": 0.271484375, + "learning_rate": 0.0004999989874750365, + "loss": 0.4807, + "step": 1180 + }, + { + "epoch": 3.1733333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0004999989574314354, + "loss": 0.4713, + "step": 1190 + }, + { + "epoch": 3.2, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999989269486016, + "loss": 0.4694, + "step": 1200 + }, + { + "epoch": 3.2266666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999988960265353, + "loss": 0.4661, + "step": 1210 + }, + { + "epoch": 3.2533333333333334, + "grad_norm": 0.1513671875, + "learning_rate": 0.0004999988646652362, + "loss": 0.4645, + "step": 1220 + }, + { + "epoch": 3.2800000000000002, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999988328647047, + "loss": 0.4779, + "step": 1230 + }, + { + "epoch": 3.3066666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0004999988006249407, + "loss": 0.4581, + "step": 1240 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004999987679459442, + "loss": 0.4728, + "step": 1250 + }, + { + "epoch": 3.36, + "grad_norm": 0.208984375, + "learning_rate": 0.0004999987348277154, + "loss": 0.4756, + "step": 1260 + }, + { + "epoch": 3.3866666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0004999987012702543, + "loss": 0.4663, + "step": 1270 + }, + { + "epoch": 3.413333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0004999986672735608, + "loss": 0.4698, + "step": 1280 + }, + { + "epoch": 3.44, + "grad_norm": 0.28515625, + "learning_rate": 0.0004999986328376352, + "loss": 0.4722, + "step": 1290 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 0.349609375, + "learning_rate": 0.0004999985979624776, + "loss": 0.4819, + "step": 1300 + }, + { + "epoch": 3.493333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004999985626480877, + "loss": 0.4719, + "step": 1310 + }, + { + "epoch": 3.52, + "grad_norm": 0.1904296875, + "learning_rate": 0.000499998526894466, + "loss": 0.4663, + "step": 1320 + }, + { + "epoch": 3.546666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0004999984907016121, + "loss": 0.461, + "step": 1330 + }, + { + "epoch": 3.5733333333333333, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999984540695266, + "loss": 0.4602, + "step": 1340 + }, + { + "epoch": 3.6, + "grad_norm": 0.251953125, + "learning_rate": 0.0004999984169982092, + "loss": 0.4524, + "step": 1350 + }, + { + "epoch": 3.626666666666667, + "grad_norm": 0.65234375, + "learning_rate": 0.0004999983794876599, + "loss": 0.4403, + "step": 1360 + }, + { + "epoch": 3.6533333333333333, + "grad_norm": 2.21875, + "learning_rate": 0.000499998341537879, + "loss": 0.4621, + "step": 1370 + }, + { + "epoch": 3.68, + "grad_norm": 1.3125, + "learning_rate": 0.0004999983031488666, + "loss": 0.4539, + "step": 1380 + }, + { + "epoch": 3.7066666666666666, + "grad_norm": 2.140625, + "learning_rate": 0.0004999982643206224, + "loss": 0.4524, + "step": 1390 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 1.296875, + "learning_rate": 0.0004999982250531469, + "loss": 0.4715, + "step": 1400 + }, + { + "epoch": 3.76, + "grad_norm": 1.28125, + "learning_rate": 0.0004999981853464399, + "loss": 0.471, + "step": 1410 + }, + { + "epoch": 3.7866666666666666, + "grad_norm": 1.5078125, + "learning_rate": 0.0004999981452005016, + "loss": 0.4688, + "step": 1420 + }, + { + "epoch": 3.8133333333333335, + "grad_norm": 1.703125, + "learning_rate": 0.000499998104615332, + "loss": 0.4543, + "step": 1430 + }, + { + "epoch": 3.84, + "grad_norm": 1.5390625, + "learning_rate": 0.0004999980635909312, + "loss": 0.4591, + "step": 1440 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 1.5546875, + "learning_rate": 0.0004999980221272993, + "loss": 0.4572, + "step": 1450 + }, + { + "epoch": 3.8933333333333335, + "grad_norm": 1.75, + "learning_rate": 0.0004999979802244363, + "loss": 0.448, + "step": 1460 + }, + { + "epoch": 3.92, + "grad_norm": 1.640625, + "learning_rate": 0.0004999979378823423, + "loss": 0.4589, + "step": 1470 + }, + { + "epoch": 3.9466666666666668, + "grad_norm": 1.7421875, + "learning_rate": 0.0004999978951010174, + "loss": 0.4516, + "step": 1480 + }, + { + "epoch": 3.9733333333333336, + "grad_norm": 2.09375, + "learning_rate": 0.0004999978518804616, + "loss": 0.4633, + "step": 1490 + }, + { + "epoch": 4.0, + "grad_norm": 0.255859375, + "learning_rate": 0.0004999978082206752, + "loss": 0.4506, + "step": 1500 + }, + { + "epoch": 4.0, + "eval_loss": 0.46845948696136475, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.1765, + "eval_samples_per_second": 1.572, + "eval_steps_per_second": 0.098, + "step": 1500 + }, + { + "epoch": 4.026666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.000499997764121658, + "loss": 0.4713, + "step": 1510 + }, + { + "epoch": 4.053333333333334, + "grad_norm": 0.134765625, + "learning_rate": 0.0004999977195834102, + "loss": 0.476, + "step": 1520 + }, + { + "epoch": 4.08, + "grad_norm": 0.203125, + "learning_rate": 0.000499997674605932, + "loss": 0.4623, + "step": 1530 + }, + { + "epoch": 4.1066666666666665, + "grad_norm": 0.2890625, + "learning_rate": 0.0004999976291892231, + "loss": 0.4578, + "step": 1540 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004999975833332841, + "loss": 0.4594, + "step": 1550 + }, + { + "epoch": 4.16, + "grad_norm": 0.32421875, + "learning_rate": 0.0004999975370381146, + "loss": 0.4627, + "step": 1560 + }, + { + "epoch": 4.1866666666666665, + "grad_norm": 0.38671875, + "learning_rate": 0.000499997490303715, + "loss": 0.454, + "step": 1570 + }, + { + "epoch": 4.213333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004999974431300852, + "loss": 0.4484, + "step": 1580 + }, + { + "epoch": 4.24, + "grad_norm": 0.361328125, + "learning_rate": 0.0004999973955172255, + "loss": 0.4527, + "step": 1590 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 0.1494140625, + "learning_rate": 0.0004999973474651356, + "loss": 0.4569, + "step": 1600 + }, + { + "epoch": 4.293333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.000499997298973816, + "loss": 0.4504, + "step": 1610 + }, + { + "epoch": 4.32, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004999972500432665, + "loss": 0.453, + "step": 1620 + }, + { + "epoch": 4.346666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004999972006734874, + "loss": 0.4619, + "step": 1630 + }, + { + "epoch": 4.373333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0004999971508644788, + "loss": 0.4556, + "step": 1640 + }, + { + "epoch": 4.4, + "grad_norm": 0.138671875, + "learning_rate": 0.0004999971006162405, + "loss": 0.4528, + "step": 1650 + }, + { + "epoch": 4.426666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004999970499287727, + "loss": 0.4573, + "step": 1660 + }, + { + "epoch": 4.453333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004999969988020757, + "loss": 0.4628, + "step": 1670 + }, + { + "epoch": 4.48, + "grad_norm": 0.310546875, + "learning_rate": 0.0004999969472361494, + "loss": 0.4668, + "step": 1680 + }, + { + "epoch": 4.506666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004999968952309939, + "loss": 0.4554, + "step": 1690 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 0.150390625, + "learning_rate": 0.0004999968427866093, + "loss": 0.4482, + "step": 1700 + }, + { + "epoch": 4.5600000000000005, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004999967899029957, + "loss": 0.4488, + "step": 1710 + }, + { + "epoch": 4.586666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004999967365801533, + "loss": 0.4459, + "step": 1720 + }, + { + "epoch": 4.613333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.000499996682818082, + "loss": 0.4307, + "step": 1730 + }, + { + "epoch": 4.64, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999966286167821, + "loss": 0.4364, + "step": 1740 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 0.376953125, + "learning_rate": 0.0004999965739762534, + "loss": 0.4518, + "step": 1750 + }, + { + "epoch": 4.693333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999965188964964, + "loss": 0.4348, + "step": 1760 + }, + { + "epoch": 4.72, + "grad_norm": 0.25, + "learning_rate": 0.0004999964633775108, + "loss": 0.4517, + "step": 1770 + }, + { + "epoch": 4.746666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0004999964074192969, + "loss": 0.454, + "step": 1780 + }, + { + "epoch": 4.773333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.000499996351021855, + "loss": 0.4625, + "step": 1790 + }, + { + "epoch": 4.8, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004999962941851847, + "loss": 0.4496, + "step": 1800 + }, + { + "epoch": 4.826666666666666, + "grad_norm": 0.1455078125, + "learning_rate": 0.0004999962369092865, + "loss": 0.4427, + "step": 1810 + }, + { + "epoch": 4.8533333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.0004999961791941604, + "loss": 0.45, + "step": 1820 + }, + { + "epoch": 4.88, + "grad_norm": 0.271484375, + "learning_rate": 0.0004999961210398064, + "loss": 0.4395, + "step": 1830 + }, + { + "epoch": 4.906666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0004999960624462248, + "loss": 0.4425, + "step": 1840 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 0.314453125, + "learning_rate": 0.0004999960034134154, + "loss": 0.4431, + "step": 1850 + }, + { + "epoch": 4.96, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004999959439413786, + "loss": 0.4409, + "step": 1860 + }, + { + "epoch": 4.986666666666666, + "grad_norm": 0.37109375, + "learning_rate": 0.0004999958840301145, + "loss": 0.4585, + "step": 1870 + }, + { + "epoch": 5.0, + "eval_loss": 0.46095505356788635, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.1877, + "eval_samples_per_second": 1.571, + "eval_steps_per_second": 0.098, + "step": 1875 + }, + { + "epoch": 5.013333333333334, + "grad_norm": 0.3203125, + "learning_rate": 0.0004999958236796229, + "loss": 0.4451, + "step": 1880 + }, + { + "epoch": 5.04, + "grad_norm": 0.412109375, + "learning_rate": 0.0004999957628899042, + "loss": 0.4681, + "step": 1890 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004999957016609583, + "loss": 0.4541, + "step": 1900 + }, + { + "epoch": 5.093333333333334, + "grad_norm": 0.35546875, + "learning_rate": 0.0004999956399927855, + "loss": 0.4496, + "step": 1910 + }, + { + "epoch": 5.12, + "grad_norm": 0.18359375, + "learning_rate": 0.0004999955778853859, + "loss": 0.4455, + "step": 1920 + }, + { + "epoch": 5.1466666666666665, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004999955153387594, + "loss": 0.4515, + "step": 1930 + }, + { + "epoch": 5.173333333333334, + "grad_norm": 0.1640625, + "learning_rate": 0.0004999954523529064, + "loss": 0.4437, + "step": 1940 + }, + { + "epoch": 5.2, + "grad_norm": 0.21875, + "learning_rate": 0.0004999953889278267, + "loss": 0.4414, + "step": 1950 + }, + { + "epoch": 5.226666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004999953250635206, + "loss": 0.438, + "step": 1960 + }, + { + "epoch": 5.253333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004999952607599883, + "loss": 0.4386, + "step": 1970 + }, + { + "epoch": 5.28, + "grad_norm": 0.240234375, + "learning_rate": 0.0004999951960172296, + "loss": 0.4534, + "step": 1980 + }, + { + "epoch": 5.306666666666667, + "grad_norm": 0.1357421875, + "learning_rate": 0.0004999951308352449, + "loss": 0.4333, + "step": 1990 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 0.43359375, + "learning_rate": 0.0004999950652140343, + "loss": 0.4482, + "step": 2000 + }, + { + "epoch": 5.36, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999949991535978, + "loss": 0.4479, + "step": 2010 + }, + { + "epoch": 5.386666666666667, + "grad_norm": 0.6796875, + "learning_rate": 0.0004999949326539354, + "loss": 0.4409, + "step": 2020 + }, + { + "epoch": 5.413333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0004999948657150475, + "loss": 0.4463, + "step": 2030 + }, + { + "epoch": 5.44, + "grad_norm": 0.1376953125, + "learning_rate": 0.000499994798336934, + "loss": 0.4486, + "step": 2040 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999947305195953, + "loss": 0.4563, + "step": 2050 + }, + { + "epoch": 5.493333333333333, + "grad_norm": 0.421875, + "learning_rate": 0.0004999946622630311, + "loss": 0.4465, + "step": 2060 + }, + { + "epoch": 5.52, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004999945935672418, + "loss": 0.4424, + "step": 2070 + }, + { + "epoch": 5.546666666666667, + "grad_norm": 0.56640625, + "learning_rate": 0.0004999945244322276, + "loss": 0.4368, + "step": 2080 + }, + { + "epoch": 5.573333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004999944548579883, + "loss": 0.4377, + "step": 2090 + }, + { + "epoch": 5.6, + "grad_norm": 0.30859375, + "learning_rate": 0.0004999943848445243, + "loss": 0.4293, + "step": 2100 + }, + { + "epoch": 5.626666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0004999943143918357, + "loss": 0.4199, + "step": 2110 + }, + { + "epoch": 5.653333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004999942434999224, + "loss": 0.4383, + "step": 2120 + }, + { + "epoch": 5.68, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004999941721687848, + "loss": 0.4292, + "step": 2130 + }, + { + "epoch": 5.706666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.0004999941003984229, + "loss": 0.4291, + "step": 2140 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0004999940281888368, + "loss": 0.4488, + "step": 2150 + }, + { + "epoch": 5.76, + "grad_norm": 0.28515625, + "learning_rate": 0.0004999939555400266, + "loss": 0.4472, + "step": 2160 + }, + { + "epoch": 5.786666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004999938824519926, + "loss": 0.4481, + "step": 2170 + }, + { + "epoch": 5.8133333333333335, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004999938089247347, + "loss": 0.4325, + "step": 2180 + }, + { + "epoch": 5.84, + "grad_norm": 0.36328125, + "learning_rate": 0.0004999937349582531, + "loss": 0.4368, + "step": 2190 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999936605525481, + "loss": 0.4358, + "step": 2200 + }, + { + "epoch": 5.8933333333333335, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004999935857076197, + "loss": 0.4272, + "step": 2210 + }, + { + "epoch": 5.92, + "grad_norm": 0.353515625, + "learning_rate": 0.0004999935104234679, + "loss": 0.4382, + "step": 2220 + }, + { + "epoch": 5.946666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999934347000931, + "loss": 0.4313, + "step": 2230 + }, + { + "epoch": 5.973333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0004999933585374953, + "loss": 0.4428, + "step": 2240 + }, + { + "epoch": 6.0, + "grad_norm": 0.2109375, + "learning_rate": 0.0004999932819356745, + "loss": 0.43, + "step": 2250 + }, + { + "epoch": 6.0, + "eval_loss": 0.45286816358566284, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9926, + "eval_samples_per_second": 1.456, + "eval_steps_per_second": 0.091, + "step": 2250 + }, + { + "epoch": 6.026666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004999932048946311, + "loss": 0.4507, + "step": 2260 + }, + { + "epoch": 6.053333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.000499993127414365, + "loss": 0.4542, + "step": 2270 + }, + { + "epoch": 6.08, + "grad_norm": 0.392578125, + "learning_rate": 0.0004999930494948765, + "loss": 0.4414, + "step": 2280 + }, + { + "epoch": 6.1066666666666665, + "grad_norm": 0.333984375, + "learning_rate": 0.0004999929711361657, + "loss": 0.437, + "step": 2290 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 0.39453125, + "learning_rate": 0.0004999928923382327, + "loss": 0.4372, + "step": 2300 + }, + { + "epoch": 6.16, + "grad_norm": 0.197265625, + "learning_rate": 0.0004999928131010777, + "loss": 0.4412, + "step": 2310 + }, + { + "epoch": 6.1866666666666665, + "grad_norm": 0.1474609375, + "learning_rate": 0.0004999927334247007, + "loss": 0.4339, + "step": 2320 + }, + { + "epoch": 6.213333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004999926533091019, + "loss": 0.4269, + "step": 2330 + }, + { + "epoch": 6.24, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004999925727542816, + "loss": 0.4314, + "step": 2340 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004999924917602397, + "loss": 0.4379, + "step": 2350 + }, + { + "epoch": 6.293333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0004999924103269765, + "loss": 0.4318, + "step": 2360 + }, + { + "epoch": 6.32, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004999923284544921, + "loss": 0.4326, + "step": 2370 + }, + { + "epoch": 6.346666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004999922461427867, + "loss": 0.4407, + "step": 2380 + }, + { + "epoch": 6.373333333333333, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004999921633918604, + "loss": 0.4351, + "step": 2390 + }, + { + "epoch": 6.4, + "grad_norm": 0.158203125, + "learning_rate": 0.0004999920802017132, + "loss": 0.4329, + "step": 2400 + }, + { + "epoch": 6.426666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004999919965723455, + "loss": 0.4373, + "step": 2410 + }, + { + "epoch": 6.453333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004999919125037572, + "loss": 0.4424, + "step": 2420 + }, + { + "epoch": 6.48, + "grad_norm": 0.185546875, + "learning_rate": 0.0004999918279959487, + "loss": 0.4453, + "step": 2430 + }, + { + "epoch": 6.506666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.00049999174304892, + "loss": 0.4357, + "step": 2440 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999916576626712, + "loss": 0.4293, + "step": 2450 + }, + { + "epoch": 6.5600000000000005, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004999915718372026, + "loss": 0.4304, + "step": 2460 + }, + { + "epoch": 6.586666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004999914855725142, + "loss": 0.4263, + "step": 2470 + }, + { + "epoch": 6.613333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999913988686063, + "loss": 0.4124, + "step": 2480 + }, + { + "epoch": 6.64, + "grad_norm": 0.1962890625, + "learning_rate": 0.000499991311725479, + "loss": 0.4182, + "step": 2490 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004999912241431323, + "loss": 0.4334, + "step": 2500 + }, + { + "epoch": 6.693333333333333, + "grad_norm": 0.306640625, + "learning_rate": 0.0004999911361215666, + "loss": 0.4161, + "step": 2510 + }, + { + "epoch": 6.72, + "grad_norm": 0.1455078125, + "learning_rate": 0.0004999910476607819, + "loss": 0.4329, + "step": 2520 + }, + { + "epoch": 6.746666666666667, + "grad_norm": 0.1474609375, + "learning_rate": 0.0004999909587607784, + "loss": 0.435, + "step": 2530 + }, + { + "epoch": 6.773333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004999908694215561, + "loss": 0.4441, + "step": 2540 + }, + { + "epoch": 6.8, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004999907796431155, + "loss": 0.4312, + "step": 2550 + }, + { + "epoch": 6.826666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0004999906894254566, + "loss": 0.4237, + "step": 2560 + }, + { + "epoch": 6.8533333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004999905987685793, + "loss": 0.43, + "step": 2570 + }, + { + "epoch": 6.88, + "grad_norm": 0.42578125, + "learning_rate": 0.0004999905076724842, + "loss": 0.4213, + "step": 2580 + }, + { + "epoch": 6.906666666666666, + "grad_norm": 0.15625, + "learning_rate": 0.0004999904161371711, + "loss": 0.4239, + "step": 2590 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 0.142578125, + "learning_rate": 0.0004999903241626404, + "loss": 0.4259, + "step": 2600 + }, + { + "epoch": 6.96, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999902317488921, + "loss": 0.4224, + "step": 2610 + }, + { + "epoch": 6.986666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0004999901388959264, + "loss": 0.4405, + "step": 2620 + }, + { + "epoch": 7.0, + "eval_loss": 0.44747602939605713, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6989, + "eval_samples_per_second": 1.495, + "eval_steps_per_second": 0.093, + "step": 2625 + }, + { + "epoch": 7.013333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999900456037436, + "loss": 0.4268, + "step": 2630 + }, + { + "epoch": 7.04, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004999899518723436, + "loss": 0.4506, + "step": 2640 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 0.41796875, + "learning_rate": 0.0004999898577017269, + "loss": 0.4371, + "step": 2650 + }, + { + "epoch": 7.093333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999897630918933, + "loss": 0.4329, + "step": 2660 + }, + { + "epoch": 7.12, + "grad_norm": 0.240234375, + "learning_rate": 0.0004999896680428433, + "loss": 0.4283, + "step": 2670 + }, + { + "epoch": 7.1466666666666665, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004999895725545769, + "loss": 0.4332, + "step": 2680 + }, + { + "epoch": 7.173333333333334, + "grad_norm": 0.326171875, + "learning_rate": 0.0004999894766270943, + "loss": 0.426, + "step": 2690 + }, + { + "epoch": 7.2, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004999893802603955, + "loss": 0.4249, + "step": 2700 + }, + { + "epoch": 7.226666666666667, + "grad_norm": 0.59375, + "learning_rate": 0.0004999892834544809, + "loss": 0.421, + "step": 2710 + }, + { + "epoch": 7.253333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004999891862093506, + "loss": 0.421, + "step": 2720 + }, + { + "epoch": 7.28, + "grad_norm": 0.294921875, + "learning_rate": 0.0004999890885250049, + "loss": 0.4372, + "step": 2730 + }, + { + "epoch": 7.306666666666667, + "grad_norm": 0.154296875, + "learning_rate": 0.0004999889904014436, + "loss": 0.4163, + "step": 2740 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004999888918386673, + "loss": 0.4308, + "step": 2750 + }, + { + "epoch": 7.36, + "grad_norm": 0.189453125, + "learning_rate": 0.0004999887928366759, + "loss": 0.4294, + "step": 2760 + }, + { + "epoch": 7.386666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004999886933954697, + "loss": 0.4238, + "step": 2770 + }, + { + "epoch": 7.413333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004999885935150488, + "loss": 0.4291, + "step": 2780 + }, + { + "epoch": 7.44, + "grad_norm": 0.2578125, + "learning_rate": 0.0004999884931954134, + "loss": 0.4322, + "step": 2790 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999883924365635, + "loss": 0.4398, + "step": 2800 + }, + { + "epoch": 7.493333333333333, + "grad_norm": 0.462890625, + "learning_rate": 0.0004999882912384997, + "loss": 0.4289, + "step": 2810 + }, + { + "epoch": 7.52, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999881896012219, + "loss": 0.4269, + "step": 2820 + }, + { + "epoch": 7.546666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004999880875247303, + "loss": 0.4211, + "step": 2830 + }, + { + "epoch": 7.573333333333333, + "grad_norm": 0.470703125, + "learning_rate": 0.0004999879850090251, + "loss": 0.4223, + "step": 2840 + }, + { + "epoch": 7.6, + "grad_norm": 0.341796875, + "learning_rate": 0.0004999878820541064, + "loss": 0.4124, + "step": 2850 + }, + { + "epoch": 7.626666666666667, + "grad_norm": 0.35546875, + "learning_rate": 0.0004999877786599746, + "loss": 0.406, + "step": 2860 + }, + { + "epoch": 7.653333333333333, + "grad_norm": 0.69140625, + "learning_rate": 0.0004999876748266296, + "loss": 0.4233, + "step": 2870 + }, + { + "epoch": 7.68, + "grad_norm": 0.310546875, + "learning_rate": 0.0004999875705540718, + "loss": 0.4137, + "step": 2880 + }, + { + "epoch": 7.706666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0004999874658423013, + "loss": 0.4137, + "step": 2890 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004999873606913182, + "loss": 0.4338, + "step": 2900 + }, + { + "epoch": 7.76, + "grad_norm": 0.1572265625, + "learning_rate": 0.0004999872551011228, + "loss": 0.4325, + "step": 2910 + }, + { + "epoch": 7.786666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999871490717153, + "loss": 0.4326, + "step": 2920 + }, + { + "epoch": 7.8133333333333335, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999870426030958, + "loss": 0.417, + "step": 2930 + }, + { + "epoch": 7.84, + "grad_norm": 0.203125, + "learning_rate": 0.0004999869356952645, + "loss": 0.4204, + "step": 2940 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0004999868283482217, + "loss": 0.4184, + "step": 2950 + }, + { + "epoch": 7.8933333333333335, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999867205619675, + "loss": 0.4122, + "step": 2960 + }, + { + "epoch": 7.92, + "grad_norm": 0.25, + "learning_rate": 0.0004999866123365021, + "loss": 0.4223, + "step": 2970 + }, + { + "epoch": 7.946666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004999865036718257, + "loss": 0.4169, + "step": 2980 + }, + { + "epoch": 7.973333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0004999863945679383, + "loss": 0.4285, + "step": 2990 + }, + { + "epoch": 8.0, + "grad_norm": 0.275390625, + "learning_rate": 0.0004999862850248405, + "loss": 0.4152, + "step": 3000 + }, + { + "epoch": 8.0, + "eval_loss": 0.44355833530426025, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1914, + "eval_samples_per_second": 1.43, + "eval_steps_per_second": 0.089, + "step": 3000 + }, + { + "epoch": 8.026666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004999861750425322, + "loss": 0.4366, + "step": 3010 + }, + { + "epoch": 8.053333333333333, + "grad_norm": 0.1494140625, + "learning_rate": 0.0004999860646210136, + "loss": 0.4397, + "step": 3020 + }, + { + "epoch": 8.08, + "grad_norm": 0.21484375, + "learning_rate": 0.000499985953760285, + "loss": 0.4271, + "step": 3030 + }, + { + "epoch": 8.106666666666667, + "grad_norm": 0.54296875, + "learning_rate": 0.0004999858424603465, + "loss": 0.424, + "step": 3040 + }, + { + "epoch": 8.133333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004999857307211984, + "loss": 0.4228, + "step": 3050 + }, + { + "epoch": 8.16, + "grad_norm": 0.23828125, + "learning_rate": 0.0004999856185428407, + "loss": 0.426, + "step": 3060 + }, + { + "epoch": 8.186666666666667, + "grad_norm": 0.41796875, + "learning_rate": 0.0004999855059252739, + "loss": 0.4195, + "step": 3070 + }, + { + "epoch": 8.213333333333333, + "grad_norm": 0.625, + "learning_rate": 0.0004999853928684979, + "loss": 0.4123, + "step": 3080 + }, + { + "epoch": 8.24, + "grad_norm": 0.248046875, + "learning_rate": 0.0004999852793725131, + "loss": 0.4175, + "step": 3090 + }, + { + "epoch": 8.266666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0004999851654373197, + "loss": 0.4235, + "step": 3100 + }, + { + "epoch": 8.293333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004999850510629177, + "loss": 0.4169, + "step": 3110 + }, + { + "epoch": 8.32, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999849362493074, + "loss": 0.4186, + "step": 3120 + }, + { + "epoch": 8.346666666666668, + "grad_norm": 0.431640625, + "learning_rate": 0.0004999848209964891, + "loss": 0.4257, + "step": 3130 + }, + { + "epoch": 8.373333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004999847053044629, + "loss": 0.4201, + "step": 3140 + }, + { + "epoch": 8.4, + "grad_norm": 0.33203125, + "learning_rate": 0.0004999845891732291, + "loss": 0.4195, + "step": 3150 + }, + { + "epoch": 8.426666666666666, + "grad_norm": 0.484375, + "learning_rate": 0.0004999844726027878, + "loss": 0.4223, + "step": 3160 + }, + { + "epoch": 8.453333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0004999843555931392, + "loss": 0.4295, + "step": 3170 + }, + { + "epoch": 8.48, + "grad_norm": 0.318359375, + "learning_rate": 0.0004999842381442837, + "loss": 0.4305, + "step": 3180 + }, + { + "epoch": 8.506666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999841202562212, + "loss": 0.4225, + "step": 3190 + }, + { + "epoch": 8.533333333333333, + "grad_norm": 0.474609375, + "learning_rate": 0.0004999840019289521, + "loss": 0.4157, + "step": 3200 + }, + { + "epoch": 8.56, + "grad_norm": 0.8125, + "learning_rate": 0.0004999838831624767, + "loss": 0.416, + "step": 3210 + }, + { + "epoch": 8.586666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004999837639567949, + "loss": 0.4125, + "step": 3220 + }, + { + "epoch": 8.613333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004999836443119072, + "loss": 0.3995, + "step": 3230 + }, + { + "epoch": 8.64, + "grad_norm": 0.314453125, + "learning_rate": 0.0004999835242278137, + "loss": 0.4058, + "step": 3240 + }, + { + "epoch": 8.666666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004999834037045145, + "loss": 0.4209, + "step": 3250 + }, + { + "epoch": 8.693333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.00049998328274201, + "loss": 0.4026, + "step": 3260 + }, + { + "epoch": 8.72, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004999831613403003, + "loss": 0.4198, + "step": 3270 + }, + { + "epoch": 8.746666666666666, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999830394993857, + "loss": 0.4213, + "step": 3280 + }, + { + "epoch": 8.773333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999829172192664, + "loss": 0.4307, + "step": 3290 + }, + { + "epoch": 8.8, + "grad_norm": 0.380859375, + "learning_rate": 0.0004999827944999426, + "loss": 0.4184, + "step": 3300 + }, + { + "epoch": 8.826666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004999826713414144, + "loss": 0.41, + "step": 3310 + }, + { + "epoch": 8.853333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004999825477436822, + "loss": 0.4143, + "step": 3320 + }, + { + "epoch": 8.88, + "grad_norm": 0.2451171875, + "learning_rate": 0.000499982423706746, + "loss": 0.4079, + "step": 3330 + }, + { + "epoch": 8.906666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004999822992306062, + "loss": 0.4123, + "step": 3340 + }, + { + "epoch": 8.933333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999821743152629, + "loss": 0.4128, + "step": 3350 + }, + { + "epoch": 8.96, + "grad_norm": 0.279296875, + "learning_rate": 0.0004999820489607165, + "loss": 0.4088, + "step": 3360 + }, + { + "epoch": 8.986666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.0004999819231669671, + "loss": 0.4274, + "step": 3370 + }, + { + "epoch": 9.0, + "eval_loss": 0.4391622543334961, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6475, + "eval_samples_per_second": 1.503, + "eval_steps_per_second": 0.094, + "step": 3375 + }, + { + "epoch": 9.013333333333334, + "grad_norm": 0.345703125, + "learning_rate": 0.0004999817969340148, + "loss": 0.4137, + "step": 3380 + }, + { + "epoch": 9.04, + "grad_norm": 0.3125, + "learning_rate": 0.00049998167026186, + "loss": 0.4373, + "step": 3390 + }, + { + "epoch": 9.066666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004999815431505029, + "loss": 0.4231, + "step": 3400 + }, + { + "epoch": 9.093333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004999814155999437, + "loss": 0.4202, + "step": 3410 + }, + { + "epoch": 9.12, + "grad_norm": 0.185546875, + "learning_rate": 0.0004999812876101827, + "loss": 0.4158, + "step": 3420 + }, + { + "epoch": 9.146666666666667, + "grad_norm": 0.31640625, + "learning_rate": 0.0004999811591812199, + "loss": 0.4198, + "step": 3430 + }, + { + "epoch": 9.173333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.0004999810303130557, + "loss": 0.4149, + "step": 3440 + }, + { + "epoch": 9.2, + "grad_norm": 0.240234375, + "learning_rate": 0.0004999809010056903, + "loss": 0.4114, + "step": 3450 + }, + { + "epoch": 9.226666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.000499980771259124, + "loss": 0.408, + "step": 3460 + }, + { + "epoch": 9.253333333333334, + "grad_norm": 0.369140625, + "learning_rate": 0.0004999806410733569, + "loss": 0.4075, + "step": 3470 + }, + { + "epoch": 9.28, + "grad_norm": 0.1875, + "learning_rate": 0.0004999805104483892, + "loss": 0.4256, + "step": 3480 + }, + { + "epoch": 9.306666666666667, + "grad_norm": 0.1572265625, + "learning_rate": 0.0004999803793842212, + "loss": 0.4041, + "step": 3490 + }, + { + "epoch": 9.333333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004999802478808532, + "loss": 0.4184, + "step": 3500 + }, + { + "epoch": 9.36, + "grad_norm": 0.41796875, + "learning_rate": 0.0004999801159382854, + "loss": 0.4169, + "step": 3510 + }, + { + "epoch": 9.386666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004999799835565179, + "loss": 0.4111, + "step": 3520 + }, + { + "epoch": 9.413333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004999798507355512, + "loss": 0.4168, + "step": 3530 + }, + { + "epoch": 9.44, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999797174753852, + "loss": 0.4196, + "step": 3540 + }, + { + "epoch": 9.466666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004999795837760204, + "loss": 0.4277, + "step": 3550 + }, + { + "epoch": 9.493333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004999794496374569, + "loss": 0.4162, + "step": 3560 + }, + { + "epoch": 9.52, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999793150596949, + "loss": 0.4152, + "step": 3570 + }, + { + "epoch": 9.546666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999791800427348, + "loss": 0.4091, + "step": 3580 + }, + { + "epoch": 9.573333333333334, + "grad_norm": 0.37890625, + "learning_rate": 0.0004999790445865767, + "loss": 0.4096, + "step": 3590 + }, + { + "epoch": 9.6, + "grad_norm": 0.177734375, + "learning_rate": 0.000499978908691221, + "loss": 0.4003, + "step": 3600 + }, + { + "epoch": 9.626666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004999787723566677, + "loss": 0.394, + "step": 3610 + }, + { + "epoch": 9.653333333333332, + "grad_norm": 0.16796875, + "learning_rate": 0.0004999786355829171, + "loss": 0.4115, + "step": 3620 + }, + { + "epoch": 9.68, + "grad_norm": 0.353515625, + "learning_rate": 0.0004999784983699696, + "loss": 0.4011, + "step": 3630 + }, + { + "epoch": 9.706666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004999783607178254, + "loss": 0.4015, + "step": 3640 + }, + { + "epoch": 9.733333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0004999782226264846, + "loss": 0.4213, + "step": 3650 + }, + { + "epoch": 9.76, + "grad_norm": 0.427734375, + "learning_rate": 0.0004999780840959475, + "loss": 0.4197, + "step": 3660 + }, + { + "epoch": 9.786666666666667, + "grad_norm": 0.43359375, + "learning_rate": 0.0004999779451262145, + "loss": 0.4209, + "step": 3670 + }, + { + "epoch": 9.813333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004999778057172856, + "loss": 0.4046, + "step": 3680 + }, + { + "epoch": 9.84, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999776658691611, + "loss": 0.4078, + "step": 3690 + }, + { + "epoch": 9.866666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0004999775255818414, + "loss": 0.4054, + "step": 3700 + }, + { + "epoch": 9.893333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004999773848553266, + "loss": 0.4005, + "step": 3710 + }, + { + "epoch": 9.92, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999772436896171, + "loss": 0.4113, + "step": 3720 + }, + { + "epoch": 9.946666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004999771020847129, + "loss": 0.4048, + "step": 3730 + }, + { + "epoch": 9.973333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004999769600406146, + "loss": 0.4166, + "step": 3740 + }, + { + "epoch": 10.0, + "grad_norm": 0.2734375, + "learning_rate": 0.000499976817557322, + "loss": 0.4035, + "step": 3750 + }, + { + "epoch": 10.0, + "eval_loss": 0.4371285140514374, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7886, + "eval_samples_per_second": 1.357, + "eval_steps_per_second": 0.085, + "step": 3750 + }, + { + "epoch": 10.026666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999766746348358, + "loss": 0.4254, + "step": 3760 + }, + { + "epoch": 10.053333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004999765312731559, + "loss": 0.4295, + "step": 3770 + }, + { + "epoch": 10.08, + "grad_norm": 0.376953125, + "learning_rate": 0.0004999763874722827, + "loss": 0.4154, + "step": 3780 + }, + { + "epoch": 10.106666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004999762432322166, + "loss": 0.4118, + "step": 3790 + }, + { + "epoch": 10.133333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004999760985529575, + "loss": 0.411, + "step": 3800 + }, + { + "epoch": 10.16, + "grad_norm": 0.275390625, + "learning_rate": 0.000499975953434506, + "loss": 0.4143, + "step": 3810 + }, + { + "epoch": 10.186666666666667, + "grad_norm": 0.361328125, + "learning_rate": 0.0004999758078768622, + "loss": 0.4078, + "step": 3820 + }, + { + "epoch": 10.213333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0004999756618800263, + "loss": 0.4006, + "step": 3830 + }, + { + "epoch": 10.24, + "grad_norm": 0.41015625, + "learning_rate": 0.0004999755154439987, + "loss": 0.4055, + "step": 3840 + }, + { + "epoch": 10.266666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004999753685687796, + "loss": 0.412, + "step": 3850 + }, + { + "epoch": 10.293333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004999752212543693, + "loss": 0.4056, + "step": 3860 + }, + { + "epoch": 10.32, + "grad_norm": 0.294921875, + "learning_rate": 0.0004999750735007678, + "loss": 0.4078, + "step": 3870 + }, + { + "epoch": 10.346666666666668, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999749253079756, + "loss": 0.414, + "step": 3880 + }, + { + "epoch": 10.373333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.000499974776675993, + "loss": 0.4082, + "step": 3890 + }, + { + "epoch": 10.4, + "grad_norm": 0.18359375, + "learning_rate": 0.0004999746276048201, + "loss": 0.4076, + "step": 3900 + }, + { + "epoch": 10.426666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004999744780944574, + "loss": 0.4113, + "step": 3910 + }, + { + "epoch": 10.453333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.000499974328144905, + "loss": 0.4186, + "step": 3920 + }, + { + "epoch": 10.48, + "grad_norm": 0.21875, + "learning_rate": 0.0004999741777561629, + "loss": 0.4192, + "step": 3930 + }, + { + "epoch": 10.506666666666666, + "grad_norm": 0.162109375, + "learning_rate": 0.0004999740269282318, + "loss": 0.4101, + "step": 3940 + }, + { + "epoch": 10.533333333333333, + "grad_norm": 0.1474609375, + "learning_rate": 0.0004999738756611119, + "loss": 0.4042, + "step": 3950 + }, + { + "epoch": 10.56, + "grad_norm": 0.33984375, + "learning_rate": 0.0004999737239548032, + "loss": 0.4049, + "step": 3960 + }, + { + "epoch": 10.586666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999735718093062, + "loss": 0.4018, + "step": 3970 + }, + { + "epoch": 10.613333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999734192246212, + "loss": 0.389, + "step": 3980 + }, + { + "epoch": 10.64, + "grad_norm": 0.296875, + "learning_rate": 0.0004999732662007482, + "loss": 0.3956, + "step": 3990 + }, + { + "epoch": 10.666666666666666, + "grad_norm": 0.1484375, + "learning_rate": 0.0004999731127376877, + "loss": 0.4102, + "step": 4000 + }, + { + "epoch": 10.693333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004999729588354399, + "loss": 0.3926, + "step": 4010 + }, + { + "epoch": 10.72, + "grad_norm": 0.2060546875, + "learning_rate": 0.000499972804494005, + "loss": 0.409, + "step": 4020 + }, + { + "epoch": 10.746666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999726497133835, + "loss": 0.4098, + "step": 4030 + }, + { + "epoch": 10.773333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0004999724944935754, + "loss": 0.4209, + "step": 4040 + }, + { + "epoch": 10.8, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999723388345812, + "loss": 0.4077, + "step": 4050 + }, + { + "epoch": 10.826666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999721827364009, + "loss": 0.399, + "step": 4060 + }, + { + "epoch": 10.853333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.000499972026199035, + "loss": 0.4031, + "step": 4070 + }, + { + "epoch": 10.88, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004999718692224838, + "loss": 0.3974, + "step": 4080 + }, + { + "epoch": 10.906666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004999717118067474, + "loss": 0.4017, + "step": 4090 + }, + { + "epoch": 10.933333333333334, + "grad_norm": 0.37890625, + "learning_rate": 0.0004999715539518262, + "loss": 0.403, + "step": 4100 + }, + { + "epoch": 10.96, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999713956577204, + "loss": 0.3987, + "step": 4110 + }, + { + "epoch": 10.986666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0004999712369244304, + "loss": 0.4172, + "step": 4120 + }, + { + "epoch": 11.0, + "eval_loss": 0.43250614404678345, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.9102, + "eval_samples_per_second": 1.239, + "eval_steps_per_second": 0.077, + "step": 4125 + }, + { + "epoch": 11.013333333333334, + "grad_norm": 0.59375, + "learning_rate": 0.0004999710777519563, + "loss": 0.4041, + "step": 4130 + }, + { + "epoch": 11.04, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999709181402986, + "loss": 0.4272, + "step": 4140 + }, + { + "epoch": 11.066666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0004999707580894574, + "loss": 0.4131, + "step": 4150 + }, + { + "epoch": 11.093333333333334, + "grad_norm": 0.365234375, + "learning_rate": 0.000499970597599433, + "loss": 0.4102, + "step": 4160 + }, + { + "epoch": 11.12, + "grad_norm": 0.390625, + "learning_rate": 0.0004999704366702258, + "loss": 0.4058, + "step": 4170 + }, + { + "epoch": 11.146666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.000499970275301836, + "loss": 0.4091, + "step": 4180 + }, + { + "epoch": 11.173333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004999701134942638, + "loss": 0.4049, + "step": 4190 + }, + { + "epoch": 11.2, + "grad_norm": 0.212890625, + "learning_rate": 0.0004999699512475096, + "loss": 0.4017, + "step": 4200 + }, + { + "epoch": 11.226666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004999697885615737, + "loss": 0.3982, + "step": 4210 + }, + { + "epoch": 11.253333333333334, + "grad_norm": 0.40234375, + "learning_rate": 0.0004999696254364564, + "loss": 0.3979, + "step": 4220 + }, + { + "epoch": 11.28, + "grad_norm": 0.326171875, + "learning_rate": 0.0004999694618721579, + "loss": 0.4147, + "step": 4230 + }, + { + "epoch": 11.306666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004999692978686784, + "loss": 0.395, + "step": 4240 + }, + { + "epoch": 11.333333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999691334260185, + "loss": 0.4091, + "step": 4250 + }, + { + "epoch": 11.36, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004999689685441781, + "loss": 0.4059, + "step": 4260 + }, + { + "epoch": 11.386666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004999688032231577, + "loss": 0.4011, + "step": 4270 + }, + { + "epoch": 11.413333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004999686374629577, + "loss": 0.4064, + "step": 4280 + }, + { + "epoch": 11.44, + "grad_norm": 0.173828125, + "learning_rate": 0.0004999684712635782, + "loss": 0.4103, + "step": 4290 + }, + { + "epoch": 11.466666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.0004999683046250196, + "loss": 0.4174, + "step": 4300 + }, + { + "epoch": 11.493333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999681375472821, + "loss": 0.4065, + "step": 4310 + }, + { + "epoch": 11.52, + "grad_norm": 0.408203125, + "learning_rate": 0.0004999679700303661, + "loss": 0.4056, + "step": 4320 + }, + { + "epoch": 11.546666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004999678020742718, + "loss": 0.399, + "step": 4330 + }, + { + "epoch": 11.573333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0004999676336789996, + "loss": 0.4006, + "step": 4340 + }, + { + "epoch": 11.6, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999674648445496, + "loss": 0.3914, + "step": 4350 + }, + { + "epoch": 11.626666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999672955709223, + "loss": 0.3851, + "step": 4360 + }, + { + "epoch": 11.653333333333332, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004999671258581179, + "loss": 0.4033, + "step": 4370 + }, + { + "epoch": 11.68, + "grad_norm": 0.2109375, + "learning_rate": 0.0004999669557061368, + "loss": 0.392, + "step": 4380 + }, + { + "epoch": 11.706666666666667, + "grad_norm": 0.71484375, + "learning_rate": 0.0004999667851149791, + "loss": 0.3926, + "step": 4390 + }, + { + "epoch": 11.733333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004999666140846452, + "loss": 0.4121, + "step": 4400 + }, + { + "epoch": 11.76, + "grad_norm": 0.248046875, + "learning_rate": 0.0004999664426151355, + "loss": 0.4108, + "step": 4410 + }, + { + "epoch": 11.786666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004999662707064503, + "loss": 0.4104, + "step": 4420 + }, + { + "epoch": 11.813333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0004999660983585898, + "loss": 0.3947, + "step": 4430 + }, + { + "epoch": 11.84, + "grad_norm": 0.1796875, + "learning_rate": 0.0004999659255715543, + "loss": 0.3974, + "step": 4440 + }, + { + "epoch": 11.866666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004999657523453441, + "loss": 0.3959, + "step": 4450 + }, + { + "epoch": 11.893333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0004999655786799595, + "loss": 0.3919, + "step": 4460 + }, + { + "epoch": 11.92, + "grad_norm": 0.2890625, + "learning_rate": 0.000499965404575401, + "loss": 0.4014, + "step": 4470 + }, + { + "epoch": 11.946666666666667, + "grad_norm": 0.302734375, + "learning_rate": 0.0004999652300316686, + "loss": 0.3967, + "step": 4480 + }, + { + "epoch": 11.973333333333333, + "grad_norm": 0.423828125, + "learning_rate": 0.0004999650550487628, + "loss": 0.4073, + "step": 4490 + }, + { + "epoch": 12.0, + "grad_norm": 0.240234375, + "learning_rate": 0.0004999648796266838, + "loss": 0.395, + "step": 4500 + }, + { + "epoch": 12.0, + "eval_loss": 0.4319377839565277, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.0057, + "eval_samples_per_second": 1.333, + "eval_steps_per_second": 0.083, + "step": 4500 + }, + { + "epoch": 12.026666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999647037654321, + "loss": 0.4159, + "step": 4510 + }, + { + "epoch": 12.053333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0004999645274650077, + "loss": 0.4195, + "step": 4520 + }, + { + "epoch": 12.08, + "grad_norm": 0.162109375, + "learning_rate": 0.0004999643507254113, + "loss": 0.4057, + "step": 4530 + }, + { + "epoch": 12.106666666666667, + "grad_norm": 0.5625, + "learning_rate": 0.0004999641735466429, + "loss": 0.4037, + "step": 4540 + }, + { + "epoch": 12.133333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999639959287029, + "loss": 0.4022, + "step": 4550 + }, + { + "epoch": 12.16, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004999638178715916, + "loss": 0.4057, + "step": 4560 + }, + { + "epoch": 12.186666666666667, + "grad_norm": 0.15625, + "learning_rate": 0.0004999636393753093, + "loss": 0.3987, + "step": 4570 + }, + { + "epoch": 12.213333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0004999634604398565, + "loss": 0.3908, + "step": 4580 + }, + { + "epoch": 12.24, + "grad_norm": 0.58203125, + "learning_rate": 0.0004999632810652331, + "loss": 0.3966, + "step": 4590 + }, + { + "epoch": 12.266666666666667, + "grad_norm": 0.373046875, + "learning_rate": 0.0004999631012514399, + "loss": 0.403, + "step": 4600 + }, + { + "epoch": 12.293333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.000499962920998477, + "loss": 0.3966, + "step": 4610 + }, + { + "epoch": 12.32, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004999627403063446, + "loss": 0.3994, + "step": 4620 + }, + { + "epoch": 12.346666666666668, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004999625591750431, + "loss": 0.4056, + "step": 4630 + }, + { + "epoch": 12.373333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.000499962377604573, + "loss": 0.3989, + "step": 4640 + }, + { + "epoch": 12.4, + "grad_norm": 0.25, + "learning_rate": 0.0004999621955949344, + "loss": 0.3981, + "step": 4650 + }, + { + "epoch": 12.426666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004999620131461277, + "loss": 0.4027, + "step": 4660 + }, + { + "epoch": 12.453333333333333, + "grad_norm": 0.3671875, + "learning_rate": 0.0004999618302581531, + "loss": 0.4103, + "step": 4670 + }, + { + "epoch": 12.48, + "grad_norm": 0.203125, + "learning_rate": 0.0004999616469310111, + "loss": 0.4103, + "step": 4680 + }, + { + "epoch": 12.506666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.000499961463164702, + "loss": 0.4022, + "step": 4690 + }, + { + "epoch": 12.533333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.000499961278959226, + "loss": 0.3966, + "step": 4700 + }, + { + "epoch": 12.56, + "grad_norm": 0.2109375, + "learning_rate": 0.0004999610943145834, + "loss": 0.3963, + "step": 4710 + }, + { + "epoch": 12.586666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999609092307749, + "loss": 0.3937, + "step": 4720 + }, + { + "epoch": 12.613333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999607237078003, + "loss": 0.3806, + "step": 4730 + }, + { + "epoch": 12.64, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999605377456602, + "loss": 0.3876, + "step": 4740 + }, + { + "epoch": 12.666666666666666, + "grad_norm": 0.169921875, + "learning_rate": 0.000499960351344355, + "loss": 0.4024, + "step": 4750 + }, + { + "epoch": 12.693333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004999601645038848, + "loss": 0.3833, + "step": 4760 + }, + { + "epoch": 12.72, + "grad_norm": 0.306640625, + "learning_rate": 0.0004999599772242502, + "loss": 0.4003, + "step": 4770 + }, + { + "epoch": 12.746666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004999597895054513, + "loss": 0.4023, + "step": 4780 + }, + { + "epoch": 12.773333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0004999596013474885, + "loss": 0.4123, + "step": 4790 + }, + { + "epoch": 12.8, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999594127503621, + "loss": 0.3987, + "step": 4800 + }, + { + "epoch": 12.826666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004999592237140727, + "loss": 0.3897, + "step": 4810 + }, + { + "epoch": 12.853333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004999590342386202, + "loss": 0.3935, + "step": 4820 + }, + { + "epoch": 12.88, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004999588443240051, + "loss": 0.3886, + "step": 4830 + }, + { + "epoch": 12.906666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004999586539702279, + "loss": 0.3931, + "step": 4840 + }, + { + "epoch": 12.933333333333334, + "grad_norm": 0.166015625, + "learning_rate": 0.0004999584631772887, + "loss": 0.3942, + "step": 4850 + }, + { + "epoch": 12.96, + "grad_norm": 0.1953125, + "learning_rate": 0.000499958271945188, + "loss": 0.3909, + "step": 4860 + }, + { + "epoch": 12.986666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004999580802739262, + "loss": 0.4098, + "step": 4870 + }, + { + "epoch": 13.0, + "eval_loss": 0.4278475046157837, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5283, + "eval_samples_per_second": 1.388, + "eval_steps_per_second": 0.087, + "step": 4875 + }, + { + "epoch": 13.013333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004999578881635034, + "loss": 0.3957, + "step": 4880 + }, + { + "epoch": 13.04, + "grad_norm": 0.162109375, + "learning_rate": 0.00049995769561392, + "loss": 0.4191, + "step": 4890 + }, + { + "epoch": 13.066666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004999575026251765, + "loss": 0.4041, + "step": 4900 + }, + { + "epoch": 13.093333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.000499957309197273, + "loss": 0.4016, + "step": 4910 + }, + { + "epoch": 13.12, + "grad_norm": 0.255859375, + "learning_rate": 0.00049995711533021, + "loss": 0.3984, + "step": 4920 + }, + { + "epoch": 13.146666666666667, + "grad_norm": 0.4609375, + "learning_rate": 0.000499956921023988, + "loss": 0.402, + "step": 4930 + }, + { + "epoch": 13.173333333333334, + "grad_norm": 0.62109375, + "learning_rate": 0.000499956726278607, + "loss": 0.3974, + "step": 4940 + }, + { + "epoch": 13.2, + "grad_norm": 0.36328125, + "learning_rate": 0.0004999565310940675, + "loss": 0.3933, + "step": 4950 + }, + { + "epoch": 13.226666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004999563354703698, + "loss": 0.3895, + "step": 4960 + }, + { + "epoch": 13.253333333333334, + "grad_norm": 0.337890625, + "learning_rate": 0.0004999561394075143, + "loss": 0.39, + "step": 4970 + }, + { + "epoch": 13.28, + "grad_norm": 0.224609375, + "learning_rate": 0.0004999559429055012, + "loss": 0.4078, + "step": 4980 + }, + { + "epoch": 13.306666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999557459643313, + "loss": 0.3872, + "step": 4990 + }, + { + "epoch": 13.333333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004999555485840043, + "loss": 0.4012, + "step": 5000 + }, + { + "epoch": 13.36, + "grad_norm": 0.76171875, + "learning_rate": 0.000499955350764521, + "loss": 0.3969, + "step": 5010 + }, + { + "epoch": 13.386666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999551525058817, + "loss": 0.393, + "step": 5020 + }, + { + "epoch": 13.413333333333334, + "grad_norm": 0.34765625, + "learning_rate": 0.0004999549538080865, + "loss": 0.3987, + "step": 5030 + }, + { + "epoch": 13.44, + "grad_norm": 0.1845703125, + "learning_rate": 0.000499954754671136, + "loss": 0.4015, + "step": 5040 + }, + { + "epoch": 13.466666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004999545550950304, + "loss": 0.4095, + "step": 5050 + }, + { + "epoch": 13.493333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0004999543550797702, + "loss": 0.3988, + "step": 5060 + }, + { + "epoch": 13.52, + "grad_norm": 0.181640625, + "learning_rate": 0.0004999541546253555, + "loss": 0.3984, + "step": 5070 + }, + { + "epoch": 13.546666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004999539537317869, + "loss": 0.3913, + "step": 5080 + }, + { + "epoch": 13.573333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004999537523990647, + "loss": 0.392, + "step": 5090 + }, + { + "epoch": 13.6, + "grad_norm": 0.1796875, + "learning_rate": 0.0004999535506271893, + "loss": 0.3839, + "step": 5100 + }, + { + "epoch": 13.626666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004999533484161608, + "loss": 0.3784, + "step": 5110 + }, + { + "epoch": 13.653333333333332, + "grad_norm": 0.39453125, + "learning_rate": 0.0004999531457659798, + "loss": 0.3952, + "step": 5120 + }, + { + "epoch": 13.68, + "grad_norm": 0.154296875, + "learning_rate": 0.0004999529426766465, + "loss": 0.3849, + "step": 5130 + }, + { + "epoch": 13.706666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0004999527391481614, + "loss": 0.385, + "step": 5140 + }, + { + "epoch": 13.733333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004999525351805249, + "loss": 0.4048, + "step": 5150 + }, + { + "epoch": 13.76, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004999523307737372, + "loss": 0.4032, + "step": 5160 + }, + { + "epoch": 13.786666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004999521259277987, + "loss": 0.4031, + "step": 5170 + }, + { + "epoch": 13.813333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004999519206427097, + "loss": 0.3874, + "step": 5180 + }, + { + "epoch": 13.84, + "grad_norm": 0.177734375, + "learning_rate": 0.0004999517149184708, + "loss": 0.3892, + "step": 5190 + }, + { + "epoch": 13.866666666666667, + "grad_norm": 0.41796875, + "learning_rate": 0.000499951508755082, + "loss": 0.3883, + "step": 5200 + }, + { + "epoch": 13.893333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.000499951302152544, + "loss": 0.3841, + "step": 5210 + }, + { + "epoch": 13.92, + "grad_norm": 0.412109375, + "learning_rate": 0.000499951095110857, + "loss": 0.3938, + "step": 5220 + }, + { + "epoch": 13.946666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004999508876300214, + "loss": 0.39, + "step": 5230 + }, + { + "epoch": 13.973333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004999506797100375, + "loss": 0.3994, + "step": 5240 + }, + { + "epoch": 14.0, + "grad_norm": 0.31640625, + "learning_rate": 0.0004999504713509058, + "loss": 0.3871, + "step": 5250 + }, + { + "epoch": 14.0, + "eval_loss": 0.4258194863796234, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8592, + "eval_samples_per_second": 1.473, + "eval_steps_per_second": 0.092, + "step": 5250 + }, + { + "epoch": 14.026666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004999502625526265, + "loss": 0.4094, + "step": 5260 + }, + { + "epoch": 14.053333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004999500533152, + "loss": 0.4122, + "step": 5270 + }, + { + "epoch": 14.08, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004999498436386268, + "loss": 0.3986, + "step": 5280 + }, + { + "epoch": 14.106666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004999496335229073, + "loss": 0.3961, + "step": 5290 + }, + { + "epoch": 14.133333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999494229680415, + "loss": 0.3944, + "step": 5300 + }, + { + "epoch": 14.16, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999492119740303, + "loss": 0.3984, + "step": 5310 + }, + { + "epoch": 14.186666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999490005408736, + "loss": 0.3919, + "step": 5320 + }, + { + "epoch": 14.213333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.000499948788668572, + "loss": 0.3834, + "step": 5330 + }, + { + "epoch": 14.24, + "grad_norm": 0.24609375, + "learning_rate": 0.0004999485763571259, + "loss": 0.3888, + "step": 5340 + }, + { + "epoch": 14.266666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0004999483636065356, + "loss": 0.3962, + "step": 5350 + }, + { + "epoch": 14.293333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0004999481504168015, + "loss": 0.3893, + "step": 5360 + }, + { + "epoch": 14.32, + "grad_norm": 0.212890625, + "learning_rate": 0.000499947936787924, + "loss": 0.3928, + "step": 5370 + }, + { + "epoch": 14.346666666666668, + "grad_norm": 0.232421875, + "learning_rate": 0.0004999477227199033, + "loss": 0.398, + "step": 5380 + }, + { + "epoch": 14.373333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.00049994750821274, + "loss": 0.3912, + "step": 5390 + }, + { + "epoch": 14.4, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004999472932664343, + "loss": 0.3915, + "step": 5400 + }, + { + "epoch": 14.426666666666666, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004999470778809868, + "loss": 0.3949, + "step": 5410 + }, + { + "epoch": 14.453333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004999468620563976, + "loss": 0.4025, + "step": 5420 + }, + { + "epoch": 14.48, + "grad_norm": 0.37109375, + "learning_rate": 0.0004999466457926673, + "loss": 0.4029, + "step": 5430 + }, + { + "epoch": 14.506666666666666, + "grad_norm": 0.546875, + "learning_rate": 0.0004999464290897963, + "loss": 0.3955, + "step": 5440 + }, + { + "epoch": 14.533333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004999462119477848, + "loss": 0.3895, + "step": 5450 + }, + { + "epoch": 14.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999459943666332, + "loss": 0.3891, + "step": 5460 + }, + { + "epoch": 14.586666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.000499945776346342, + "loss": 0.3868, + "step": 5470 + }, + { + "epoch": 14.613333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004999455578869116, + "loss": 0.374, + "step": 5480 + }, + { + "epoch": 14.64, + "grad_norm": 0.302734375, + "learning_rate": 0.0004999453389883423, + "loss": 0.3799, + "step": 5490 + }, + { + "epoch": 14.666666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004999451196506344, + "loss": 0.3955, + "step": 5500 + }, + { + "epoch": 14.693333333333333, + "grad_norm": 0.421875, + "learning_rate": 0.0004999448998737884, + "loss": 0.377, + "step": 5510 + }, + { + "epoch": 14.72, + "grad_norm": 0.3984375, + "learning_rate": 0.0004999446796578048, + "loss": 0.393, + "step": 5520 + }, + { + "epoch": 14.746666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004999444590026837, + "loss": 0.3946, + "step": 5530 + }, + { + "epoch": 14.773333333333333, + "grad_norm": 0.458984375, + "learning_rate": 0.0004999442379084258, + "loss": 0.4051, + "step": 5540 + }, + { + "epoch": 14.8, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999440163750313, + "loss": 0.3927, + "step": 5550 + }, + { + "epoch": 14.826666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004999437944025006, + "loss": 0.3827, + "step": 5560 + }, + { + "epoch": 14.853333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.000499943571990834, + "loss": 0.3866, + "step": 5570 + }, + { + "epoch": 14.88, + "grad_norm": 0.1875, + "learning_rate": 0.0004999433491400322, + "loss": 0.382, + "step": 5580 + }, + { + "epoch": 14.906666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004999431258500953, + "loss": 0.3864, + "step": 5590 + }, + { + "epoch": 14.933333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004999429021210238, + "loss": 0.387, + "step": 5600 + }, + { + "epoch": 14.96, + "grad_norm": 0.21875, + "learning_rate": 0.000499942677952818, + "loss": 0.3841, + "step": 5610 + }, + { + "epoch": 14.986666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004999424533454785, + "loss": 0.4025, + "step": 5620 + }, + { + "epoch": 15.0, + "eval_loss": 0.4256788492202759, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.2126, + "eval_samples_per_second": 1.31, + "eval_steps_per_second": 0.082, + "step": 5625 + }, + { + "epoch": 15.013333333333334, + "grad_norm": 0.7265625, + "learning_rate": 0.0004999422282990055, + "loss": 0.389, + "step": 5630 + }, + { + "epoch": 15.04, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999420028133995, + "loss": 0.4128, + "step": 5640 + }, + { + "epoch": 15.066666666666666, + "grad_norm": 0.306640625, + "learning_rate": 0.0004999417768886608, + "loss": 0.3985, + "step": 5650 + }, + { + "epoch": 15.093333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.00049994155052479, + "loss": 0.3954, + "step": 5660 + }, + { + "epoch": 15.12, + "grad_norm": 0.171875, + "learning_rate": 0.0004999413237217873, + "loss": 0.3912, + "step": 5670 + }, + { + "epoch": 15.146666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.000499941096479653, + "loss": 0.3942, + "step": 5680 + }, + { + "epoch": 15.173333333333334, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004999408687983878, + "loss": 0.3902, + "step": 5690 + }, + { + "epoch": 15.2, + "grad_norm": 0.205078125, + "learning_rate": 0.0004999406406779919, + "loss": 0.3866, + "step": 5700 + }, + { + "epoch": 15.226666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0004999404121184658, + "loss": 0.382, + "step": 5710 + }, + { + "epoch": 15.253333333333334, + "grad_norm": 0.349609375, + "learning_rate": 0.0004999401831198098, + "loss": 0.3827, + "step": 5720 + }, + { + "epoch": 15.28, + "grad_norm": 0.298828125, + "learning_rate": 0.0004999399536820245, + "loss": 0.4002, + "step": 5730 + }, + { + "epoch": 15.306666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004999397238051101, + "loss": 0.3798, + "step": 5740 + }, + { + "epoch": 15.333333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.000499939493489067, + "loss": 0.3951, + "step": 5750 + }, + { + "epoch": 15.36, + "grad_norm": 0.3359375, + "learning_rate": 0.0004999392627338956, + "loss": 0.3903, + "step": 5760 + }, + { + "epoch": 15.386666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004999390315395965, + "loss": 0.3862, + "step": 5770 + }, + { + "epoch": 15.413333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.00049993879990617, + "loss": 0.391, + "step": 5780 + }, + { + "epoch": 15.44, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004999385678336165, + "loss": 0.3952, + "step": 5790 + }, + { + "epoch": 15.466666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004999383353219364, + "loss": 0.402, + "step": 5800 + }, + { + "epoch": 15.493333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004999381023711299, + "loss": 0.3905, + "step": 5810 + }, + { + "epoch": 15.52, + "grad_norm": 0.22265625, + "learning_rate": 0.0004999378689811979, + "loss": 0.3922, + "step": 5820 + }, + { + "epoch": 15.546666666666667, + "grad_norm": 0.369140625, + "learning_rate": 0.0004999376351521403, + "loss": 0.385, + "step": 5830 + }, + { + "epoch": 15.573333333333334, + "grad_norm": 0.1513671875, + "learning_rate": 0.0004999374008839579, + "loss": 0.3861, + "step": 5840 + }, + { + "epoch": 15.6, + "grad_norm": 0.3671875, + "learning_rate": 0.0004999371661766509, + "loss": 0.3766, + "step": 5850 + }, + { + "epoch": 15.626666666666667, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004999369310302197, + "loss": 0.3724, + "step": 5860 + }, + { + "epoch": 15.653333333333332, + "grad_norm": 0.3359375, + "learning_rate": 0.0004999366954446648, + "loss": 0.3888, + "step": 5870 + }, + { + "epoch": 15.68, + "grad_norm": 0.193359375, + "learning_rate": 0.0004999364594199865, + "loss": 0.3783, + "step": 5880 + }, + { + "epoch": 15.706666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0004999362229561855, + "loss": 0.3785, + "step": 5890 + }, + { + "epoch": 15.733333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004999359860532619, + "loss": 0.3979, + "step": 5900 + }, + { + "epoch": 15.76, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004999357487112163, + "loss": 0.3969, + "step": 5910 + }, + { + "epoch": 15.786666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.000499935510930049, + "loss": 0.3972, + "step": 5920 + }, + { + "epoch": 15.813333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004999352727097604, + "loss": 0.381, + "step": 5930 + }, + { + "epoch": 15.84, + "grad_norm": 0.22265625, + "learning_rate": 0.000499935034050351, + "loss": 0.3825, + "step": 5940 + }, + { + "epoch": 15.866666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004999347949518213, + "loss": 0.3812, + "step": 5950 + }, + { + "epoch": 15.893333333333333, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004999345554141716, + "loss": 0.3787, + "step": 5960 + }, + { + "epoch": 15.92, + "grad_norm": 0.1875, + "learning_rate": 0.0004999343154374023, + "loss": 0.3875, + "step": 5970 + }, + { + "epoch": 15.946666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0004999340750215139, + "loss": 0.383, + "step": 5980 + }, + { + "epoch": 15.973333333333333, + "grad_norm": 0.373046875, + "learning_rate": 0.0004999338341665069, + "loss": 0.3937, + "step": 5990 + }, + { + "epoch": 16.0, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004999335928723814, + "loss": 0.3803, + "step": 6000 + }, + { + "epoch": 16.0, + "eval_loss": 0.4223533570766449, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4124, + "eval_samples_per_second": 1.402, + "eval_steps_per_second": 0.088, + "step": 6000 + }, + { + "epoch": 16.026666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004999333511391382, + "loss": 0.4038, + "step": 6010 + }, + { + "epoch": 16.053333333333335, + "grad_norm": 0.318359375, + "learning_rate": 0.0004999331089667775, + "loss": 0.4072, + "step": 6020 + }, + { + "epoch": 16.08, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004999328663552998, + "loss": 0.392, + "step": 6030 + }, + { + "epoch": 16.106666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004999326233047055, + "loss": 0.3909, + "step": 6040 + }, + { + "epoch": 16.133333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.000499932379814995, + "loss": 0.3884, + "step": 6050 + }, + { + "epoch": 16.16, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999321358861688, + "loss": 0.3917, + "step": 6060 + }, + { + "epoch": 16.186666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.0004999318915182274, + "loss": 0.3859, + "step": 6070 + }, + { + "epoch": 16.213333333333335, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004999316467111711, + "loss": 0.3777, + "step": 6080 + }, + { + "epoch": 16.24, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004999314014650002, + "loss": 0.3828, + "step": 6090 + }, + { + "epoch": 16.266666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004999311557797154, + "loss": 0.389, + "step": 6100 + }, + { + "epoch": 16.293333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.000499930909655317, + "loss": 0.383, + "step": 6110 + }, + { + "epoch": 16.32, + "grad_norm": 0.2578125, + "learning_rate": 0.0004999306630918054, + "loss": 0.387, + "step": 6120 + }, + { + "epoch": 16.346666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004999304160891812, + "loss": 0.392, + "step": 6130 + }, + { + "epoch": 16.373333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.0004999301686474446, + "loss": 0.3842, + "step": 6140 + }, + { + "epoch": 16.4, + "grad_norm": 0.2421875, + "learning_rate": 0.0004999299207665963, + "loss": 0.3849, + "step": 6150 + }, + { + "epoch": 16.426666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004999296724466365, + "loss": 0.3891, + "step": 6160 + }, + { + "epoch": 16.453333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004999294236875658, + "loss": 0.3974, + "step": 6170 + }, + { + "epoch": 16.48, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004999291744893845, + "loss": 0.3959, + "step": 6180 + }, + { + "epoch": 16.506666666666668, + "grad_norm": 0.427734375, + "learning_rate": 0.0004999289248520931, + "loss": 0.3885, + "step": 6190 + }, + { + "epoch": 16.533333333333335, + "grad_norm": 0.236328125, + "learning_rate": 0.000499928674775692, + "loss": 0.3831, + "step": 6200 + }, + { + "epoch": 16.56, + "grad_norm": 0.4609375, + "learning_rate": 0.0004999284242601817, + "loss": 0.3829, + "step": 6210 + }, + { + "epoch": 16.586666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004999281733055626, + "loss": 0.3802, + "step": 6220 + }, + { + "epoch": 16.613333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004999279219118352, + "loss": 0.3685, + "step": 6230 + }, + { + "epoch": 16.64, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999276700789999, + "loss": 0.3753, + "step": 6240 + }, + { + "epoch": 16.666666666666668, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004999274178070572, + "loss": 0.39, + "step": 6250 + }, + { + "epoch": 16.693333333333335, + "grad_norm": 0.1875, + "learning_rate": 0.0004999271650960074, + "loss": 0.3707, + "step": 6260 + }, + { + "epoch": 16.72, + "grad_norm": 0.19921875, + "learning_rate": 0.000499926911945851, + "loss": 0.3873, + "step": 6270 + }, + { + "epoch": 16.746666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0004999266583565886, + "loss": 0.3892, + "step": 6280 + }, + { + "epoch": 16.773333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004999264043282205, + "loss": 0.3995, + "step": 6290 + }, + { + "epoch": 16.8, + "grad_norm": 0.240234375, + "learning_rate": 0.0004999261498607471, + "loss": 0.3863, + "step": 6300 + }, + { + "epoch": 16.826666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.000499925894954169, + "loss": 0.3768, + "step": 6310 + }, + { + "epoch": 16.85333333333333, + "grad_norm": 0.48046875, + "learning_rate": 0.0004999256396084864, + "loss": 0.3802, + "step": 6320 + }, + { + "epoch": 16.88, + "grad_norm": 0.41796875, + "learning_rate": 0.0004999253838237001, + "loss": 0.3761, + "step": 6330 + }, + { + "epoch": 16.906666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0004999251275998102, + "loss": 0.381, + "step": 6340 + }, + { + "epoch": 16.933333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004999248709368175, + "loss": 0.3817, + "step": 6350 + }, + { + "epoch": 16.96, + "grad_norm": 0.19921875, + "learning_rate": 0.0004999246138347221, + "loss": 0.3785, + "step": 6360 + }, + { + "epoch": 16.986666666666668, + "grad_norm": 0.20703125, + "learning_rate": 0.0004999243562935246, + "loss": 0.3964, + "step": 6370 + }, + { + "epoch": 17.0, + "eval_loss": 0.42185091972351074, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5685, + "eval_samples_per_second": 1.273, + "eval_steps_per_second": 0.08, + "step": 6375 + }, + { + "epoch": 17.013333333333332, + "grad_norm": 0.220703125, + "learning_rate": 0.0004999240983132255, + "loss": 0.3828, + "step": 6380 + }, + { + "epoch": 17.04, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004999238398938253, + "loss": 0.4075, + "step": 6390 + }, + { + "epoch": 17.066666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004999235810353243, + "loss": 0.3922, + "step": 6400 + }, + { + "epoch": 17.093333333333334, + "grad_norm": 0.232421875, + "learning_rate": 0.000499923321737723, + "loss": 0.3904, + "step": 6410 + }, + { + "epoch": 17.12, + "grad_norm": 0.16796875, + "learning_rate": 0.000499923062001022, + "loss": 0.386, + "step": 6420 + }, + { + "epoch": 17.14666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0004999228018252216, + "loss": 0.3891, + "step": 6430 + }, + { + "epoch": 17.173333333333332, + "grad_norm": 0.20703125, + "learning_rate": 0.0004999225412103222, + "loss": 0.3853, + "step": 6440 + }, + { + "epoch": 17.2, + "grad_norm": 0.31640625, + "learning_rate": 0.0004999222801563244, + "loss": 0.3813, + "step": 6450 + }, + { + "epoch": 17.226666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004999220186632287, + "loss": 0.376, + "step": 6460 + }, + { + "epoch": 17.253333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999217567310354, + "loss": 0.377, + "step": 6470 + }, + { + "epoch": 17.28, + "grad_norm": 0.2041015625, + "learning_rate": 0.000499921494359745, + "loss": 0.3952, + "step": 6480 + }, + { + "epoch": 17.306666666666665, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004999212315493581, + "loss": 0.3749, + "step": 6490 + }, + { + "epoch": 17.333333333333332, + "grad_norm": 0.1923828125, + "learning_rate": 0.000499920968299875, + "loss": 0.3886, + "step": 6500 + }, + { + "epoch": 17.36, + "grad_norm": 0.197265625, + "learning_rate": 0.0004999207046112962, + "loss": 0.3839, + "step": 6510 + }, + { + "epoch": 17.386666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004999204404836222, + "loss": 0.3805, + "step": 6520 + }, + { + "epoch": 17.413333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004999201759168535, + "loss": 0.3852, + "step": 6530 + }, + { + "epoch": 17.44, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004999199109109904, + "loss": 0.3896, + "step": 6540 + }, + { + "epoch": 17.466666666666665, + "grad_norm": 0.21484375, + "learning_rate": 0.0004999196454660335, + "loss": 0.3966, + "step": 6550 + }, + { + "epoch": 17.493333333333332, + "grad_norm": 0.3671875, + "learning_rate": 0.0004999193795819833, + "loss": 0.3851, + "step": 6560 + }, + { + "epoch": 17.52, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999191132588402, + "loss": 0.3859, + "step": 6570 + }, + { + "epoch": 17.546666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004999188464966047, + "loss": 0.3794, + "step": 6580 + }, + { + "epoch": 17.573333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004999185792952771, + "loss": 0.3813, + "step": 6590 + }, + { + "epoch": 17.6, + "grad_norm": 0.236328125, + "learning_rate": 0.0004999183116548582, + "loss": 0.3722, + "step": 6600 + }, + { + "epoch": 17.626666666666665, + "grad_norm": 0.21875, + "learning_rate": 0.0004999180435753482, + "loss": 0.3674, + "step": 6610 + }, + { + "epoch": 17.653333333333332, + "grad_norm": 0.162109375, + "learning_rate": 0.0004999177750567476, + "loss": 0.3832, + "step": 6620 + }, + { + "epoch": 17.68, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004999175060990571, + "loss": 0.3741, + "step": 6630 + }, + { + "epoch": 17.706666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004999172367022768, + "loss": 0.373, + "step": 6640 + }, + { + "epoch": 17.733333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004999169668664076, + "loss": 0.392, + "step": 6650 + }, + { + "epoch": 17.76, + "grad_norm": 0.3828125, + "learning_rate": 0.0004999166965914496, + "loss": 0.3921, + "step": 6660 + }, + { + "epoch": 17.786666666666665, + "grad_norm": 0.318359375, + "learning_rate": 0.0004999164258774034, + "loss": 0.3918, + "step": 6670 + }, + { + "epoch": 17.813333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004999161547242695, + "loss": 0.3747, + "step": 6680 + }, + { + "epoch": 17.84, + "grad_norm": 0.203125, + "learning_rate": 0.0004999158831320484, + "loss": 0.3763, + "step": 6690 + }, + { + "epoch": 17.866666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004999156111007406, + "loss": 0.3754, + "step": 6700 + }, + { + "epoch": 17.893333333333334, + "grad_norm": 0.43359375, + "learning_rate": 0.0004999153386303465, + "loss": 0.3727, + "step": 6710 + }, + { + "epoch": 17.92, + "grad_norm": 0.25390625, + "learning_rate": 0.0004999150657208665, + "loss": 0.3817, + "step": 6720 + }, + { + "epoch": 17.946666666666665, + "grad_norm": 0.265625, + "learning_rate": 0.0004999147923723014, + "loss": 0.3778, + "step": 6730 + }, + { + "epoch": 17.973333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004999145185846514, + "loss": 0.3884, + "step": 6740 + }, + { + "epoch": 18.0, + "grad_norm": 0.2578125, + "learning_rate": 0.000499914244357917, + "loss": 0.3754, + "step": 6750 + }, + { + "epoch": 18.0, + "eval_loss": 0.41967928409576416, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8544, + "eval_samples_per_second": 1.474, + "eval_steps_per_second": 0.092, + "step": 6750 + }, + { + "epoch": 18.026666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004999139696920987, + "loss": 0.3973, + "step": 6760 + }, + { + "epoch": 18.053333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.000499913694587197, + "loss": 0.4016, + "step": 6770 + }, + { + "epoch": 18.08, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004999134190432125, + "loss": 0.3868, + "step": 6780 + }, + { + "epoch": 18.106666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004999131430601456, + "loss": 0.3847, + "step": 6790 + }, + { + "epoch": 18.133333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004999128666379968, + "loss": 0.3825, + "step": 6800 + }, + { + "epoch": 18.16, + "grad_norm": 0.26953125, + "learning_rate": 0.0004999125897767663, + "loss": 0.3868, + "step": 6810 + }, + { + "epoch": 18.186666666666667, + "grad_norm": 0.353515625, + "learning_rate": 0.0004999123124764551, + "loss": 0.3806, + "step": 6820 + }, + { + "epoch": 18.213333333333335, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004999120347370633, + "loss": 0.3719, + "step": 6830 + }, + { + "epoch": 18.24, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004999117565585915, + "loss": 0.3774, + "step": 6840 + }, + { + "epoch": 18.266666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999114779410403, + "loss": 0.3841, + "step": 6850 + }, + { + "epoch": 18.293333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.00049991119888441, + "loss": 0.3777, + "step": 6860 + }, + { + "epoch": 18.32, + "grad_norm": 0.1640625, + "learning_rate": 0.0004999109193887012, + "loss": 0.3817, + "step": 6870 + }, + { + "epoch": 18.346666666666668, + "grad_norm": 0.44921875, + "learning_rate": 0.0004999106394539144, + "loss": 0.3858, + "step": 6880 + }, + { + "epoch": 18.373333333333335, + "grad_norm": 0.380859375, + "learning_rate": 0.0004999103590800501, + "loss": 0.3792, + "step": 6890 + }, + { + "epoch": 18.4, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004999100782671087, + "loss": 0.3794, + "step": 6900 + }, + { + "epoch": 18.426666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004999097970150908, + "loss": 0.3836, + "step": 6910 + }, + { + "epoch": 18.453333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004999095153239969, + "loss": 0.3924, + "step": 6920 + }, + { + "epoch": 18.48, + "grad_norm": 0.234375, + "learning_rate": 0.0004999092331938273, + "loss": 0.3904, + "step": 6930 + }, + { + "epoch": 18.506666666666668, + "grad_norm": 0.21484375, + "learning_rate": 0.0004999089506245827, + "loss": 0.3835, + "step": 6940 + }, + { + "epoch": 18.533333333333335, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004999086676162636, + "loss": 0.3785, + "step": 6950 + }, + { + "epoch": 18.56, + "grad_norm": 0.1953125, + "learning_rate": 0.0004999083841688703, + "loss": 0.3772, + "step": 6960 + }, + { + "epoch": 18.586666666666666, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004999081002824034, + "loss": 0.3757, + "step": 6970 + }, + { + "epoch": 18.613333333333333, + "grad_norm": 0.154296875, + "learning_rate": 0.0004999078159568636, + "loss": 0.3639, + "step": 6980 + }, + { + "epoch": 18.64, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004999075311922512, + "loss": 0.3703, + "step": 6990 + }, + { + "epoch": 18.666666666666668, + "grad_norm": 0.212890625, + "learning_rate": 0.0004999072459885666, + "loss": 0.3843, + "step": 7000 + }, + { + "epoch": 18.693333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.0004999069603458105, + "loss": 0.3657, + "step": 7010 + }, + { + "epoch": 18.72, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004999066742639832, + "loss": 0.3827, + "step": 7020 + }, + { + "epoch": 18.746666666666666, + "grad_norm": 0.419921875, + "learning_rate": 0.0004999063877430856, + "loss": 0.3839, + "step": 7030 + }, + { + "epoch": 18.773333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999061007831178, + "loss": 0.3941, + "step": 7040 + }, + { + "epoch": 18.8, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004999058133840804, + "loss": 0.3813, + "step": 7050 + }, + { + "epoch": 18.826666666666668, + "grad_norm": 0.2431640625, + "learning_rate": 0.000499905525545974, + "loss": 0.3711, + "step": 7060 + }, + { + "epoch": 18.85333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.000499905237268799, + "loss": 0.3752, + "step": 7070 + }, + { + "epoch": 18.88, + "grad_norm": 0.259765625, + "learning_rate": 0.000499904948552556, + "loss": 0.371, + "step": 7080 + }, + { + "epoch": 18.906666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004999046593972455, + "loss": 0.3759, + "step": 7090 + }, + { + "epoch": 18.933333333333334, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004999043698028678, + "loss": 0.3766, + "step": 7100 + }, + { + "epoch": 18.96, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004999040797694237, + "loss": 0.3734, + "step": 7110 + }, + { + "epoch": 18.986666666666668, + "grad_norm": 0.2578125, + "learning_rate": 0.0004999037892969136, + "loss": 0.3905, + "step": 7120 + }, + { + "epoch": 19.0, + "eval_loss": 0.4191161096096039, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9577, + "eval_samples_per_second": 1.338, + "eval_steps_per_second": 0.084, + "step": 7125 + }, + { + "epoch": 19.013333333333332, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004999034983853381, + "loss": 0.3779, + "step": 7130 + }, + { + "epoch": 19.04, + "grad_norm": 0.197265625, + "learning_rate": 0.0004999032070346974, + "loss": 0.4022, + "step": 7140 + }, + { + "epoch": 19.066666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004999029152449924, + "loss": 0.3876, + "step": 7150 + }, + { + "epoch": 19.093333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004999026230162233, + "loss": 0.3847, + "step": 7160 + }, + { + "epoch": 19.12, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004999023303483909, + "loss": 0.3803, + "step": 7170 + }, + { + "epoch": 19.14666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0004999020372414955, + "loss": 0.3837, + "step": 7180 + }, + { + "epoch": 19.173333333333332, + "grad_norm": 0.2421875, + "learning_rate": 0.0004999017436955376, + "loss": 0.3798, + "step": 7190 + }, + { + "epoch": 19.2, + "grad_norm": 0.21875, + "learning_rate": 0.0004999014497105179, + "loss": 0.3756, + "step": 7200 + }, + { + "epoch": 19.226666666666667, + "grad_norm": 0.29296875, + "learning_rate": 0.0004999011552864367, + "loss": 0.371, + "step": 7210 + }, + { + "epoch": 19.253333333333334, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004999008604232947, + "loss": 0.3712, + "step": 7220 + }, + { + "epoch": 19.28, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004999005651210923, + "loss": 0.3895, + "step": 7230 + }, + { + "epoch": 19.306666666666665, + "grad_norm": 0.341796875, + "learning_rate": 0.0004999002693798301, + "loss": 0.3701, + "step": 7240 + }, + { + "epoch": 19.333333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004998999731995087, + "loss": 0.384, + "step": 7250 + }, + { + "epoch": 19.36, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998996765801283, + "loss": 0.3781, + "step": 7260 + }, + { + "epoch": 19.386666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004998993795216898, + "loss": 0.3757, + "step": 7270 + }, + { + "epoch": 19.413333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004998990820241935, + "loss": 0.3805, + "step": 7280 + }, + { + "epoch": 19.44, + "grad_norm": 0.27734375, + "learning_rate": 0.0004998987840876399, + "loss": 0.3847, + "step": 7290 + }, + { + "epoch": 19.466666666666665, + "grad_norm": 0.16015625, + "learning_rate": 0.0004998984857120297, + "loss": 0.3918, + "step": 7300 + }, + { + "epoch": 19.493333333333332, + "grad_norm": 0.337890625, + "learning_rate": 0.0004998981868973632, + "loss": 0.3796, + "step": 7310 + }, + { + "epoch": 19.52, + "grad_norm": 0.193359375, + "learning_rate": 0.0004998978876436411, + "loss": 0.3816, + "step": 7320 + }, + { + "epoch": 19.546666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004998975879508639, + "loss": 0.3739, + "step": 7330 + }, + { + "epoch": 19.573333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004998972878190321, + "loss": 0.3754, + "step": 7340 + }, + { + "epoch": 19.6, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004998969872481462, + "loss": 0.3673, + "step": 7350 + }, + { + "epoch": 19.626666666666665, + "grad_norm": 0.17578125, + "learning_rate": 0.0004998966862382067, + "loss": 0.3631, + "step": 7360 + }, + { + "epoch": 19.653333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004998963847892142, + "loss": 0.3784, + "step": 7370 + }, + { + "epoch": 19.68, + "grad_norm": 0.28515625, + "learning_rate": 0.0004998960829011693, + "loss": 0.3683, + "step": 7380 + }, + { + "epoch": 19.706666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004998957805740723, + "loss": 0.3676, + "step": 7390 + }, + { + "epoch": 19.733333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.000499895477807924, + "loss": 0.3874, + "step": 7400 + }, + { + "epoch": 19.76, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004998951746027247, + "loss": 0.3865, + "step": 7410 + }, + { + "epoch": 19.786666666666665, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004998948709584751, + "loss": 0.3871, + "step": 7420 + }, + { + "epoch": 19.813333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.0004998945668751757, + "loss": 0.3699, + "step": 7430 + }, + { + "epoch": 19.84, + "grad_norm": 0.30859375, + "learning_rate": 0.0004998942623528269, + "loss": 0.3714, + "step": 7440 + }, + { + "epoch": 19.866666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0004998939573914294, + "loss": 0.3707, + "step": 7450 + }, + { + "epoch": 19.893333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004998936519909837, + "loss": 0.3685, + "step": 7460 + }, + { + "epoch": 19.92, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004998933461514903, + "loss": 0.3766, + "step": 7470 + }, + { + "epoch": 19.946666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004998930398729497, + "loss": 0.3736, + "step": 7480 + }, + { + "epoch": 19.973333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004998927331553625, + "loss": 0.3829, + "step": 7490 + }, + { + "epoch": 20.0, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004998924259987293, + "loss": 0.3711, + "step": 7500 + }, + { + "epoch": 20.0, + "eval_loss": 0.4190915524959564, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.1866, + "eval_samples_per_second": 1.313, + "eval_steps_per_second": 0.082, + "step": 7500 + }, + { + "epoch": 20.026666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998921184030505, + "loss": 0.3922, + "step": 7510 + }, + { + "epoch": 20.053333333333335, + "grad_norm": 0.169921875, + "learning_rate": 0.0004998918103683267, + "loss": 0.3968, + "step": 7520 + }, + { + "epoch": 20.08, + "grad_norm": 0.255859375, + "learning_rate": 0.0004998915018945585, + "loss": 0.3824, + "step": 7530 + }, + { + "epoch": 20.106666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.0004998911929817464, + "loss": 0.3808, + "step": 7540 + }, + { + "epoch": 20.133333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998908836298908, + "loss": 0.3777, + "step": 7550 + }, + { + "epoch": 20.16, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004998905738389925, + "loss": 0.3816, + "step": 7560 + }, + { + "epoch": 20.186666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004998902636090519, + "loss": 0.3758, + "step": 7570 + }, + { + "epoch": 20.213333333333335, + "grad_norm": 0.3203125, + "learning_rate": 0.0004998899529400695, + "loss": 0.3664, + "step": 7580 + }, + { + "epoch": 20.24, + "grad_norm": 0.33203125, + "learning_rate": 0.000499889641832046, + "loss": 0.3724, + "step": 7590 + }, + { + "epoch": 20.266666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004998893302849819, + "loss": 0.3791, + "step": 7600 + }, + { + "epoch": 20.293333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998890182988776, + "loss": 0.3731, + "step": 7610 + }, + { + "epoch": 20.32, + "grad_norm": 0.240234375, + "learning_rate": 0.0004998887058737338, + "loss": 0.3765, + "step": 7620 + }, + { + "epoch": 20.346666666666668, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998883930095509, + "loss": 0.381, + "step": 7630 + }, + { + "epoch": 20.373333333333335, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004998880797063296, + "loss": 0.3742, + "step": 7640 + }, + { + "epoch": 20.4, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004998877659640705, + "loss": 0.3751, + "step": 7650 + }, + { + "epoch": 20.426666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004998874517827739, + "loss": 0.3785, + "step": 7660 + }, + { + "epoch": 20.453333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004998871371624407, + "loss": 0.3877, + "step": 7670 + }, + { + "epoch": 20.48, + "grad_norm": 0.291015625, + "learning_rate": 0.0004998868221030711, + "loss": 0.3863, + "step": 7680 + }, + { + "epoch": 20.506666666666668, + "grad_norm": 0.51953125, + "learning_rate": 0.0004998865066046658, + "loss": 0.3783, + "step": 7690 + }, + { + "epoch": 20.533333333333335, + "grad_norm": 0.375, + "learning_rate": 0.0004998861906672256, + "loss": 0.3733, + "step": 7700 + }, + { + "epoch": 20.56, + "grad_norm": 0.173828125, + "learning_rate": 0.0004998858742907505, + "loss": 0.3724, + "step": 7710 + }, + { + "epoch": 20.586666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004998855574752416, + "loss": 0.3716, + "step": 7720 + }, + { + "epoch": 20.613333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004998852402206991, + "loss": 0.3599, + "step": 7730 + }, + { + "epoch": 20.64, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998849225271237, + "loss": 0.3649, + "step": 7740 + }, + { + "epoch": 20.666666666666668, + "grad_norm": 0.2001953125, + "learning_rate": 0.000499884604394516, + "loss": 0.3804, + "step": 7750 + }, + { + "epoch": 20.693333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004998842858228766, + "loss": 0.3617, + "step": 7760 + }, + { + "epoch": 20.72, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004998839668122058, + "loss": 0.3773, + "step": 7770 + }, + { + "epoch": 20.746666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004998836473625043, + "loss": 0.3789, + "step": 7780 + }, + { + "epoch": 20.773333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004998833274737728, + "loss": 0.3901, + "step": 7790 + }, + { + "epoch": 20.8, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004998830071460118, + "loss": 0.3767, + "step": 7800 + }, + { + "epoch": 20.826666666666668, + "grad_norm": 0.208984375, + "learning_rate": 0.0004998826863792218, + "loss": 0.3661, + "step": 7810 + }, + { + "epoch": 20.85333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004998823651734033, + "loss": 0.3703, + "step": 7820 + }, + { + "epoch": 20.88, + "grad_norm": 0.1767578125, + "learning_rate": 0.000499882043528557, + "loss": 0.3665, + "step": 7830 + }, + { + "epoch": 20.906666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004998817214446834, + "loss": 0.3715, + "step": 7840 + }, + { + "epoch": 20.933333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.000499881398921783, + "loss": 0.3714, + "step": 7850 + }, + { + "epoch": 20.96, + "grad_norm": 0.216796875, + "learning_rate": 0.0004998810759598564, + "loss": 0.3689, + "step": 7860 + }, + { + "epoch": 20.986666666666668, + "grad_norm": 0.248046875, + "learning_rate": 0.0004998807525589044, + "loss": 0.3859, + "step": 7870 + }, + { + "epoch": 21.0, + "eval_loss": 0.4177466034889221, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.767, + "eval_samples_per_second": 1.253, + "eval_steps_per_second": 0.078, + "step": 7875 + }, + { + "epoch": 21.013333333333332, + "grad_norm": 0.298828125, + "learning_rate": 0.0004998804287189273, + "loss": 0.3736, + "step": 7880 + }, + { + "epoch": 21.04, + "grad_norm": 0.2421875, + "learning_rate": 0.0004998801044399256, + "loss": 0.398, + "step": 7890 + }, + { + "epoch": 21.066666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004998797797219002, + "loss": 0.3825, + "step": 7900 + }, + { + "epoch": 21.093333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0004998794545648514, + "loss": 0.3806, + "step": 7910 + }, + { + "epoch": 21.12, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004998791289687798, + "loss": 0.3765, + "step": 7920 + }, + { + "epoch": 21.14666666666667, + "grad_norm": 0.365234375, + "learning_rate": 0.0004998788029336862, + "loss": 0.3792, + "step": 7930 + }, + { + "epoch": 21.173333333333332, + "grad_norm": 0.23046875, + "learning_rate": 0.0004998784764595708, + "loss": 0.3759, + "step": 7940 + }, + { + "epoch": 21.2, + "grad_norm": 0.5234375, + "learning_rate": 0.0004998781495464345, + "loss": 0.371, + "step": 7950 + }, + { + "epoch": 21.226666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0004998778221942777, + "loss": 0.3659, + "step": 7960 + }, + { + "epoch": 21.253333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004998774944031011, + "loss": 0.3669, + "step": 7970 + }, + { + "epoch": 21.28, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004998771661729051, + "loss": 0.3853, + "step": 7980 + }, + { + "epoch": 21.306666666666665, + "grad_norm": 0.2421875, + "learning_rate": 0.0004998768375036904, + "loss": 0.3648, + "step": 7990 + }, + { + "epoch": 21.333333333333332, + "grad_norm": 0.263671875, + "learning_rate": 0.0004998765083954576, + "loss": 0.3802, + "step": 8000 + }, + { + "epoch": 21.36, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998761788482072, + "loss": 0.3729, + "step": 8010 + }, + { + "epoch": 21.386666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004998758488619398, + "loss": 0.3706, + "step": 8020 + }, + { + "epoch": 21.413333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.000499875518436656, + "loss": 0.3754, + "step": 8030 + }, + { + "epoch": 21.44, + "grad_norm": 0.447265625, + "learning_rate": 0.0004998751875723564, + "loss": 0.3799, + "step": 8040 + }, + { + "epoch": 21.466666666666665, + "grad_norm": 0.3515625, + "learning_rate": 0.0004998748562690415, + "loss": 0.3869, + "step": 8050 + }, + { + "epoch": 21.493333333333332, + "grad_norm": 0.263671875, + "learning_rate": 0.000499874524526712, + "loss": 0.3754, + "step": 8060 + }, + { + "epoch": 21.52, + "grad_norm": 0.18359375, + "learning_rate": 0.0004998741923453685, + "loss": 0.3777, + "step": 8070 + }, + { + "epoch": 21.546666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004998738597250113, + "loss": 0.3696, + "step": 8080 + }, + { + "epoch": 21.573333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.0004998735266656412, + "loss": 0.3715, + "step": 8090 + }, + { + "epoch": 21.6, + "grad_norm": 0.302734375, + "learning_rate": 0.0004998731931672588, + "loss": 0.3632, + "step": 8100 + }, + { + "epoch": 21.626666666666665, + "grad_norm": 0.61328125, + "learning_rate": 0.0004998728592298648, + "loss": 0.3598, + "step": 8110 + }, + { + "epoch": 21.653333333333332, + "grad_norm": 0.375, + "learning_rate": 0.0004998725248534595, + "loss": 0.3748, + "step": 8120 + }, + { + "epoch": 21.68, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004998721900380437, + "loss": 0.3638, + "step": 8130 + }, + { + "epoch": 21.706666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004998718547836178, + "loss": 0.364, + "step": 8140 + }, + { + "epoch": 21.733333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.0004998715190901827, + "loss": 0.383, + "step": 8150 + }, + { + "epoch": 21.76, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004998711829577387, + "loss": 0.3825, + "step": 8160 + }, + { + "epoch": 21.786666666666665, + "grad_norm": 0.185546875, + "learning_rate": 0.0004998708463862864, + "loss": 0.3826, + "step": 8170 + }, + { + "epoch": 21.813333333333333, + "grad_norm": 0.453125, + "learning_rate": 0.0004998705093758266, + "loss": 0.3665, + "step": 8180 + }, + { + "epoch": 21.84, + "grad_norm": 0.23828125, + "learning_rate": 0.0004998701719263598, + "loss": 0.3667, + "step": 8190 + }, + { + "epoch": 21.866666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004998698340378864, + "loss": 0.367, + "step": 8200 + }, + { + "epoch": 21.893333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.0004998694957104073, + "loss": 0.3644, + "step": 8210 + }, + { + "epoch": 21.92, + "grad_norm": 0.30859375, + "learning_rate": 0.0004998691569439229, + "loss": 0.3723, + "step": 8220 + }, + { + "epoch": 21.946666666666665, + "grad_norm": 0.232421875, + "learning_rate": 0.0004998688177384338, + "loss": 0.3684, + "step": 8230 + }, + { + "epoch": 21.973333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004998684780939407, + "loss": 0.379, + "step": 8240 + }, + { + "epoch": 22.0, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004998681380104442, + "loss": 0.3661, + "step": 8250 + }, + { + "epoch": 22.0, + "eval_loss": 0.41831234097480774, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5951, + "eval_samples_per_second": 1.27, + "eval_steps_per_second": 0.079, + "step": 8250 + }, + { + "epoch": 22.026666666666667, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004998677974879448, + "loss": 0.3882, + "step": 8260 + }, + { + "epoch": 22.053333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.000499867456526443, + "loss": 0.3933, + "step": 8270 + }, + { + "epoch": 22.08, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998671151259398, + "loss": 0.3777, + "step": 8280 + }, + { + "epoch": 22.106666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004998667732864353, + "loss": 0.377, + "step": 8290 + }, + { + "epoch": 22.133333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004998664310079305, + "loss": 0.3734, + "step": 8300 + }, + { + "epoch": 22.16, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004998660882904257, + "loss": 0.3783, + "step": 8310 + }, + { + "epoch": 22.186666666666667, + "grad_norm": 0.41796875, + "learning_rate": 0.0004998657451339217, + "loss": 0.3717, + "step": 8320 + }, + { + "epoch": 22.213333333333335, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998654015384191, + "loss": 0.3629, + "step": 8330 + }, + { + "epoch": 22.24, + "grad_norm": 2.53125, + "learning_rate": 0.0004998650575039183, + "loss": 0.3689, + "step": 8340 + }, + { + "epoch": 22.266666666666666, + "grad_norm": 1.90625, + "learning_rate": 0.0004998647130304201, + "loss": 0.3786, + "step": 8350 + }, + { + "epoch": 22.293333333333333, + "grad_norm": 1.1484375, + "learning_rate": 0.0004998643681179252, + "loss": 0.3701, + "step": 8360 + }, + { + "epoch": 22.32, + "grad_norm": 1.0078125, + "learning_rate": 0.000499864022766434, + "loss": 0.3741, + "step": 8370 + }, + { + "epoch": 22.346666666666668, + "grad_norm": 1.328125, + "learning_rate": 0.000499863676975947, + "loss": 0.3776, + "step": 8380 + }, + { + "epoch": 22.373333333333335, + "grad_norm": 1.453125, + "learning_rate": 0.0004998633307464652, + "loss": 0.3688, + "step": 8390 + }, + { + "epoch": 22.4, + "grad_norm": 1.4140625, + "learning_rate": 0.0004998629840779888, + "loss": 0.37, + "step": 8400 + }, + { + "epoch": 22.426666666666666, + "grad_norm": 1.4609375, + "learning_rate": 0.0004998626369705187, + "loss": 0.3736, + "step": 8410 + }, + { + "epoch": 22.453333333333333, + "grad_norm": 1.390625, + "learning_rate": 0.0004998622894240554, + "loss": 0.3818, + "step": 8420 + }, + { + "epoch": 22.48, + "grad_norm": 1.4921875, + "learning_rate": 0.0004998619414385995, + "loss": 0.3806, + "step": 8430 + }, + { + "epoch": 22.506666666666668, + "grad_norm": 1.0, + "learning_rate": 0.0004998615930141516, + "loss": 0.3739, + "step": 8440 + }, + { + "epoch": 22.533333333333335, + "grad_norm": 1.03125, + "learning_rate": 0.0004998612441507123, + "loss": 0.368, + "step": 8450 + }, + { + "epoch": 22.56, + "grad_norm": 1.421875, + "learning_rate": 0.0004998608948482824, + "loss": 0.3668, + "step": 8460 + }, + { + "epoch": 22.586666666666666, + "grad_norm": 1.59375, + "learning_rate": 0.0004998605451068622, + "loss": 0.3664, + "step": 8470 + }, + { + "epoch": 22.613333333333333, + "grad_norm": 1.5859375, + "learning_rate": 0.0004998601949264526, + "loss": 0.355, + "step": 8480 + }, + { + "epoch": 22.64, + "grad_norm": 0.6953125, + "learning_rate": 0.000499859844307054, + "loss": 0.3635, + "step": 8490 + }, + { + "epoch": 22.666666666666668, + "grad_norm": 0.6015625, + "learning_rate": 0.0004998594932486671, + "loss": 0.3749, + "step": 8500 + }, + { + "epoch": 22.693333333333335, + "grad_norm": 0.3203125, + "learning_rate": 0.0004998591417512926, + "loss": 0.3552, + "step": 8510 + }, + { + "epoch": 22.72, + "grad_norm": 0.34375, + "learning_rate": 0.0004998587898149311, + "loss": 0.3714, + "step": 8520 + }, + { + "epoch": 22.746666666666666, + "grad_norm": 0.38671875, + "learning_rate": 0.0004998584374395831, + "loss": 0.3736, + "step": 8530 + }, + { + "epoch": 22.773333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004998580846252491, + "loss": 0.3846, + "step": 8540 + }, + { + "epoch": 22.8, + "grad_norm": 0.1796875, + "learning_rate": 0.0004998577313719302, + "loss": 0.3708, + "step": 8550 + }, + { + "epoch": 22.826666666666668, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004998573776796265, + "loss": 0.3603, + "step": 8560 + }, + { + "epoch": 22.85333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.000499857023548339, + "loss": 0.3645, + "step": 8570 + }, + { + "epoch": 22.88, + "grad_norm": 0.18359375, + "learning_rate": 0.0004998566689780681, + "loss": 0.3615, + "step": 8580 + }, + { + "epoch": 22.906666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004998563139688145, + "loss": 0.3657, + "step": 8590 + }, + { + "epoch": 22.933333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004998559585205788, + "loss": 0.3665, + "step": 8600 + }, + { + "epoch": 22.96, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004998556026333616, + "loss": 0.3636, + "step": 8610 + }, + { + "epoch": 22.986666666666668, + "grad_norm": 0.224609375, + "learning_rate": 0.0004998552463071636, + "loss": 0.3803, + "step": 8620 + }, + { + "epoch": 23.0, + "eval_loss": 0.4175701141357422, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6359, + "eval_samples_per_second": 1.375, + "eval_steps_per_second": 0.086, + "step": 8625 + }, + { + "epoch": 23.013333333333332, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998548895419853, + "loss": 0.3677, + "step": 8630 + }, + { + "epoch": 23.04, + "grad_norm": 0.275390625, + "learning_rate": 0.0004998545323378276, + "loss": 0.3934, + "step": 8640 + }, + { + "epoch": 23.066666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998541746946908, + "loss": 0.3781, + "step": 8650 + }, + { + "epoch": 23.093333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004998538166125757, + "loss": 0.3764, + "step": 8660 + }, + { + "epoch": 23.12, + "grad_norm": 0.193359375, + "learning_rate": 0.0004998534580914829, + "loss": 0.3713, + "step": 8670 + }, + { + "epoch": 23.14666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004998530991314131, + "loss": 0.3739, + "step": 8680 + }, + { + "epoch": 23.173333333333332, + "grad_norm": 0.212890625, + "learning_rate": 0.0004998527397323668, + "loss": 0.3709, + "step": 8690 + }, + { + "epoch": 23.2, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998523798943447, + "loss": 0.3667, + "step": 8700 + }, + { + "epoch": 23.226666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0004998520196173474, + "loss": 0.3622, + "step": 8710 + }, + { + "epoch": 23.253333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004998516589013756, + "loss": 0.3643, + "step": 8720 + }, + { + "epoch": 23.28, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004998512977464298, + "loss": 0.3827, + "step": 8730 + }, + { + "epoch": 23.306666666666665, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004998509361525108, + "loss": 0.3625, + "step": 8740 + }, + { + "epoch": 23.333333333333332, + "grad_norm": 0.263671875, + "learning_rate": 0.0004998505741196192, + "loss": 0.3766, + "step": 8750 + }, + { + "epoch": 23.36, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004998502116477556, + "loss": 0.3707, + "step": 8760 + }, + { + "epoch": 23.386666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004998498487369205, + "loss": 0.3681, + "step": 8770 + }, + { + "epoch": 23.413333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.0004998494853871147, + "loss": 0.3727, + "step": 8780 + }, + { + "epoch": 23.44, + "grad_norm": 0.193359375, + "learning_rate": 0.000499849121598339, + "loss": 0.3776, + "step": 8790 + }, + { + "epoch": 23.466666666666665, + "grad_norm": 0.19140625, + "learning_rate": 0.0004998487573705937, + "loss": 0.3829, + "step": 8800 + }, + { + "epoch": 23.493333333333332, + "grad_norm": 0.208984375, + "learning_rate": 0.0004998483927038795, + "loss": 0.3721, + "step": 8810 + }, + { + "epoch": 23.52, + "grad_norm": 0.19140625, + "learning_rate": 0.0004998480275981973, + "loss": 0.3733, + "step": 8820 + }, + { + "epoch": 23.546666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004998476620535475, + "loss": 0.3661, + "step": 8830 + }, + { + "epoch": 23.573333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004998472960699307, + "loss": 0.3674, + "step": 8840 + }, + { + "epoch": 23.6, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004998469296473479, + "loss": 0.3595, + "step": 8850 + }, + { + "epoch": 23.626666666666665, + "grad_norm": 0.181640625, + "learning_rate": 0.0004998465627857993, + "loss": 0.3562, + "step": 8860 + }, + { + "epoch": 23.653333333333332, + "grad_norm": 0.16015625, + "learning_rate": 0.0004998461954852858, + "loss": 0.3709, + "step": 8870 + }, + { + "epoch": 23.68, + "grad_norm": 0.1826171875, + "learning_rate": 0.000499845827745808, + "loss": 0.3599, + "step": 8880 + }, + { + "epoch": 23.706666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004998454595673666, + "loss": 0.3604, + "step": 8890 + }, + { + "epoch": 23.733333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004998450909499621, + "loss": 0.3787, + "step": 8900 + }, + { + "epoch": 23.76, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004998447218935953, + "loss": 0.3787, + "step": 8910 + }, + { + "epoch": 23.786666666666665, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004998443523982666, + "loss": 0.3788, + "step": 8920 + }, + { + "epoch": 23.813333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.000499843982463977, + "loss": 0.3611, + "step": 8930 + }, + { + "epoch": 23.84, + "grad_norm": 0.2255859375, + "learning_rate": 0.000499843612090727, + "loss": 0.3623, + "step": 8940 + }, + { + "epoch": 23.866666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998432412785171, + "loss": 0.3623, + "step": 8950 + }, + { + "epoch": 23.893333333333334, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004998428700273481, + "loss": 0.3606, + "step": 8960 + }, + { + "epoch": 23.92, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998424983372207, + "loss": 0.367, + "step": 8970 + }, + { + "epoch": 23.946666666666665, + "grad_norm": 0.185546875, + "learning_rate": 0.0004998421262081355, + "loss": 0.364, + "step": 8980 + }, + { + "epoch": 23.973333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004998417536400931, + "loss": 0.3752, + "step": 8990 + }, + { + "epoch": 24.0, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004998413806330943, + "loss": 0.3626, + "step": 9000 + }, + { + "epoch": 24.0, + "eval_loss": 0.41412800550460815, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8414, + "eval_samples_per_second": 1.476, + "eval_steps_per_second": 0.092, + "step": 9000 + }, + { + "epoch": 24.026666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004998410071871394, + "loss": 0.3841, + "step": 9010 + }, + { + "epoch": 24.053333333333335, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004998406333022295, + "loss": 0.3891, + "step": 9020 + }, + { + "epoch": 24.08, + "grad_norm": 0.2138671875, + "learning_rate": 0.000499840258978365, + "loss": 0.3745, + "step": 9030 + }, + { + "epoch": 24.106666666666666, + "grad_norm": 0.16796875, + "learning_rate": 0.0004998398842155467, + "loss": 0.3738, + "step": 9040 + }, + { + "epoch": 24.133333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0004998395090137751, + "loss": 0.3697, + "step": 9050 + }, + { + "epoch": 24.16, + "grad_norm": 0.1796875, + "learning_rate": 0.000499839133373051, + "loss": 0.3734, + "step": 9060 + }, + { + "epoch": 24.186666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004998387572933749, + "loss": 0.3676, + "step": 9070 + }, + { + "epoch": 24.213333333333335, + "grad_norm": 0.20703125, + "learning_rate": 0.0004998383807747476, + "loss": 0.3583, + "step": 9080 + }, + { + "epoch": 24.24, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004998380038171697, + "loss": 0.365, + "step": 9090 + }, + { + "epoch": 24.266666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004998376264206419, + "loss": 0.3725, + "step": 9100 + }, + { + "epoch": 24.293333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004998372485851649, + "loss": 0.3663, + "step": 9110 + }, + { + "epoch": 24.32, + "grad_norm": 0.2109375, + "learning_rate": 0.0004998368703107392, + "loss": 0.3706, + "step": 9120 + }, + { + "epoch": 24.346666666666668, + "grad_norm": 0.275390625, + "learning_rate": 0.0004998364915973657, + "loss": 0.3741, + "step": 9130 + }, + { + "epoch": 24.373333333333335, + "grad_norm": 0.19140625, + "learning_rate": 0.0004998361124450448, + "loss": 0.3659, + "step": 9140 + }, + { + "epoch": 24.4, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998357328537775, + "loss": 0.3668, + "step": 9150 + }, + { + "epoch": 24.426666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004998353528235641, + "loss": 0.371, + "step": 9160 + }, + { + "epoch": 24.453333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004998349723544054, + "loss": 0.3798, + "step": 9170 + }, + { + "epoch": 24.48, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004998345914463023, + "loss": 0.3783, + "step": 9180 + }, + { + "epoch": 24.506666666666668, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004998342100992552, + "loss": 0.3717, + "step": 9190 + }, + { + "epoch": 24.533333333333335, + "grad_norm": 0.19140625, + "learning_rate": 0.0004998338283132647, + "loss": 0.366, + "step": 9200 + }, + { + "epoch": 24.56, + "grad_norm": 0.18359375, + "learning_rate": 0.0004998334460883318, + "loss": 0.3649, + "step": 9210 + }, + { + "epoch": 24.586666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004998330634244569, + "loss": 0.3645, + "step": 9220 + }, + { + "epoch": 24.613333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0004998326803216409, + "loss": 0.3529, + "step": 9230 + }, + { + "epoch": 24.64, + "grad_norm": 0.2578125, + "learning_rate": 0.0004998322967798842, + "loss": 0.3592, + "step": 9240 + }, + { + "epoch": 24.666666666666668, + "grad_norm": 0.3984375, + "learning_rate": 0.0004998319127991876, + "loss": 0.3739, + "step": 9250 + }, + { + "epoch": 24.693333333333335, + "grad_norm": 0.314453125, + "learning_rate": 0.0004998315283795518, + "loss": 0.3539, + "step": 9260 + }, + { + "epoch": 24.72, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004998311435209775, + "loss": 0.3696, + "step": 9270 + }, + { + "epoch": 24.746666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004998307582234653, + "loss": 0.3717, + "step": 9280 + }, + { + "epoch": 24.773333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998303724870159, + "loss": 0.3827, + "step": 9290 + }, + { + "epoch": 24.8, + "grad_norm": 0.1884765625, + "learning_rate": 0.00049982998631163, + "loss": 0.3691, + "step": 9300 + }, + { + "epoch": 24.826666666666668, + "grad_norm": 0.365234375, + "learning_rate": 0.0004998295996973083, + "loss": 0.3584, + "step": 9310 + }, + { + "epoch": 24.85333333333333, + "grad_norm": 0.609375, + "learning_rate": 0.0004998292126440515, + "loss": 0.3624, + "step": 9320 + }, + { + "epoch": 24.88, + "grad_norm": 0.5546875, + "learning_rate": 0.0004998288251518602, + "loss": 0.3588, + "step": 9330 + }, + { + "epoch": 24.906666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.000499828437220735, + "loss": 0.363, + "step": 9340 + }, + { + "epoch": 24.933333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998280488506768, + "loss": 0.3634, + "step": 9350 + }, + { + "epoch": 24.96, + "grad_norm": 0.1728515625, + "learning_rate": 0.000499827660041686, + "loss": 0.3608, + "step": 9360 + }, + { + "epoch": 24.986666666666668, + "grad_norm": 0.236328125, + "learning_rate": 0.0004998272707937637, + "loss": 0.3782, + "step": 9370 + }, + { + "epoch": 25.0, + "eval_loss": 0.4149629771709442, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0913, + "eval_samples_per_second": 1.443, + "eval_steps_per_second": 0.09, + "step": 9375 + }, + { + "epoch": 25.013333333333332, + "grad_norm": 0.283203125, + "learning_rate": 0.0004998268811069102, + "loss": 0.3653, + "step": 9380 + }, + { + "epoch": 25.04, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004998264909811263, + "loss": 0.3912, + "step": 9390 + }, + { + "epoch": 25.066666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004998261004164128, + "loss": 0.3758, + "step": 9400 + }, + { + "epoch": 25.093333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004998257094127702, + "loss": 0.3746, + "step": 9410 + }, + { + "epoch": 25.12, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004998253179701994, + "loss": 0.3687, + "step": 9420 + }, + { + "epoch": 25.14666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004998249260887009, + "loss": 0.3708, + "step": 9430 + }, + { + "epoch": 25.173333333333332, + "grad_norm": 0.279296875, + "learning_rate": 0.0004998245337682754, + "loss": 0.3691, + "step": 9440 + }, + { + "epoch": 25.2, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004998241410089238, + "loss": 0.3639, + "step": 9450 + }, + { + "epoch": 25.226666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0004998237478106466, + "loss": 0.3585, + "step": 9460 + }, + { + "epoch": 25.253333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004998233541734444, + "loss": 0.3598, + "step": 9470 + }, + { + "epoch": 25.28, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004998229600973181, + "loss": 0.3786, + "step": 9480 + }, + { + "epoch": 25.306666666666665, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998225655822683, + "loss": 0.3576, + "step": 9490 + }, + { + "epoch": 25.333333333333332, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998221706282957, + "loss": 0.3736, + "step": 9500 + }, + { + "epoch": 25.36, + "grad_norm": 0.193359375, + "learning_rate": 0.0004998217752354011, + "loss": 0.3667, + "step": 9510 + }, + { + "epoch": 25.386666666666667, + "grad_norm": 0.328125, + "learning_rate": 0.000499821379403585, + "loss": 0.3635, + "step": 9520 + }, + { + "epoch": 25.413333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004998209831328481, + "loss": 0.3687, + "step": 9530 + }, + { + "epoch": 25.44, + "grad_norm": 0.33984375, + "learning_rate": 0.0004998205864231914, + "loss": 0.3735, + "step": 9540 + }, + { + "epoch": 25.466666666666665, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004998201892746153, + "loss": 0.3797, + "step": 9550 + }, + { + "epoch": 25.493333333333332, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004998197916871205, + "loss": 0.3682, + "step": 9560 + }, + { + "epoch": 25.52, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004998193936607079, + "loss": 0.3704, + "step": 9570 + }, + { + "epoch": 25.546666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004998189951953779, + "loss": 0.3621, + "step": 9580 + }, + { + "epoch": 25.573333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004998185962911316, + "loss": 0.3643, + "step": 9590 + }, + { + "epoch": 25.6, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998181969479693, + "loss": 0.3557, + "step": 9600 + }, + { + "epoch": 25.626666666666665, + "grad_norm": 0.171875, + "learning_rate": 0.000499817797165892, + "loss": 0.3532, + "step": 9610 + }, + { + "epoch": 25.653333333333332, + "grad_norm": 0.251953125, + "learning_rate": 0.0004998173969449002, + "loss": 0.3683, + "step": 9620 + }, + { + "epoch": 25.68, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004998169962849948, + "loss": 0.3569, + "step": 9630 + }, + { + "epoch": 25.706666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004998165951861762, + "loss": 0.3571, + "step": 9640 + }, + { + "epoch": 25.733333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998161936484454, + "loss": 0.3752, + "step": 9650 + }, + { + "epoch": 25.76, + "grad_norm": 0.263671875, + "learning_rate": 0.000499815791671803, + "loss": 0.3759, + "step": 9660 + }, + { + "epoch": 25.786666666666665, + "grad_norm": 0.390625, + "learning_rate": 0.0004998153892562498, + "loss": 0.3752, + "step": 9670 + }, + { + "epoch": 25.813333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004998149864017863, + "loss": 0.3582, + "step": 9680 + }, + { + "epoch": 25.84, + "grad_norm": 0.353515625, + "learning_rate": 0.0004998145831084133, + "loss": 0.3585, + "step": 9690 + }, + { + "epoch": 25.866666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0004998141793761316, + "loss": 0.3595, + "step": 9700 + }, + { + "epoch": 25.893333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004998137752049419, + "loss": 0.3572, + "step": 9710 + }, + { + "epoch": 25.92, + "grad_norm": 0.197265625, + "learning_rate": 0.0004998133705948447, + "loss": 0.3635, + "step": 9720 + }, + { + "epoch": 25.946666666666665, + "grad_norm": 0.240234375, + "learning_rate": 0.000499812965545841, + "loss": 0.3615, + "step": 9730 + }, + { + "epoch": 25.973333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004998125600579313, + "loss": 0.3718, + "step": 9740 + }, + { + "epoch": 26.0, + "grad_norm": 0.294921875, + "learning_rate": 0.0004998121541311164, + "loss": 0.359, + "step": 9750 + }, + { + "epoch": 26.0, + "eval_loss": 0.4148820638656616, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5592, + "eval_samples_per_second": 1.515, + "eval_steps_per_second": 0.095, + "step": 9750 + }, + { + "epoch": 26.026666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.000499811747765397, + "loss": 0.3804, + "step": 9760 + }, + { + "epoch": 26.053333333333335, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004998113409607738, + "loss": 0.3861, + "step": 9770 + }, + { + "epoch": 26.08, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004998109337172475, + "loss": 0.3709, + "step": 9780 + }, + { + "epoch": 26.106666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.000499810526034819, + "loss": 0.3705, + "step": 9790 + }, + { + "epoch": 26.133333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004998101179134886, + "loss": 0.3664, + "step": 9800 + }, + { + "epoch": 26.16, + "grad_norm": 0.3203125, + "learning_rate": 0.0004998097093532574, + "loss": 0.3714, + "step": 9810 + }, + { + "epoch": 26.186666666666667, + "grad_norm": 0.5234375, + "learning_rate": 0.000499809300354126, + "loss": 0.3649, + "step": 9820 + }, + { + "epoch": 26.213333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.0004998088909160952, + "loss": 0.3551, + "step": 9830 + }, + { + "epoch": 26.24, + "grad_norm": 0.189453125, + "learning_rate": 0.0004998084810391656, + "loss": 0.3608, + "step": 9840 + }, + { + "epoch": 26.266666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004998080707233378, + "loss": 0.3681, + "step": 9850 + }, + { + "epoch": 26.293333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004998076599686128, + "loss": 0.3622, + "step": 9860 + }, + { + "epoch": 26.32, + "grad_norm": 0.2578125, + "learning_rate": 0.0004998072487749912, + "loss": 0.3669, + "step": 9870 + }, + { + "epoch": 26.346666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.0004998068371424736, + "loss": 0.37, + "step": 9880 + }, + { + "epoch": 26.373333333333335, + "grad_norm": 0.6484375, + "learning_rate": 0.000499806425071061, + "loss": 0.3618, + "step": 9890 + }, + { + "epoch": 26.4, + "grad_norm": 0.30859375, + "learning_rate": 0.0004998060125607539, + "loss": 0.3637, + "step": 9900 + }, + { + "epoch": 26.426666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.000499805599611553, + "loss": 0.368, + "step": 9910 + }, + { + "epoch": 26.453333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004998051862234593, + "loss": 0.3766, + "step": 9920 + }, + { + "epoch": 26.48, + "grad_norm": 0.4140625, + "learning_rate": 0.0004998047723964731, + "loss": 0.3748, + "step": 9930 + }, + { + "epoch": 26.506666666666668, + "grad_norm": 0.4609375, + "learning_rate": 0.0004998043581305956, + "loss": 0.3682, + "step": 9940 + }, + { + "epoch": 26.533333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.0004998039434258271, + "loss": 0.3625, + "step": 9950 + }, + { + "epoch": 26.56, + "grad_norm": 0.244140625, + "learning_rate": 0.0004998035282821687, + "loss": 0.3618, + "step": 9960 + }, + { + "epoch": 26.586666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004998031126996208, + "loss": 0.3608, + "step": 9970 + }, + { + "epoch": 26.613333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004998026966781844, + "loss": 0.3496, + "step": 9980 + }, + { + "epoch": 26.64, + "grad_norm": 0.203125, + "learning_rate": 0.00049980228021786, + "loss": 0.3551, + "step": 9990 + }, + { + "epoch": 26.666666666666668, + "grad_norm": 0.208984375, + "learning_rate": 0.0004998018633186486, + "loss": 0.3695, + "step": 10000 + }, + { + "epoch": 26.693333333333335, + "grad_norm": 0.154296875, + "learning_rate": 0.0004998014459805507, + "loss": 0.3495, + "step": 10010 + }, + { + "epoch": 26.72, + "grad_norm": 0.205078125, + "learning_rate": 0.0004998010282035671, + "loss": 0.3668, + "step": 10020 + }, + { + "epoch": 26.746666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004998006099876985, + "loss": 0.3681, + "step": 10030 + }, + { + "epoch": 26.773333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004998001913329457, + "loss": 0.38, + "step": 10040 + }, + { + "epoch": 26.8, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004997997722393095, + "loss": 0.3655, + "step": 10050 + }, + { + "epoch": 26.826666666666668, + "grad_norm": 0.30078125, + "learning_rate": 0.0004997993527067905, + "loss": 0.3552, + "step": 10060 + }, + { + "epoch": 26.85333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0004997989327353894, + "loss": 0.3579, + "step": 10070 + }, + { + "epoch": 26.88, + "grad_norm": 0.443359375, + "learning_rate": 0.0004997985123251072, + "loss": 0.3558, + "step": 10080 + }, + { + "epoch": 26.906666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004997980914759444, + "loss": 0.36, + "step": 10090 + }, + { + "epoch": 26.933333333333334, + "grad_norm": 0.158203125, + "learning_rate": 0.0004997976701879018, + "loss": 0.3604, + "step": 10100 + }, + { + "epoch": 26.96, + "grad_norm": 0.30078125, + "learning_rate": 0.0004997972484609802, + "loss": 0.3584, + "step": 10110 + }, + { + "epoch": 26.986666666666668, + "grad_norm": 0.30859375, + "learning_rate": 0.0004997968262951801, + "loss": 0.3739, + "step": 10120 + }, + { + "epoch": 27.0, + "eval_loss": 0.4139934778213501, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7838, + "eval_samples_per_second": 1.484, + "eval_steps_per_second": 0.093, + "step": 10125 + }, + { + "epoch": 27.013333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0004997964036905026, + "loss": 0.3626, + "step": 10130 + }, + { + "epoch": 27.04, + "grad_norm": 0.21875, + "learning_rate": 0.0004997959806469482, + "loss": 0.3874, + "step": 10140 + }, + { + "epoch": 27.066666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997955571645178, + "loss": 0.3725, + "step": 10150 + }, + { + "epoch": 27.093333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004997951332432119, + "loss": 0.3701, + "step": 10160 + }, + { + "epoch": 27.12, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004997947088830315, + "loss": 0.3657, + "step": 10170 + }, + { + "epoch": 27.14666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004997942840839773, + "loss": 0.3689, + "step": 10180 + }, + { + "epoch": 27.173333333333332, + "grad_norm": 0.259765625, + "learning_rate": 0.0004997938588460498, + "loss": 0.3659, + "step": 10190 + }, + { + "epoch": 27.2, + "grad_norm": 0.181640625, + "learning_rate": 0.0004997934331692501, + "loss": 0.3597, + "step": 10200 + }, + { + "epoch": 27.226666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004997930070535789, + "loss": 0.3554, + "step": 10210 + }, + { + "epoch": 27.253333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004997925804990367, + "loss": 0.3566, + "step": 10220 + }, + { + "epoch": 27.28, + "grad_norm": 0.236328125, + "learning_rate": 0.0004997921535056243, + "loss": 0.3749, + "step": 10230 + }, + { + "epoch": 27.306666666666665, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997917260733427, + "loss": 0.3551, + "step": 10240 + }, + { + "epoch": 27.333333333333332, + "grad_norm": 0.208984375, + "learning_rate": 0.0004997912982021924, + "loss": 0.3693, + "step": 10250 + }, + { + "epoch": 27.36, + "grad_norm": 0.232421875, + "learning_rate": 0.0004997908698921743, + "loss": 0.3629, + "step": 10260 + }, + { + "epoch": 27.386666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0004997904411432891, + "loss": 0.3599, + "step": 10270 + }, + { + "epoch": 27.413333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004997900119555374, + "loss": 0.3657, + "step": 10280 + }, + { + "epoch": 27.44, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004997895823289203, + "loss": 0.3703, + "step": 10290 + }, + { + "epoch": 27.466666666666665, + "grad_norm": 0.193359375, + "learning_rate": 0.0004997891522634382, + "loss": 0.3767, + "step": 10300 + }, + { + "epoch": 27.493333333333332, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004997887217590921, + "loss": 0.3648, + "step": 10310 + }, + { + "epoch": 27.52, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004997882908158827, + "loss": 0.3671, + "step": 10320 + }, + { + "epoch": 27.546666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004997878594338107, + "loss": 0.3592, + "step": 10330 + }, + { + "epoch": 27.573333333333334, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004997874276128768, + "loss": 0.3612, + "step": 10340 + }, + { + "epoch": 27.6, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004997869953530819, + "loss": 0.353, + "step": 10350 + }, + { + "epoch": 27.626666666666665, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004997865626544266, + "loss": 0.3497, + "step": 10360 + }, + { + "epoch": 27.653333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.000499786129516912, + "loss": 0.3649, + "step": 10370 + }, + { + "epoch": 27.68, + "grad_norm": 0.255859375, + "learning_rate": 0.0004997856959405384, + "loss": 0.3534, + "step": 10380 + }, + { + "epoch": 27.706666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004997852619253068, + "loss": 0.354, + "step": 10390 + }, + { + "epoch": 27.733333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.000499784827471218, + "loss": 0.3717, + "step": 10400 + }, + { + "epoch": 27.76, + "grad_norm": 0.291015625, + "learning_rate": 0.0004997843925782728, + "loss": 0.3729, + "step": 10410 + }, + { + "epoch": 27.786666666666665, + "grad_norm": 0.228515625, + "learning_rate": 0.0004997839572464717, + "loss": 0.3725, + "step": 10420 + }, + { + "epoch": 27.813333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004997835214758157, + "loss": 0.3549, + "step": 10430 + }, + { + "epoch": 27.84, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004997830852663056, + "loss": 0.3555, + "step": 10440 + }, + { + "epoch": 27.866666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.000499782648617942, + "loss": 0.3555, + "step": 10450 + }, + { + "epoch": 27.893333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0004997822115307257, + "loss": 0.3539, + "step": 10460 + }, + { + "epoch": 27.92, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997817740046576, + "loss": 0.3604, + "step": 10470 + }, + { + "epoch": 27.946666666666665, + "grad_norm": 0.24609375, + "learning_rate": 0.0004997813360397383, + "loss": 0.3579, + "step": 10480 + }, + { + "epoch": 27.973333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004997808976359687, + "loss": 0.368, + "step": 10490 + }, + { + "epoch": 28.0, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997804587933495, + "loss": 0.3557, + "step": 10500 + }, + { + "epoch": 28.0, + "eval_loss": 0.4157242476940155, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4797, + "eval_samples_per_second": 1.527, + "eval_steps_per_second": 0.095, + "step": 10500 + }, + { + "epoch": 28.026666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004997800195118814, + "loss": 0.3777, + "step": 10510 + }, + { + "epoch": 28.053333333333335, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004997795797915653, + "loss": 0.3831, + "step": 10520 + }, + { + "epoch": 28.08, + "grad_norm": 0.287109375, + "learning_rate": 0.000499779139632402, + "loss": 0.3687, + "step": 10530 + }, + { + "epoch": 28.106666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0004997786990343921, + "loss": 0.3681, + "step": 10540 + }, + { + "epoch": 28.133333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004997782579975365, + "loss": 0.3631, + "step": 10550 + }, + { + "epoch": 28.16, + "grad_norm": 0.1865234375, + "learning_rate": 0.000499777816521836, + "loss": 0.3677, + "step": 10560 + }, + { + "epoch": 28.186666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004997773746072913, + "loss": 0.3609, + "step": 10570 + }, + { + "epoch": 28.213333333333335, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004997769322539032, + "loss": 0.3518, + "step": 10580 + }, + { + "epoch": 28.24, + "grad_norm": 0.255859375, + "learning_rate": 0.0004997764894616725, + "loss": 0.3573, + "step": 10590 + }, + { + "epoch": 28.266666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004997760462305999, + "loss": 0.3638, + "step": 10600 + }, + { + "epoch": 28.293333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004997756025606863, + "loss": 0.3586, + "step": 10610 + }, + { + "epoch": 28.32, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997751584519324, + "loss": 0.3635, + "step": 10620 + }, + { + "epoch": 28.346666666666668, + "grad_norm": 0.302734375, + "learning_rate": 0.000499774713904339, + "loss": 0.3666, + "step": 10630 + }, + { + "epoch": 28.373333333333335, + "grad_norm": 0.2060546875, + "learning_rate": 0.000499774268917907, + "loss": 0.3592, + "step": 10640 + }, + { + "epoch": 28.4, + "grad_norm": 0.2578125, + "learning_rate": 0.0004997738234926369, + "loss": 0.3603, + "step": 10650 + }, + { + "epoch": 28.426666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.0004997733776285297, + "loss": 0.3646, + "step": 10660 + }, + { + "epoch": 28.453333333333333, + "grad_norm": 0.60546875, + "learning_rate": 0.0004997729313255861, + "loss": 0.3732, + "step": 10670 + }, + { + "epoch": 28.48, + "grad_norm": 0.275390625, + "learning_rate": 0.0004997724845838069, + "loss": 0.3705, + "step": 10680 + }, + { + "epoch": 28.506666666666668, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997720374031928, + "loss": 0.3647, + "step": 10690 + }, + { + "epoch": 28.533333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.0004997715897837449, + "loss": 0.3592, + "step": 10700 + }, + { + "epoch": 28.56, + "grad_norm": 0.212890625, + "learning_rate": 0.0004997711417254637, + "loss": 0.3581, + "step": 10710 + }, + { + "epoch": 28.586666666666666, + "grad_norm": 0.171875, + "learning_rate": 0.00049977069322835, + "loss": 0.3579, + "step": 10720 + }, + { + "epoch": 28.613333333333333, + "grad_norm": 0.1484375, + "learning_rate": 0.0004997702442924046, + "loss": 0.3467, + "step": 10730 + }, + { + "epoch": 28.64, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997697949176284, + "loss": 0.3524, + "step": 10740 + }, + { + "epoch": 28.666666666666668, + "grad_norm": 0.1875, + "learning_rate": 0.0004997693451040221, + "loss": 0.3668, + "step": 10750 + }, + { + "epoch": 28.693333333333335, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004997688948515866, + "loss": 0.3477, + "step": 10760 + }, + { + "epoch": 28.72, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997684441603225, + "loss": 0.3629, + "step": 10770 + }, + { + "epoch": 28.746666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004997679930302307, + "loss": 0.3651, + "step": 10780 + }, + { + "epoch": 28.773333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.000499767541461312, + "loss": 0.3767, + "step": 10790 + }, + { + "epoch": 28.8, + "grad_norm": 0.30859375, + "learning_rate": 0.0004997670894535672, + "loss": 0.363, + "step": 10800 + }, + { + "epoch": 28.826666666666668, + "grad_norm": 0.61328125, + "learning_rate": 0.0004997666370069971, + "loss": 0.3519, + "step": 10810 + }, + { + "epoch": 28.85333333333333, + "grad_norm": 0.515625, + "learning_rate": 0.0004997661841216024, + "loss": 0.3557, + "step": 10820 + }, + { + "epoch": 28.88, + "grad_norm": 0.279296875, + "learning_rate": 0.000499765730797384, + "loss": 0.352, + "step": 10830 + }, + { + "epoch": 28.906666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004997652770343426, + "loss": 0.3573, + "step": 10840 + }, + { + "epoch": 28.933333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004997648228324791, + "loss": 0.3574, + "step": 10850 + }, + { + "epoch": 28.96, + "grad_norm": 0.2578125, + "learning_rate": 0.0004997643681917943, + "loss": 0.355, + "step": 10860 + }, + { + "epoch": 28.986666666666668, + "grad_norm": 0.177734375, + "learning_rate": 0.000499763913112289, + "loss": 0.3716, + "step": 10870 + }, + { + "epoch": 29.0, + "eval_loss": 0.41430604457855225, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4434, + "eval_samples_per_second": 1.398, + "eval_steps_per_second": 0.087, + "step": 10875 + }, + { + "epoch": 29.013333333333332, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004997634575939639, + "loss": 0.3591, + "step": 10880 + }, + { + "epoch": 29.04, + "grad_norm": 0.294921875, + "learning_rate": 0.0004997630016368198, + "loss": 0.3847, + "step": 10890 + }, + { + "epoch": 29.066666666666666, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004997625452408576, + "loss": 0.3696, + "step": 10900 + }, + { + "epoch": 29.093333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004997620884060781, + "loss": 0.3669, + "step": 10910 + }, + { + "epoch": 29.12, + "grad_norm": 0.267578125, + "learning_rate": 0.0004997616311324819, + "loss": 0.3636, + "step": 10920 + }, + { + "epoch": 29.14666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004997611734200701, + "loss": 0.3658, + "step": 10930 + }, + { + "epoch": 29.173333333333332, + "grad_norm": 0.244140625, + "learning_rate": 0.0004997607152688434, + "loss": 0.3626, + "step": 10940 + }, + { + "epoch": 29.2, + "grad_norm": 0.220703125, + "learning_rate": 0.0004997602566788025, + "loss": 0.3575, + "step": 10950 + }, + { + "epoch": 29.226666666666667, + "grad_norm": 0.400390625, + "learning_rate": 0.0004997597976499483, + "loss": 0.3522, + "step": 10960 + }, + { + "epoch": 29.253333333333334, + "grad_norm": 0.375, + "learning_rate": 0.0004997593381822816, + "loss": 0.3533, + "step": 10970 + }, + { + "epoch": 29.28, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997588782758031, + "loss": 0.3718, + "step": 10980 + }, + { + "epoch": 29.306666666666665, + "grad_norm": 0.19140625, + "learning_rate": 0.0004997584179305138, + "loss": 0.3514, + "step": 10990 + }, + { + "epoch": 29.333333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004997579571464144, + "loss": 0.3662, + "step": 11000 + }, + { + "epoch": 29.36, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004997574959235057, + "loss": 0.3595, + "step": 11010 + }, + { + "epoch": 29.386666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004997570342617885, + "loss": 0.3571, + "step": 11020 + }, + { + "epoch": 29.413333333333334, + "grad_norm": 0.16015625, + "learning_rate": 0.0004997565721612636, + "loss": 0.3622, + "step": 11030 + }, + { + "epoch": 29.44, + "grad_norm": 0.19921875, + "learning_rate": 0.000499756109621932, + "loss": 0.3673, + "step": 11040 + }, + { + "epoch": 29.466666666666665, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004997556466437943, + "loss": 0.3739, + "step": 11050 + }, + { + "epoch": 29.493333333333332, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004997551832268514, + "loss": 0.3617, + "step": 11060 + }, + { + "epoch": 29.52, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004997547193711041, + "loss": 0.3642, + "step": 11070 + }, + { + "epoch": 29.546666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004997542550765531, + "loss": 0.3556, + "step": 11080 + }, + { + "epoch": 29.573333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004997537903431994, + "loss": 0.358, + "step": 11090 + }, + { + "epoch": 29.6, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997533251710438, + "loss": 0.3504, + "step": 11100 + }, + { + "epoch": 29.626666666666665, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004997528595600869, + "loss": 0.3473, + "step": 11110 + }, + { + "epoch": 29.653333333333332, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004997523935103298, + "loss": 0.3616, + "step": 11120 + }, + { + "epoch": 29.68, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004997519270217731, + "loss": 0.3508, + "step": 11130 + }, + { + "epoch": 29.706666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004997514600944177, + "loss": 0.351, + "step": 11140 + }, + { + "epoch": 29.733333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004997509927282646, + "loss": 0.3687, + "step": 11150 + }, + { + "epoch": 29.76, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004997505249233144, + "loss": 0.3687, + "step": 11160 + }, + { + "epoch": 29.786666666666665, + "grad_norm": 0.20703125, + "learning_rate": 0.0004997500566795679, + "loss": 0.3695, + "step": 11170 + }, + { + "epoch": 29.813333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.000499749587997026, + "loss": 0.3524, + "step": 11180 + }, + { + "epoch": 29.84, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997491188756896, + "loss": 0.3527, + "step": 11190 + }, + { + "epoch": 29.866666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997486493155594, + "loss": 0.3532, + "step": 11200 + }, + { + "epoch": 29.893333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004997481793166362, + "loss": 0.3516, + "step": 11210 + }, + { + "epoch": 29.92, + "grad_norm": 0.1953125, + "learning_rate": 0.0004997477088789211, + "loss": 0.3579, + "step": 11220 + }, + { + "epoch": 29.946666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.0004997472380024146, + "loss": 0.3553, + "step": 11230 + }, + { + "epoch": 29.973333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004997467666871176, + "loss": 0.3653, + "step": 11240 + }, + { + "epoch": 30.0, + "grad_norm": 0.2177734375, + "learning_rate": 0.000499746294933031, + "loss": 0.3532, + "step": 11250 + }, + { + "epoch": 30.0, + "eval_loss": 0.41142600774765015, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 9.256, + "eval_samples_per_second": 1.729, + "eval_steps_per_second": 0.108, + "step": 11250 + }, + { + "epoch": 30.026666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0004997458227401556, + "loss": 0.3756, + "step": 11260 + }, + { + "epoch": 30.053333333333335, + "grad_norm": 0.201171875, + "learning_rate": 0.0004997453501084924, + "loss": 0.381, + "step": 11270 + }, + { + "epoch": 30.08, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004997448770380419, + "loss": 0.3647, + "step": 11280 + }, + { + "epoch": 30.106666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004997444035288052, + "loss": 0.3641, + "step": 11290 + }, + { + "epoch": 30.133333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.000499743929580783, + "loss": 0.3599, + "step": 11300 + }, + { + "epoch": 30.16, + "grad_norm": 0.185546875, + "learning_rate": 0.0004997434551939761, + "loss": 0.3657, + "step": 11310 + }, + { + "epoch": 30.186666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004997429803683855, + "loss": 0.3583, + "step": 11320 + }, + { + "epoch": 30.213333333333335, + "grad_norm": 0.21484375, + "learning_rate": 0.0004997425051040119, + "loss": 0.3496, + "step": 11330 + }, + { + "epoch": 30.24, + "grad_norm": 0.205078125, + "learning_rate": 0.0004997420294008562, + "loss": 0.354, + "step": 11340 + }, + { + "epoch": 30.266666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.000499741553258919, + "loss": 0.3612, + "step": 11350 + }, + { + "epoch": 30.293333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004997410766782016, + "loss": 0.3556, + "step": 11360 + }, + { + "epoch": 30.32, + "grad_norm": 0.1875, + "learning_rate": 0.0004997405996587045, + "loss": 0.3603, + "step": 11370 + }, + { + "epoch": 30.346666666666668, + "grad_norm": 0.27734375, + "learning_rate": 0.0004997401222004285, + "loss": 0.3632, + "step": 11380 + }, + { + "epoch": 30.373333333333335, + "grad_norm": 0.248046875, + "learning_rate": 0.0004997396443033746, + "loss": 0.3557, + "step": 11390 + }, + { + "epoch": 30.4, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004997391659675437, + "loss": 0.3572, + "step": 11400 + }, + { + "epoch": 30.426666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004997386871929365, + "loss": 0.3621, + "step": 11410 + }, + { + "epoch": 30.453333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004997382079795537, + "loss": 0.3701, + "step": 11420 + }, + { + "epoch": 30.48, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004997377283273965, + "loss": 0.3683, + "step": 11430 + }, + { + "epoch": 30.506666666666668, + "grad_norm": 0.173828125, + "learning_rate": 0.0004997372482364654, + "loss": 0.3617, + "step": 11440 + }, + { + "epoch": 30.533333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0004997367677067616, + "loss": 0.3571, + "step": 11450 + }, + { + "epoch": 30.56, + "grad_norm": 0.203125, + "learning_rate": 0.0004997362867382856, + "loss": 0.3553, + "step": 11460 + }, + { + "epoch": 30.586666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004997358053310386, + "loss": 0.3543, + "step": 11470 + }, + { + "epoch": 30.613333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004997353234850211, + "loss": 0.344, + "step": 11480 + }, + { + "epoch": 30.64, + "grad_norm": 0.17578125, + "learning_rate": 0.0004997348412002341, + "loss": 0.3498, + "step": 11490 + }, + { + "epoch": 30.666666666666668, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004997343584766784, + "loss": 0.3648, + "step": 11500 + }, + { + "epoch": 30.693333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.0004997338753143549, + "loss": 0.3441, + "step": 11510 + }, + { + "epoch": 30.72, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004997333917132644, + "loss": 0.3607, + "step": 11520 + }, + { + "epoch": 30.746666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004997329076734077, + "loss": 0.362, + "step": 11530 + }, + { + "epoch": 30.773333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004997324231947859, + "loss": 0.3735, + "step": 11540 + }, + { + "epoch": 30.8, + "grad_norm": 0.236328125, + "learning_rate": 0.0004997319382773996, + "loss": 0.3597, + "step": 11550 + }, + { + "epoch": 30.826666666666668, + "grad_norm": 0.171875, + "learning_rate": 0.0004997314529212498, + "loss": 0.3492, + "step": 11560 + }, + { + "epoch": 30.85333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004997309671263372, + "loss": 0.353, + "step": 11570 + }, + { + "epoch": 30.88, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004997304808926628, + "loss": 0.3497, + "step": 11580 + }, + { + "epoch": 30.906666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004997299942202274, + "loss": 0.3539, + "step": 11590 + }, + { + "epoch": 30.933333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004997295071090317, + "loss": 0.3543, + "step": 11600 + }, + { + "epoch": 30.96, + "grad_norm": 0.392578125, + "learning_rate": 0.0004997290195590769, + "loss": 0.3519, + "step": 11610 + }, + { + "epoch": 30.986666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004997285315703635, + "loss": 0.3687, + "step": 11620 + }, + { + "epoch": 31.0, + "eval_loss": 0.41124141216278076, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2435, + "eval_samples_per_second": 1.423, + "eval_steps_per_second": 0.089, + "step": 11625 + }, + { + "epoch": 31.013333333333332, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004997280431428926, + "loss": 0.3563, + "step": 11630 + }, + { + "epoch": 31.04, + "grad_norm": 0.193359375, + "learning_rate": 0.000499727554276665, + "loss": 0.3824, + "step": 11640 + }, + { + "epoch": 31.066666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004997270649716815, + "loss": 0.3671, + "step": 11650 + }, + { + "epoch": 31.093333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.000499726575227943, + "loss": 0.3646, + "step": 11660 + }, + { + "epoch": 31.12, + "grad_norm": 0.248046875, + "learning_rate": 0.0004997260850454503, + "loss": 0.3604, + "step": 11670 + }, + { + "epoch": 31.14666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004997255944242044, + "loss": 0.3625, + "step": 11680 + }, + { + "epoch": 31.173333333333332, + "grad_norm": 0.232421875, + "learning_rate": 0.0004997251033642061, + "loss": 0.3596, + "step": 11690 + }, + { + "epoch": 31.2, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004997246118654562, + "loss": 0.354, + "step": 11700 + }, + { + "epoch": 31.226666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004997241199279555, + "loss": 0.35, + "step": 11710 + }, + { + "epoch": 31.253333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.000499723627551705, + "loss": 0.35, + "step": 11720 + }, + { + "epoch": 31.28, + "grad_norm": 0.271484375, + "learning_rate": 0.0004997231347367057, + "loss": 0.3687, + "step": 11730 + }, + { + "epoch": 31.306666666666665, + "grad_norm": 0.16796875, + "learning_rate": 0.0004997226414829582, + "loss": 0.3493, + "step": 11740 + }, + { + "epoch": 31.333333333333332, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004997221477904634, + "loss": 0.3636, + "step": 11750 + }, + { + "epoch": 31.36, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004997216536592224, + "loss": 0.3565, + "step": 11760 + }, + { + "epoch": 31.386666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997211590892358, + "loss": 0.354, + "step": 11770 + }, + { + "epoch": 31.413333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0004997206640805045, + "loss": 0.3598, + "step": 11780 + }, + { + "epoch": 31.44, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997201686330296, + "loss": 0.3651, + "step": 11790 + }, + { + "epoch": 31.466666666666665, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997196727468116, + "loss": 0.3706, + "step": 11800 + }, + { + "epoch": 31.493333333333332, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997191764218518, + "loss": 0.3592, + "step": 11810 + }, + { + "epoch": 31.52, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004997186796581507, + "loss": 0.3615, + "step": 11820 + }, + { + "epoch": 31.546666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004997181824557094, + "loss": 0.3529, + "step": 11830 + }, + { + "epoch": 31.573333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004997176848145288, + "loss": 0.3549, + "step": 11840 + }, + { + "epoch": 31.6, + "grad_norm": 0.240234375, + "learning_rate": 0.0004997171867346094, + "loss": 0.3482, + "step": 11850 + }, + { + "epoch": 31.626666666666665, + "grad_norm": 0.1875, + "learning_rate": 0.0004997166882159526, + "loss": 0.3442, + "step": 11860 + }, + { + "epoch": 31.653333333333332, + "grad_norm": 0.166015625, + "learning_rate": 0.0004997161892585589, + "loss": 0.3595, + "step": 11870 + }, + { + "epoch": 31.68, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004997156898624294, + "loss": 0.3482, + "step": 11880 + }, + { + "epoch": 31.706666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004997151900275648, + "loss": 0.3482, + "step": 11890 + }, + { + "epoch": 31.733333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.000499714689753966, + "loss": 0.366, + "step": 11900 + }, + { + "epoch": 31.76, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004997141890416341, + "loss": 0.367, + "step": 11910 + }, + { + "epoch": 31.786666666666665, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004997136878905697, + "loss": 0.367, + "step": 11920 + }, + { + "epoch": 31.813333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0004997131863007739, + "loss": 0.3502, + "step": 11930 + }, + { + "epoch": 31.84, + "grad_norm": 0.337890625, + "learning_rate": 0.0004997126842722474, + "loss": 0.3496, + "step": 11940 + }, + { + "epoch": 31.866666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0004997121818049911, + "loss": 0.3502, + "step": 11950 + }, + { + "epoch": 31.893333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.000499711678899006, + "loss": 0.3493, + "step": 11960 + }, + { + "epoch": 31.92, + "grad_norm": 0.2080078125, + "learning_rate": 0.000499711175554293, + "loss": 0.3549, + "step": 11970 + }, + { + "epoch": 31.946666666666665, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004997106717708528, + "loss": 0.3532, + "step": 11980 + }, + { + "epoch": 31.973333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004997101675486865, + "loss": 0.3625, + "step": 11990 + }, + { + "epoch": 32.0, + "grad_norm": 0.494140625, + "learning_rate": 0.0004997096628877949, + "loss": 0.35, + "step": 12000 + }, + { + "epoch": 32.0, + "eval_loss": 0.41305193305015564, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.3974, + "eval_samples_per_second": 1.194, + "eval_steps_per_second": 0.075, + "step": 12000 + }, + { + "epoch": 32.026666666666664, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004997091577881787, + "loss": 0.3721, + "step": 12010 + }, + { + "epoch": 32.053333333333335, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004997086522498391, + "loss": 0.3779, + "step": 12020 + }, + { + "epoch": 32.08, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004997081462727767, + "loss": 0.3628, + "step": 12030 + }, + { + "epoch": 32.10666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004997076398569928, + "loss": 0.3623, + "step": 12040 + }, + { + "epoch": 32.13333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004997071330024878, + "loss": 0.3576, + "step": 12050 + }, + { + "epoch": 32.16, + "grad_norm": 0.173828125, + "learning_rate": 0.0004997066257092629, + "loss": 0.3628, + "step": 12060 + }, + { + "epoch": 32.18666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004997061179773188, + "loss": 0.3561, + "step": 12070 + }, + { + "epoch": 32.21333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004997056098066566, + "loss": 0.347, + "step": 12080 + }, + { + "epoch": 32.24, + "grad_norm": 0.228515625, + "learning_rate": 0.000499705101197277, + "loss": 0.3519, + "step": 12090 + }, + { + "epoch": 32.266666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004997045921491812, + "loss": 0.3584, + "step": 12100 + }, + { + "epoch": 32.29333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004997040826623697, + "loss": 0.3532, + "step": 12110 + }, + { + "epoch": 32.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004997035727368435, + "loss": 0.3581, + "step": 12120 + }, + { + "epoch": 32.346666666666664, + "grad_norm": 0.251953125, + "learning_rate": 0.0004997030623726037, + "loss": 0.3604, + "step": 12130 + }, + { + "epoch": 32.373333333333335, + "grad_norm": 0.5, + "learning_rate": 0.000499702551569651, + "loss": 0.3533, + "step": 12140 + }, + { + "epoch": 32.4, + "grad_norm": 0.197265625, + "learning_rate": 0.0004997020403279865, + "loss": 0.3548, + "step": 12150 + }, + { + "epoch": 32.42666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004997015286476108, + "loss": 0.3592, + "step": 12160 + }, + { + "epoch": 32.45333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.000499701016528525, + "loss": 0.3678, + "step": 12170 + }, + { + "epoch": 32.48, + "grad_norm": 0.2255859375, + "learning_rate": 0.00049970050397073, + "loss": 0.3652, + "step": 12180 + }, + { + "epoch": 32.50666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004996999909742267, + "loss": 0.3597, + "step": 12190 + }, + { + "epoch": 32.53333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004996994775390159, + "loss": 0.354, + "step": 12200 + }, + { + "epoch": 32.56, + "grad_norm": 0.193359375, + "learning_rate": 0.0004996989636650986, + "loss": 0.3527, + "step": 12210 + }, + { + "epoch": 32.586666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004996984493524755, + "loss": 0.3517, + "step": 12220 + }, + { + "epoch": 32.61333333333333, + "grad_norm": 0.154296875, + "learning_rate": 0.0004996979346011479, + "loss": 0.3418, + "step": 12230 + }, + { + "epoch": 32.64, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004996974194111163, + "loss": 0.347, + "step": 12240 + }, + { + "epoch": 32.666666666666664, + "grad_norm": 0.291015625, + "learning_rate": 0.0004996969037823819, + "loss": 0.3617, + "step": 12250 + }, + { + "epoch": 32.693333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.0004996963877149454, + "loss": 0.3413, + "step": 12260 + }, + { + "epoch": 32.72, + "grad_norm": 0.3046875, + "learning_rate": 0.0004996958712088079, + "loss": 0.3578, + "step": 12270 + }, + { + "epoch": 32.74666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004996953542639701, + "loss": 0.36, + "step": 12280 + }, + { + "epoch": 32.77333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004996948368804331, + "loss": 0.3714, + "step": 12290 + }, + { + "epoch": 32.8, + "grad_norm": 0.255859375, + "learning_rate": 0.0004996943190581976, + "loss": 0.3574, + "step": 12300 + }, + { + "epoch": 32.82666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0004996938007972647, + "loss": 0.3463, + "step": 12310 + }, + { + "epoch": 32.85333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004996932820976352, + "loss": 0.3501, + "step": 12320 + }, + { + "epoch": 32.88, + "grad_norm": 0.185546875, + "learning_rate": 0.0004996927629593101, + "loss": 0.3476, + "step": 12330 + }, + { + "epoch": 32.906666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004996922433822903, + "loss": 0.352, + "step": 12340 + }, + { + "epoch": 32.93333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004996917233665766, + "loss": 0.3523, + "step": 12350 + }, + { + "epoch": 32.96, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004996912029121701, + "loss": 0.3501, + "step": 12360 + }, + { + "epoch": 32.986666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004996906820190714, + "loss": 0.3663, + "step": 12370 + }, + { + "epoch": 33.0, + "eval_loss": 0.4094735085964203, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5299, + "eval_samples_per_second": 1.277, + "eval_steps_per_second": 0.08, + "step": 12375 + }, + { + "epoch": 33.013333333333335, + "grad_norm": 0.17578125, + "learning_rate": 0.0004996901606872817, + "loss": 0.3539, + "step": 12380 + }, + { + "epoch": 33.04, + "grad_norm": 0.1572265625, + "learning_rate": 0.0004996896389168018, + "loss": 0.3795, + "step": 12390 + }, + { + "epoch": 33.06666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004996891167076328, + "loss": 0.3641, + "step": 12400 + }, + { + "epoch": 33.093333333333334, + "grad_norm": 0.328125, + "learning_rate": 0.0004996885940597754, + "loss": 0.3617, + "step": 12410 + }, + { + "epoch": 33.12, + "grad_norm": 0.205078125, + "learning_rate": 0.0004996880709732305, + "loss": 0.3577, + "step": 12420 + }, + { + "epoch": 33.14666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0004996875474479991, + "loss": 0.3599, + "step": 12430 + }, + { + "epoch": 33.17333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004996870234840823, + "loss": 0.3575, + "step": 12440 + }, + { + "epoch": 33.2, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004996864990814806, + "loss": 0.3514, + "step": 12450 + }, + { + "epoch": 33.22666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004996859742401954, + "loss": 0.3472, + "step": 12460 + }, + { + "epoch": 33.25333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004996854489602273, + "loss": 0.3478, + "step": 12470 + }, + { + "epoch": 33.28, + "grad_norm": 0.306640625, + "learning_rate": 0.0004996849232415773, + "loss": 0.3666, + "step": 12480 + }, + { + "epoch": 33.306666666666665, + "grad_norm": 0.369140625, + "learning_rate": 0.0004996843970842463, + "loss": 0.3468, + "step": 12490 + }, + { + "epoch": 33.333333333333336, + "grad_norm": 0.388671875, + "learning_rate": 0.0004996838704882353, + "loss": 0.3619, + "step": 12500 + }, + { + "epoch": 33.36, + "grad_norm": 0.24609375, + "learning_rate": 0.0004996833434535451, + "loss": 0.3538, + "step": 12510 + }, + { + "epoch": 33.38666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004996828159801769, + "loss": 0.3514, + "step": 12520 + }, + { + "epoch": 33.413333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004996822880681313, + "loss": 0.3573, + "step": 12530 + }, + { + "epoch": 33.44, + "grad_norm": 0.205078125, + "learning_rate": 0.0004996817597174094, + "loss": 0.3617, + "step": 12540 + }, + { + "epoch": 33.46666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004996812309280121, + "loss": 0.3678, + "step": 12550 + }, + { + "epoch": 33.49333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004996807016999403, + "loss": 0.3562, + "step": 12560 + }, + { + "epoch": 33.52, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004996801720331949, + "loss": 0.3594, + "step": 12570 + }, + { + "epoch": 33.54666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004996796419277769, + "loss": 0.3508, + "step": 12580 + }, + { + "epoch": 33.57333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004996791113836874, + "loss": 0.3529, + "step": 12590 + }, + { + "epoch": 33.6, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004996785804009269, + "loss": 0.3453, + "step": 12600 + }, + { + "epoch": 33.626666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.0004996780489794967, + "loss": 0.3417, + "step": 12610 + }, + { + "epoch": 33.653333333333336, + "grad_norm": 0.1796875, + "learning_rate": 0.0004996775171193977, + "loss": 0.3577, + "step": 12620 + }, + { + "epoch": 33.68, + "grad_norm": 0.185546875, + "learning_rate": 0.0004996769848206305, + "loss": 0.3459, + "step": 12630 + }, + { + "epoch": 33.70666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004996764520831965, + "loss": 0.3455, + "step": 12640 + }, + { + "epoch": 33.733333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004996759189070963, + "loss": 0.3638, + "step": 12650 + }, + { + "epoch": 33.76, + "grad_norm": 0.1806640625, + "learning_rate": 0.000499675385292331, + "loss": 0.3638, + "step": 12660 + }, + { + "epoch": 33.78666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004996748512389015, + "loss": 0.3644, + "step": 12670 + }, + { + "epoch": 33.81333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0004996743167468088, + "loss": 0.3474, + "step": 12680 + }, + { + "epoch": 33.84, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004996737818160536, + "loss": 0.3468, + "step": 12690 + }, + { + "epoch": 33.86666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004996732464466371, + "loss": 0.3476, + "step": 12700 + }, + { + "epoch": 33.89333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004996727106385602, + "loss": 0.3474, + "step": 12710 + }, + { + "epoch": 33.92, + "grad_norm": 0.40234375, + "learning_rate": 0.0004996721743918237, + "loss": 0.3524, + "step": 12720 + }, + { + "epoch": 33.946666666666665, + "grad_norm": 0.35546875, + "learning_rate": 0.0004996716377064287, + "loss": 0.3506, + "step": 12730 + }, + { + "epoch": 33.973333333333336, + "grad_norm": 0.40234375, + "learning_rate": 0.0004996711005823761, + "loss": 0.3597, + "step": 12740 + }, + { + "epoch": 34.0, + "grad_norm": 0.31640625, + "learning_rate": 0.0004996705630196667, + "loss": 0.3476, + "step": 12750 + }, + { + "epoch": 34.0, + "eval_loss": 0.40946313738822937, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.0588, + "eval_samples_per_second": 1.591, + "eval_steps_per_second": 0.099, + "step": 12750 + }, + { + "epoch": 34.026666666666664, + "grad_norm": 0.19140625, + "learning_rate": 0.0004996700250183017, + "loss": 0.3703, + "step": 12760 + }, + { + "epoch": 34.053333333333335, + "grad_norm": 0.1953125, + "learning_rate": 0.0004996694865782818, + "loss": 0.376, + "step": 12770 + }, + { + "epoch": 34.08, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004996689476996081, + "loss": 0.36, + "step": 12780 + }, + { + "epoch": 34.10666666666667, + "grad_norm": 0.462890625, + "learning_rate": 0.0004996684083822815, + "loss": 0.3603, + "step": 12790 + }, + { + "epoch": 34.13333333333333, + "grad_norm": 0.439453125, + "learning_rate": 0.000499667868626303, + "loss": 0.3551, + "step": 12800 + }, + { + "epoch": 34.16, + "grad_norm": 0.310546875, + "learning_rate": 0.0004996673284316735, + "loss": 0.3604, + "step": 12810 + }, + { + "epoch": 34.18666666666667, + "grad_norm": 0.51171875, + "learning_rate": 0.0004996667877983939, + "loss": 0.3538, + "step": 12820 + }, + { + "epoch": 34.21333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004996662467264652, + "loss": 0.3437, + "step": 12830 + }, + { + "epoch": 34.24, + "grad_norm": 0.1953125, + "learning_rate": 0.0004996657052158883, + "loss": 0.35, + "step": 12840 + }, + { + "epoch": 34.266666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004996651632666642, + "loss": 0.3561, + "step": 12850 + }, + { + "epoch": 34.29333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.000499664620878794, + "loss": 0.3509, + "step": 12860 + }, + { + "epoch": 34.32, + "grad_norm": 0.359375, + "learning_rate": 0.0004996640780522784, + "loss": 0.3558, + "step": 12870 + }, + { + "epoch": 34.346666666666664, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004996635347871185, + "loss": 0.3586, + "step": 12880 + }, + { + "epoch": 34.373333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004996629910833151, + "loss": 0.3503, + "step": 12890 + }, + { + "epoch": 34.4, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004996624469408694, + "loss": 0.3517, + "step": 12900 + }, + { + "epoch": 34.42666666666667, + "grad_norm": 0.1494140625, + "learning_rate": 0.0004996619023597822, + "loss": 0.3561, + "step": 12910 + }, + { + "epoch": 34.45333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004996613573400545, + "loss": 0.3645, + "step": 12920 + }, + { + "epoch": 34.48, + "grad_norm": 0.314453125, + "learning_rate": 0.0004996608118816871, + "loss": 0.3623, + "step": 12930 + }, + { + "epoch": 34.50666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004996602659846812, + "loss": 0.3568, + "step": 12940 + }, + { + "epoch": 34.53333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004996597196490377, + "loss": 0.3519, + "step": 12950 + }, + { + "epoch": 34.56, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004996591728747574, + "loss": 0.3501, + "step": 12960 + }, + { + "epoch": 34.586666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004996586256618415, + "loss": 0.3499, + "step": 12970 + }, + { + "epoch": 34.61333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004996580780102908, + "loss": 0.3395, + "step": 12980 + }, + { + "epoch": 34.64, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004996575299201063, + "loss": 0.3447, + "step": 12990 + }, + { + "epoch": 34.666666666666664, + "grad_norm": 0.21484375, + "learning_rate": 0.0004996569813912889, + "loss": 0.3591, + "step": 13000 + }, + { + "epoch": 34.693333333333335, + "grad_norm": 0.27734375, + "learning_rate": 0.0004996564324238397, + "loss": 0.3398, + "step": 13010 + }, + { + "epoch": 34.72, + "grad_norm": 0.189453125, + "learning_rate": 0.0004996558830177595, + "loss": 0.3554, + "step": 13020 + }, + { + "epoch": 34.74666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004996553331730495, + "loss": 0.3576, + "step": 13030 + }, + { + "epoch": 34.77333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004996547828897104, + "loss": 0.3691, + "step": 13040 + }, + { + "epoch": 34.8, + "grad_norm": 0.17578125, + "learning_rate": 0.0004996542321677433, + "loss": 0.355, + "step": 13050 + }, + { + "epoch": 34.82666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0004996536810071493, + "loss": 0.3441, + "step": 13060 + }, + { + "epoch": 34.85333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004996531294079291, + "loss": 0.3475, + "step": 13070 + }, + { + "epoch": 34.88, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004996525773700838, + "loss": 0.3455, + "step": 13080 + }, + { + "epoch": 34.906666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004996520248936144, + "loss": 0.3497, + "step": 13090 + }, + { + "epoch": 34.93333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004996514719785217, + "loss": 0.3496, + "step": 13100 + }, + { + "epoch": 34.96, + "grad_norm": 0.2734375, + "learning_rate": 0.000499650918624807, + "loss": 0.3477, + "step": 13110 + }, + { + "epoch": 34.986666666666665, + "grad_norm": 0.203125, + "learning_rate": 0.000499650364832471, + "loss": 0.3631, + "step": 13120 + }, + { + "epoch": 35.0, + "eval_loss": 0.40721866488456726, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9703, + "eval_samples_per_second": 1.337, + "eval_steps_per_second": 0.084, + "step": 13125 + }, + { + "epoch": 35.013333333333335, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004996498106015147, + "loss": 0.3518, + "step": 13130 + }, + { + "epoch": 35.04, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004996492559319392, + "loss": 0.3771, + "step": 13140 + }, + { + "epoch": 35.06666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004996487008237454, + "loss": 0.3618, + "step": 13150 + }, + { + "epoch": 35.093333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004996481452769343, + "loss": 0.3598, + "step": 13160 + }, + { + "epoch": 35.12, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004996475892915067, + "loss": 0.3551, + "step": 13170 + }, + { + "epoch": 35.14666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004996470328674639, + "loss": 0.3573, + "step": 13180 + }, + { + "epoch": 35.17333333333333, + "grad_norm": 0.302734375, + "learning_rate": 0.0004996464760048066, + "loss": 0.3549, + "step": 13190 + }, + { + "epoch": 35.2, + "grad_norm": 0.25, + "learning_rate": 0.0004996459187035359, + "loss": 0.3494, + "step": 13200 + }, + { + "epoch": 35.22666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004996453609636529, + "loss": 0.3452, + "step": 13210 + }, + { + "epoch": 35.25333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004996448027851583, + "loss": 0.3455, + "step": 13220 + }, + { + "epoch": 35.28, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004996442441680532, + "loss": 0.364, + "step": 13230 + }, + { + "epoch": 35.306666666666665, + "grad_norm": 0.171875, + "learning_rate": 0.0004996436851123387, + "loss": 0.3446, + "step": 13240 + }, + { + "epoch": 35.333333333333336, + "grad_norm": 0.193359375, + "learning_rate": 0.0004996431256180156, + "loss": 0.3591, + "step": 13250 + }, + { + "epoch": 35.36, + "grad_norm": 0.2431640625, + "learning_rate": 0.000499642565685085, + "loss": 0.3517, + "step": 13260 + }, + { + "epoch": 35.38666666666666, + "grad_norm": 0.3359375, + "learning_rate": 0.000499642005313548, + "loss": 0.3491, + "step": 13270 + }, + { + "epoch": 35.413333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004996414445034052, + "loss": 0.3541, + "step": 13280 + }, + { + "epoch": 35.44, + "grad_norm": 0.2109375, + "learning_rate": 0.000499640883254658, + "loss": 0.3599, + "step": 13290 + }, + { + "epoch": 35.46666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0004996403215673072, + "loss": 0.3655, + "step": 13300 + }, + { + "epoch": 35.49333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004996397594413537, + "loss": 0.3538, + "step": 13310 + }, + { + "epoch": 35.52, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004996391968767986, + "loss": 0.3572, + "step": 13320 + }, + { + "epoch": 35.54666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.000499638633873643, + "loss": 0.3481, + "step": 13330 + }, + { + "epoch": 35.57333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.0004996380704318876, + "loss": 0.3506, + "step": 13340 + }, + { + "epoch": 35.6, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004996375065515336, + "loss": 0.3437, + "step": 13350 + }, + { + "epoch": 35.626666666666665, + "grad_norm": 0.2255859375, + "learning_rate": 0.000499636942232582, + "loss": 0.3399, + "step": 13360 + }, + { + "epoch": 35.653333333333336, + "grad_norm": 0.375, + "learning_rate": 0.0004996363774750337, + "loss": 0.354, + "step": 13370 + }, + { + "epoch": 35.68, + "grad_norm": 0.193359375, + "learning_rate": 0.0004996358122788897, + "loss": 0.3432, + "step": 13380 + }, + { + "epoch": 35.70666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004996352466441511, + "loss": 0.3441, + "step": 13390 + }, + { + "epoch": 35.733333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004996346805708188, + "loss": 0.362, + "step": 13400 + }, + { + "epoch": 35.76, + "grad_norm": 0.16796875, + "learning_rate": 0.0004996341140588937, + "loss": 0.3622, + "step": 13410 + }, + { + "epoch": 35.78666666666667, + "grad_norm": 0.154296875, + "learning_rate": 0.0004996335471083769, + "loss": 0.3617, + "step": 13420 + }, + { + "epoch": 35.81333333333333, + "grad_norm": 0.337890625, + "learning_rate": 0.0004996329797192695, + "loss": 0.3449, + "step": 13430 + }, + { + "epoch": 35.84, + "grad_norm": 0.271484375, + "learning_rate": 0.0004996324118915724, + "loss": 0.3453, + "step": 13440 + }, + { + "epoch": 35.86666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004996318436252865, + "loss": 0.345, + "step": 13450 + }, + { + "epoch": 35.89333333333333, + "grad_norm": 0.3125, + "learning_rate": 0.0004996312749204131, + "loss": 0.3449, + "step": 13460 + }, + { + "epoch": 35.92, + "grad_norm": 0.625, + "learning_rate": 0.0004996307057769528, + "loss": 0.3495, + "step": 13470 + }, + { + "epoch": 35.946666666666665, + "grad_norm": 0.3125, + "learning_rate": 0.0004996301361949068, + "loss": 0.3483, + "step": 13480 + }, + { + "epoch": 35.973333333333336, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004996295661742761, + "loss": 0.3578, + "step": 13490 + }, + { + "epoch": 36.0, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004996289957150617, + "loss": 0.3454, + "step": 13500 + }, + { + "epoch": 36.0, + "eval_loss": 0.40985241532325745, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.1707, + "eval_samples_per_second": 1.573, + "eval_steps_per_second": 0.098, + "step": 13500 + }, + { + "epoch": 36.026666666666664, + "grad_norm": 0.208984375, + "learning_rate": 0.0004996284248172647, + "loss": 0.368, + "step": 13510 + }, + { + "epoch": 36.053333333333335, + "grad_norm": 0.171875, + "learning_rate": 0.0004996278534808859, + "loss": 0.3739, + "step": 13520 + }, + { + "epoch": 36.08, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004996272817059264, + "loss": 0.3585, + "step": 13530 + }, + { + "epoch": 36.10666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004996267094923873, + "loss": 0.3578, + "step": 13540 + }, + { + "epoch": 36.13333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0004996261368402695, + "loss": 0.3529, + "step": 13550 + }, + { + "epoch": 36.16, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004996255637495739, + "loss": 0.3585, + "step": 13560 + }, + { + "epoch": 36.18666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004996249902203016, + "loss": 0.3517, + "step": 13570 + }, + { + "epoch": 36.21333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004996244162524538, + "loss": 0.3421, + "step": 13580 + }, + { + "epoch": 36.24, + "grad_norm": 0.279296875, + "learning_rate": 0.0004996238418460313, + "loss": 0.3468, + "step": 13590 + }, + { + "epoch": 36.266666666666666, + "grad_norm": 0.423828125, + "learning_rate": 0.0004996232670010351, + "loss": 0.3544, + "step": 13600 + }, + { + "epoch": 36.29333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004996226917174663, + "loss": 0.3487, + "step": 13610 + }, + { + "epoch": 36.32, + "grad_norm": 0.19140625, + "learning_rate": 0.0004996221159953258, + "loss": 0.354, + "step": 13620 + }, + { + "epoch": 36.346666666666664, + "grad_norm": 0.22265625, + "learning_rate": 0.0004996215398346147, + "loss": 0.3563, + "step": 13630 + }, + { + "epoch": 36.373333333333335, + "grad_norm": 0.328125, + "learning_rate": 0.0004996209632353342, + "loss": 0.3487, + "step": 13640 + }, + { + "epoch": 36.4, + "grad_norm": 0.275390625, + "learning_rate": 0.0004996203861974849, + "loss": 0.3496, + "step": 13650 + }, + { + "epoch": 36.42666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.000499619808721068, + "loss": 0.3541, + "step": 13660 + }, + { + "epoch": 36.45333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004996192308060846, + "loss": 0.3631, + "step": 13670 + }, + { + "epoch": 36.48, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004996186524525356, + "loss": 0.3606, + "step": 13680 + }, + { + "epoch": 36.50666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004996180736604221, + "loss": 0.3551, + "step": 13690 + }, + { + "epoch": 36.53333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004996174944297451, + "loss": 0.3495, + "step": 13700 + }, + { + "epoch": 36.56, + "grad_norm": 0.1796875, + "learning_rate": 0.0004996169147605057, + "loss": 0.348, + "step": 13710 + }, + { + "epoch": 36.586666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004996163346527048, + "loss": 0.3477, + "step": 13720 + }, + { + "epoch": 36.61333333333333, + "grad_norm": 0.1640625, + "learning_rate": 0.0004996157541063433, + "loss": 0.3375, + "step": 13730 + }, + { + "epoch": 36.64, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004996151731214225, + "loss": 0.3427, + "step": 13740 + }, + { + "epoch": 36.666666666666664, + "grad_norm": 0.1953125, + "learning_rate": 0.0004996145916979431, + "loss": 0.3576, + "step": 13750 + }, + { + "epoch": 36.693333333333335, + "grad_norm": 0.18359375, + "learning_rate": 0.0004996140098359064, + "loss": 0.3371, + "step": 13760 + }, + { + "epoch": 36.72, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004996134275353135, + "loss": 0.3532, + "step": 13770 + }, + { + "epoch": 36.74666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.000499612844796165, + "loss": 0.3554, + "step": 13780 + }, + { + "epoch": 36.77333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004996122616184623, + "loss": 0.3672, + "step": 13790 + }, + { + "epoch": 36.8, + "grad_norm": 0.2421875, + "learning_rate": 0.0004996116780022062, + "loss": 0.3525, + "step": 13800 + }, + { + "epoch": 36.82666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004996110939473979, + "loss": 0.3417, + "step": 13810 + }, + { + "epoch": 36.85333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004996105094540384, + "loss": 0.3454, + "step": 13820 + }, + { + "epoch": 36.88, + "grad_norm": 0.240234375, + "learning_rate": 0.0004996099245221286, + "loss": 0.3429, + "step": 13830 + }, + { + "epoch": 36.906666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004996093391516696, + "loss": 0.3472, + "step": 13840 + }, + { + "epoch": 36.93333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004996087533426625, + "loss": 0.3474, + "step": 13850 + }, + { + "epoch": 36.96, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004996081670951082, + "loss": 0.3461, + "step": 13860 + }, + { + "epoch": 36.986666666666665, + "grad_norm": 0.255859375, + "learning_rate": 0.0004996075804090078, + "loss": 0.3611, + "step": 13870 + }, + { + "epoch": 37.0, + "eval_loss": 0.40963074564933777, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5766, + "eval_samples_per_second": 1.513, + "eval_steps_per_second": 0.095, + "step": 13875 + }, + { + "epoch": 37.013333333333335, + "grad_norm": 0.2734375, + "learning_rate": 0.0004996069932843622, + "loss": 0.3492, + "step": 13880 + }, + { + "epoch": 37.04, + "grad_norm": 0.4765625, + "learning_rate": 0.0004996064057211727, + "loss": 0.3754, + "step": 13890 + }, + { + "epoch": 37.06666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004996058177194401, + "loss": 0.3597, + "step": 13900 + }, + { + "epoch": 37.093333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004996052292791656, + "loss": 0.3575, + "step": 13910 + }, + { + "epoch": 37.12, + "grad_norm": 0.255859375, + "learning_rate": 0.0004996046404003501, + "loss": 0.3528, + "step": 13920 + }, + { + "epoch": 37.14666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004996040510829948, + "loss": 0.3551, + "step": 13930 + }, + { + "epoch": 37.17333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004996034613271006, + "loss": 0.3537, + "step": 13940 + }, + { + "epoch": 37.2, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004996028711326684, + "loss": 0.347, + "step": 13950 + }, + { + "epoch": 37.22666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004996022804996995, + "loss": 0.3426, + "step": 13960 + }, + { + "epoch": 37.25333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004996016894281949, + "loss": 0.3431, + "step": 13970 + }, + { + "epoch": 37.28, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004996010979181555, + "loss": 0.3617, + "step": 13980 + }, + { + "epoch": 37.306666666666665, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004996005059695823, + "loss": 0.342, + "step": 13990 + }, + { + "epoch": 37.333333333333336, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004995999135824766, + "loss": 0.3574, + "step": 14000 + }, + { + "epoch": 37.36, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004995993207568393, + "loss": 0.3495, + "step": 14010 + }, + { + "epoch": 37.38666666666666, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004995987274926713, + "loss": 0.3459, + "step": 14020 + }, + { + "epoch": 37.413333333333334, + "grad_norm": 0.2265625, + "learning_rate": 0.0004995981337899739, + "loss": 0.3522, + "step": 14030 + }, + { + "epoch": 37.44, + "grad_norm": 0.1806640625, + "learning_rate": 0.000499597539648748, + "loss": 0.3571, + "step": 14040 + }, + { + "epoch": 37.46666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004995969450689946, + "loss": 0.3633, + "step": 14050 + }, + { + "epoch": 37.49333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004995963500507148, + "loss": 0.3514, + "step": 14060 + }, + { + "epoch": 37.52, + "grad_norm": 0.53515625, + "learning_rate": 0.0004995957545939097, + "loss": 0.3549, + "step": 14070 + }, + { + "epoch": 37.54666666666667, + "grad_norm": 0.306640625, + "learning_rate": 0.0004995951586985803, + "loss": 0.3457, + "step": 14080 + }, + { + "epoch": 37.57333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004995945623647277, + "loss": 0.3484, + "step": 14090 + }, + { + "epoch": 37.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004995939655923528, + "loss": 0.3411, + "step": 14100 + }, + { + "epoch": 37.626666666666665, + "grad_norm": 0.2265625, + "learning_rate": 0.0004995933683814568, + "loss": 0.3379, + "step": 14110 + }, + { + "epoch": 37.653333333333336, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004995927707320407, + "loss": 0.3524, + "step": 14120 + }, + { + "epoch": 37.68, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004995921726441055, + "loss": 0.3411, + "step": 14130 + }, + { + "epoch": 37.70666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004995915741176524, + "loss": 0.3415, + "step": 14140 + }, + { + "epoch": 37.733333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0004995909751526822, + "loss": 0.359, + "step": 14150 + }, + { + "epoch": 37.76, + "grad_norm": 0.185546875, + "learning_rate": 0.0004995903757491961, + "loss": 0.3599, + "step": 14160 + }, + { + "epoch": 37.78666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004995897759071952, + "loss": 0.3604, + "step": 14170 + }, + { + "epoch": 37.81333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004995891756266805, + "loss": 0.3431, + "step": 14180 + }, + { + "epoch": 37.84, + "grad_norm": 0.29296875, + "learning_rate": 0.0004995885749076531, + "loss": 0.3428, + "step": 14190 + }, + { + "epoch": 37.86666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.000499587973750114, + "loss": 0.3434, + "step": 14200 + }, + { + "epoch": 37.89333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004995873721540642, + "loss": 0.3425, + "step": 14210 + }, + { + "epoch": 37.92, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004995867701195048, + "loss": 0.3475, + "step": 14220 + }, + { + "epoch": 37.946666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.000499586167646437, + "loss": 0.3458, + "step": 14230 + }, + { + "epoch": 37.973333333333336, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004995855647348617, + "loss": 0.3553, + "step": 14240 + }, + { + "epoch": 38.0, + "grad_norm": 0.2451171875, + "learning_rate": 0.00049958496138478, + "loss": 0.343, + "step": 14250 + }, + { + "epoch": 38.0, + "eval_loss": 0.4083141088485718, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9174, + "eval_samples_per_second": 1.343, + "eval_steps_per_second": 0.084, + "step": 14250 + }, + { + "epoch": 38.026666666666664, + "grad_norm": 0.19140625, + "learning_rate": 0.000499584357596193, + "loss": 0.3654, + "step": 14260 + }, + { + "epoch": 38.053333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0004995837533691016, + "loss": 0.3714, + "step": 14270 + }, + { + "epoch": 38.08, + "grad_norm": 0.162109375, + "learning_rate": 0.000499583148703507, + "loss": 0.3556, + "step": 14280 + }, + { + "epoch": 38.10666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004995825435994104, + "loss": 0.356, + "step": 14290 + }, + { + "epoch": 38.13333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004995819380568126, + "loss": 0.3502, + "step": 14300 + }, + { + "epoch": 38.16, + "grad_norm": 0.212890625, + "learning_rate": 0.0004995813320757148, + "loss": 0.3554, + "step": 14310 + }, + { + "epoch": 38.18666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.000499580725656118, + "loss": 0.3497, + "step": 14320 + }, + { + "epoch": 38.21333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004995801187980233, + "loss": 0.3392, + "step": 14330 + }, + { + "epoch": 38.24, + "grad_norm": 0.1953125, + "learning_rate": 0.0004995795115014319, + "loss": 0.3451, + "step": 14340 + }, + { + "epoch": 38.266666666666666, + "grad_norm": 0.2890625, + "learning_rate": 0.0004995789037663446, + "loss": 0.351, + "step": 14350 + }, + { + "epoch": 38.29333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004995782955927627, + "loss": 0.346, + "step": 14360 + }, + { + "epoch": 38.32, + "grad_norm": 0.1806640625, + "learning_rate": 0.000499577686980687, + "loss": 0.3516, + "step": 14370 + }, + { + "epoch": 38.346666666666664, + "grad_norm": 0.25, + "learning_rate": 0.0004995770779301189, + "loss": 0.3539, + "step": 14380 + }, + { + "epoch": 38.373333333333335, + "grad_norm": 0.32421875, + "learning_rate": 0.0004995764684410593, + "loss": 0.3454, + "step": 14390 + }, + { + "epoch": 38.4, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004995758585135092, + "loss": 0.3471, + "step": 14400 + }, + { + "epoch": 38.42666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.00049957524814747, + "loss": 0.352, + "step": 14410 + }, + { + "epoch": 38.45333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004995746373429423, + "loss": 0.361, + "step": 14420 + }, + { + "epoch": 38.48, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004995740260999274, + "loss": 0.3579, + "step": 14430 + }, + { + "epoch": 38.50666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004995734144184265, + "loss": 0.3526, + "step": 14440 + }, + { + "epoch": 38.53333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0004995728022984404, + "loss": 0.3475, + "step": 14450 + }, + { + "epoch": 38.56, + "grad_norm": 0.203125, + "learning_rate": 0.0004995721897399704, + "loss": 0.3453, + "step": 14460 + }, + { + "epoch": 38.586666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004995715767430175, + "loss": 0.3462, + "step": 14470 + }, + { + "epoch": 38.61333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004995709633075828, + "loss": 0.3356, + "step": 14480 + }, + { + "epoch": 38.64, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004995703494336673, + "loss": 0.341, + "step": 14490 + }, + { + "epoch": 38.666666666666664, + "grad_norm": 0.2578125, + "learning_rate": 0.0004995697351212722, + "loss": 0.3548, + "step": 14500 + }, + { + "epoch": 38.693333333333335, + "grad_norm": 0.171875, + "learning_rate": 0.0004995691203703984, + "loss": 0.3351, + "step": 14510 + }, + { + "epoch": 38.72, + "grad_norm": 0.283203125, + "learning_rate": 0.0004995685051810471, + "loss": 0.3516, + "step": 14520 + }, + { + "epoch": 38.74666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004995678895532195, + "loss": 0.3525, + "step": 14530 + }, + { + "epoch": 38.77333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004995672734869165, + "loss": 0.3652, + "step": 14540 + }, + { + "epoch": 38.8, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004995666569821392, + "loss": 0.3509, + "step": 14550 + }, + { + "epoch": 38.82666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004995660400388888, + "loss": 0.3392, + "step": 14560 + }, + { + "epoch": 38.85333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004995654226571663, + "loss": 0.3435, + "step": 14570 + }, + { + "epoch": 38.88, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004995648048369727, + "loss": 0.3413, + "step": 14580 + }, + { + "epoch": 38.906666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004995641865783093, + "loss": 0.345, + "step": 14590 + }, + { + "epoch": 38.93333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004995635678811769, + "loss": 0.3454, + "step": 14600 + }, + { + "epoch": 38.96, + "grad_norm": 0.17578125, + "learning_rate": 0.0004995629487455768, + "loss": 0.3441, + "step": 14610 + }, + { + "epoch": 38.986666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.0004995623291715101, + "loss": 0.3588, + "step": 14620 + }, + { + "epoch": 39.0, + "eval_loss": 0.40940627455711365, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2182, + "eval_samples_per_second": 1.426, + "eval_steps_per_second": 0.089, + "step": 14625 + }, + { + "epoch": 39.013333333333335, + "grad_norm": 0.30859375, + "learning_rate": 0.0004995617091589779, + "loss": 0.3473, + "step": 14630 + }, + { + "epoch": 39.04, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004995610887079811, + "loss": 0.3736, + "step": 14640 + }, + { + "epoch": 39.06666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004995604678185209, + "loss": 0.358, + "step": 14650 + }, + { + "epoch": 39.093333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004995598464905984, + "loss": 0.3561, + "step": 14660 + }, + { + "epoch": 39.12, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004995592247242147, + "loss": 0.3512, + "step": 14670 + }, + { + "epoch": 39.14666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004995586025193709, + "loss": 0.3532, + "step": 14680 + }, + { + "epoch": 39.17333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004995579798760681, + "loss": 0.3515, + "step": 14690 + }, + { + "epoch": 39.2, + "grad_norm": 0.189453125, + "learning_rate": 0.0004995573567943073, + "loss": 0.3454, + "step": 14700 + }, + { + "epoch": 39.22666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004995567332740896, + "loss": 0.3409, + "step": 14710 + }, + { + "epoch": 39.25333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004995561093154163, + "loss": 0.3408, + "step": 14720 + }, + { + "epoch": 39.28, + "grad_norm": 0.265625, + "learning_rate": 0.0004995554849182883, + "loss": 0.3605, + "step": 14730 + }, + { + "epoch": 39.306666666666665, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004995548600827067, + "loss": 0.3401, + "step": 14740 + }, + { + "epoch": 39.333333333333336, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004995542348086728, + "loss": 0.3547, + "step": 14750 + }, + { + "epoch": 39.36, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004995536090961875, + "loss": 0.3464, + "step": 14760 + }, + { + "epoch": 39.38666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.0004995529829452518, + "loss": 0.3441, + "step": 14770 + }, + { + "epoch": 39.413333333333334, + "grad_norm": 0.1640625, + "learning_rate": 0.000499552356355867, + "loss": 0.3495, + "step": 14780 + }, + { + "epoch": 39.44, + "grad_norm": 0.248046875, + "learning_rate": 0.0004995517293280342, + "loss": 0.3556, + "step": 14790 + }, + { + "epoch": 39.46666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004995511018617544, + "loss": 0.3608, + "step": 14800 + }, + { + "epoch": 39.49333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004995504739570288, + "loss": 0.3495, + "step": 14810 + }, + { + "epoch": 39.52, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004995498456138584, + "loss": 0.3527, + "step": 14820 + }, + { + "epoch": 39.54666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004995492168322444, + "loss": 0.3438, + "step": 14830 + }, + { + "epoch": 39.57333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004995485876121879, + "loss": 0.3465, + "step": 14840 + }, + { + "epoch": 39.6, + "grad_norm": 0.1953125, + "learning_rate": 0.0004995479579536899, + "loss": 0.3395, + "step": 14850 + }, + { + "epoch": 39.626666666666665, + "grad_norm": 0.173828125, + "learning_rate": 0.0004995473278567517, + "loss": 0.3361, + "step": 14860 + }, + { + "epoch": 39.653333333333336, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004995466973213741, + "loss": 0.3504, + "step": 14870 + }, + { + "epoch": 39.68, + "grad_norm": 0.162109375, + "learning_rate": 0.0004995460663475584, + "loss": 0.3388, + "step": 14880 + }, + { + "epoch": 39.70666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004995454349353058, + "loss": 0.3397, + "step": 14890 + }, + { + "epoch": 39.733333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004995448030846172, + "loss": 0.3581, + "step": 14900 + }, + { + "epoch": 39.76, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004995441707954939, + "loss": 0.3577, + "step": 14910 + }, + { + "epoch": 39.78666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.000499543538067937, + "loss": 0.3585, + "step": 14920 + }, + { + "epoch": 39.81333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0004995429049019474, + "loss": 0.3416, + "step": 14930 + }, + { + "epoch": 39.84, + "grad_norm": 0.22265625, + "learning_rate": 0.0004995422712975264, + "loss": 0.3408, + "step": 14940 + }, + { + "epoch": 39.86666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004995416372546751, + "loss": 0.3413, + "step": 14950 + }, + { + "epoch": 39.89333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004995410027733945, + "loss": 0.3407, + "step": 14960 + }, + { + "epoch": 39.92, + "grad_norm": 0.2578125, + "learning_rate": 0.0004995403678536859, + "loss": 0.3455, + "step": 14970 + }, + { + "epoch": 39.946666666666665, + "grad_norm": 0.212890625, + "learning_rate": 0.0004995397324955503, + "loss": 0.344, + "step": 14980 + }, + { + "epoch": 39.973333333333336, + "grad_norm": 0.263671875, + "learning_rate": 0.0004995390966989888, + "loss": 0.3538, + "step": 14990 + }, + { + "epoch": 40.0, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004995384604640025, + "loss": 0.3412, + "step": 15000 + }, + { + "epoch": 40.0, + "eval_loss": 0.4093421399593353, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.3136, + "eval_samples_per_second": 1.299, + "eval_steps_per_second": 0.081, + "step": 15000 + }, + { + "epoch": 40.026666666666664, + "grad_norm": 0.171875, + "learning_rate": 0.0004995378237905926, + "loss": 0.3639, + "step": 15010 + }, + { + "epoch": 40.053333333333335, + "grad_norm": 0.21875, + "learning_rate": 0.0004995371866787601, + "loss": 0.3692, + "step": 15020 + }, + { + "epoch": 40.08, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004995365491285063, + "loss": 0.354, + "step": 15030 + }, + { + "epoch": 40.10666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004995359111398323, + "loss": 0.3542, + "step": 15040 + }, + { + "epoch": 40.13333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.000499535272712739, + "loss": 0.3482, + "step": 15050 + }, + { + "epoch": 40.16, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004995346338472277, + "loss": 0.354, + "step": 15060 + }, + { + "epoch": 40.18666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004995339945432994, + "loss": 0.3475, + "step": 15070 + }, + { + "epoch": 40.21333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0004995333548009554, + "loss": 0.3381, + "step": 15080 + }, + { + "epoch": 40.24, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004995327146201968, + "loss": 0.3427, + "step": 15090 + }, + { + "epoch": 40.266666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004995320740010245, + "loss": 0.3497, + "step": 15100 + }, + { + "epoch": 40.29333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004995314329434399, + "loss": 0.344, + "step": 15110 + }, + { + "epoch": 40.32, + "grad_norm": 0.158203125, + "learning_rate": 0.0004995307914474439, + "loss": 0.3499, + "step": 15120 + }, + { + "epoch": 40.346666666666664, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004995301495130378, + "loss": 0.3513, + "step": 15130 + }, + { + "epoch": 40.373333333333335, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004995295071402227, + "loss": 0.3434, + "step": 15140 + }, + { + "epoch": 40.4, + "grad_norm": 0.201171875, + "learning_rate": 0.0004995288643289996, + "loss": 0.3454, + "step": 15150 + }, + { + "epoch": 40.42666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0004995282210793698, + "loss": 0.3499, + "step": 15160 + }, + { + "epoch": 40.45333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004995275773913343, + "loss": 0.3588, + "step": 15170 + }, + { + "epoch": 40.48, + "grad_norm": 0.177734375, + "learning_rate": 0.0004995269332648943, + "loss": 0.3559, + "step": 15180 + }, + { + "epoch": 40.50666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.000499526288700051, + "loss": 0.3507, + "step": 15190 + }, + { + "epoch": 40.53333333333333, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004995256436968053, + "loss": 0.3458, + "step": 15200 + }, + { + "epoch": 40.56, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004995249982551585, + "loss": 0.3437, + "step": 15210 + }, + { + "epoch": 40.586666666666666, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004995243523751118, + "loss": 0.3445, + "step": 15220 + }, + { + "epoch": 40.61333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004995237060566662, + "loss": 0.334, + "step": 15230 + }, + { + "epoch": 40.64, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004995230592998228, + "loss": 0.3387, + "step": 15240 + }, + { + "epoch": 40.666666666666664, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004995224121045831, + "loss": 0.3533, + "step": 15250 + }, + { + "epoch": 40.693333333333335, + "grad_norm": 0.185546875, + "learning_rate": 0.0004995217644709478, + "loss": 0.3331, + "step": 15260 + }, + { + "epoch": 40.72, + "grad_norm": 0.3046875, + "learning_rate": 0.000499521116398918, + "loss": 0.3494, + "step": 15270 + }, + { + "epoch": 40.74666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004995204678884952, + "loss": 0.3513, + "step": 15280 + }, + { + "epoch": 40.77333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004995198189396804, + "loss": 0.3623, + "step": 15290 + }, + { + "epoch": 40.8, + "grad_norm": 0.21875, + "learning_rate": 0.0004995191695524747, + "loss": 0.3488, + "step": 15300 + }, + { + "epoch": 40.82666666666667, + "grad_norm": 0.28125, + "learning_rate": 0.0004995185197268793, + "loss": 0.3377, + "step": 15310 + }, + { + "epoch": 40.85333333333333, + "grad_norm": 0.375, + "learning_rate": 0.0004995178694628952, + "loss": 0.3417, + "step": 15320 + }, + { + "epoch": 40.88, + "grad_norm": 0.34375, + "learning_rate": 0.0004995172187605237, + "loss": 0.3391, + "step": 15330 + }, + { + "epoch": 40.906666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0004995165676197658, + "loss": 0.3434, + "step": 15340 + }, + { + "epoch": 40.93333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004995159160406228, + "loss": 0.3432, + "step": 15350 + }, + { + "epoch": 40.96, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004995152640230958, + "loss": 0.3418, + "step": 15360 + }, + { + "epoch": 40.986666666666665, + "grad_norm": 0.208984375, + "learning_rate": 0.0004995146115671858, + "loss": 0.3569, + "step": 15370 + }, + { + "epoch": 41.0, + "eval_loss": 0.4083143472671509, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9679, + "eval_samples_per_second": 1.337, + "eval_steps_per_second": 0.084, + "step": 15375 + }, + { + "epoch": 41.013333333333335, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004995139586728941, + "loss": 0.3453, + "step": 15380 + }, + { + "epoch": 41.04, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004995133053402219, + "loss": 0.371, + "step": 15390 + }, + { + "epoch": 41.06666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004995126515691702, + "loss": 0.3561, + "step": 15400 + }, + { + "epoch": 41.093333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004995119973597402, + "loss": 0.3541, + "step": 15410 + }, + { + "epoch": 41.12, + "grad_norm": 0.205078125, + "learning_rate": 0.000499511342711933, + "loss": 0.349, + "step": 15420 + }, + { + "epoch": 41.14666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004995106876257498, + "loss": 0.351, + "step": 15430 + }, + { + "epoch": 41.17333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004995100321011919, + "loss": 0.3499, + "step": 15440 + }, + { + "epoch": 41.2, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004995093761382602, + "loss": 0.343, + "step": 15450 + }, + { + "epoch": 41.22666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.000499508719736956, + "loss": 0.3384, + "step": 15460 + }, + { + "epoch": 41.25333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004995080628972804, + "loss": 0.3387, + "step": 15470 + }, + { + "epoch": 41.28, + "grad_norm": 0.22265625, + "learning_rate": 0.0004995074056192345, + "loss": 0.3572, + "step": 15480 + }, + { + "epoch": 41.306666666666665, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004995067479028197, + "loss": 0.3378, + "step": 15490 + }, + { + "epoch": 41.333333333333336, + "grad_norm": 0.2109375, + "learning_rate": 0.0004995060897480368, + "loss": 0.3533, + "step": 15500 + }, + { + "epoch": 41.36, + "grad_norm": 0.212890625, + "learning_rate": 0.0004995054311548872, + "loss": 0.3449, + "step": 15510 + }, + { + "epoch": 41.38666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.000499504772123372, + "loss": 0.3426, + "step": 15520 + }, + { + "epoch": 41.413333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004995041126534923, + "loss": 0.3479, + "step": 15530 + }, + { + "epoch": 41.44, + "grad_norm": 0.263671875, + "learning_rate": 0.0004995034527452494, + "loss": 0.3542, + "step": 15540 + }, + { + "epoch": 41.46666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0004995027923986443, + "loss": 0.359, + "step": 15550 + }, + { + "epoch": 41.49333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004995021316136783, + "loss": 0.3481, + "step": 15560 + }, + { + "epoch": 41.52, + "grad_norm": 0.19140625, + "learning_rate": 0.0004995014703903524, + "loss": 0.3513, + "step": 15570 + }, + { + "epoch": 41.54666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004995008087286679, + "loss": 0.3421, + "step": 15580 + }, + { + "epoch": 41.57333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004995001466286259, + "loss": 0.3445, + "step": 15590 + }, + { + "epoch": 41.6, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004994994840902276, + "loss": 0.3374, + "step": 15600 + }, + { + "epoch": 41.626666666666665, + "grad_norm": 0.2060546875, + "learning_rate": 0.000499498821113474, + "loss": 0.3336, + "step": 15610 + }, + { + "epoch": 41.653333333333336, + "grad_norm": 0.193359375, + "learning_rate": 0.0004994981576983666, + "loss": 0.3487, + "step": 15620 + }, + { + "epoch": 41.68, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004994974938449063, + "loss": 0.3375, + "step": 15630 + }, + { + "epoch": 41.70666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004994968295530943, + "loss": 0.3375, + "step": 15640 + }, + { + "epoch": 41.733333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004994961648229318, + "loss": 0.3551, + "step": 15650 + }, + { + "epoch": 41.76, + "grad_norm": 0.23046875, + "learning_rate": 0.00049949549965442, + "loss": 0.3563, + "step": 15660 + }, + { + "epoch": 41.78666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.00049949483404756, + "loss": 0.3566, + "step": 15670 + }, + { + "epoch": 41.81333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004994941680023532, + "loss": 0.3387, + "step": 15680 + }, + { + "epoch": 41.84, + "grad_norm": 0.291015625, + "learning_rate": 0.0004994935015188004, + "loss": 0.3383, + "step": 15690 + }, + { + "epoch": 41.86666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.000499492834596903, + "loss": 0.3395, + "step": 15700 + }, + { + "epoch": 41.89333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.000499492167236662, + "loss": 0.3391, + "step": 15710 + }, + { + "epoch": 41.92, + "grad_norm": 0.19921875, + "learning_rate": 0.0004994914994380789, + "loss": 0.343, + "step": 15720 + }, + { + "epoch": 41.946666666666665, + "grad_norm": 0.328125, + "learning_rate": 0.0004994908312011546, + "loss": 0.3422, + "step": 15730 + }, + { + "epoch": 41.973333333333336, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004994901625258902, + "loss": 0.3522, + "step": 15740 + }, + { + "epoch": 42.0, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004994894934122871, + "loss": 0.3395, + "step": 15750 + }, + { + "epoch": 42.0, + "eval_loss": 0.4096122086048126, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7777, + "eval_samples_per_second": 1.485, + "eval_steps_per_second": 0.093, + "step": 15750 + }, + { + "epoch": 42.026666666666664, + "grad_norm": 0.21875, + "learning_rate": 0.0004994888238603465, + "loss": 0.3614, + "step": 15760 + }, + { + "epoch": 42.053333333333335, + "grad_norm": 0.27734375, + "learning_rate": 0.0004994881538700694, + "loss": 0.3669, + "step": 15770 + }, + { + "epoch": 42.08, + "grad_norm": 0.1787109375, + "learning_rate": 0.000499487483441457, + "loss": 0.3521, + "step": 15780 + }, + { + "epoch": 42.10666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004994868125745107, + "loss": 0.3519, + "step": 15790 + }, + { + "epoch": 42.13333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004994861412692313, + "loss": 0.3465, + "step": 15800 + }, + { + "epoch": 42.16, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004994854695256202, + "loss": 0.3516, + "step": 15810 + }, + { + "epoch": 42.18666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004994847973436786, + "loss": 0.3463, + "step": 15820 + }, + { + "epoch": 42.21333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004994841247234077, + "loss": 0.3361, + "step": 15830 + }, + { + "epoch": 42.24, + "grad_norm": 0.478515625, + "learning_rate": 0.0004994834516648085, + "loss": 0.3412, + "step": 15840 + }, + { + "epoch": 42.266666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.0004994827781678824, + "loss": 0.3472, + "step": 15850 + }, + { + "epoch": 42.29333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004994821042326305, + "loss": 0.3425, + "step": 15860 + }, + { + "epoch": 42.32, + "grad_norm": 0.271484375, + "learning_rate": 0.000499481429859054, + "loss": 0.3478, + "step": 15870 + }, + { + "epoch": 42.346666666666664, + "grad_norm": 0.224609375, + "learning_rate": 0.0004994807550471541, + "loss": 0.3497, + "step": 15880 + }, + { + "epoch": 42.373333333333335, + "grad_norm": 0.19140625, + "learning_rate": 0.0004994800797969318, + "loss": 0.3422, + "step": 15890 + }, + { + "epoch": 42.4, + "grad_norm": 0.193359375, + "learning_rate": 0.0004994794041083885, + "loss": 0.3431, + "step": 15900 + }, + { + "epoch": 42.42666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004994787279815254, + "loss": 0.3485, + "step": 15910 + }, + { + "epoch": 42.45333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004994780514163434, + "loss": 0.3568, + "step": 15920 + }, + { + "epoch": 42.48, + "grad_norm": 0.185546875, + "learning_rate": 0.0004994773744128441, + "loss": 0.3541, + "step": 15930 + }, + { + "epoch": 42.50666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004994766969710284, + "loss": 0.3489, + "step": 15940 + }, + { + "epoch": 42.53333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004994760190908976, + "loss": 0.3434, + "step": 15950 + }, + { + "epoch": 42.56, + "grad_norm": 0.330078125, + "learning_rate": 0.0004994753407724528, + "loss": 0.3414, + "step": 15960 + }, + { + "epoch": 42.586666666666666, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004994746620156954, + "loss": 0.3416, + "step": 15970 + }, + { + "epoch": 42.61333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004994739828206263, + "loss": 0.3324, + "step": 15980 + }, + { + "epoch": 42.64, + "grad_norm": 0.181640625, + "learning_rate": 0.000499473303187247, + "loss": 0.3365, + "step": 15990 + }, + { + "epoch": 42.666666666666664, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004994726231155583, + "loss": 0.3513, + "step": 16000 + }, + { + "epoch": 42.693333333333335, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004994719426055619, + "loss": 0.3316, + "step": 16010 + }, + { + "epoch": 42.72, + "grad_norm": 0.2578125, + "learning_rate": 0.0004994712616572585, + "loss": 0.348, + "step": 16020 + }, + { + "epoch": 42.74666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004994705802706496, + "loss": 0.3497, + "step": 16030 + }, + { + "epoch": 42.77333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0004994698984457364, + "loss": 0.3604, + "step": 16040 + }, + { + "epoch": 42.8, + "grad_norm": 0.40625, + "learning_rate": 0.0004994692161825199, + "loss": 0.3471, + "step": 16050 + }, + { + "epoch": 42.82666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004994685334810015, + "loss": 0.3363, + "step": 16060 + }, + { + "epoch": 42.85333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004994678503411823, + "loss": 0.3394, + "step": 16070 + }, + { + "epoch": 42.88, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004994671667630636, + "loss": 0.3377, + "step": 16080 + }, + { + "epoch": 42.906666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004994664827466464, + "loss": 0.3415, + "step": 16090 + }, + { + "epoch": 42.93333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004994657982919322, + "loss": 0.3422, + "step": 16100 + }, + { + "epoch": 42.96, + "grad_norm": 0.29296875, + "learning_rate": 0.0004994651133989219, + "loss": 0.3404, + "step": 16110 + }, + { + "epoch": 42.986666666666665, + "grad_norm": 0.294921875, + "learning_rate": 0.0004994644280676168, + "loss": 0.356, + "step": 16120 + }, + { + "epoch": 43.0, + "eval_loss": 0.4065290689468384, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6701, + "eval_samples_per_second": 1.5, + "eval_steps_per_second": 0.094, + "step": 16125 + }, + { + "epoch": 43.013333333333335, + "grad_norm": 0.296875, + "learning_rate": 0.0004994637422980181, + "loss": 0.3439, + "step": 16130 + }, + { + "epoch": 43.04, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004994630560901271, + "loss": 0.3698, + "step": 16140 + }, + { + "epoch": 43.06666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004994623694439449, + "loss": 0.3537, + "step": 16150 + }, + { + "epoch": 43.093333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004994616823594728, + "loss": 0.3516, + "step": 16160 + }, + { + "epoch": 43.12, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004994609948367119, + "loss": 0.3479, + "step": 16170 + }, + { + "epoch": 43.14666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004994603068756636, + "loss": 0.35, + "step": 16180 + }, + { + "epoch": 43.17333333333333, + "grad_norm": 0.375, + "learning_rate": 0.0004994596184763288, + "loss": 0.3478, + "step": 16190 + }, + { + "epoch": 43.2, + "grad_norm": 0.318359375, + "learning_rate": 0.0004994589296387089, + "loss": 0.3414, + "step": 16200 + }, + { + "epoch": 43.22666666666667, + "grad_norm": 0.298828125, + "learning_rate": 0.0004994582403628052, + "loss": 0.3368, + "step": 16210 + }, + { + "epoch": 43.25333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004994575506486187, + "loss": 0.3371, + "step": 16220 + }, + { + "epoch": 43.28, + "grad_norm": 0.2890625, + "learning_rate": 0.0004994568604961508, + "loss": 0.356, + "step": 16230 + }, + { + "epoch": 43.306666666666665, + "grad_norm": 0.201171875, + "learning_rate": 0.0004994561699054027, + "loss": 0.3357, + "step": 16240 + }, + { + "epoch": 43.333333333333336, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004994554788763753, + "loss": 0.3514, + "step": 16250 + }, + { + "epoch": 43.36, + "grad_norm": 0.326171875, + "learning_rate": 0.0004994547874090702, + "loss": 0.343, + "step": 16260 + }, + { + "epoch": 43.38666666666666, + "grad_norm": 0.388671875, + "learning_rate": 0.0004994540955034886, + "loss": 0.3406, + "step": 16270 + }, + { + "epoch": 43.413333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004994534031596313, + "loss": 0.3465, + "step": 16280 + }, + { + "epoch": 43.44, + "grad_norm": 0.26953125, + "learning_rate": 0.0004994527103774999, + "loss": 0.3518, + "step": 16290 + }, + { + "epoch": 43.46666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004994520171570957, + "loss": 0.3569, + "step": 16300 + }, + { + "epoch": 43.49333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004994513234984195, + "loss": 0.3458, + "step": 16310 + }, + { + "epoch": 43.52, + "grad_norm": 0.232421875, + "learning_rate": 0.0004994506294014729, + "loss": 0.349, + "step": 16320 + }, + { + "epoch": 43.54666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004994499348662569, + "loss": 0.3402, + "step": 16330 + }, + { + "epoch": 43.57333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004994492398927728, + "loss": 0.3427, + "step": 16340 + }, + { + "epoch": 43.6, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004994485444810218, + "loss": 0.3361, + "step": 16350 + }, + { + "epoch": 43.626666666666665, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004994478486310052, + "loss": 0.3328, + "step": 16360 + }, + { + "epoch": 43.653333333333336, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004994471523427242, + "loss": 0.3465, + "step": 16370 + }, + { + "epoch": 43.68, + "grad_norm": 0.302734375, + "learning_rate": 0.0004994464556161799, + "loss": 0.3361, + "step": 16380 + }, + { + "epoch": 43.70666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004994457584513736, + "loss": 0.336, + "step": 16390 + }, + { + "epoch": 43.733333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.0004994450608483066, + "loss": 0.3537, + "step": 16400 + }, + { + "epoch": 43.76, + "grad_norm": 0.1962890625, + "learning_rate": 0.00049944436280698, + "loss": 0.3545, + "step": 16410 + }, + { + "epoch": 43.78666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004994436643273951, + "loss": 0.355, + "step": 16420 + }, + { + "epoch": 43.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004994429654095531, + "loss": 0.3373, + "step": 16430 + }, + { + "epoch": 43.84, + "grad_norm": 0.236328125, + "learning_rate": 0.0004994422660534553, + "loss": 0.337, + "step": 16440 + }, + { + "epoch": 43.86666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004994415662591029, + "loss": 0.3379, + "step": 16450 + }, + { + "epoch": 43.89333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.000499440866026497, + "loss": 0.3374, + "step": 16460 + }, + { + "epoch": 43.92, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004994401653556389, + "loss": 0.3418, + "step": 16470 + }, + { + "epoch": 43.946666666666665, + "grad_norm": 0.177734375, + "learning_rate": 0.00049943946424653, + "loss": 0.3409, + "step": 16480 + }, + { + "epoch": 43.973333333333336, + "grad_norm": 0.31640625, + "learning_rate": 0.0004994387626991712, + "loss": 0.3502, + "step": 16490 + }, + { + "epoch": 44.0, + "grad_norm": 0.2412109375, + "learning_rate": 0.000499438060713564, + "loss": 0.3382, + "step": 16500 + }, + { + "epoch": 44.0, + "eval_loss": 0.40632036328315735, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8182, + "eval_samples_per_second": 1.354, + "eval_steps_per_second": 0.085, + "step": 16500 + }, + { + "epoch": 44.026666666666664, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004994373582897096, + "loss": 0.3597, + "step": 16510 + }, + { + "epoch": 44.053333333333335, + "grad_norm": 0.224609375, + "learning_rate": 0.0004994366554276092, + "loss": 0.366, + "step": 16520 + }, + { + "epoch": 44.08, + "grad_norm": 0.2158203125, + "learning_rate": 0.000499435952127264, + "loss": 0.3505, + "step": 16530 + }, + { + "epoch": 44.10666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004994352483886753, + "loss": 0.3507, + "step": 16540 + }, + { + "epoch": 44.13333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004994345442118443, + "loss": 0.3446, + "step": 16550 + }, + { + "epoch": 44.16, + "grad_norm": 0.228515625, + "learning_rate": 0.0004994338395967722, + "loss": 0.3508, + "step": 16560 + }, + { + "epoch": 44.18666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004994331345434602, + "loss": 0.344, + "step": 16570 + }, + { + "epoch": 44.21333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004994324290519096, + "loss": 0.334, + "step": 16580 + }, + { + "epoch": 44.24, + "grad_norm": 0.181640625, + "learning_rate": 0.0004994317231221218, + "loss": 0.3391, + "step": 16590 + }, + { + "epoch": 44.266666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004994310167540978, + "loss": 0.3457, + "step": 16600 + }, + { + "epoch": 44.29333333333334, + "grad_norm": 0.33203125, + "learning_rate": 0.000499430309947839, + "loss": 0.34, + "step": 16610 + }, + { + "epoch": 44.32, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004994296027033466, + "loss": 0.3463, + "step": 16620 + }, + { + "epoch": 44.346666666666664, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004994288950206217, + "loss": 0.3478, + "step": 16630 + }, + { + "epoch": 44.373333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.0004994281868996658, + "loss": 0.3395, + "step": 16640 + }, + { + "epoch": 44.4, + "grad_norm": 0.2421875, + "learning_rate": 0.0004994274783404798, + "loss": 0.3408, + "step": 16650 + }, + { + "epoch": 44.42666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004994267693430654, + "loss": 0.3469, + "step": 16660 + }, + { + "epoch": 44.45333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004994260599074234, + "loss": 0.3556, + "step": 16670 + }, + { + "epoch": 44.48, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004994253500335553, + "loss": 0.3514, + "step": 16680 + }, + { + "epoch": 44.50666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004994246397214623, + "loss": 0.3468, + "step": 16690 + }, + { + "epoch": 44.53333333333333, + "grad_norm": 0.16015625, + "learning_rate": 0.0004994239289711456, + "loss": 0.3416, + "step": 16700 + }, + { + "epoch": 44.56, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004994232177826065, + "loss": 0.3396, + "step": 16710 + }, + { + "epoch": 44.586666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0004994225061558463, + "loss": 0.3406, + "step": 16720 + }, + { + "epoch": 44.61333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004994217940908662, + "loss": 0.331, + "step": 16730 + }, + { + "epoch": 44.64, + "grad_norm": 0.220703125, + "learning_rate": 0.0004994210815876673, + "loss": 0.3355, + "step": 16740 + }, + { + "epoch": 44.666666666666664, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004994203686462511, + "loss": 0.3493, + "step": 16750 + }, + { + "epoch": 44.693333333333335, + "grad_norm": 0.287109375, + "learning_rate": 0.0004994196552666187, + "loss": 0.3298, + "step": 16760 + }, + { + "epoch": 44.72, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004994189414487714, + "loss": 0.3456, + "step": 16770 + }, + { + "epoch": 44.74666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004994182271927105, + "loss": 0.3486, + "step": 16780 + }, + { + "epoch": 44.77333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004994175124984372, + "loss": 0.3596, + "step": 16790 + }, + { + "epoch": 44.8, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004994167973659526, + "loss": 0.3449, + "step": 16800 + }, + { + "epoch": 44.82666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004994160817952582, + "loss": 0.3346, + "step": 16810 + }, + { + "epoch": 44.85333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004994153657863553, + "loss": 0.3377, + "step": 16820 + }, + { + "epoch": 44.88, + "grad_norm": 0.255859375, + "learning_rate": 0.0004994146493392448, + "loss": 0.3356, + "step": 16830 + }, + { + "epoch": 44.906666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004994139324539284, + "loss": 0.3398, + "step": 16840 + }, + { + "epoch": 44.93333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004994132151304071, + "loss": 0.3399, + "step": 16850 + }, + { + "epoch": 44.96, + "grad_norm": 0.2109375, + "learning_rate": 0.0004994124973686821, + "loss": 0.3398, + "step": 16860 + }, + { + "epoch": 44.986666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.0004994117791687549, + "loss": 0.3537, + "step": 16870 + }, + { + "epoch": 45.0, + "eval_loss": 0.40891388058662415, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8358, + "eval_samples_per_second": 1.352, + "eval_steps_per_second": 0.084, + "step": 16875 + }, + { + "epoch": 45.013333333333335, + "grad_norm": 0.22265625, + "learning_rate": 0.0004994110605306266, + "loss": 0.342, + "step": 16880 + }, + { + "epoch": 45.04, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004994103414542985, + "loss": 0.368, + "step": 16890 + }, + { + "epoch": 45.06666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004994096219397718, + "loss": 0.3527, + "step": 16900 + }, + { + "epoch": 45.093333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0004994089019870479, + "loss": 0.3504, + "step": 16910 + }, + { + "epoch": 45.12, + "grad_norm": 0.302734375, + "learning_rate": 0.0004994081815961279, + "loss": 0.3465, + "step": 16920 + }, + { + "epoch": 45.14666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004994074607670132, + "loss": 0.348, + "step": 16930 + }, + { + "epoch": 45.17333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.000499406739499705, + "loss": 0.3464, + "step": 16940 + }, + { + "epoch": 45.2, + "grad_norm": 0.330078125, + "learning_rate": 0.0004994060177942047, + "loss": 0.3394, + "step": 16950 + }, + { + "epoch": 45.22666666666667, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004994052956505133, + "loss": 0.335, + "step": 16960 + }, + { + "epoch": 45.25333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004994045730686323, + "loss": 0.3355, + "step": 16970 + }, + { + "epoch": 45.28, + "grad_norm": 0.275390625, + "learning_rate": 0.0004994038500485628, + "loss": 0.3539, + "step": 16980 + }, + { + "epoch": 45.306666666666665, + "grad_norm": 0.1796875, + "learning_rate": 0.0004994031265903063, + "loss": 0.3347, + "step": 16990 + }, + { + "epoch": 45.333333333333336, + "grad_norm": 0.166015625, + "learning_rate": 0.0004994024026938639, + "loss": 0.3494, + "step": 17000 + }, + { + "epoch": 45.36, + "grad_norm": 0.208984375, + "learning_rate": 0.0004994016783592369, + "loss": 0.3414, + "step": 17010 + }, + { + "epoch": 45.38666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.0004994009535864266, + "loss": 0.3384, + "step": 17020 + }, + { + "epoch": 45.413333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004994002283754341, + "loss": 0.344, + "step": 17030 + }, + { + "epoch": 45.44, + "grad_norm": 0.1943359375, + "learning_rate": 0.000499399502726261, + "loss": 0.3505, + "step": 17040 + }, + { + "epoch": 45.46666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004993987766389083, + "loss": 0.3555, + "step": 17050 + }, + { + "epoch": 45.49333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004993980501133775, + "loss": 0.344, + "step": 17060 + }, + { + "epoch": 45.52, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004993973231496696, + "loss": 0.3472, + "step": 17070 + }, + { + "epoch": 45.54666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004993965957477861, + "loss": 0.3381, + "step": 17080 + }, + { + "epoch": 45.57333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004993958679077282, + "loss": 0.3404, + "step": 17090 + }, + { + "epoch": 45.6, + "grad_norm": 0.166015625, + "learning_rate": 0.0004993951396294972, + "loss": 0.3347, + "step": 17100 + }, + { + "epoch": 45.626666666666665, + "grad_norm": 0.173828125, + "learning_rate": 0.0004993944109130944, + "loss": 0.3314, + "step": 17110 + }, + { + "epoch": 45.653333333333336, + "grad_norm": 0.1826171875, + "learning_rate": 0.000499393681758521, + "loss": 0.345, + "step": 17120 + }, + { + "epoch": 45.68, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004993929521657784, + "loss": 0.3339, + "step": 17130 + }, + { + "epoch": 45.70666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004993922221348677, + "loss": 0.3344, + "step": 17140 + }, + { + "epoch": 45.733333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0004993914916657903, + "loss": 0.3518, + "step": 17150 + }, + { + "epoch": 45.76, + "grad_norm": 0.220703125, + "learning_rate": 0.0004993907607585476, + "loss": 0.3527, + "step": 17160 + }, + { + "epoch": 45.78666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004993900294131406, + "loss": 0.3538, + "step": 17170 + }, + { + "epoch": 45.81333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004993892976295709, + "loss": 0.3357, + "step": 17180 + }, + { + "epoch": 45.84, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004993885654078395, + "loss": 0.335, + "step": 17190 + }, + { + "epoch": 45.86666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004993878327479479, + "loss": 0.3366, + "step": 17200 + }, + { + "epoch": 45.89333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004993870996498973, + "loss": 0.336, + "step": 17210 + }, + { + "epoch": 45.92, + "grad_norm": 0.283203125, + "learning_rate": 0.0004993863661136889, + "loss": 0.3401, + "step": 17220 + }, + { + "epoch": 45.946666666666665, + "grad_norm": 0.400390625, + "learning_rate": 0.0004993856321393242, + "loss": 0.3401, + "step": 17230 + }, + { + "epoch": 45.973333333333336, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004993848977268043, + "loss": 0.3484, + "step": 17240 + }, + { + "epoch": 46.0, + "grad_norm": 0.21875, + "learning_rate": 0.0004993841628761306, + "loss": 0.3358, + "step": 17250 + }, + { + "epoch": 46.0, + "eval_loss": 0.40796753764152527, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.2832, + "eval_samples_per_second": 1.556, + "eval_steps_per_second": 0.097, + "step": 17250 + }, + { + "epoch": 46.026666666666664, + "grad_norm": 0.3046875, + "learning_rate": 0.0004993834275873044, + "loss": 0.3587, + "step": 17260 + }, + { + "epoch": 46.053333333333335, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004993826918603268, + "loss": 0.3647, + "step": 17270 + }, + { + "epoch": 46.08, + "grad_norm": 0.1875, + "learning_rate": 0.0004993819556951993, + "loss": 0.3488, + "step": 17280 + }, + { + "epoch": 46.10666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004993812190919232, + "loss": 0.3493, + "step": 17290 + }, + { + "epoch": 46.13333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004993804820504997, + "loss": 0.343, + "step": 17300 + }, + { + "epoch": 46.16, + "grad_norm": 0.23046875, + "learning_rate": 0.0004993797445709301, + "loss": 0.3492, + "step": 17310 + }, + { + "epoch": 46.18666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004993790066532156, + "loss": 0.3436, + "step": 17320 + }, + { + "epoch": 46.21333333333333, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004993782682973577, + "loss": 0.3323, + "step": 17330 + }, + { + "epoch": 46.24, + "grad_norm": 0.26171875, + "learning_rate": 0.0004993775295033577, + "loss": 0.337, + "step": 17340 + }, + { + "epoch": 46.266666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004993767902712168, + "loss": 0.3442, + "step": 17350 + }, + { + "epoch": 46.29333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004993760506009361, + "loss": 0.3387, + "step": 17360 + }, + { + "epoch": 46.32, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004993753104925174, + "loss": 0.3454, + "step": 17370 + }, + { + "epoch": 46.346666666666664, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004993745699459615, + "loss": 0.3466, + "step": 17380 + }, + { + "epoch": 46.373333333333335, + "grad_norm": 0.18359375, + "learning_rate": 0.00049937382896127, + "loss": 0.3381, + "step": 17390 + }, + { + "epoch": 46.4, + "grad_norm": 0.1875, + "learning_rate": 0.0004993730875384441, + "loss": 0.3401, + "step": 17400 + }, + { + "epoch": 46.42666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.000499372345677485, + "loss": 0.3458, + "step": 17410 + }, + { + "epoch": 46.45333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004993716033783942, + "loss": 0.3537, + "step": 17420 + }, + { + "epoch": 46.48, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004993708606411729, + "loss": 0.3503, + "step": 17430 + }, + { + "epoch": 46.50666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004993701174658224, + "loss": 0.3456, + "step": 17440 + }, + { + "epoch": 46.53333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004993693738523442, + "loss": 0.3407, + "step": 17450 + }, + { + "epoch": 46.56, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004993686298007393, + "loss": 0.3385, + "step": 17460 + }, + { + "epoch": 46.586666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004993678853110091, + "loss": 0.3395, + "step": 17470 + }, + { + "epoch": 46.61333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.000499367140383155, + "loss": 0.3289, + "step": 17480 + }, + { + "epoch": 46.64, + "grad_norm": 0.2265625, + "learning_rate": 0.0004993663950171781, + "loss": 0.334, + "step": 17490 + }, + { + "epoch": 46.666666666666664, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004993656492130801, + "loss": 0.3484, + "step": 17500 + }, + { + "epoch": 46.693333333333335, + "grad_norm": 0.208984375, + "learning_rate": 0.000499364902970862, + "loss": 0.3287, + "step": 17510 + }, + { + "epoch": 46.72, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004993641562905252, + "loss": 0.3442, + "step": 17520 + }, + { + "epoch": 46.74666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.000499363409172071, + "loss": 0.3461, + "step": 17530 + }, + { + "epoch": 46.77333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004993626616155007, + "loss": 0.3576, + "step": 17540 + }, + { + "epoch": 46.8, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004993619136208158, + "loss": 0.3435, + "step": 17550 + }, + { + "epoch": 46.82666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004993611651880173, + "loss": 0.3321, + "step": 17560 + }, + { + "epoch": 46.85333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004993604163171065, + "loss": 0.3361, + "step": 17570 + }, + { + "epoch": 46.88, + "grad_norm": 0.181640625, + "learning_rate": 0.000499359667008085, + "loss": 0.3342, + "step": 17580 + }, + { + "epoch": 46.906666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.000499358917260954, + "loss": 0.3381, + "step": 17590 + }, + { + "epoch": 46.93333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004993581670757149, + "loss": 0.3381, + "step": 17600 + }, + { + "epoch": 46.96, + "grad_norm": 0.16015625, + "learning_rate": 0.0004993574164523688, + "loss": 0.3371, + "step": 17610 + }, + { + "epoch": 46.986666666666665, + "grad_norm": 0.271484375, + "learning_rate": 0.0004993566653909171, + "loss": 0.3517, + "step": 17620 + }, + { + "epoch": 47.0, + "eval_loss": 0.40723633766174316, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9721, + "eval_samples_per_second": 1.336, + "eval_steps_per_second": 0.084, + "step": 17625 + }, + { + "epoch": 47.013333333333335, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004993559138913614, + "loss": 0.3404, + "step": 17630 + }, + { + "epoch": 47.04, + "grad_norm": 0.20703125, + "learning_rate": 0.0004993551619537026, + "loss": 0.3667, + "step": 17640 + }, + { + "epoch": 47.06666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004993544095779422, + "loss": 0.3511, + "step": 17650 + }, + { + "epoch": 47.093333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004993536567640816, + "loss": 0.3493, + "step": 17660 + }, + { + "epoch": 47.12, + "grad_norm": 0.20703125, + "learning_rate": 0.000499352903512122, + "loss": 0.3441, + "step": 17670 + }, + { + "epoch": 47.14666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004993521498220648, + "loss": 0.3466, + "step": 17680 + }, + { + "epoch": 47.17333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004993513956939113, + "loss": 0.3447, + "step": 17690 + }, + { + "epoch": 47.2, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004993506411276628, + "loss": 0.338, + "step": 17700 + }, + { + "epoch": 47.22666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004993498861233206, + "loss": 0.3341, + "step": 17710 + }, + { + "epoch": 47.25333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004993491306808862, + "loss": 0.3342, + "step": 17720 + }, + { + "epoch": 47.28, + "grad_norm": 0.263671875, + "learning_rate": 0.0004993483748003607, + "loss": 0.3522, + "step": 17730 + }, + { + "epoch": 47.306666666666665, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004993476184817456, + "loss": 0.333, + "step": 17740 + }, + { + "epoch": 47.333333333333336, + "grad_norm": 0.201171875, + "learning_rate": 0.000499346861725042, + "loss": 0.3481, + "step": 17750 + }, + { + "epoch": 47.36, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004993461045302515, + "loss": 0.3402, + "step": 17760 + }, + { + "epoch": 47.38666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004993453468973754, + "loss": 0.3372, + "step": 17770 + }, + { + "epoch": 47.413333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004993445888264149, + "loss": 0.3428, + "step": 17780 + }, + { + "epoch": 47.44, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004993438303173714, + "loss": 0.3484, + "step": 17790 + }, + { + "epoch": 47.46666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004993430713702462, + "loss": 0.354, + "step": 17800 + }, + { + "epoch": 47.49333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004993423119850405, + "loss": 0.3426, + "step": 17810 + }, + { + "epoch": 47.52, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004993415521617559, + "loss": 0.3459, + "step": 17820 + }, + { + "epoch": 47.54666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004993407919003937, + "loss": 0.337, + "step": 17830 + }, + { + "epoch": 47.57333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.000499340031200955, + "loss": 0.3405, + "step": 17840 + }, + { + "epoch": 47.6, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004993392700634413, + "loss": 0.334, + "step": 17850 + }, + { + "epoch": 47.626666666666665, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004993385084878541, + "loss": 0.3299, + "step": 17860 + }, + { + "epoch": 47.653333333333336, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004993377464741944, + "loss": 0.3444, + "step": 17870 + }, + { + "epoch": 47.68, + "grad_norm": 0.19140625, + "learning_rate": 0.0004993369840224638, + "loss": 0.3326, + "step": 17880 + }, + { + "epoch": 47.70666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004993362211326636, + "loss": 0.3332, + "step": 17890 + }, + { + "epoch": 47.733333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004993354578047949, + "loss": 0.3504, + "step": 17900 + }, + { + "epoch": 47.76, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004993346940388593, + "loss": 0.3518, + "step": 17910 + }, + { + "epoch": 47.78666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.000499333929834858, + "loss": 0.3523, + "step": 17920 + }, + { + "epoch": 47.81333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004993331651927926, + "loss": 0.3336, + "step": 17930 + }, + { + "epoch": 47.84, + "grad_norm": 0.267578125, + "learning_rate": 0.0004993324001126641, + "loss": 0.3339, + "step": 17940 + }, + { + "epoch": 47.86666666666667, + "grad_norm": 0.1640625, + "learning_rate": 0.000499331634594474, + "loss": 0.3348, + "step": 17950 + }, + { + "epoch": 47.89333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004993308686382237, + "loss": 0.3339, + "step": 17960 + }, + { + "epoch": 47.92, + "grad_norm": 0.291015625, + "learning_rate": 0.0004993301022439145, + "loss": 0.3385, + "step": 17970 + }, + { + "epoch": 47.946666666666665, + "grad_norm": 0.236328125, + "learning_rate": 0.0004993293354115477, + "loss": 0.3379, + "step": 17980 + }, + { + "epoch": 47.973333333333336, + "grad_norm": 0.25, + "learning_rate": 0.0004993285681411246, + "loss": 0.3467, + "step": 17990 + }, + { + "epoch": 48.0, + "grad_norm": 0.19921875, + "learning_rate": 0.0004993278004326467, + "loss": 0.3343, + "step": 18000 + }, + { + "epoch": 48.0, + "eval_loss": 0.4061015844345093, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7684, + "eval_samples_per_second": 1.36, + "eval_steps_per_second": 0.085, + "step": 18000 + }, + { + "epoch": 48.026666666666664, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004993270322861153, + "loss": 0.3565, + "step": 18010 + }, + { + "epoch": 48.053333333333335, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004993262637015317, + "loss": 0.3629, + "step": 18020 + }, + { + "epoch": 48.08, + "grad_norm": 0.283203125, + "learning_rate": 0.0004993254946788974, + "loss": 0.3474, + "step": 18030 + }, + { + "epoch": 48.10666666666667, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004993247252182134, + "loss": 0.3478, + "step": 18040 + }, + { + "epoch": 48.13333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0004993239553194814, + "loss": 0.3416, + "step": 18050 + }, + { + "epoch": 48.16, + "grad_norm": 0.29296875, + "learning_rate": 0.0004993231849827026, + "loss": 0.3481, + "step": 18060 + }, + { + "epoch": 48.18666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004993224142078785, + "loss": 0.3414, + "step": 18070 + }, + { + "epoch": 48.21333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004993216429950102, + "loss": 0.3309, + "step": 18080 + }, + { + "epoch": 48.24, + "grad_norm": 0.208984375, + "learning_rate": 0.0004993208713440992, + "loss": 0.336, + "step": 18090 + }, + { + "epoch": 48.266666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.000499320099255147, + "loss": 0.3426, + "step": 18100 + }, + { + "epoch": 48.29333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004993193267281546, + "loss": 0.3372, + "step": 18110 + }, + { + "epoch": 48.32, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004993185537631237, + "loss": 0.3429, + "step": 18120 + }, + { + "epoch": 48.346666666666664, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004993177803600555, + "loss": 0.3446, + "step": 18130 + }, + { + "epoch": 48.373333333333335, + "grad_norm": 0.224609375, + "learning_rate": 0.0004993170065189514, + "loss": 0.3367, + "step": 18140 + }, + { + "epoch": 48.4, + "grad_norm": 0.19921875, + "learning_rate": 0.0004993162322398127, + "loss": 0.3381, + "step": 18150 + }, + { + "epoch": 48.42666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004993154575226408, + "loss": 0.3442, + "step": 18160 + }, + { + "epoch": 48.45333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004993146823674371, + "loss": 0.3527, + "step": 18170 + }, + { + "epoch": 48.48, + "grad_norm": 0.275390625, + "learning_rate": 0.000499313906774203, + "loss": 0.3487, + "step": 18180 + }, + { + "epoch": 48.50666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004993131307429397, + "loss": 0.344, + "step": 18190 + }, + { + "epoch": 48.53333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0004993123542736486, + "loss": 0.3391, + "step": 18200 + }, + { + "epoch": 48.56, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004993115773663313, + "loss": 0.3369, + "step": 18210 + }, + { + "epoch": 48.586666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004993108000209888, + "loss": 0.338, + "step": 18220 + }, + { + "epoch": 48.61333333333333, + "grad_norm": 0.15625, + "learning_rate": 0.0004993100222376226, + "loss": 0.3282, + "step": 18230 + }, + { + "epoch": 48.64, + "grad_norm": 0.17578125, + "learning_rate": 0.0004993092440162343, + "loss": 0.3318, + "step": 18240 + }, + { + "epoch": 48.666666666666664, + "grad_norm": 0.1806640625, + "learning_rate": 0.000499308465356825, + "loss": 0.3467, + "step": 18250 + }, + { + "epoch": 48.693333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.0004993076862593961, + "loss": 0.3269, + "step": 18260 + }, + { + "epoch": 48.72, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004993069067239491, + "loss": 0.3427, + "step": 18270 + }, + { + "epoch": 48.74666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004993061267504852, + "loss": 0.345, + "step": 18280 + }, + { + "epoch": 48.77333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004993053463390059, + "loss": 0.3562, + "step": 18290 + }, + { + "epoch": 48.8, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004993045654895125, + "loss": 0.3423, + "step": 18300 + }, + { + "epoch": 48.82666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004993037842020065, + "loss": 0.3311, + "step": 18310 + }, + { + "epoch": 48.85333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.000499303002476489, + "loss": 0.3349, + "step": 18320 + }, + { + "epoch": 48.88, + "grad_norm": 0.2890625, + "learning_rate": 0.0004993022203129617, + "loss": 0.3335, + "step": 18330 + }, + { + "epoch": 48.906666666666666, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004993014377114259, + "loss": 0.3363, + "step": 18340 + }, + { + "epoch": 48.93333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004993006546718827, + "loss": 0.3366, + "step": 18350 + }, + { + "epoch": 48.96, + "grad_norm": 0.212890625, + "learning_rate": 0.0004992998711943337, + "loss": 0.3363, + "step": 18360 + }, + { + "epoch": 48.986666666666665, + "grad_norm": 0.279296875, + "learning_rate": 0.0004992990872787803, + "loss": 0.3501, + "step": 18370 + }, + { + "epoch": 49.0, + "eval_loss": 0.4071054458618164, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9547, + "eval_samples_per_second": 1.338, + "eval_steps_per_second": 0.084, + "step": 18375 + }, + { + "epoch": 49.013333333333335, + "grad_norm": 0.173828125, + "learning_rate": 0.0004992983029252239, + "loss": 0.3387, + "step": 18380 + }, + { + "epoch": 49.04, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004992975181336656, + "loss": 0.3657, + "step": 18390 + }, + { + "epoch": 49.06666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0004992967329041072, + "loss": 0.3495, + "step": 18400 + }, + { + "epoch": 49.093333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004992959472365497, + "loss": 0.3475, + "step": 18410 + }, + { + "epoch": 49.12, + "grad_norm": 0.171875, + "learning_rate": 0.0004992951611309947, + "loss": 0.3434, + "step": 18420 + }, + { + "epoch": 49.14666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004992943745874435, + "loss": 0.3454, + "step": 18430 + }, + { + "epoch": 49.17333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0004992935876058975, + "loss": 0.3439, + "step": 18440 + }, + { + "epoch": 49.2, + "grad_norm": 0.19921875, + "learning_rate": 0.0004992928001863582, + "loss": 0.3363, + "step": 18450 + }, + { + "epoch": 49.22666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004992920123288267, + "loss": 0.3323, + "step": 18460 + }, + { + "epoch": 49.25333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004992912240333047, + "loss": 0.3325, + "step": 18470 + }, + { + "epoch": 49.28, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004992904352997934, + "loss": 0.3512, + "step": 18480 + }, + { + "epoch": 49.306666666666665, + "grad_norm": 0.255859375, + "learning_rate": 0.0004992896461282942, + "loss": 0.3315, + "step": 18490 + }, + { + "epoch": 49.333333333333336, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004992888565188085, + "loss": 0.3467, + "step": 18500 + }, + { + "epoch": 49.36, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004992880664713377, + "loss": 0.3387, + "step": 18510 + }, + { + "epoch": 49.38666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004992872759858832, + "loss": 0.3356, + "step": 18520 + }, + { + "epoch": 49.413333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0004992864850624464, + "loss": 0.3421, + "step": 18530 + }, + { + "epoch": 49.44, + "grad_norm": 0.23046875, + "learning_rate": 0.0004992856937010286, + "loss": 0.3472, + "step": 18540 + }, + { + "epoch": 49.46666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004992849019016313, + "loss": 0.3522, + "step": 18550 + }, + { + "epoch": 49.49333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004992841096642559, + "loss": 0.3407, + "step": 18560 + }, + { + "epoch": 49.52, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004992833169889038, + "loss": 0.3442, + "step": 18570 + }, + { + "epoch": 49.54666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0004992825238755761, + "loss": 0.3358, + "step": 18580 + }, + { + "epoch": 49.57333333333333, + "grad_norm": 0.341796875, + "learning_rate": 0.0004992817303242745, + "loss": 0.3383, + "step": 18590 + }, + { + "epoch": 49.6, + "grad_norm": 0.19921875, + "learning_rate": 0.0004992809363350005, + "loss": 0.3322, + "step": 18600 + }, + { + "epoch": 49.626666666666665, + "grad_norm": 0.181640625, + "learning_rate": 0.0004992801419077551, + "loss": 0.3284, + "step": 18610 + }, + { + "epoch": 49.653333333333336, + "grad_norm": 0.185546875, + "learning_rate": 0.00049927934704254, + "loss": 0.342, + "step": 18620 + }, + { + "epoch": 49.68, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004992785517393566, + "loss": 0.3306, + "step": 18630 + }, + { + "epoch": 49.70666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.000499277755998206, + "loss": 0.3313, + "step": 18640 + }, + { + "epoch": 49.733333333333334, + "grad_norm": 0.224609375, + "learning_rate": 0.00049927695981909, + "loss": 0.3479, + "step": 18650 + }, + { + "epoch": 49.76, + "grad_norm": 0.2109375, + "learning_rate": 0.0004992761632020097, + "loss": 0.3502, + "step": 18660 + }, + { + "epoch": 49.78666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004992753661469666, + "loss": 0.3502, + "step": 18670 + }, + { + "epoch": 49.81333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004992745686539621, + "loss": 0.3325, + "step": 18680 + }, + { + "epoch": 49.84, + "grad_norm": 0.212890625, + "learning_rate": 0.0004992737707229976, + "loss": 0.3327, + "step": 18690 + }, + { + "epoch": 49.86666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004992729723540746, + "loss": 0.3335, + "step": 18700 + }, + { + "epoch": 49.89333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004992721735471942, + "loss": 0.3329, + "step": 18710 + }, + { + "epoch": 49.92, + "grad_norm": 0.197265625, + "learning_rate": 0.0004992713743023582, + "loss": 0.3374, + "step": 18720 + }, + { + "epoch": 49.946666666666665, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004992705746195679, + "loss": 0.3361, + "step": 18730 + }, + { + "epoch": 49.973333333333336, + "grad_norm": 0.21875, + "learning_rate": 0.0004992697744988243, + "loss": 0.345, + "step": 18740 + }, + { + "epoch": 50.0, + "grad_norm": 0.2109375, + "learning_rate": 0.0004992689739401294, + "loss": 0.3336, + "step": 18750 + }, + { + "epoch": 50.0, + "eval_loss": 0.40903565287590027, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4349, + "eval_samples_per_second": 1.399, + "eval_steps_per_second": 0.087, + "step": 18750 + }, + { + "epoch": 50.026666666666664, + "grad_norm": 0.255859375, + "learning_rate": 0.0004992681729434843, + "loss": 0.3557, + "step": 18760 + }, + { + "epoch": 50.053333333333335, + "grad_norm": 0.201171875, + "learning_rate": 0.0004992673715088902, + "loss": 0.3613, + "step": 18770 + }, + { + "epoch": 50.08, + "grad_norm": 0.2041015625, + "learning_rate": 0.000499266569636349, + "loss": 0.3469, + "step": 18780 + }, + { + "epoch": 50.10666666666667, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004992657673258619, + "loss": 0.3464, + "step": 18790 + }, + { + "epoch": 50.13333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.00049926496457743, + "loss": 0.34, + "step": 18800 + }, + { + "epoch": 50.16, + "grad_norm": 0.208984375, + "learning_rate": 0.0004992641613910552, + "loss": 0.3459, + "step": 18810 + }, + { + "epoch": 50.18666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0004992633577667386, + "loss": 0.3402, + "step": 18820 + }, + { + "epoch": 50.21333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004992625537044817, + "loss": 0.3294, + "step": 18830 + }, + { + "epoch": 50.24, + "grad_norm": 0.208984375, + "learning_rate": 0.0004992617492042859, + "loss": 0.3346, + "step": 18840 + }, + { + "epoch": 50.266666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004992609442661526, + "loss": 0.3409, + "step": 18850 + }, + { + "epoch": 50.29333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004992601388900834, + "loss": 0.3358, + "step": 18860 + }, + { + "epoch": 50.32, + "grad_norm": 0.173828125, + "learning_rate": 0.0004992593330760794, + "loss": 0.3414, + "step": 18870 + }, + { + "epoch": 50.346666666666664, + "grad_norm": 0.19921875, + "learning_rate": 0.0004992585268241422, + "loss": 0.3429, + "step": 18880 + }, + { + "epoch": 50.373333333333335, + "grad_norm": 0.23828125, + "learning_rate": 0.0004992577201342732, + "loss": 0.3353, + "step": 18890 + }, + { + "epoch": 50.4, + "grad_norm": 0.22265625, + "learning_rate": 0.0004992569130064738, + "loss": 0.3366, + "step": 18900 + }, + { + "epoch": 50.42666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004992561054407454, + "loss": 0.3426, + "step": 18910 + }, + { + "epoch": 50.45333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004992552974370895, + "loss": 0.3512, + "step": 18920 + }, + { + "epoch": 50.48, + "grad_norm": 0.2109375, + "learning_rate": 0.0004992544889955074, + "loss": 0.3478, + "step": 18930 + }, + { + "epoch": 50.50666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004992536801160007, + "loss": 0.3423, + "step": 18940 + }, + { + "epoch": 50.53333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004992528707985706, + "loss": 0.3372, + "step": 18950 + }, + { + "epoch": 50.56, + "grad_norm": 0.259765625, + "learning_rate": 0.0004992520610432186, + "loss": 0.335, + "step": 18960 + }, + { + "epoch": 50.586666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004992512508499462, + "loss": 0.337, + "step": 18970 + }, + { + "epoch": 50.61333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004992504402187548, + "loss": 0.3266, + "step": 18980 + }, + { + "epoch": 50.64, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004992496291496457, + "loss": 0.3307, + "step": 18990 + }, + { + "epoch": 50.666666666666664, + "grad_norm": 0.22265625, + "learning_rate": 0.0004992488176426205, + "loss": 0.3462, + "step": 19000 + }, + { + "epoch": 50.693333333333335, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004992480056976805, + "loss": 0.3253, + "step": 19010 + }, + { + "epoch": 50.72, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004992471933148271, + "loss": 0.3409, + "step": 19020 + }, + { + "epoch": 50.74666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.000499246380494062, + "loss": 0.3434, + "step": 19030 + }, + { + "epoch": 50.77333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004992455672353863, + "loss": 0.3547, + "step": 19040 + }, + { + "epoch": 50.8, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004992447535388016, + "loss": 0.3408, + "step": 19050 + }, + { + "epoch": 50.82666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004992439394043092, + "loss": 0.3292, + "step": 19060 + }, + { + "epoch": 50.85333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004992431248319107, + "loss": 0.3337, + "step": 19070 + }, + { + "epoch": 50.88, + "grad_norm": 0.265625, + "learning_rate": 0.0004992423098216075, + "loss": 0.3315, + "step": 19080 + }, + { + "epoch": 50.906666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004992414943734008, + "loss": 0.3357, + "step": 19090 + }, + { + "epoch": 50.93333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004992406784872924, + "loss": 0.3352, + "step": 19100 + }, + { + "epoch": 50.96, + "grad_norm": 0.177734375, + "learning_rate": 0.0004992398621632834, + "loss": 0.3343, + "step": 19110 + }, + { + "epoch": 50.986666666666665, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004992390454013754, + "loss": 0.3482, + "step": 19120 + }, + { + "epoch": 51.0, + "eval_loss": 0.40625494718551636, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3657, + "eval_samples_per_second": 1.408, + "eval_steps_per_second": 0.088, + "step": 19125 + }, + { + "epoch": 51.013333333333335, + "grad_norm": 0.189453125, + "learning_rate": 0.00049923822820157, + "loss": 0.3377, + "step": 19130 + }, + { + "epoch": 51.04, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004992374105638682, + "loss": 0.3636, + "step": 19140 + }, + { + "epoch": 51.06666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.0004992365924882718, + "loss": 0.3479, + "step": 19150 + }, + { + "epoch": 51.093333333333334, + "grad_norm": 0.478515625, + "learning_rate": 0.0004992357739747822, + "loss": 0.346, + "step": 19160 + }, + { + "epoch": 51.12, + "grad_norm": 0.25390625, + "learning_rate": 0.0004992349550234006, + "loss": 0.3415, + "step": 19170 + }, + { + "epoch": 51.14666666666667, + "grad_norm": 0.16015625, + "learning_rate": 0.0004992341356341287, + "loss": 0.3437, + "step": 19180 + }, + { + "epoch": 51.17333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004992333158069679, + "loss": 0.3418, + "step": 19190 + }, + { + "epoch": 51.2, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004992324955419194, + "loss": 0.3352, + "step": 19200 + }, + { + "epoch": 51.22666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.000499231674838985, + "loss": 0.3309, + "step": 19210 + }, + { + "epoch": 51.25333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004992308536981658, + "loss": 0.3307, + "step": 19220 + }, + { + "epoch": 51.28, + "grad_norm": 0.2265625, + "learning_rate": 0.0004992300321194636, + "loss": 0.3491, + "step": 19230 + }, + { + "epoch": 51.306666666666665, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004992292101028794, + "loss": 0.3296, + "step": 19240 + }, + { + "epoch": 51.333333333333336, + "grad_norm": 0.2421875, + "learning_rate": 0.0004992283876484152, + "loss": 0.3453, + "step": 19250 + }, + { + "epoch": 51.36, + "grad_norm": 0.193359375, + "learning_rate": 0.0004992275647560719, + "loss": 0.3372, + "step": 19260 + }, + { + "epoch": 51.38666666666666, + "grad_norm": 0.24609375, + "learning_rate": 0.0004992267414258512, + "loss": 0.3341, + "step": 19270 + }, + { + "epoch": 51.413333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004992259176577547, + "loss": 0.3396, + "step": 19280 + }, + { + "epoch": 51.44, + "grad_norm": 0.265625, + "learning_rate": 0.0004992250934517836, + "loss": 0.3457, + "step": 19290 + }, + { + "epoch": 51.46666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004992242688079394, + "loss": 0.3505, + "step": 19300 + }, + { + "epoch": 51.49333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0004992234437262235, + "loss": 0.3394, + "step": 19310 + }, + { + "epoch": 51.52, + "grad_norm": 0.205078125, + "learning_rate": 0.0004992226182066376, + "loss": 0.3431, + "step": 19320 + }, + { + "epoch": 51.54666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004992217922491828, + "loss": 0.3338, + "step": 19330 + }, + { + "epoch": 51.57333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004992209658538608, + "loss": 0.3363, + "step": 19340 + }, + { + "epoch": 51.6, + "grad_norm": 0.2109375, + "learning_rate": 0.0004992201390206731, + "loss": 0.3306, + "step": 19350 + }, + { + "epoch": 51.626666666666665, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004992193117496209, + "loss": 0.3271, + "step": 19360 + }, + { + "epoch": 51.653333333333336, + "grad_norm": 0.173828125, + "learning_rate": 0.0004992184840407058, + "loss": 0.3412, + "step": 19370 + }, + { + "epoch": 51.68, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004992176558939293, + "loss": 0.3295, + "step": 19380 + }, + { + "epoch": 51.70666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.0004992168273092927, + "loss": 0.3304, + "step": 19390 + }, + { + "epoch": 51.733333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004992159982867976, + "loss": 0.3472, + "step": 19400 + }, + { + "epoch": 51.76, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004992151688264455, + "loss": 0.3481, + "step": 19410 + }, + { + "epoch": 51.78666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004992143389282377, + "loss": 0.3487, + "step": 19420 + }, + { + "epoch": 51.81333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004992135085921756, + "loss": 0.3311, + "step": 19430 + }, + { + "epoch": 51.84, + "grad_norm": 0.296875, + "learning_rate": 0.0004992126778182609, + "loss": 0.3311, + "step": 19440 + }, + { + "epoch": 51.86666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004992118466064949, + "loss": 0.3322, + "step": 19450 + }, + { + "epoch": 51.89333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004992110149568791, + "loss": 0.3315, + "step": 19460 + }, + { + "epoch": 51.92, + "grad_norm": 0.193359375, + "learning_rate": 0.000499210182869415, + "loss": 0.335, + "step": 19470 + }, + { + "epoch": 51.946666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.000499209350344104, + "loss": 0.3345, + "step": 19480 + }, + { + "epoch": 51.973333333333336, + "grad_norm": 0.26171875, + "learning_rate": 0.0004992085173809477, + "loss": 0.3439, + "step": 19490 + }, + { + "epoch": 52.0, + "grad_norm": 0.20703125, + "learning_rate": 0.0004992076839799472, + "loss": 0.332, + "step": 19500 + }, + { + "epoch": 52.0, + "eval_loss": 0.40581172704696655, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2418, + "eval_samples_per_second": 1.423, + "eval_steps_per_second": 0.089, + "step": 19500 + }, + { + "epoch": 52.026666666666664, + "grad_norm": 0.33203125, + "learning_rate": 0.0004992068501411044, + "loss": 0.3544, + "step": 19510 + }, + { + "epoch": 52.053333333333335, + "grad_norm": 0.416015625, + "learning_rate": 0.0004992060158644205, + "loss": 0.3602, + "step": 19520 + }, + { + "epoch": 52.08, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004992051811498971, + "loss": 0.3441, + "step": 19530 + }, + { + "epoch": 52.10666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004992043459975356, + "loss": 0.3452, + "step": 19540 + }, + { + "epoch": 52.13333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004992035104073374, + "loss": 0.3386, + "step": 19550 + }, + { + "epoch": 52.16, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004992026743793043, + "loss": 0.3445, + "step": 19560 + }, + { + "epoch": 52.18666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0004992018379134372, + "loss": 0.3386, + "step": 19570 + }, + { + "epoch": 52.21333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004992010010097381, + "loss": 0.3283, + "step": 19580 + }, + { + "epoch": 52.24, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004992001636682082, + "loss": 0.333, + "step": 19590 + }, + { + "epoch": 52.266666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.000499199325888849, + "loss": 0.3394, + "step": 19600 + }, + { + "epoch": 52.29333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.000499198487671662, + "loss": 0.3335, + "step": 19610 + }, + { + "epoch": 52.32, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004991976490166486, + "loss": 0.3403, + "step": 19620 + }, + { + "epoch": 52.346666666666664, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004991968099238105, + "loss": 0.3416, + "step": 19630 + }, + { + "epoch": 52.373333333333335, + "grad_norm": 0.2255859375, + "learning_rate": 0.000499195970393149, + "loss": 0.3334, + "step": 19640 + }, + { + "epoch": 52.4, + "grad_norm": 0.2265625, + "learning_rate": 0.0004991951304246654, + "loss": 0.335, + "step": 19650 + }, + { + "epoch": 52.42666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004991942900183615, + "loss": 0.3408, + "step": 19660 + }, + { + "epoch": 52.45333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004991934491742388, + "loss": 0.3488, + "step": 19670 + }, + { + "epoch": 52.48, + "grad_norm": 0.19140625, + "learning_rate": 0.0004991926078922984, + "loss": 0.3456, + "step": 19680 + }, + { + "epoch": 52.50666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004991917661725421, + "loss": 0.3416, + "step": 19690 + }, + { + "epoch": 52.53333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004991909240149714, + "loss": 0.3368, + "step": 19700 + }, + { + "epoch": 52.56, + "grad_norm": 0.1796875, + "learning_rate": 0.0004991900814195875, + "loss": 0.3341, + "step": 19710 + }, + { + "epoch": 52.586666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.000499189238386392, + "loss": 0.3352, + "step": 19720 + }, + { + "epoch": 52.61333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004991883949153864, + "loss": 0.3256, + "step": 19730 + }, + { + "epoch": 52.64, + "grad_norm": 0.1953125, + "learning_rate": 0.0004991875510065724, + "loss": 0.33, + "step": 19740 + }, + { + "epoch": 52.666666666666664, + "grad_norm": 0.189453125, + "learning_rate": 0.0004991867066599512, + "loss": 0.3446, + "step": 19750 + }, + { + "epoch": 52.693333333333335, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004991858618755244, + "loss": 0.3237, + "step": 19760 + }, + { + "epoch": 52.72, + "grad_norm": 0.255859375, + "learning_rate": 0.0004991850166532934, + "loss": 0.3399, + "step": 19770 + }, + { + "epoch": 52.74666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004991841709932598, + "loss": 0.3416, + "step": 19780 + }, + { + "epoch": 52.77333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004991833248954248, + "loss": 0.3533, + "step": 19790 + }, + { + "epoch": 52.8, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004991824783597904, + "loss": 0.3396, + "step": 19800 + }, + { + "epoch": 52.82666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.0004991816313863577, + "loss": 0.3283, + "step": 19810 + }, + { + "epoch": 52.85333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004991807839751282, + "loss": 0.3324, + "step": 19820 + }, + { + "epoch": 52.88, + "grad_norm": 0.16796875, + "learning_rate": 0.0004991799361261036, + "loss": 0.331, + "step": 19830 + }, + { + "epoch": 52.906666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004991790878392852, + "loss": 0.3342, + "step": 19840 + }, + { + "epoch": 52.93333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004991782391146746, + "loss": 0.335, + "step": 19850 + }, + { + "epoch": 52.96, + "grad_norm": 0.197265625, + "learning_rate": 0.0004991773899522732, + "loss": 0.3331, + "step": 19860 + }, + { + "epoch": 52.986666666666665, + "grad_norm": 0.2421875, + "learning_rate": 0.0004991765403520826, + "loss": 0.3475, + "step": 19870 + }, + { + "epoch": 53.0, + "eval_loss": 0.4069804549217224, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1372, + "eval_samples_per_second": 1.437, + "eval_steps_per_second": 0.09, + "step": 19875 + }, + { + "epoch": 53.013333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004991756903141043, + "loss": 0.3358, + "step": 19880 + }, + { + "epoch": 53.04, + "grad_norm": 0.234375, + "learning_rate": 0.0004991748398383395, + "loss": 0.3624, + "step": 19890 + }, + { + "epoch": 53.06666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004991739889247901, + "loss": 0.3469, + "step": 19900 + }, + { + "epoch": 53.093333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004991731375734573, + "loss": 0.3448, + "step": 19910 + }, + { + "epoch": 53.12, + "grad_norm": 0.212890625, + "learning_rate": 0.0004991722857843428, + "loss": 0.3407, + "step": 19920 + }, + { + "epoch": 53.14666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004991714335574479, + "loss": 0.3422, + "step": 19930 + }, + { + "epoch": 53.17333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004991705808927744, + "loss": 0.3406, + "step": 19940 + }, + { + "epoch": 53.2, + "grad_norm": 0.1875, + "learning_rate": 0.0004991697277903234, + "loss": 0.3343, + "step": 19950 + }, + { + "epoch": 53.22666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004991688742500967, + "loss": 0.3294, + "step": 19960 + }, + { + "epoch": 53.25333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004991680202720958, + "loss": 0.3296, + "step": 19970 + }, + { + "epoch": 53.28, + "grad_norm": 0.28125, + "learning_rate": 0.000499167165856322, + "loss": 0.3479, + "step": 19980 + }, + { + "epoch": 53.306666666666665, + "grad_norm": 0.236328125, + "learning_rate": 0.0004991663110027768, + "loss": 0.3287, + "step": 19990 + }, + { + "epoch": 53.333333333333336, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004991654557114619, + "loss": 0.3441, + "step": 20000 + }, + { + "epoch": 53.36, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004991645999823787, + "loss": 0.3358, + "step": 20010 + }, + { + "epoch": 53.38666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004991637438155288, + "loss": 0.3331, + "step": 20020 + }, + { + "epoch": 53.413333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004991628872109135, + "loss": 0.3384, + "step": 20030 + }, + { + "epoch": 53.44, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004991620301685345, + "loss": 0.3447, + "step": 20040 + }, + { + "epoch": 53.46666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004991611726883931, + "loss": 0.3498, + "step": 20050 + }, + { + "epoch": 53.49333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.000499160314770491, + "loss": 0.3388, + "step": 20060 + }, + { + "epoch": 53.52, + "grad_norm": 0.185546875, + "learning_rate": 0.0004991594564148296, + "loss": 0.3418, + "step": 20070 + }, + { + "epoch": 53.54666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004991585976214106, + "loss": 0.3327, + "step": 20080 + }, + { + "epoch": 53.57333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004991577383902353, + "loss": 0.3353, + "step": 20090 + }, + { + "epoch": 53.6, + "grad_norm": 0.19921875, + "learning_rate": 0.0004991568787213051, + "loss": 0.3292, + "step": 20100 + }, + { + "epoch": 53.626666666666665, + "grad_norm": 0.19921875, + "learning_rate": 0.0004991560186146218, + "loss": 0.326, + "step": 20110 + }, + { + "epoch": 53.653333333333336, + "grad_norm": 0.1796875, + "learning_rate": 0.0004991551580701869, + "loss": 0.3395, + "step": 20120 + }, + { + "epoch": 53.68, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004991542970880017, + "loss": 0.3281, + "step": 20130 + }, + { + "epoch": 53.70666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004991534356680677, + "loss": 0.3293, + "step": 20140 + }, + { + "epoch": 53.733333333333334, + "grad_norm": 0.234375, + "learning_rate": 0.0004991525738103866, + "loss": 0.3459, + "step": 20150 + }, + { + "epoch": 53.76, + "grad_norm": 0.189453125, + "learning_rate": 0.0004991517115149599, + "loss": 0.347, + "step": 20160 + }, + { + "epoch": 53.78666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004991508487817891, + "loss": 0.3474, + "step": 20170 + }, + { + "epoch": 53.81333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0004991499856108755, + "loss": 0.33, + "step": 20180 + }, + { + "epoch": 53.84, + "grad_norm": 0.216796875, + "learning_rate": 0.0004991491220022209, + "loss": 0.3298, + "step": 20190 + }, + { + "epoch": 53.86666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004991482579558267, + "loss": 0.3308, + "step": 20200 + }, + { + "epoch": 53.89333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004991473934716944, + "loss": 0.3304, + "step": 20210 + }, + { + "epoch": 53.92, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004991465285498256, + "loss": 0.3339, + "step": 20220 + }, + { + "epoch": 53.946666666666665, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004991456631902216, + "loss": 0.333, + "step": 20230 + }, + { + "epoch": 53.973333333333336, + "grad_norm": 0.6015625, + "learning_rate": 0.0004991447973928842, + "loss": 0.343, + "step": 20240 + }, + { + "epoch": 54.0, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004991439311578148, + "loss": 0.3307, + "step": 20250 + }, + { + "epoch": 54.0, + "eval_loss": 0.40484169125556946, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3487, + "eval_samples_per_second": 1.41, + "eval_steps_per_second": 0.088, + "step": 20250 + }, + { + "epoch": 54.026666666666664, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004991430644850149, + "loss": 0.3539, + "step": 20260 + }, + { + "epoch": 54.053333333333335, + "grad_norm": 0.208984375, + "learning_rate": 0.0004991421973744861, + "loss": 0.3588, + "step": 20270 + }, + { + "epoch": 54.08, + "grad_norm": 0.255859375, + "learning_rate": 0.0004991413298262298, + "loss": 0.3441, + "step": 20280 + }, + { + "epoch": 54.10666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004991404618402476, + "loss": 0.3439, + "step": 20290 + }, + { + "epoch": 54.13333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004991395934165411, + "loss": 0.3371, + "step": 20300 + }, + { + "epoch": 54.16, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004991387245551116, + "loss": 0.3435, + "step": 20310 + }, + { + "epoch": 54.18666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.000499137855255961, + "loss": 0.3379, + "step": 20320 + }, + { + "epoch": 54.21333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004991369855190904, + "loss": 0.3267, + "step": 20330 + }, + { + "epoch": 54.24, + "grad_norm": 0.2421875, + "learning_rate": 0.0004991361153445017, + "loss": 0.3317, + "step": 20340 + }, + { + "epoch": 54.266666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.000499135244732196, + "loss": 0.3386, + "step": 20350 + }, + { + "epoch": 54.29333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004991343736821753, + "loss": 0.3334, + "step": 20360 + }, + { + "epoch": 54.32, + "grad_norm": 0.208984375, + "learning_rate": 0.0004991335021944409, + "loss": 0.3389, + "step": 20370 + }, + { + "epoch": 54.346666666666664, + "grad_norm": 0.244140625, + "learning_rate": 0.0004991326302689942, + "loss": 0.3403, + "step": 20380 + }, + { + "epoch": 54.373333333333335, + "grad_norm": 0.279296875, + "learning_rate": 0.0004991317579058371, + "loss": 0.3323, + "step": 20390 + }, + { + "epoch": 54.4, + "grad_norm": 0.236328125, + "learning_rate": 0.0004991308851049707, + "loss": 0.3339, + "step": 20400 + }, + { + "epoch": 54.42666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004991300118663969, + "loss": 0.3398, + "step": 20410 + }, + { + "epoch": 54.45333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.000499129138190117, + "loss": 0.348, + "step": 20420 + }, + { + "epoch": 54.48, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004991282640761326, + "loss": 0.3442, + "step": 20430 + }, + { + "epoch": 54.50666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004991273895244454, + "loss": 0.3399, + "step": 20440 + }, + { + "epoch": 54.53333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004991265145350566, + "loss": 0.335, + "step": 20450 + }, + { + "epoch": 54.56, + "grad_norm": 0.1923828125, + "learning_rate": 0.000499125639107968, + "loss": 0.3319, + "step": 20460 + }, + { + "epoch": 54.586666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004991247632431811, + "loss": 0.3338, + "step": 20470 + }, + { + "epoch": 54.61333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004991238869406973, + "loss": 0.3244, + "step": 20480 + }, + { + "epoch": 54.64, + "grad_norm": 0.291015625, + "learning_rate": 0.0004991230102005184, + "loss": 0.3285, + "step": 20490 + }, + { + "epoch": 54.666666666666664, + "grad_norm": 0.248046875, + "learning_rate": 0.0004991221330226456, + "loss": 0.3428, + "step": 20500 + }, + { + "epoch": 54.693333333333335, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004991212554070807, + "loss": 0.3232, + "step": 20510 + }, + { + "epoch": 54.72, + "grad_norm": 0.248046875, + "learning_rate": 0.0004991203773538252, + "loss": 0.3388, + "step": 20520 + }, + { + "epoch": 54.74666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0004991194988628806, + "loss": 0.3409, + "step": 20530 + }, + { + "epoch": 54.77333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004991186199342485, + "loss": 0.352, + "step": 20540 + }, + { + "epoch": 54.8, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004991177405679302, + "loss": 0.3382, + "step": 20550 + }, + { + "epoch": 54.82666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.0004991168607639276, + "loss": 0.3271, + "step": 20560 + }, + { + "epoch": 54.85333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.000499115980522242, + "loss": 0.331, + "step": 20570 + }, + { + "epoch": 54.88, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004991150998428751, + "loss": 0.3288, + "step": 20580 + }, + { + "epoch": 54.906666666666666, + "grad_norm": 0.33984375, + "learning_rate": 0.0004991142187258284, + "loss": 0.3323, + "step": 20590 + }, + { + "epoch": 54.93333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004991133371711035, + "loss": 0.3329, + "step": 20600 + }, + { + "epoch": 54.96, + "grad_norm": 0.283203125, + "learning_rate": 0.0004991124551787016, + "loss": 0.3325, + "step": 20610 + }, + { + "epoch": 54.986666666666665, + "grad_norm": 0.26171875, + "learning_rate": 0.0004991115727486248, + "loss": 0.3468, + "step": 20620 + }, + { + "epoch": 55.0, + "eval_loss": 0.4052978754043579, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 14.2674, + "eval_samples_per_second": 1.121, + "eval_steps_per_second": 0.07, + "step": 20625 + }, + { + "epoch": 55.013333333333335, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004991106898808743, + "loss": 0.3355, + "step": 20630 + }, + { + "epoch": 55.04, + "grad_norm": 0.26953125, + "learning_rate": 0.0004991098065754516, + "loss": 0.3618, + "step": 20640 + }, + { + "epoch": 55.06666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004991089228323586, + "loss": 0.346, + "step": 20650 + }, + { + "epoch": 55.093333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004991080386515964, + "loss": 0.3437, + "step": 20660 + }, + { + "epoch": 55.12, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004991071540331669, + "loss": 0.3394, + "step": 20670 + }, + { + "epoch": 55.14666666666667, + "grad_norm": 0.30078125, + "learning_rate": 0.0004991062689770715, + "loss": 0.3407, + "step": 20680 + }, + { + "epoch": 55.17333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.000499105383483312, + "loss": 0.34, + "step": 20690 + }, + { + "epoch": 55.2, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004991044975518894, + "loss": 0.3327, + "step": 20700 + }, + { + "epoch": 55.22666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004991036111828058, + "loss": 0.3281, + "step": 20710 + }, + { + "epoch": 55.25333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004991027243760627, + "loss": 0.3282, + "step": 20720 + }, + { + "epoch": 55.28, + "grad_norm": 0.24609375, + "learning_rate": 0.0004991018371316613, + "loss": 0.3472, + "step": 20730 + }, + { + "epoch": 55.306666666666665, + "grad_norm": 0.259765625, + "learning_rate": 0.0004991009494496034, + "loss": 0.3274, + "step": 20740 + }, + { + "epoch": 55.333333333333336, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004991000613298906, + "loss": 0.3426, + "step": 20750 + }, + { + "epoch": 55.36, + "grad_norm": 0.2890625, + "learning_rate": 0.0004990991727725244, + "loss": 0.3346, + "step": 20760 + }, + { + "epoch": 55.38666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0004990982837775064, + "loss": 0.3313, + "step": 20770 + }, + { + "epoch": 55.413333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004990973943448381, + "loss": 0.3375, + "step": 20780 + }, + { + "epoch": 55.44, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004990965044745211, + "loss": 0.3428, + "step": 20790 + }, + { + "epoch": 55.46666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004990956141665569, + "loss": 0.348, + "step": 20800 + }, + { + "epoch": 55.49333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004990947234209471, + "loss": 0.3371, + "step": 20810 + }, + { + "epoch": 55.52, + "grad_norm": 0.1875, + "learning_rate": 0.0004990938322376933, + "loss": 0.3406, + "step": 20820 + }, + { + "epoch": 55.54666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004990929406167972, + "loss": 0.3316, + "step": 20830 + }, + { + "epoch": 55.57333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.00049909204855826, + "loss": 0.3339, + "step": 20840 + }, + { + "epoch": 55.6, + "grad_norm": 0.20703125, + "learning_rate": 0.0004990911560620835, + "loss": 0.3283, + "step": 20850 + }, + { + "epoch": 55.626666666666665, + "grad_norm": 0.201171875, + "learning_rate": 0.0004990902631282693, + "loss": 0.3247, + "step": 20860 + }, + { + "epoch": 55.653333333333336, + "grad_norm": 0.17578125, + "learning_rate": 0.000499089369756819, + "loss": 0.3387, + "step": 20870 + }, + { + "epoch": 55.68, + "grad_norm": 0.1767578125, + "learning_rate": 0.000499088475947734, + "loss": 0.3271, + "step": 20880 + }, + { + "epoch": 55.70666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004990875817010159, + "loss": 0.3277, + "step": 20890 + }, + { + "epoch": 55.733333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004990866870166664, + "loss": 0.3443, + "step": 20900 + }, + { + "epoch": 55.76, + "grad_norm": 0.189453125, + "learning_rate": 0.000499085791894687, + "loss": 0.3463, + "step": 20910 + }, + { + "epoch": 55.78666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004990848963350793, + "loss": 0.3455, + "step": 20920 + }, + { + "epoch": 55.81333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004990840003378448, + "loss": 0.3279, + "step": 20930 + }, + { + "epoch": 55.84, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004990831039029851, + "loss": 0.3281, + "step": 20940 + }, + { + "epoch": 55.86666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004990822070305018, + "loss": 0.3299, + "step": 20950 + }, + { + "epoch": 55.89333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004990813097203964, + "loss": 0.3288, + "step": 20960 + }, + { + "epoch": 55.92, + "grad_norm": 0.21875, + "learning_rate": 0.0004990804119726708, + "loss": 0.3334, + "step": 20970 + }, + { + "epoch": 55.946666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004990795137873261, + "loss": 0.3328, + "step": 20980 + }, + { + "epoch": 55.973333333333336, + "grad_norm": 0.33203125, + "learning_rate": 0.0004990786151643641, + "loss": 0.3414, + "step": 20990 + }, + { + "epoch": 56.0, + "grad_norm": 0.19921875, + "learning_rate": 0.0004990777161037865, + "loss": 0.3295, + "step": 21000 + }, + { + "epoch": 56.0, + "eval_loss": 0.4048375189304352, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9392, + "eval_samples_per_second": 1.463, + "eval_steps_per_second": 0.091, + "step": 21000 + }, + { + "epoch": 56.026666666666664, + "grad_norm": 0.26953125, + "learning_rate": 0.0004990768166055947, + "loss": 0.3519, + "step": 21010 + }, + { + "epoch": 56.053333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004990759166697903, + "loss": 0.3573, + "step": 21020 + }, + { + "epoch": 56.08, + "grad_norm": 0.193359375, + "learning_rate": 0.0004990750162963749, + "loss": 0.3427, + "step": 21030 + }, + { + "epoch": 56.10666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004990741154853502, + "loss": 0.3432, + "step": 21040 + }, + { + "epoch": 56.13333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004990732142367177, + "loss": 0.3361, + "step": 21050 + }, + { + "epoch": 56.16, + "grad_norm": 0.20703125, + "learning_rate": 0.0004990723125504789, + "loss": 0.3424, + "step": 21060 + }, + { + "epoch": 56.18666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004990714104266355, + "loss": 0.3364, + "step": 21070 + }, + { + "epoch": 56.21333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.000499070507865189, + "loss": 0.326, + "step": 21080 + }, + { + "epoch": 56.24, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004990696048661411, + "loss": 0.3308, + "step": 21090 + }, + { + "epoch": 56.266666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004990687014294932, + "loss": 0.3368, + "step": 21100 + }, + { + "epoch": 56.29333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004990677975552471, + "loss": 0.3318, + "step": 21110 + }, + { + "epoch": 56.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004990668932434042, + "loss": 0.3384, + "step": 21120 + }, + { + "epoch": 56.346666666666664, + "grad_norm": 0.25390625, + "learning_rate": 0.0004990659884939662, + "loss": 0.3394, + "step": 21130 + }, + { + "epoch": 56.373333333333335, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004990650833069346, + "loss": 0.3311, + "step": 21140 + }, + { + "epoch": 56.4, + "grad_norm": 0.24609375, + "learning_rate": 0.0004990641776823113, + "loss": 0.3325, + "step": 21150 + }, + { + "epoch": 56.42666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004990632716200975, + "loss": 0.3381, + "step": 21160 + }, + { + "epoch": 56.45333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0004990623651202949, + "loss": 0.3469, + "step": 21170 + }, + { + "epoch": 56.48, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004990614581829051, + "loss": 0.3426, + "step": 21180 + }, + { + "epoch": 56.50666666666667, + "grad_norm": 0.1640625, + "learning_rate": 0.0004990605508079298, + "loss": 0.3388, + "step": 21190 + }, + { + "epoch": 56.53333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004990596429953704, + "loss": 0.3339, + "step": 21200 + }, + { + "epoch": 56.56, + "grad_norm": 0.30859375, + "learning_rate": 0.0004990587347452288, + "loss": 0.3317, + "step": 21210 + }, + { + "epoch": 56.586666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004990578260575063, + "loss": 0.3328, + "step": 21220 + }, + { + "epoch": 56.61333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004990569169322046, + "loss": 0.3235, + "step": 21230 + }, + { + "epoch": 56.64, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004990560073693253, + "loss": 0.3265, + "step": 21240 + }, + { + "epoch": 56.666666666666664, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004990550973688701, + "loss": 0.3421, + "step": 21250 + }, + { + "epoch": 56.693333333333335, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004990541869308405, + "loss": 0.3218, + "step": 21260 + }, + { + "epoch": 56.72, + "grad_norm": 0.2294921875, + "learning_rate": 0.000499053276055238, + "loss": 0.3378, + "step": 21270 + }, + { + "epoch": 56.74666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004990523647420643, + "loss": 0.3398, + "step": 21280 + }, + { + "epoch": 56.77333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.000499051452991321, + "loss": 0.3511, + "step": 21290 + }, + { + "epoch": 56.8, + "grad_norm": 0.212890625, + "learning_rate": 0.0004990505408030097, + "loss": 0.3371, + "step": 21300 + }, + { + "epoch": 56.82666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004990496281771321, + "loss": 0.3256, + "step": 21310 + }, + { + "epoch": 56.85333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004990487151136896, + "loss": 0.3301, + "step": 21320 + }, + { + "epoch": 56.88, + "grad_norm": 0.171875, + "learning_rate": 0.0004990478016126841, + "loss": 0.3292, + "step": 21330 + }, + { + "epoch": 56.906666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.0004990468876741168, + "loss": 0.3309, + "step": 21340 + }, + { + "epoch": 56.93333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004990459732979897, + "loss": 0.3316, + "step": 21350 + }, + { + "epoch": 56.96, + "grad_norm": 0.2080078125, + "learning_rate": 0.000499045058484304, + "loss": 0.3309, + "step": 21360 + }, + { + "epoch": 56.986666666666665, + "grad_norm": 0.248046875, + "learning_rate": 0.0004990441432330617, + "loss": 0.3448, + "step": 21370 + }, + { + "epoch": 57.0, + "eval_loss": 0.40479955077171326, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.877, + "eval_samples_per_second": 1.243, + "eval_steps_per_second": 0.078, + "step": 21375 + }, + { + "epoch": 57.013333333333335, + "grad_norm": 0.328125, + "learning_rate": 0.0004990432275442643, + "loss": 0.3334, + "step": 21380 + }, + { + "epoch": 57.04, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004990423114179133, + "loss": 0.36, + "step": 21390 + }, + { + "epoch": 57.06666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004990413948540103, + "loss": 0.3444, + "step": 21400 + }, + { + "epoch": 57.093333333333334, + "grad_norm": 0.2255859375, + "learning_rate": 0.000499040477852557, + "loss": 0.3424, + "step": 21410 + }, + { + "epoch": 57.12, + "grad_norm": 0.18359375, + "learning_rate": 0.0004990395604135549, + "loss": 0.3381, + "step": 21420 + }, + { + "epoch": 57.14666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004990386425370058, + "loss": 0.3398, + "step": 21430 + }, + { + "epoch": 57.17333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004990377242229113, + "loss": 0.3382, + "step": 21440 + }, + { + "epoch": 57.2, + "grad_norm": 0.189453125, + "learning_rate": 0.0004990368054712728, + "loss": 0.3316, + "step": 21450 + }, + { + "epoch": 57.22666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004990358862820921, + "loss": 0.3271, + "step": 21460 + }, + { + "epoch": 57.25333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004990349666553706, + "loss": 0.3274, + "step": 21470 + }, + { + "epoch": 57.28, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004990340465911103, + "loss": 0.3458, + "step": 21480 + }, + { + "epoch": 57.306666666666665, + "grad_norm": 0.20703125, + "learning_rate": 0.0004990331260893125, + "loss": 0.3263, + "step": 21490 + }, + { + "epoch": 57.333333333333336, + "grad_norm": 0.357421875, + "learning_rate": 0.0004990322051499789, + "loss": 0.3415, + "step": 21500 + }, + { + "epoch": 57.36, + "grad_norm": 0.322265625, + "learning_rate": 0.0004990312837731111, + "loss": 0.3335, + "step": 21510 + }, + { + "epoch": 57.38666666666666, + "grad_norm": 0.30078125, + "learning_rate": 0.0004990303619587106, + "loss": 0.3301, + "step": 21520 + }, + { + "epoch": 57.413333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.0004990294397067794, + "loss": 0.3362, + "step": 21530 + }, + { + "epoch": 57.44, + "grad_norm": 0.474609375, + "learning_rate": 0.0004990285170173188, + "loss": 0.3427, + "step": 21540 + }, + { + "epoch": 57.46666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0004990275938903304, + "loss": 0.3472, + "step": 21550 + }, + { + "epoch": 57.49333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.000499026670325816, + "loss": 0.3358, + "step": 21560 + }, + { + "epoch": 57.52, + "grad_norm": 0.46875, + "learning_rate": 0.0004990257463237771, + "loss": 0.3397, + "step": 21570 + }, + { + "epoch": 57.54666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004990248218842155, + "loss": 0.3304, + "step": 21580 + }, + { + "epoch": 57.57333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004990238970071325, + "loss": 0.3333, + "step": 21590 + }, + { + "epoch": 57.6, + "grad_norm": 0.1787109375, + "learning_rate": 0.00049902297169253, + "loss": 0.3275, + "step": 21600 + }, + { + "epoch": 57.626666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004990220459404097, + "loss": 0.3238, + "step": 21610 + }, + { + "epoch": 57.653333333333336, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004990211197507729, + "loss": 0.3372, + "step": 21620 + }, + { + "epoch": 57.68, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004990201931236215, + "loss": 0.3261, + "step": 21630 + }, + { + "epoch": 57.70666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004990192660589568, + "loss": 0.3269, + "step": 21640 + }, + { + "epoch": 57.733333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004990183385567809, + "loss": 0.3434, + "step": 21650 + }, + { + "epoch": 57.76, + "grad_norm": 0.2373046875, + "learning_rate": 0.000499017410617095, + "loss": 0.3448, + "step": 21660 + }, + { + "epoch": 57.78666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004990164822399011, + "loss": 0.3448, + "step": 21670 + }, + { + "epoch": 57.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004990155534252005, + "loss": 0.3271, + "step": 21680 + }, + { + "epoch": 57.84, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004990146241729951, + "loss": 0.327, + "step": 21690 + }, + { + "epoch": 57.86666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004990136944832863, + "loss": 0.328, + "step": 21700 + }, + { + "epoch": 57.89333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004990127643560759, + "loss": 0.3283, + "step": 21710 + }, + { + "epoch": 57.92, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004990118337913654, + "loss": 0.3314, + "step": 21720 + }, + { + "epoch": 57.946666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004990109027891566, + "loss": 0.3313, + "step": 21730 + }, + { + "epoch": 57.973333333333336, + "grad_norm": 0.265625, + "learning_rate": 0.000499009971349451, + "loss": 0.3395, + "step": 21740 + }, + { + "epoch": 58.0, + "grad_norm": 0.21875, + "learning_rate": 0.0004990090394722502, + "loss": 0.3279, + "step": 21750 + }, + { + "epoch": 58.0, + "eval_loss": 0.40562504529953003, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5229, + "eval_samples_per_second": 1.389, + "eval_steps_per_second": 0.087, + "step": 21750 + }, + { + "epoch": 58.026666666666664, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004990081071575562, + "loss": 0.3505, + "step": 21760 + }, + { + "epoch": 58.053333333333335, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004990071744053701, + "loss": 0.3566, + "step": 21770 + }, + { + "epoch": 58.08, + "grad_norm": 0.1953125, + "learning_rate": 0.0004990062412156939, + "loss": 0.3414, + "step": 21780 + }, + { + "epoch": 58.10666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004990053075885291, + "loss": 0.3422, + "step": 21790 + }, + { + "epoch": 58.13333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004990043735238774, + "loss": 0.3349, + "step": 21800 + }, + { + "epoch": 58.16, + "grad_norm": 0.177734375, + "learning_rate": 0.0004990034390217404, + "loss": 0.3412, + "step": 21810 + }, + { + "epoch": 58.18666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004990025040821198, + "loss": 0.3353, + "step": 21820 + }, + { + "epoch": 58.21333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004990015687050171, + "loss": 0.3246, + "step": 21830 + }, + { + "epoch": 58.24, + "grad_norm": 0.19921875, + "learning_rate": 0.0004990006328904342, + "loss": 0.3292, + "step": 21840 + }, + { + "epoch": 58.266666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004989996966383725, + "loss": 0.3366, + "step": 21850 + }, + { + "epoch": 58.29333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0004989987599488337, + "loss": 0.3311, + "step": 21860 + }, + { + "epoch": 58.32, + "grad_norm": 0.173828125, + "learning_rate": 0.0004989978228218196, + "loss": 0.337, + "step": 21870 + }, + { + "epoch": 58.346666666666664, + "grad_norm": 0.20703125, + "learning_rate": 0.0004989968852573317, + "loss": 0.3385, + "step": 21880 + }, + { + "epoch": 58.373333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.0004989959472553716, + "loss": 0.3305, + "step": 21890 + }, + { + "epoch": 58.4, + "grad_norm": 0.1806640625, + "learning_rate": 0.000498995008815941, + "loss": 0.3316, + "step": 21900 + }, + { + "epoch": 58.42666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004989940699390416, + "loss": 0.3372, + "step": 21910 + }, + { + "epoch": 58.45333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004989931306246751, + "loss": 0.3457, + "step": 21920 + }, + { + "epoch": 58.48, + "grad_norm": 0.2041015625, + "learning_rate": 0.000498992190872843, + "loss": 0.342, + "step": 21930 + }, + { + "epoch": 58.50666666666667, + "grad_norm": 0.1630859375, + "learning_rate": 0.000498991250683547, + "loss": 0.338, + "step": 21940 + }, + { + "epoch": 58.53333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.0004989903100567889, + "loss": 0.3329, + "step": 21950 + }, + { + "epoch": 58.56, + "grad_norm": 0.27734375, + "learning_rate": 0.0004989893689925701, + "loss": 0.3307, + "step": 21960 + }, + { + "epoch": 58.586666666666666, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004989884274908924, + "loss": 0.3317, + "step": 21970 + }, + { + "epoch": 58.61333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.0004989874855517575, + "loss": 0.3222, + "step": 21980 + }, + { + "epoch": 58.64, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498986543175167, + "loss": 0.3259, + "step": 21990 + }, + { + "epoch": 58.666666666666664, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004989856003611225, + "loss": 0.3407, + "step": 22000 + }, + { + "epoch": 58.693333333333335, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004989846571096257, + "loss": 0.3209, + "step": 22010 + }, + { + "epoch": 58.72, + "grad_norm": 0.33984375, + "learning_rate": 0.0004989837134206783, + "loss": 0.3362, + "step": 22020 + }, + { + "epoch": 58.74666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004989827692942817, + "loss": 0.3383, + "step": 22030 + }, + { + "epoch": 58.77333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.000498981824730438, + "loss": 0.3495, + "step": 22040 + }, + { + "epoch": 58.8, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004989808797291487, + "loss": 0.336, + "step": 22050 + }, + { + "epoch": 58.82666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004989799342904152, + "loss": 0.3244, + "step": 22060 + }, + { + "epoch": 58.85333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.0004989789884142395, + "loss": 0.3284, + "step": 22070 + }, + { + "epoch": 58.88, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004989780421006231, + "loss": 0.3271, + "step": 22080 + }, + { + "epoch": 58.906666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004989770953495676, + "loss": 0.3296, + "step": 22090 + }, + { + "epoch": 58.93333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004989761481610748, + "loss": 0.3302, + "step": 22100 + }, + { + "epoch": 58.96, + "grad_norm": 0.189453125, + "learning_rate": 0.0004989752005351462, + "loss": 0.3296, + "step": 22110 + }, + { + "epoch": 58.986666666666665, + "grad_norm": 0.4375, + "learning_rate": 0.0004989742524717837, + "loss": 0.3439, + "step": 22120 + }, + { + "epoch": 59.0, + "eval_loss": 0.40387922525405884, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5654, + "eval_samples_per_second": 1.383, + "eval_steps_per_second": 0.086, + "step": 22125 + }, + { + "epoch": 59.013333333333335, + "grad_norm": 0.21875, + "learning_rate": 0.0004989733039709888, + "loss": 0.3325, + "step": 22130 + }, + { + "epoch": 59.04, + "grad_norm": 0.484375, + "learning_rate": 0.0004989723550327633, + "loss": 0.3588, + "step": 22140 + }, + { + "epoch": 59.06666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.0004989714056571087, + "loss": 0.3436, + "step": 22150 + }, + { + "epoch": 59.093333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.0004989704558440266, + "loss": 0.341, + "step": 22160 + }, + { + "epoch": 59.12, + "grad_norm": 0.208984375, + "learning_rate": 0.000498969505593519, + "loss": 0.3368, + "step": 22170 + }, + { + "epoch": 59.14666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004989685549055873, + "loss": 0.3388, + "step": 22180 + }, + { + "epoch": 59.17333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004989676037802333, + "loss": 0.3371, + "step": 22190 + }, + { + "epoch": 59.2, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004989666522174586, + "loss": 0.3304, + "step": 22200 + }, + { + "epoch": 59.22666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004989657002172649, + "loss": 0.3258, + "step": 22210 + }, + { + "epoch": 59.25333333333333, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004989647477796538, + "loss": 0.326, + "step": 22220 + }, + { + "epoch": 59.28, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004989637949046272, + "loss": 0.344, + "step": 22230 + }, + { + "epoch": 59.306666666666665, + "grad_norm": 0.181640625, + "learning_rate": 0.0004989628415921864, + "loss": 0.3253, + "step": 22240 + }, + { + "epoch": 59.333333333333336, + "grad_norm": 0.1875, + "learning_rate": 0.0004989618878423334, + "loss": 0.3402, + "step": 22250 + }, + { + "epoch": 59.36, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004989609336550698, + "loss": 0.332, + "step": 22260 + }, + { + "epoch": 59.38666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0004989599790303972, + "loss": 0.3293, + "step": 22270 + }, + { + "epoch": 59.413333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004989590239683172, + "loss": 0.3351, + "step": 22280 + }, + { + "epoch": 59.44, + "grad_norm": 0.3359375, + "learning_rate": 0.0004989580684688318, + "loss": 0.3407, + "step": 22290 + }, + { + "epoch": 59.46666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004989571125319424, + "loss": 0.3451, + "step": 22300 + }, + { + "epoch": 59.49333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004989561561576508, + "loss": 0.3345, + "step": 22310 + }, + { + "epoch": 59.52, + "grad_norm": 0.26171875, + "learning_rate": 0.0004989551993459585, + "loss": 0.3381, + "step": 22320 + }, + { + "epoch": 59.54666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004989542420968673, + "loss": 0.329, + "step": 22330 + }, + { + "epoch": 59.57333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.000498953284410379, + "loss": 0.3312, + "step": 22340 + }, + { + "epoch": 59.6, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004989523262864952, + "loss": 0.3259, + "step": 22350 + }, + { + "epoch": 59.626666666666665, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004989513677252175, + "loss": 0.3221, + "step": 22360 + }, + { + "epoch": 59.653333333333336, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004989504087265477, + "loss": 0.3369, + "step": 22370 + }, + { + "epoch": 59.68, + "grad_norm": 0.197265625, + "learning_rate": 0.0004989494492904875, + "loss": 0.3249, + "step": 22380 + }, + { + "epoch": 59.70666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004989484894170383, + "loss": 0.3256, + "step": 22390 + }, + { + "epoch": 59.733333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004989475291062021, + "loss": 0.3426, + "step": 22400 + }, + { + "epoch": 59.76, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004989465683579806, + "loss": 0.3433, + "step": 22410 + }, + { + "epoch": 59.78666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004989456071723753, + "loss": 0.3444, + "step": 22420 + }, + { + "epoch": 59.81333333333333, + "grad_norm": 0.3828125, + "learning_rate": 0.0004989446455493879, + "loss": 0.3267, + "step": 22430 + }, + { + "epoch": 59.84, + "grad_norm": 0.224609375, + "learning_rate": 0.0004989436834890202, + "loss": 0.3265, + "step": 22440 + }, + { + "epoch": 59.86666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004989427209912739, + "loss": 0.3283, + "step": 22450 + }, + { + "epoch": 59.89333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004989417580561507, + "loss": 0.3269, + "step": 22460 + }, + { + "epoch": 59.92, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498940794683652, + "loss": 0.3307, + "step": 22470 + }, + { + "epoch": 59.946666666666665, + "grad_norm": 0.19921875, + "learning_rate": 0.0004989398308737799, + "loss": 0.3306, + "step": 22480 + }, + { + "epoch": 59.973333333333336, + "grad_norm": 0.337890625, + "learning_rate": 0.0004989388666265358, + "loss": 0.3391, + "step": 22490 + }, + { + "epoch": 60.0, + "grad_norm": 0.22265625, + "learning_rate": 0.0004989379019419216, + "loss": 0.3274, + "step": 22500 + }, + { + "epoch": 60.0, + "eval_loss": 0.4045378565788269, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 9.5897, + "eval_samples_per_second": 1.668, + "eval_steps_per_second": 0.104, + "step": 22500 + }, + { + "epoch": 60.026666666666664, + "grad_norm": 0.26953125, + "learning_rate": 0.0004989369368199389, + "loss": 0.3492, + "step": 22510 + }, + { + "epoch": 60.053333333333335, + "grad_norm": 0.173828125, + "learning_rate": 0.0004989359712605895, + "loss": 0.3554, + "step": 22520 + }, + { + "epoch": 60.08, + "grad_norm": 0.302734375, + "learning_rate": 0.0004989350052638748, + "loss": 0.3394, + "step": 22530 + }, + { + "epoch": 60.10666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004989340388297967, + "loss": 0.3408, + "step": 22540 + }, + { + "epoch": 60.13333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.000498933071958357, + "loss": 0.3335, + "step": 22550 + }, + { + "epoch": 60.16, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004989321046495572, + "loss": 0.3395, + "step": 22560 + }, + { + "epoch": 60.18666666666667, + "grad_norm": 0.15625, + "learning_rate": 0.0004989311369033993, + "loss": 0.3339, + "step": 22570 + }, + { + "epoch": 60.21333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004989301687198846, + "loss": 0.3237, + "step": 22580 + }, + { + "epoch": 60.24, + "grad_norm": 0.1806640625, + "learning_rate": 0.000498929200099015, + "loss": 0.3284, + "step": 22590 + }, + { + "epoch": 60.266666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004989282310407923, + "loss": 0.3344, + "step": 22600 + }, + { + "epoch": 60.29333333333334, + "grad_norm": 0.294921875, + "learning_rate": 0.000498927261545218, + "loss": 0.33, + "step": 22610 + }, + { + "epoch": 60.32, + "grad_norm": 0.17578125, + "learning_rate": 0.000498926291612294, + "loss": 0.3365, + "step": 22620 + }, + { + "epoch": 60.346666666666664, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004989253212420218, + "loss": 0.3366, + "step": 22630 + }, + { + "epoch": 60.373333333333335, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004989243504344032, + "loss": 0.3291, + "step": 22640 + }, + { + "epoch": 60.4, + "grad_norm": 0.2197265625, + "learning_rate": 0.00049892337918944, + "loss": 0.3308, + "step": 22650 + }, + { + "epoch": 60.42666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004989224075071338, + "loss": 0.3358, + "step": 22660 + }, + { + "epoch": 60.45333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004989214353874862, + "loss": 0.3447, + "step": 22670 + }, + { + "epoch": 60.48, + "grad_norm": 0.228515625, + "learning_rate": 0.0004989204628304992, + "loss": 0.3409, + "step": 22680 + }, + { + "epoch": 60.50666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004989194898361743, + "loss": 0.3364, + "step": 22690 + }, + { + "epoch": 60.53333333333333, + "grad_norm": 0.150390625, + "learning_rate": 0.0004989185164045132, + "loss": 0.3317, + "step": 22700 + }, + { + "epoch": 60.56, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004989175425355178, + "loss": 0.329, + "step": 22710 + }, + { + "epoch": 60.586666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004989165682291895, + "loss": 0.3303, + "step": 22720 + }, + { + "epoch": 60.61333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004989155934855303, + "loss": 0.3217, + "step": 22730 + }, + { + "epoch": 60.64, + "grad_norm": 0.16015625, + "learning_rate": 0.0004989146183045417, + "loss": 0.3251, + "step": 22740 + }, + { + "epoch": 60.666666666666664, + "grad_norm": 0.224609375, + "learning_rate": 0.0004989136426862257, + "loss": 0.3398, + "step": 22750 + }, + { + "epoch": 60.693333333333335, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004989126666305836, + "loss": 0.3191, + "step": 22760 + }, + { + "epoch": 60.72, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004989116901376175, + "loss": 0.3353, + "step": 22770 + }, + { + "epoch": 60.74666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004989107132073289, + "loss": 0.3371, + "step": 22780 + }, + { + "epoch": 60.77333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004989097358397195, + "loss": 0.3488, + "step": 22790 + }, + { + "epoch": 60.8, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004989087580347912, + "loss": 0.3343, + "step": 22800 + }, + { + "epoch": 60.82666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004989077797925457, + "loss": 0.3234, + "step": 22810 + }, + { + "epoch": 60.85333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004989068011129845, + "loss": 0.3272, + "step": 22820 + }, + { + "epoch": 60.88, + "grad_norm": 0.2421875, + "learning_rate": 0.0004989058219961094, + "loss": 0.3256, + "step": 22830 + }, + { + "epoch": 60.906666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0004989048424419222, + "loss": 0.3289, + "step": 22840 + }, + { + "epoch": 60.93333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004989038624504246, + "loss": 0.3294, + "step": 22850 + }, + { + "epoch": 60.96, + "grad_norm": 0.224609375, + "learning_rate": 0.0004989028820216184, + "loss": 0.3288, + "step": 22860 + }, + { + "epoch": 60.986666666666665, + "grad_norm": 0.259765625, + "learning_rate": 0.0004989019011555052, + "loss": 0.343, + "step": 22870 + }, + { + "epoch": 61.0, + "eval_loss": 0.40400707721710205, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.8448, + "eval_samples_per_second": 1.246, + "eval_steps_per_second": 0.078, + "step": 22875 + }, + { + "epoch": 61.013333333333335, + "grad_norm": 0.2109375, + "learning_rate": 0.0004989009198520867, + "loss": 0.3317, + "step": 22880 + }, + { + "epoch": 61.04, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004988999381113647, + "loss": 0.3585, + "step": 22890 + }, + { + "epoch": 61.06666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004988989559333408, + "loss": 0.3423, + "step": 22900 + }, + { + "epoch": 61.093333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.000498897973318017, + "loss": 0.3398, + "step": 22910 + }, + { + "epoch": 61.12, + "grad_norm": 0.1796875, + "learning_rate": 0.0004988969902653948, + "loss": 0.3356, + "step": 22920 + }, + { + "epoch": 61.14666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.000498896006775476, + "loss": 0.3372, + "step": 22930 + }, + { + "epoch": 61.17333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004988950228482623, + "loss": 0.336, + "step": 22940 + }, + { + "epoch": 61.2, + "grad_norm": 0.193359375, + "learning_rate": 0.0004988940384837554, + "loss": 0.3293, + "step": 22950 + }, + { + "epoch": 61.22666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.000498893053681957, + "loss": 0.3245, + "step": 22960 + }, + { + "epoch": 61.25333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.000498892068442869, + "loss": 0.3247, + "step": 22970 + }, + { + "epoch": 61.28, + "grad_norm": 0.23046875, + "learning_rate": 0.0004988910827664931, + "loss": 0.3432, + "step": 22980 + }, + { + "epoch": 61.306666666666665, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004988900966528309, + "loss": 0.3244, + "step": 22990 + }, + { + "epoch": 61.333333333333336, + "grad_norm": 0.201171875, + "learning_rate": 0.0004988891101018842, + "loss": 0.3393, + "step": 23000 + }, + { + "epoch": 61.36, + "grad_norm": 0.208984375, + "learning_rate": 0.0004988881231136548, + "loss": 0.3305, + "step": 23010 + }, + { + "epoch": 61.38666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0004988871356881441, + "loss": 0.3279, + "step": 23020 + }, + { + "epoch": 61.413333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004988861478253543, + "loss": 0.3339, + "step": 23030 + }, + { + "epoch": 61.44, + "grad_norm": 0.2578125, + "learning_rate": 0.000498885159525287, + "loss": 0.3401, + "step": 23040 + }, + { + "epoch": 61.46666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004988841707879438, + "loss": 0.3444, + "step": 23050 + }, + { + "epoch": 61.49333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004988831816133265, + "loss": 0.334, + "step": 23060 + }, + { + "epoch": 61.52, + "grad_norm": 0.1640625, + "learning_rate": 0.0004988821920014369, + "loss": 0.3373, + "step": 23070 + }, + { + "epoch": 61.54666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004988812019522766, + "loss": 0.3283, + "step": 23080 + }, + { + "epoch": 61.57333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004988802114658474, + "loss": 0.3306, + "step": 23090 + }, + { + "epoch": 61.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004988792205421511, + "loss": 0.3255, + "step": 23100 + }, + { + "epoch": 61.626666666666665, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004988782291811895, + "loss": 0.3215, + "step": 23110 + }, + { + "epoch": 61.653333333333336, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004988772373829641, + "loss": 0.3355, + "step": 23120 + }, + { + "epoch": 61.68, + "grad_norm": 0.17578125, + "learning_rate": 0.0004988762451474768, + "loss": 0.3241, + "step": 23130 + }, + { + "epoch": 61.70666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004988752524747295, + "loss": 0.3246, + "step": 23140 + }, + { + "epoch": 61.733333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004988742593647237, + "loss": 0.3417, + "step": 23150 + }, + { + "epoch": 61.76, + "grad_norm": 0.328125, + "learning_rate": 0.0004988732658174611, + "loss": 0.3426, + "step": 23160 + }, + { + "epoch": 61.78666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0004988722718329437, + "loss": 0.3426, + "step": 23170 + }, + { + "epoch": 61.81333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.000498871277411173, + "loss": 0.325, + "step": 23180 + }, + { + "epoch": 61.84, + "grad_norm": 0.2578125, + "learning_rate": 0.000498870282552151, + "loss": 0.3251, + "step": 23190 + }, + { + "epoch": 61.86666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004988692872558791, + "loss": 0.3263, + "step": 23200 + }, + { + "epoch": 61.89333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004988682915223595, + "loss": 0.3264, + "step": 23210 + }, + { + "epoch": 61.92, + "grad_norm": 0.212890625, + "learning_rate": 0.0004988672953515936, + "loss": 0.33, + "step": 23220 + }, + { + "epoch": 61.946666666666665, + "grad_norm": 0.251953125, + "learning_rate": 0.0004988662987435832, + "loss": 0.3298, + "step": 23230 + }, + { + "epoch": 61.973333333333336, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004988653016983302, + "loss": 0.3383, + "step": 23240 + }, + { + "epoch": 62.0, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004988643042158361, + "loss": 0.3265, + "step": 23250 + }, + { + "epoch": 62.0, + "eval_loss": 0.4039948582649231, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8642, + "eval_samples_per_second": 1.349, + "eval_steps_per_second": 0.084, + "step": 23250 + }, + { + "epoch": 62.026666666666664, + "grad_norm": 0.1953125, + "learning_rate": 0.000498863306296103, + "loss": 0.3485, + "step": 23260 + }, + { + "epoch": 62.053333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.0004988623079391324, + "loss": 0.3547, + "step": 23270 + }, + { + "epoch": 62.08, + "grad_norm": 0.19921875, + "learning_rate": 0.0004988613091449261, + "loss": 0.3388, + "step": 23280 + }, + { + "epoch": 62.10666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.000498860309913486, + "loss": 0.3397, + "step": 23290 + }, + { + "epoch": 62.13333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004988593102448136, + "loss": 0.333, + "step": 23300 + }, + { + "epoch": 62.16, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004988583101389108, + "loss": 0.3394, + "step": 23310 + }, + { + "epoch": 62.18666666666667, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004988573095957794, + "loss": 0.3333, + "step": 23320 + }, + { + "epoch": 62.21333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.000498856308615421, + "loss": 0.3226, + "step": 23330 + }, + { + "epoch": 62.24, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004988553071978375, + "loss": 0.3271, + "step": 23340 + }, + { + "epoch": 62.266666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004988543053430307, + "loss": 0.3343, + "step": 23350 + }, + { + "epoch": 62.29333333333334, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004988533030510021, + "loss": 0.3289, + "step": 23360 + }, + { + "epoch": 62.32, + "grad_norm": 0.181640625, + "learning_rate": 0.0004988523003217537, + "loss": 0.3349, + "step": 23370 + }, + { + "epoch": 62.346666666666664, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004988512971552873, + "loss": 0.3357, + "step": 23380 + }, + { + "epoch": 62.373333333333335, + "grad_norm": 0.212890625, + "learning_rate": 0.0004988502935516046, + "loss": 0.3281, + "step": 23390 + }, + { + "epoch": 62.4, + "grad_norm": 0.22265625, + "learning_rate": 0.0004988492895107072, + "loss": 0.3285, + "step": 23400 + }, + { + "epoch": 62.42666666666667, + "grad_norm": 0.25, + "learning_rate": 0.000498848285032597, + "loss": 0.3348, + "step": 23410 + }, + { + "epoch": 62.45333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004988472801172758, + "loss": 0.3438, + "step": 23420 + }, + { + "epoch": 62.48, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004988462747647453, + "loss": 0.3401, + "step": 23430 + }, + { + "epoch": 62.50666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004988452689750073, + "loss": 0.3357, + "step": 23440 + }, + { + "epoch": 62.53333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004988442627480636, + "loss": 0.3307, + "step": 23450 + }, + { + "epoch": 62.56, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004988432560839159, + "loss": 0.3276, + "step": 23460 + }, + { + "epoch": 62.586666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.000498842248982566, + "loss": 0.3301, + "step": 23470 + }, + { + "epoch": 62.61333333333333, + "grad_norm": 0.16015625, + "learning_rate": 0.0004988412414440156, + "loss": 0.3207, + "step": 23480 + }, + { + "epoch": 62.64, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004988402334682666, + "loss": 0.3242, + "step": 23490 + }, + { + "epoch": 62.666666666666664, + "grad_norm": 0.181640625, + "learning_rate": 0.0004988392250553207, + "loss": 0.3386, + "step": 23500 + }, + { + "epoch": 62.693333333333335, + "grad_norm": 0.21875, + "learning_rate": 0.0004988382162051796, + "loss": 0.3182, + "step": 23510 + }, + { + "epoch": 62.72, + "grad_norm": 0.23828125, + "learning_rate": 0.0004988372069178452, + "loss": 0.3346, + "step": 23520 + }, + { + "epoch": 62.74666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004988361971933192, + "loss": 0.3363, + "step": 23530 + }, + { + "epoch": 62.77333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004988351870316034, + "loss": 0.3478, + "step": 23540 + }, + { + "epoch": 62.8, + "grad_norm": 0.185546875, + "learning_rate": 0.0004988341764326996, + "loss": 0.3342, + "step": 23550 + }, + { + "epoch": 62.82666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004988331653966095, + "loss": 0.3228, + "step": 23560 + }, + { + "epoch": 62.85333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.000498832153923335, + "loss": 0.3262, + "step": 23570 + }, + { + "epoch": 62.88, + "grad_norm": 0.171875, + "learning_rate": 0.0004988311420128777, + "loss": 0.3251, + "step": 23580 + }, + { + "epoch": 62.906666666666666, + "grad_norm": 0.302734375, + "learning_rate": 0.0004988301296652395, + "loss": 0.3284, + "step": 23590 + }, + { + "epoch": 62.93333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004988291168804222, + "loss": 0.3282, + "step": 23600 + }, + { + "epoch": 62.96, + "grad_norm": 0.169921875, + "learning_rate": 0.0004988281036584275, + "loss": 0.3276, + "step": 23610 + }, + { + "epoch": 62.986666666666665, + "grad_norm": 0.244140625, + "learning_rate": 0.0004988270899992572, + "loss": 0.3413, + "step": 23620 + }, + { + "epoch": 63.0, + "eval_loss": 0.4038945436477661, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.9667, + "eval_samples_per_second": 1.146, + "eval_steps_per_second": 0.072, + "step": 23625 + }, + { + "epoch": 63.013333333333335, + "grad_norm": 0.240234375, + "learning_rate": 0.0004988260759029131, + "loss": 0.33, + "step": 23630 + }, + { + "epoch": 63.04, + "grad_norm": 0.1982421875, + "learning_rate": 0.000498825061369397, + "loss": 0.3571, + "step": 23640 + }, + { + "epoch": 63.06666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004988240463987108, + "loss": 0.3413, + "step": 23650 + }, + { + "epoch": 63.093333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.000498823030990856, + "loss": 0.3394, + "step": 23660 + }, + { + "epoch": 63.12, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004988220151458344, + "loss": 0.335, + "step": 23670 + }, + { + "epoch": 63.14666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.000498820998863648, + "loss": 0.3362, + "step": 23680 + }, + { + "epoch": 63.17333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004988199821442986, + "loss": 0.336, + "step": 23690 + }, + { + "epoch": 63.2, + "grad_norm": 0.205078125, + "learning_rate": 0.0004988189649877878, + "loss": 0.3286, + "step": 23700 + }, + { + "epoch": 63.22666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004988179473941175, + "loss": 0.3234, + "step": 23710 + }, + { + "epoch": 63.25333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004988169293632894, + "loss": 0.3234, + "step": 23720 + }, + { + "epoch": 63.28, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004988159108953054, + "loss": 0.3426, + "step": 23730 + }, + { + "epoch": 63.306666666666665, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004988148919901672, + "loss": 0.3228, + "step": 23740 + }, + { + "epoch": 63.333333333333336, + "grad_norm": 0.177734375, + "learning_rate": 0.0004988138726478767, + "loss": 0.3382, + "step": 23750 + }, + { + "epoch": 63.36, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004988128528684354, + "loss": 0.3298, + "step": 23760 + }, + { + "epoch": 63.38666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004988118326518456, + "loss": 0.3263, + "step": 23770 + }, + { + "epoch": 63.413333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004988108119981086, + "loss": 0.3327, + "step": 23780 + }, + { + "epoch": 63.44, + "grad_norm": 0.251953125, + "learning_rate": 0.0004988097909072266, + "loss": 0.339, + "step": 23790 + }, + { + "epoch": 63.46666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.000498808769379201, + "loss": 0.3432, + "step": 23800 + }, + { + "epoch": 63.49333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004988077474140339, + "loss": 0.3322, + "step": 23810 + }, + { + "epoch": 63.52, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004988067250117268, + "loss": 0.3361, + "step": 23820 + }, + { + "epoch": 63.54666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004988057021722819, + "loss": 0.3269, + "step": 23830 + }, + { + "epoch": 63.57333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004988046788957007, + "loss": 0.3293, + "step": 23840 + }, + { + "epoch": 63.6, + "grad_norm": 0.1962890625, + "learning_rate": 0.000498803655181985, + "loss": 0.3242, + "step": 23850 + }, + { + "epoch": 63.626666666666665, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004988026310311366, + "loss": 0.3207, + "step": 23860 + }, + { + "epoch": 63.653333333333336, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004988016064431575, + "loss": 0.3347, + "step": 23870 + }, + { + "epoch": 63.68, + "grad_norm": 0.169921875, + "learning_rate": 0.0004988005814180494, + "loss": 0.3231, + "step": 23880 + }, + { + "epoch": 63.70666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.000498799555955814, + "loss": 0.3242, + "step": 23890 + }, + { + "epoch": 63.733333333333334, + "grad_norm": 0.3125, + "learning_rate": 0.0004987985300564531, + "loss": 0.3404, + "step": 23900 + }, + { + "epoch": 63.76, + "grad_norm": 0.55078125, + "learning_rate": 0.0004987975037199688, + "loss": 0.342, + "step": 23910 + }, + { + "epoch": 63.78666666666667, + "grad_norm": 0.5703125, + "learning_rate": 0.0004987964769463624, + "loss": 0.3424, + "step": 23920 + }, + { + "epoch": 63.81333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004987954497356362, + "loss": 0.3243, + "step": 23930 + }, + { + "epoch": 63.84, + "grad_norm": 0.1953125, + "learning_rate": 0.0004987944220877917, + "loss": 0.3239, + "step": 23940 + }, + { + "epoch": 63.86666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004987933940028308, + "loss": 0.325, + "step": 23950 + }, + { + "epoch": 63.89333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004987923654807552, + "loss": 0.3254, + "step": 23960 + }, + { + "epoch": 63.92, + "grad_norm": 0.2080078125, + "learning_rate": 0.000498791336521567, + "loss": 0.3277, + "step": 23970 + }, + { + "epoch": 63.946666666666665, + "grad_norm": 0.32421875, + "learning_rate": 0.0004987903071252676, + "loss": 0.3286, + "step": 23980 + }, + { + "epoch": 63.973333333333336, + "grad_norm": 0.28125, + "learning_rate": 0.0004987892772918592, + "loss": 0.3372, + "step": 23990 + }, + { + "epoch": 64.0, + "grad_norm": 0.236328125, + "learning_rate": 0.0004987882470213433, + "loss": 0.3251, + "step": 24000 + }, + { + "epoch": 64.0, + "eval_loss": 0.40351033210754395, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9, + "eval_samples_per_second": 1.345, + "eval_steps_per_second": 0.084, + "step": 24000 + }, + { + "epoch": 64.02666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0004987872163137219, + "loss": 0.3472, + "step": 24010 + }, + { + "epoch": 64.05333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004987861851689968, + "loss": 0.3538, + "step": 24020 + }, + { + "epoch": 64.08, + "grad_norm": 0.29296875, + "learning_rate": 0.0004987851535871696, + "loss": 0.3379, + "step": 24030 + }, + { + "epoch": 64.10666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004987841215682424, + "loss": 0.3388, + "step": 24040 + }, + { + "epoch": 64.13333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004987830891122169, + "loss": 0.3322, + "step": 24050 + }, + { + "epoch": 64.16, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004987820562190949, + "loss": 0.3377, + "step": 24060 + }, + { + "epoch": 64.18666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004987810228888782, + "loss": 0.3323, + "step": 24070 + }, + { + "epoch": 64.21333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004987799891215685, + "loss": 0.3213, + "step": 24080 + }, + { + "epoch": 64.24, + "grad_norm": 0.208984375, + "learning_rate": 0.0004987789549171679, + "loss": 0.3264, + "step": 24090 + }, + { + "epoch": 64.26666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.000498777920275678, + "loss": 0.3322, + "step": 24100 + }, + { + "epoch": 64.29333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004987768851971008, + "loss": 0.3278, + "step": 24110 + }, + { + "epoch": 64.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004987758496814379, + "loss": 0.3339, + "step": 24120 + }, + { + "epoch": 64.34666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004987748137286912, + "loss": 0.3343, + "step": 24130 + }, + { + "epoch": 64.37333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0004987737773388625, + "loss": 0.3268, + "step": 24140 + }, + { + "epoch": 64.4, + "grad_norm": 0.197265625, + "learning_rate": 0.0004987727405119538, + "loss": 0.3273, + "step": 24150 + }, + { + "epoch": 64.42666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004987717032479668, + "loss": 0.3336, + "step": 24160 + }, + { + "epoch": 64.45333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004987706655469032, + "loss": 0.3429, + "step": 24170 + }, + { + "epoch": 64.48, + "grad_norm": 0.2109375, + "learning_rate": 0.000498769627408765, + "loss": 0.3386, + "step": 24180 + }, + { + "epoch": 64.50666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004987685888335539, + "loss": 0.3347, + "step": 24190 + }, + { + "epoch": 64.53333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004987675498212717, + "loss": 0.3296, + "step": 24200 + }, + { + "epoch": 64.56, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004987665103719205, + "loss": 0.3269, + "step": 24210 + }, + { + "epoch": 64.58666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004987654704855018, + "loss": 0.3281, + "step": 24220 + }, + { + "epoch": 64.61333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004987644301620175, + "loss": 0.3199, + "step": 24230 + }, + { + "epoch": 64.64, + "grad_norm": 0.16796875, + "learning_rate": 0.0004987633894014696, + "loss": 0.3229, + "step": 24240 + }, + { + "epoch": 64.66666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004987623482038598, + "loss": 0.3379, + "step": 24250 + }, + { + "epoch": 64.69333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004987613065691899, + "loss": 0.3186, + "step": 24260 + }, + { + "epoch": 64.72, + "grad_norm": 0.291015625, + "learning_rate": 0.0004987602644974618, + "loss": 0.3333, + "step": 24270 + }, + { + "epoch": 64.74666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0004987592219886773, + "loss": 0.3359, + "step": 24280 + }, + { + "epoch": 64.77333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004987581790428383, + "loss": 0.3468, + "step": 24290 + }, + { + "epoch": 64.8, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004987571356599464, + "loss": 0.3325, + "step": 24300 + }, + { + "epoch": 64.82666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004987560918400037, + "loss": 0.3214, + "step": 24310 + }, + { + "epoch": 64.85333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004987550475830119, + "loss": 0.3257, + "step": 24320 + }, + { + "epoch": 64.88, + "grad_norm": 0.201171875, + "learning_rate": 0.000498754002888973, + "loss": 0.3242, + "step": 24330 + }, + { + "epoch": 64.90666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004987529577578885, + "loss": 0.3273, + "step": 24340 + }, + { + "epoch": 64.93333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004987519121897605, + "loss": 0.3279, + "step": 24350 + }, + { + "epoch": 64.96, + "grad_norm": 0.1875, + "learning_rate": 0.0004987508661845909, + "loss": 0.3265, + "step": 24360 + }, + { + "epoch": 64.98666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004987498197423813, + "loss": 0.3407, + "step": 24370 + }, + { + "epoch": 65.0, + "eval_loss": 0.4037664532661438, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5042, + "eval_samples_per_second": 1.391, + "eval_steps_per_second": 0.087, + "step": 24375 + }, + { + "epoch": 65.01333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0004987487728631338, + "loss": 0.3293, + "step": 24380 + }, + { + "epoch": 65.04, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004987477255468499, + "loss": 0.3561, + "step": 24390 + }, + { + "epoch": 65.06666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004987466777935318, + "loss": 0.3405, + "step": 24400 + }, + { + "epoch": 65.09333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.000498745629603181, + "loss": 0.3377, + "step": 24410 + }, + { + "epoch": 65.12, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004987445809757997, + "loss": 0.3341, + "step": 24420 + }, + { + "epoch": 65.14666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004987435319113895, + "loss": 0.3358, + "step": 24430 + }, + { + "epoch": 65.17333333333333, + "grad_norm": 0.345703125, + "learning_rate": 0.0004987424824099522, + "loss": 0.3343, + "step": 24440 + }, + { + "epoch": 65.2, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004987414324714899, + "loss": 0.3279, + "step": 24450 + }, + { + "epoch": 65.22666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004987403820960042, + "loss": 0.3228, + "step": 24460 + }, + { + "epoch": 65.25333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498739331283497, + "loss": 0.3226, + "step": 24470 + }, + { + "epoch": 65.28, + "grad_norm": 0.28125, + "learning_rate": 0.0004987382800339702, + "loss": 0.3418, + "step": 24480 + }, + { + "epoch": 65.30666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004987372283474257, + "loss": 0.322, + "step": 24490 + }, + { + "epoch": 65.33333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004987361762238652, + "loss": 0.3373, + "step": 24500 + }, + { + "epoch": 65.36, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004987351236632907, + "loss": 0.3287, + "step": 24510 + }, + { + "epoch": 65.38666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004987340706657039, + "loss": 0.3264, + "step": 24520 + }, + { + "epoch": 65.41333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004987330172311067, + "loss": 0.3314, + "step": 24530 + }, + { + "epoch": 65.44, + "grad_norm": 0.1953125, + "learning_rate": 0.0004987319633595011, + "loss": 0.3382, + "step": 24540 + }, + { + "epoch": 65.46666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004987309090508887, + "loss": 0.3428, + "step": 24550 + }, + { + "epoch": 65.49333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004987298543052715, + "loss": 0.3313, + "step": 24560 + }, + { + "epoch": 65.52, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004987287991226514, + "loss": 0.3351, + "step": 24570 + }, + { + "epoch": 65.54666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004987277435030302, + "loss": 0.3264, + "step": 24580 + }, + { + "epoch": 65.57333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004987266874464097, + "loss": 0.3286, + "step": 24590 + }, + { + "epoch": 65.6, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004987256309527917, + "loss": 0.3237, + "step": 24600 + }, + { + "epoch": 65.62666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004987245740221783, + "loss": 0.3196, + "step": 24610 + }, + { + "epoch": 65.65333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0004987235166545712, + "loss": 0.3334, + "step": 24620 + }, + { + "epoch": 65.68, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004987224588499722, + "loss": 0.3221, + "step": 24630 + }, + { + "epoch": 65.70666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0004987214006083832, + "loss": 0.3231, + "step": 24640 + }, + { + "epoch": 65.73333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0004987203419298061, + "loss": 0.3398, + "step": 24650 + }, + { + "epoch": 65.76, + "grad_norm": 0.21484375, + "learning_rate": 0.0004987192828142428, + "loss": 0.3407, + "step": 24660 + }, + { + "epoch": 65.78666666666666, + "grad_norm": 0.384765625, + "learning_rate": 0.000498718223261695, + "loss": 0.3411, + "step": 24670 + }, + { + "epoch": 65.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004987171632721649, + "loss": 0.3231, + "step": 24680 + }, + { + "epoch": 65.84, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004987161028456539, + "loss": 0.323, + "step": 24690 + }, + { + "epoch": 65.86666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004987150419821642, + "loss": 0.3245, + "step": 24700 + }, + { + "epoch": 65.89333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004987139806816974, + "loss": 0.3246, + "step": 24710 + }, + { + "epoch": 65.92, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004987129189442558, + "loss": 0.3276, + "step": 24720 + }, + { + "epoch": 65.94666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004987118567698407, + "loss": 0.3277, + "step": 24730 + }, + { + "epoch": 65.97333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004987107941584545, + "loss": 0.3358, + "step": 24740 + }, + { + "epoch": 66.0, + "grad_norm": 0.4140625, + "learning_rate": 0.0004987097311100986, + "loss": 0.3241, + "step": 24750 + }, + { + "epoch": 66.0, + "eval_loss": 0.40279388427734375, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4516, + "eval_samples_per_second": 1.397, + "eval_steps_per_second": 0.087, + "step": 24750 + }, + { + "epoch": 66.02666666666667, + "grad_norm": 0.333984375, + "learning_rate": 0.0004987086676247753, + "loss": 0.3464, + "step": 24760 + }, + { + "epoch": 66.05333333333333, + "grad_norm": 0.453125, + "learning_rate": 0.0004987076037024861, + "loss": 0.3522, + "step": 24770 + }, + { + "epoch": 66.08, + "grad_norm": 0.3046875, + "learning_rate": 0.0004987065393432331, + "loss": 0.3369, + "step": 24780 + }, + { + "epoch": 66.10666666666667, + "grad_norm": 0.310546875, + "learning_rate": 0.000498705474547018, + "loss": 0.3381, + "step": 24790 + }, + { + "epoch": 66.13333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0004987044093138429, + "loss": 0.3315, + "step": 24800 + }, + { + "epoch": 66.16, + "grad_norm": 0.18359375, + "learning_rate": 0.0004987033436437095, + "loss": 0.3366, + "step": 24810 + }, + { + "epoch": 66.18666666666667, + "grad_norm": 0.42578125, + "learning_rate": 0.0004987022775366196, + "loss": 0.3316, + "step": 24820 + }, + { + "epoch": 66.21333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004987012109925752, + "loss": 0.3209, + "step": 24830 + }, + { + "epoch": 66.24, + "grad_norm": 0.22265625, + "learning_rate": 0.0004987001440115783, + "loss": 0.3255, + "step": 24840 + }, + { + "epoch": 66.26666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004986990765936305, + "loss": 0.3316, + "step": 24850 + }, + { + "epoch": 66.29333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004986980087387339, + "loss": 0.327, + "step": 24860 + }, + { + "epoch": 66.32, + "grad_norm": 0.185546875, + "learning_rate": 0.0004986969404468903, + "loss": 0.3334, + "step": 24870 + }, + { + "epoch": 66.34666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004986958717181015, + "loss": 0.3339, + "step": 24880 + }, + { + "epoch": 66.37333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004986948025523694, + "loss": 0.3259, + "step": 24890 + }, + { + "epoch": 66.4, + "grad_norm": 0.224609375, + "learning_rate": 0.000498693732949696, + "loss": 0.3271, + "step": 24900 + }, + { + "epoch": 66.42666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.000498692662910083, + "loss": 0.333, + "step": 24910 + }, + { + "epoch": 66.45333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004986915924335325, + "loss": 0.3417, + "step": 24920 + }, + { + "epoch": 66.48, + "grad_norm": 0.18359375, + "learning_rate": 0.0004986905215200461, + "loss": 0.3376, + "step": 24930 + }, + { + "epoch": 66.50666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004986894501696259, + "loss": 0.3332, + "step": 24940 + }, + { + "epoch": 66.53333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004986883783822738, + "loss": 0.3286, + "step": 24950 + }, + { + "epoch": 66.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004986873061579915, + "loss": 0.3264, + "step": 24960 + }, + { + "epoch": 66.58666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.000498686233496781, + "loss": 0.3281, + "step": 24970 + }, + { + "epoch": 66.61333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004986851603986443, + "loss": 0.3186, + "step": 24980 + }, + { + "epoch": 66.64, + "grad_norm": 0.1767578125, + "learning_rate": 0.000498684086863583, + "loss": 0.3221, + "step": 24990 + }, + { + "epoch": 66.66666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004986830128915992, + "loss": 0.3369, + "step": 25000 + }, + { + "epoch": 66.69333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004986819384826947, + "loss": 0.3165, + "step": 25010 + }, + { + "epoch": 66.72, + "grad_norm": 0.296875, + "learning_rate": 0.0004986808636368715, + "loss": 0.3327, + "step": 25020 + }, + { + "epoch": 66.74666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004986797883541314, + "loss": 0.3342, + "step": 25030 + }, + { + "epoch": 66.77333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0004986787126344762, + "loss": 0.3453, + "step": 25040 + }, + { + "epoch": 66.8, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004986776364779079, + "loss": 0.3319, + "step": 25050 + }, + { + "epoch": 66.82666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004986765598844284, + "loss": 0.3208, + "step": 25060 + }, + { + "epoch": 66.85333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004986754828540395, + "loss": 0.3244, + "step": 25070 + }, + { + "epoch": 66.88, + "grad_norm": 0.185546875, + "learning_rate": 0.0004986744053867432, + "loss": 0.3234, + "step": 25080 + }, + { + "epoch": 66.90666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004986733274825415, + "loss": 0.3257, + "step": 25090 + }, + { + "epoch": 66.93333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.000498672249141436, + "loss": 0.3266, + "step": 25100 + }, + { + "epoch": 66.96, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004986711703634288, + "loss": 0.3255, + "step": 25110 + }, + { + "epoch": 66.98666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004986700911485217, + "loss": 0.34, + "step": 25120 + }, + { + "epoch": 67.0, + "eval_loss": 0.4035235345363617, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0382, + "eval_samples_per_second": 1.45, + "eval_steps_per_second": 0.091, + "step": 25125 + }, + { + "epoch": 67.01333333333334, + "grad_norm": 0.228515625, + "learning_rate": 0.0004986690114967166, + "loss": 0.3286, + "step": 25130 + }, + { + "epoch": 67.04, + "grad_norm": 0.359375, + "learning_rate": 0.0004986679314080154, + "loss": 0.3558, + "step": 25140 + }, + { + "epoch": 67.06666666666666, + "grad_norm": 0.39453125, + "learning_rate": 0.0004986668508824201, + "loss": 0.3398, + "step": 25150 + }, + { + "epoch": 67.09333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004986657699199326, + "loss": 0.3373, + "step": 25160 + }, + { + "epoch": 67.12, + "grad_norm": 0.25, + "learning_rate": 0.0004986646885205546, + "loss": 0.3332, + "step": 25170 + }, + { + "epoch": 67.14666666666666, + "grad_norm": 0.546875, + "learning_rate": 0.0004986636066842882, + "loss": 0.3344, + "step": 25180 + }, + { + "epoch": 67.17333333333333, + "grad_norm": 0.51171875, + "learning_rate": 0.0004986625244111353, + "loss": 0.3337, + "step": 25190 + }, + { + "epoch": 67.2, + "grad_norm": 0.515625, + "learning_rate": 0.0004986614417010975, + "loss": 0.3266, + "step": 25200 + }, + { + "epoch": 67.22666666666667, + "grad_norm": 0.34375, + "learning_rate": 0.0004986603585541771, + "loss": 0.3216, + "step": 25210 + }, + { + "epoch": 67.25333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004986592749703758, + "loss": 0.3217, + "step": 25220 + }, + { + "epoch": 67.28, + "grad_norm": 0.21875, + "learning_rate": 0.0004986581909496954, + "loss": 0.3398, + "step": 25230 + }, + { + "epoch": 67.30666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004986571064921381, + "loss": 0.321, + "step": 25240 + }, + { + "epoch": 67.33333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004986560215977056, + "loss": 0.3362, + "step": 25250 + }, + { + "epoch": 67.36, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004986549362663999, + "loss": 0.3282, + "step": 25260 + }, + { + "epoch": 67.38666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004986538504982228, + "loss": 0.3248, + "step": 25270 + }, + { + "epoch": 67.41333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004986527642931763, + "loss": 0.331, + "step": 25280 + }, + { + "epoch": 67.44, + "grad_norm": 0.3046875, + "learning_rate": 0.0004986516776512623, + "loss": 0.3371, + "step": 25290 + }, + { + "epoch": 67.46666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.0004986505905724825, + "loss": 0.3413, + "step": 25300 + }, + { + "epoch": 67.49333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004986495030568392, + "loss": 0.3306, + "step": 25310 + }, + { + "epoch": 67.52, + "grad_norm": 0.201171875, + "learning_rate": 0.000498648415104334, + "loss": 0.3343, + "step": 25320 + }, + { + "epoch": 67.54666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004986473267149691, + "loss": 0.3256, + "step": 25330 + }, + { + "epoch": 67.57333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.000498646237888746, + "loss": 0.3279, + "step": 25340 + }, + { + "epoch": 67.6, + "grad_norm": 0.197265625, + "learning_rate": 0.0004986451486256669, + "loss": 0.3229, + "step": 25350 + }, + { + "epoch": 67.62666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004986440589257338, + "loss": 0.3197, + "step": 25360 + }, + { + "epoch": 67.65333333333334, + "grad_norm": 0.171875, + "learning_rate": 0.0004986429687889482, + "loss": 0.333, + "step": 25370 + }, + { + "epoch": 67.68, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004986418782153125, + "loss": 0.3215, + "step": 25380 + }, + { + "epoch": 67.70666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004986407872048283, + "loss": 0.3217, + "step": 25390 + }, + { + "epoch": 67.73333333333333, + "grad_norm": 0.2890625, + "learning_rate": 0.0004986396957574977, + "loss": 0.3385, + "step": 25400 + }, + { + "epoch": 67.76, + "grad_norm": 0.244140625, + "learning_rate": 0.0004986386038733225, + "loss": 0.3395, + "step": 25410 + }, + { + "epoch": 67.78666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004986375115523045, + "loss": 0.3401, + "step": 25420 + }, + { + "epoch": 67.81333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.000498636418794446, + "loss": 0.3222, + "step": 25430 + }, + { + "epoch": 67.84, + "grad_norm": 0.197265625, + "learning_rate": 0.0004986353255997485, + "loss": 0.3213, + "step": 25440 + }, + { + "epoch": 67.86666666666666, + "grad_norm": 0.171875, + "learning_rate": 0.0004986342319682142, + "loss": 0.3234, + "step": 25450 + }, + { + "epoch": 67.89333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.000498633137899845, + "loss": 0.3235, + "step": 25460 + }, + { + "epoch": 67.92, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004986320433946427, + "loss": 0.3259, + "step": 25470 + }, + { + "epoch": 67.94666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004986309484526093, + "loss": 0.3268, + "step": 25480 + }, + { + "epoch": 67.97333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004986298530737467, + "loss": 0.3351, + "step": 25490 + }, + { + "epoch": 68.0, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004986287572580568, + "loss": 0.3234, + "step": 25500 + }, + { + "epoch": 68.0, + "eval_loss": 0.4041942358016968, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3187, + "eval_samples_per_second": 1.414, + "eval_steps_per_second": 0.088, + "step": 25500 + }, + { + "epoch": 68.02666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0004986276610055416, + "loss": 0.3453, + "step": 25510 + }, + { + "epoch": 68.05333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.000498626564316203, + "loss": 0.3513, + "step": 25520 + }, + { + "epoch": 68.08, + "grad_norm": 0.28515625, + "learning_rate": 0.0004986254671900429, + "loss": 0.3359, + "step": 25530 + }, + { + "epoch": 68.10666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0004986243696270631, + "loss": 0.337, + "step": 25540 + }, + { + "epoch": 68.13333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004986232716272658, + "loss": 0.3296, + "step": 25550 + }, + { + "epoch": 68.16, + "grad_norm": 0.2421875, + "learning_rate": 0.0004986221731906527, + "loss": 0.3366, + "step": 25560 + }, + { + "epoch": 68.18666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.000498621074317226, + "loss": 0.3302, + "step": 25570 + }, + { + "epoch": 68.21333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004986199750069872, + "loss": 0.3195, + "step": 25580 + }, + { + "epoch": 68.24, + "grad_norm": 0.287109375, + "learning_rate": 0.0004986188752599386, + "loss": 0.3237, + "step": 25590 + }, + { + "epoch": 68.26666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.000498617775076082, + "loss": 0.3306, + "step": 25600 + }, + { + "epoch": 68.29333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004986166744554194, + "loss": 0.3252, + "step": 25610 + }, + { + "epoch": 68.32, + "grad_norm": 0.173828125, + "learning_rate": 0.0004986155733979526, + "loss": 0.3319, + "step": 25620 + }, + { + "epoch": 68.34666666666666, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004986144719036836, + "loss": 0.3319, + "step": 25630 + }, + { + "epoch": 68.37333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004986133699726146, + "loss": 0.3243, + "step": 25640 + }, + { + "epoch": 68.4, + "grad_norm": 0.19921875, + "learning_rate": 0.000498612267604747, + "loss": 0.3266, + "step": 25650 + }, + { + "epoch": 68.42666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004986111648000831, + "loss": 0.3327, + "step": 25660 + }, + { + "epoch": 68.45333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004986100615586249, + "loss": 0.341, + "step": 25670 + }, + { + "epoch": 68.48, + "grad_norm": 0.2236328125, + "learning_rate": 0.000498608957880374, + "loss": 0.3365, + "step": 25680 + }, + { + "epoch": 68.50666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004986078537653327, + "loss": 0.3325, + "step": 25690 + }, + { + "epoch": 68.53333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004986067492135027, + "loss": 0.3278, + "step": 25700 + }, + { + "epoch": 68.56, + "grad_norm": 0.27734375, + "learning_rate": 0.0004986056442248861, + "loss": 0.325, + "step": 25710 + }, + { + "epoch": 68.58666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004986045387994847, + "loss": 0.327, + "step": 25720 + }, + { + "epoch": 68.61333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004986034329373004, + "loss": 0.3184, + "step": 25730 + }, + { + "epoch": 68.64, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004986023266383354, + "loss": 0.3211, + "step": 25740 + }, + { + "epoch": 68.66666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004986012199025914, + "loss": 0.3363, + "step": 25750 + }, + { + "epoch": 68.69333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004986001127300705, + "loss": 0.3158, + "step": 25760 + }, + { + "epoch": 68.72, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004985990051207745, + "loss": 0.3311, + "step": 25770 + }, + { + "epoch": 68.74666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004985978970747055, + "loss": 0.3338, + "step": 25780 + }, + { + "epoch": 68.77333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004985967885918653, + "loss": 0.3455, + "step": 25790 + }, + { + "epoch": 68.8, + "grad_norm": 0.2197265625, + "learning_rate": 0.000498595679672256, + "loss": 0.3307, + "step": 25800 + }, + { + "epoch": 68.82666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004985945703158794, + "loss": 0.3191, + "step": 25810 + }, + { + "epoch": 68.85333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.0004985934605227375, + "loss": 0.3242, + "step": 25820 + }, + { + "epoch": 68.88, + "grad_norm": 0.22265625, + "learning_rate": 0.0004985923502928324, + "loss": 0.322, + "step": 25830 + }, + { + "epoch": 68.90666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004985912396261659, + "loss": 0.3252, + "step": 25840 + }, + { + "epoch": 68.93333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004985901285227399, + "loss": 0.3252, + "step": 25850 + }, + { + "epoch": 68.96, + "grad_norm": 0.201171875, + "learning_rate": 0.0004985890169825563, + "loss": 0.3256, + "step": 25860 + }, + { + "epoch": 68.98666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.0004985879050056173, + "loss": 0.339, + "step": 25870 + }, + { + "epoch": 69.0, + "eval_loss": 0.40402182936668396, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5596, + "eval_samples_per_second": 1.274, + "eval_steps_per_second": 0.08, + "step": 25875 + }, + { + "epoch": 69.01333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004985867925919249, + "loss": 0.3279, + "step": 25880 + }, + { + "epoch": 69.04, + "grad_norm": 0.283203125, + "learning_rate": 0.0004985856797414806, + "loss": 0.3538, + "step": 25890 + }, + { + "epoch": 69.06666666666666, + "grad_norm": 0.416015625, + "learning_rate": 0.0004985845664542867, + "loss": 0.3386, + "step": 25900 + }, + { + "epoch": 69.09333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004985834527303452, + "loss": 0.3367, + "step": 25910 + }, + { + "epoch": 69.12, + "grad_norm": 0.173828125, + "learning_rate": 0.000498582338569658, + "loss": 0.3318, + "step": 25920 + }, + { + "epoch": 69.14666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004985812239722268, + "loss": 0.3341, + "step": 25930 + }, + { + "epoch": 69.17333333333333, + "grad_norm": 0.330078125, + "learning_rate": 0.000498580108938054, + "loss": 0.3331, + "step": 25940 + }, + { + "epoch": 69.2, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004985789934671411, + "loss": 0.3262, + "step": 25950 + }, + { + "epoch": 69.22666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004985778775594904, + "loss": 0.3207, + "step": 25960 + }, + { + "epoch": 69.25333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004985767612151038, + "loss": 0.321, + "step": 25970 + }, + { + "epoch": 69.28, + "grad_norm": 0.203125, + "learning_rate": 0.0004985756444339831, + "loss": 0.3388, + "step": 25980 + }, + { + "epoch": 69.30666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004985745272161303, + "loss": 0.3206, + "step": 25990 + }, + { + "epoch": 69.33333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004985734095615476, + "loss": 0.3352, + "step": 26000 + }, + { + "epoch": 69.36, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004985722914702367, + "loss": 0.3267, + "step": 26010 + }, + { + "epoch": 69.38666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004985711729421998, + "loss": 0.3244, + "step": 26020 + }, + { + "epoch": 69.41333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004985700539774386, + "loss": 0.3297, + "step": 26030 + }, + { + "epoch": 69.44, + "grad_norm": 0.279296875, + "learning_rate": 0.0004985689345759552, + "loss": 0.3365, + "step": 26040 + }, + { + "epoch": 69.46666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004985678147377515, + "loss": 0.3406, + "step": 26050 + }, + { + "epoch": 69.49333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.0004985666944628297, + "loss": 0.3293, + "step": 26060 + }, + { + "epoch": 69.52, + "grad_norm": 0.158203125, + "learning_rate": 0.0004985655737511915, + "loss": 0.333, + "step": 26070 + }, + { + "epoch": 69.54666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004985644526028388, + "loss": 0.3243, + "step": 26080 + }, + { + "epoch": 69.57333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.000498563331017774, + "loss": 0.3272, + "step": 26090 + }, + { + "epoch": 69.6, + "grad_norm": 0.171875, + "learning_rate": 0.0004985622089959987, + "loss": 0.3221, + "step": 26100 + }, + { + "epoch": 69.62666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.000498561086537515, + "loss": 0.3186, + "step": 26110 + }, + { + "epoch": 69.65333333333334, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004985599636423248, + "loss": 0.3317, + "step": 26120 + }, + { + "epoch": 69.68, + "grad_norm": 0.1962890625, + "learning_rate": 0.00049855884031043, + "loss": 0.32, + "step": 26130 + }, + { + "epoch": 69.70666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0004985577165418329, + "loss": 0.3212, + "step": 26140 + }, + { + "epoch": 69.73333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004985565923365351, + "loss": 0.3378, + "step": 26150 + }, + { + "epoch": 69.76, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004985554676945389, + "loss": 0.3389, + "step": 26160 + }, + { + "epoch": 69.78666666666666, + "grad_norm": 0.162109375, + "learning_rate": 0.0004985543426158461, + "loss": 0.3386, + "step": 26170 + }, + { + "epoch": 69.81333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004985532171004586, + "loss": 0.3214, + "step": 26180 + }, + { + "epoch": 69.84, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004985520911483785, + "loss": 0.3209, + "step": 26190 + }, + { + "epoch": 69.86666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004985509647596079, + "loss": 0.3224, + "step": 26200 + }, + { + "epoch": 69.89333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004985498379341484, + "loss": 0.3226, + "step": 26210 + }, + { + "epoch": 69.92, + "grad_norm": 0.2109375, + "learning_rate": 0.0004985487106720024, + "loss": 0.3246, + "step": 26220 + }, + { + "epoch": 69.94666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004985475829731716, + "loss": 0.3254, + "step": 26230 + }, + { + "epoch": 69.97333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004985464548376581, + "loss": 0.334, + "step": 26240 + }, + { + "epoch": 70.0, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004985453262654637, + "loss": 0.3216, + "step": 26250 + }, + { + "epoch": 70.0, + "eval_loss": 0.4038293659687042, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1246, + "eval_samples_per_second": 1.438, + "eval_steps_per_second": 0.09, + "step": 26250 + }, + { + "epoch": 70.02666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004985441972565907, + "loss": 0.3448, + "step": 26260 + }, + { + "epoch": 70.05333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004985430678110409, + "loss": 0.3515, + "step": 26270 + }, + { + "epoch": 70.08, + "grad_norm": 0.296875, + "learning_rate": 0.0004985419379288163, + "loss": 0.3352, + "step": 26280 + }, + { + "epoch": 70.10666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004985408076099188, + "loss": 0.3363, + "step": 26290 + }, + { + "epoch": 70.13333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0004985396768543507, + "loss": 0.3291, + "step": 26300 + }, + { + "epoch": 70.16, + "grad_norm": 0.2421875, + "learning_rate": 0.0004985385456621136, + "loss": 0.3347, + "step": 26310 + }, + { + "epoch": 70.18666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004985374140332096, + "loss": 0.3291, + "step": 26320 + }, + { + "epoch": 70.21333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004985362819676408, + "loss": 0.3192, + "step": 26330 + }, + { + "epoch": 70.24, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004985351494654092, + "loss": 0.3237, + "step": 26340 + }, + { + "epoch": 70.26666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004985340165265165, + "loss": 0.3296, + "step": 26350 + }, + { + "epoch": 70.29333333333334, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004985328831509651, + "loss": 0.3252, + "step": 26360 + }, + { + "epoch": 70.32, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004985317493387568, + "loss": 0.3319, + "step": 26370 + }, + { + "epoch": 70.34666666666666, + "grad_norm": 0.310546875, + "learning_rate": 0.0004985306150898935, + "loss": 0.3318, + "step": 26380 + }, + { + "epoch": 70.37333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004985294804043774, + "loss": 0.3246, + "step": 26390 + }, + { + "epoch": 70.4, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004985283452822103, + "loss": 0.3252, + "step": 26400 + }, + { + "epoch": 70.42666666666666, + "grad_norm": 0.3203125, + "learning_rate": 0.0004985272097233942, + "loss": 0.3312, + "step": 26410 + }, + { + "epoch": 70.45333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004985260737279312, + "loss": 0.3398, + "step": 26420 + }, + { + "epoch": 70.48, + "grad_norm": 0.259765625, + "learning_rate": 0.0004985249372958234, + "loss": 0.3355, + "step": 26430 + }, + { + "epoch": 70.50666666666666, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004985238004270726, + "loss": 0.3316, + "step": 26440 + }, + { + "epoch": 70.53333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004985226631216807, + "loss": 0.3273, + "step": 26450 + }, + { + "epoch": 70.56, + "grad_norm": 0.181640625, + "learning_rate": 0.00049852152537965, + "loss": 0.3243, + "step": 26460 + }, + { + "epoch": 70.58666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004985203872009823, + "loss": 0.3264, + "step": 26470 + }, + { + "epoch": 70.61333333333333, + "grad_norm": 0.15234375, + "learning_rate": 0.0004985192485856797, + "loss": 0.3167, + "step": 26480 + }, + { + "epoch": 70.64, + "grad_norm": 0.181640625, + "learning_rate": 0.0004985181095337441, + "loss": 0.3204, + "step": 26490 + }, + { + "epoch": 70.66666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004985169700451776, + "loss": 0.3354, + "step": 26500 + }, + { + "epoch": 70.69333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004985158301199821, + "loss": 0.3152, + "step": 26510 + }, + { + "epoch": 70.72, + "grad_norm": 0.3515625, + "learning_rate": 0.0004985146897581597, + "loss": 0.3316, + "step": 26520 + }, + { + "epoch": 70.74666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004985135489597124, + "loss": 0.3322, + "step": 26530 + }, + { + "epoch": 70.77333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004985124077246421, + "loss": 0.3433, + "step": 26540 + }, + { + "epoch": 70.8, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004985112660529509, + "loss": 0.3294, + "step": 26550 + }, + { + "epoch": 70.82666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004985101239446408, + "loss": 0.3186, + "step": 26560 + }, + { + "epoch": 70.85333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004985089813997138, + "loss": 0.3226, + "step": 26570 + }, + { + "epoch": 70.88, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004985078384181718, + "loss": 0.321, + "step": 26580 + }, + { + "epoch": 70.90666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.000498506695000017, + "loss": 0.3244, + "step": 26590 + }, + { + "epoch": 70.93333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004985055511452513, + "loss": 0.3252, + "step": 26600 + }, + { + "epoch": 70.96, + "grad_norm": 0.3125, + "learning_rate": 0.0004985044068538766, + "loss": 0.3242, + "step": 26610 + }, + { + "epoch": 70.98666666666666, + "grad_norm": 0.24609375, + "learning_rate": 0.0004985032621258952, + "loss": 0.3377, + "step": 26620 + }, + { + "epoch": 71.0, + "eval_loss": 0.40259572863578796, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.6997, + "eval_samples_per_second": 1.26, + "eval_steps_per_second": 0.079, + "step": 26625 + }, + { + "epoch": 71.01333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.0004985021169613089, + "loss": 0.3268, + "step": 26630 + }, + { + "epoch": 71.04, + "grad_norm": 0.201171875, + "learning_rate": 0.0004985009713601196, + "loss": 0.3532, + "step": 26640 + }, + { + "epoch": 71.06666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004984998253223296, + "loss": 0.3375, + "step": 26650 + }, + { + "epoch": 71.09333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004984986788479407, + "loss": 0.3353, + "step": 26660 + }, + { + "epoch": 71.12, + "grad_norm": 0.185546875, + "learning_rate": 0.0004984975319369551, + "loss": 0.3315, + "step": 26670 + }, + { + "epoch": 71.14666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004984963845893746, + "loss": 0.3331, + "step": 26680 + }, + { + "epoch": 71.17333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004984952368052015, + "loss": 0.3314, + "step": 26690 + }, + { + "epoch": 71.2, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004984940885844375, + "loss": 0.3241, + "step": 26700 + }, + { + "epoch": 71.22666666666667, + "grad_norm": 0.294921875, + "learning_rate": 0.0004984929399270847, + "loss": 0.3194, + "step": 26710 + }, + { + "epoch": 71.25333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004984917908331454, + "loss": 0.32, + "step": 26720 + }, + { + "epoch": 71.28, + "grad_norm": 0.2265625, + "learning_rate": 0.0004984906413026211, + "loss": 0.338, + "step": 26730 + }, + { + "epoch": 71.30666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004984894913355143, + "loss": 0.3199, + "step": 26740 + }, + { + "epoch": 71.33333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004984883409318268, + "loss": 0.3347, + "step": 26750 + }, + { + "epoch": 71.36, + "grad_norm": 0.275390625, + "learning_rate": 0.0004984871900915606, + "loss": 0.3258, + "step": 26760 + }, + { + "epoch": 71.38666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004984860388147178, + "loss": 0.3231, + "step": 26770 + }, + { + "epoch": 71.41333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004984848871013005, + "loss": 0.3288, + "step": 26780 + }, + { + "epoch": 71.44, + "grad_norm": 0.318359375, + "learning_rate": 0.0004984837349513106, + "loss": 0.3358, + "step": 26790 + }, + { + "epoch": 71.46666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004984825823647501, + "loss": 0.34, + "step": 26800 + }, + { + "epoch": 71.49333333333334, + "grad_norm": 0.263671875, + "learning_rate": 0.0004984814293416211, + "loss": 0.3282, + "step": 26810 + }, + { + "epoch": 71.52, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004984802758819255, + "loss": 0.3324, + "step": 26820 + }, + { + "epoch": 71.54666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004984791219856656, + "loss": 0.3233, + "step": 26830 + }, + { + "epoch": 71.57333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004984779676528432, + "loss": 0.3255, + "step": 26840 + }, + { + "epoch": 71.6, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004984768128834603, + "loss": 0.321, + "step": 26850 + }, + { + "epoch": 71.62666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.000498475657677519, + "loss": 0.3172, + "step": 26860 + }, + { + "epoch": 71.65333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004984745020350215, + "loss": 0.3314, + "step": 26870 + }, + { + "epoch": 71.68, + "grad_norm": 0.20703125, + "learning_rate": 0.0004984733459559694, + "loss": 0.3195, + "step": 26880 + }, + { + "epoch": 71.70666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004984721894403652, + "loss": 0.3202, + "step": 26890 + }, + { + "epoch": 71.73333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004984710324882107, + "loss": 0.3372, + "step": 26900 + }, + { + "epoch": 71.76, + "grad_norm": 0.171875, + "learning_rate": 0.000498469875099508, + "loss": 0.3381, + "step": 26910 + }, + { + "epoch": 71.78666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.000498468717274259, + "loss": 0.3387, + "step": 26920 + }, + { + "epoch": 71.81333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004984675590124659, + "loss": 0.3207, + "step": 26930 + }, + { + "epoch": 71.84, + "grad_norm": 0.18359375, + "learning_rate": 0.0004984664003141307, + "loss": 0.3201, + "step": 26940 + }, + { + "epoch": 71.86666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0004984652411792553, + "loss": 0.3218, + "step": 26950 + }, + { + "epoch": 71.89333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004984640816078419, + "loss": 0.3216, + "step": 26960 + }, + { + "epoch": 71.92, + "grad_norm": 0.2109375, + "learning_rate": 0.0004984629215998925, + "loss": 0.3243, + "step": 26970 + }, + { + "epoch": 71.94666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0004984617611554092, + "loss": 0.3241, + "step": 26980 + }, + { + "epoch": 71.97333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004984606002743938, + "loss": 0.3334, + "step": 26990 + }, + { + "epoch": 72.0, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004984594389568486, + "loss": 0.3211, + "step": 27000 + }, + { + "epoch": 72.0, + "eval_loss": 0.40322139859199524, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5525, + "eval_samples_per_second": 1.516, + "eval_steps_per_second": 0.095, + "step": 27000 + }, + { + "epoch": 72.02666666666667, + "grad_norm": 0.3359375, + "learning_rate": 0.0004984582772027755, + "loss": 0.3439, + "step": 27010 + }, + { + "epoch": 72.05333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0004984571150121765, + "loss": 0.3507, + "step": 27020 + }, + { + "epoch": 72.08, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004984559523850538, + "loss": 0.3343, + "step": 27030 + }, + { + "epoch": 72.10666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004984547893214093, + "loss": 0.3355, + "step": 27040 + }, + { + "epoch": 72.13333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004984536258212452, + "loss": 0.3276, + "step": 27050 + }, + { + "epoch": 72.16, + "grad_norm": 0.1875, + "learning_rate": 0.0004984524618845634, + "loss": 0.3345, + "step": 27060 + }, + { + "epoch": 72.18666666666667, + "grad_norm": 0.3046875, + "learning_rate": 0.0004984512975113659, + "loss": 0.3287, + "step": 27070 + }, + { + "epoch": 72.21333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.000498450132701655, + "loss": 0.3178, + "step": 27080 + }, + { + "epoch": 72.24, + "grad_norm": 0.17578125, + "learning_rate": 0.0004984489674554326, + "loss": 0.3223, + "step": 27090 + }, + { + "epoch": 72.26666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004984478017727006, + "loss": 0.3289, + "step": 27100 + }, + { + "epoch": 72.29333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004984466356534612, + "loss": 0.3234, + "step": 27110 + }, + { + "epoch": 72.32, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004984454690977165, + "loss": 0.3306, + "step": 27120 + }, + { + "epoch": 72.34666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004984443021054685, + "loss": 0.3309, + "step": 27130 + }, + { + "epoch": 72.37333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004984431346767191, + "loss": 0.3224, + "step": 27140 + }, + { + "epoch": 72.4, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004984419668114705, + "loss": 0.324, + "step": 27150 + }, + { + "epoch": 72.42666666666666, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004984407985097248, + "loss": 0.3299, + "step": 27160 + }, + { + "epoch": 72.45333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004984396297714839, + "loss": 0.3385, + "step": 27170 + }, + { + "epoch": 72.48, + "grad_norm": 0.19140625, + "learning_rate": 0.0004984384605967501, + "loss": 0.3354, + "step": 27180 + }, + { + "epoch": 72.50666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004984372909855252, + "loss": 0.3308, + "step": 27190 + }, + { + "epoch": 72.53333333333333, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004984361209378113, + "loss": 0.3256, + "step": 27200 + }, + { + "epoch": 72.56, + "grad_norm": 0.251953125, + "learning_rate": 0.0004984349504536105, + "loss": 0.324, + "step": 27210 + }, + { + "epoch": 72.58666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498433779532925, + "loss": 0.3256, + "step": 27220 + }, + { + "epoch": 72.61333333333333, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004984326081757567, + "loss": 0.3164, + "step": 27230 + }, + { + "epoch": 72.64, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004984314363821076, + "loss": 0.3194, + "step": 27240 + }, + { + "epoch": 72.66666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004984302641519798, + "loss": 0.335, + "step": 27250 + }, + { + "epoch": 72.69333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004984290914853754, + "loss": 0.3142, + "step": 27260 + }, + { + "epoch": 72.72, + "grad_norm": 0.314453125, + "learning_rate": 0.0004984279183822965, + "loss": 0.3298, + "step": 27270 + }, + { + "epoch": 72.74666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.000498426744842745, + "loss": 0.3318, + "step": 27280 + }, + { + "epoch": 72.77333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004984255708667233, + "loss": 0.3431, + "step": 27290 + }, + { + "epoch": 72.8, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004984243964542331, + "loss": 0.3287, + "step": 27300 + }, + { + "epoch": 72.82666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004984232216052766, + "loss": 0.3182, + "step": 27310 + }, + { + "epoch": 72.85333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0004984220463198559, + "loss": 0.322, + "step": 27320 + }, + { + "epoch": 72.88, + "grad_norm": 0.1875, + "learning_rate": 0.000498420870597973, + "loss": 0.3209, + "step": 27330 + }, + { + "epoch": 72.90666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.00049841969443963, + "loss": 0.3234, + "step": 27340 + }, + { + "epoch": 72.93333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004984185178448289, + "loss": 0.324, + "step": 27350 + }, + { + "epoch": 72.96, + "grad_norm": 0.1640625, + "learning_rate": 0.0004984173408135719, + "loss": 0.3231, + "step": 27360 + }, + { + "epoch": 72.98666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.000498416163345861, + "loss": 0.3366, + "step": 27370 + }, + { + "epoch": 73.0, + "eval_loss": 0.4043694734573364, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8094, + "eval_samples_per_second": 1.355, + "eval_steps_per_second": 0.085, + "step": 27375 + }, + { + "epoch": 73.01333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.0004984149854416984, + "loss": 0.3257, + "step": 27380 + }, + { + "epoch": 73.04, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004984138071010859, + "loss": 0.3523, + "step": 27390 + }, + { + "epoch": 73.06666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004984126283240257, + "loss": 0.3368, + "step": 27400 + }, + { + "epoch": 73.09333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004984114491105199, + "loss": 0.335, + "step": 27410 + }, + { + "epoch": 73.12, + "grad_norm": 0.25, + "learning_rate": 0.0004984102694605705, + "loss": 0.3306, + "step": 27420 + }, + { + "epoch": 73.14666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004984090893741797, + "loss": 0.3318, + "step": 27430 + }, + { + "epoch": 73.17333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004984079088513494, + "loss": 0.3313, + "step": 27440 + }, + { + "epoch": 73.2, + "grad_norm": 0.197265625, + "learning_rate": 0.000498406727892082, + "loss": 0.3242, + "step": 27450 + }, + { + "epoch": 73.22666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.0004984055464963791, + "loss": 0.3195, + "step": 27460 + }, + { + "epoch": 73.25333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004984043646642431, + "loss": 0.3192, + "step": 27470 + }, + { + "epoch": 73.28, + "grad_norm": 0.244140625, + "learning_rate": 0.0004984031823956761, + "loss": 0.3374, + "step": 27480 + }, + { + "epoch": 73.30666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004984019996906799, + "loss": 0.3184, + "step": 27490 + }, + { + "epoch": 73.33333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004984008165492569, + "loss": 0.3335, + "step": 27500 + }, + { + "epoch": 73.36, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004983996329714089, + "loss": 0.3252, + "step": 27510 + }, + { + "epoch": 73.38666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004983984489571381, + "loss": 0.322, + "step": 27520 + }, + { + "epoch": 73.41333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004983972645064467, + "loss": 0.3287, + "step": 27530 + }, + { + "epoch": 73.44, + "grad_norm": 0.2890625, + "learning_rate": 0.0004983960796193366, + "loss": 0.3352, + "step": 27540 + }, + { + "epoch": 73.46666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.00049839489429581, + "loss": 0.3391, + "step": 27550 + }, + { + "epoch": 73.49333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0004983937085358689, + "loss": 0.328, + "step": 27560 + }, + { + "epoch": 73.52, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004983925223395155, + "loss": 0.332, + "step": 27570 + }, + { + "epoch": 73.54666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004983913357067517, + "loss": 0.3226, + "step": 27580 + }, + { + "epoch": 73.57333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.0004983901486375797, + "loss": 0.3253, + "step": 27590 + }, + { + "epoch": 73.6, + "grad_norm": 0.2890625, + "learning_rate": 0.0004983889611320017, + "loss": 0.3204, + "step": 27600 + }, + { + "epoch": 73.62666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004983877731900196, + "loss": 0.3162, + "step": 27610 + }, + { + "epoch": 73.65333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.0004983865848116355, + "loss": 0.3303, + "step": 27620 + }, + { + "epoch": 73.68, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004983853959968515, + "loss": 0.3185, + "step": 27630 + }, + { + "epoch": 73.70666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004983842067456698, + "loss": 0.3193, + "step": 27640 + }, + { + "epoch": 73.73333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004983830170580924, + "loss": 0.3361, + "step": 27650 + }, + { + "epoch": 73.76, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004983818269341213, + "loss": 0.3365, + "step": 27660 + }, + { + "epoch": 73.78666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004983806363737589, + "loss": 0.3372, + "step": 27670 + }, + { + "epoch": 73.81333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004983794453770069, + "loss": 0.3198, + "step": 27680 + }, + { + "epoch": 73.84, + "grad_norm": 0.208984375, + "learning_rate": 0.0004983782539438677, + "loss": 0.32, + "step": 27690 + }, + { + "epoch": 73.86666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004983770620743432, + "loss": 0.321, + "step": 27700 + }, + { + "epoch": 73.89333333333333, + "grad_norm": 0.158203125, + "learning_rate": 0.0004983758697684357, + "loss": 0.3209, + "step": 27710 + }, + { + "epoch": 73.92, + "grad_norm": 0.181640625, + "learning_rate": 0.000498374677026147, + "loss": 0.3232, + "step": 27720 + }, + { + "epoch": 73.94666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004983734838474794, + "loss": 0.3244, + "step": 27730 + }, + { + "epoch": 73.97333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.000498372290232435, + "loss": 0.3325, + "step": 27740 + }, + { + "epoch": 74.0, + "grad_norm": 0.17578125, + "learning_rate": 0.0004983710961810157, + "loss": 0.3206, + "step": 27750 + }, + { + "epoch": 74.0, + "eval_loss": 0.4034038484096527, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9137, + "eval_samples_per_second": 1.466, + "eval_steps_per_second": 0.092, + "step": 27750 + }, + { + "epoch": 74.02666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004983699016932239, + "loss": 0.3428, + "step": 27760 + }, + { + "epoch": 74.05333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004983687067690616, + "loss": 0.3491, + "step": 27770 + }, + { + "epoch": 74.08, + "grad_norm": 0.1640625, + "learning_rate": 0.0004983675114085306, + "loss": 0.333, + "step": 27780 + }, + { + "epoch": 74.10666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004983663156116335, + "loss": 0.3349, + "step": 27790 + }, + { + "epoch": 74.13333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004983651193783721, + "loss": 0.3271, + "step": 27800 + }, + { + "epoch": 74.16, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004983639227087484, + "loss": 0.3336, + "step": 27810 + }, + { + "epoch": 74.18666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004983627256027647, + "loss": 0.3276, + "step": 27820 + }, + { + "epoch": 74.21333333333334, + "grad_norm": 0.224609375, + "learning_rate": 0.0004983615280604231, + "loss": 0.3172, + "step": 27830 + }, + { + "epoch": 74.24, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004983603300817257, + "loss": 0.3218, + "step": 27840 + }, + { + "epoch": 74.26666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004983591316666746, + "loss": 0.3279, + "step": 27850 + }, + { + "epoch": 74.29333333333334, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004983579328152718, + "loss": 0.3233, + "step": 27860 + }, + { + "epoch": 74.32, + "grad_norm": 0.185546875, + "learning_rate": 0.0004983567335275195, + "loss": 0.3297, + "step": 27870 + }, + { + "epoch": 74.34666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004983555338034197, + "loss": 0.3301, + "step": 27880 + }, + { + "epoch": 74.37333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004983543336429746, + "loss": 0.3226, + "step": 27890 + }, + { + "epoch": 74.4, + "grad_norm": 0.212890625, + "learning_rate": 0.0004983531330461864, + "loss": 0.3237, + "step": 27900 + }, + { + "epoch": 74.42666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.000498351932013057, + "loss": 0.3289, + "step": 27910 + }, + { + "epoch": 74.45333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004983507305435887, + "loss": 0.3379, + "step": 27920 + }, + { + "epoch": 74.48, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004983495286377834, + "loss": 0.3341, + "step": 27930 + }, + { + "epoch": 74.50666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004983483262956435, + "loss": 0.3299, + "step": 27940 + }, + { + "epoch": 74.53333333333333, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004983471235171708, + "loss": 0.3259, + "step": 27950 + }, + { + "epoch": 74.56, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004983459203023677, + "loss": 0.3221, + "step": 27960 + }, + { + "epoch": 74.58666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004983447166512361, + "loss": 0.3248, + "step": 27970 + }, + { + "epoch": 74.61333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004983435125637783, + "loss": 0.3155, + "step": 27980 + }, + { + "epoch": 74.64, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004983423080399962, + "loss": 0.3181, + "step": 27990 + }, + { + "epoch": 74.66666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004983411030798921, + "loss": 0.3335, + "step": 28000 + }, + { + "epoch": 74.69333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.000498339897683468, + "loss": 0.3127, + "step": 28010 + }, + { + "epoch": 74.72, + "grad_norm": 0.25390625, + "learning_rate": 0.0004983386918507261, + "loss": 0.33, + "step": 28020 + }, + { + "epoch": 74.74666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004983374855816684, + "loss": 0.3306, + "step": 28030 + }, + { + "epoch": 74.77333333333333, + "grad_norm": 0.275390625, + "learning_rate": 0.0004983362788762972, + "loss": 0.3421, + "step": 28040 + }, + { + "epoch": 74.8, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004983350717346145, + "loss": 0.3285, + "step": 28050 + }, + { + "epoch": 74.82666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004983338641566225, + "loss": 0.3171, + "step": 28060 + }, + { + "epoch": 74.85333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004983326561423231, + "loss": 0.3212, + "step": 28070 + }, + { + "epoch": 74.88, + "grad_norm": 0.25390625, + "learning_rate": 0.0004983314476917186, + "loss": 0.3198, + "step": 28080 + }, + { + "epoch": 74.90666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004983302388048112, + "loss": 0.3221, + "step": 28090 + }, + { + "epoch": 74.93333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004983290294816029, + "loss": 0.3233, + "step": 28100 + }, + { + "epoch": 74.96, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004983278197220959, + "loss": 0.322, + "step": 28110 + }, + { + "epoch": 74.98666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004983266095262922, + "loss": 0.3356, + "step": 28120 + }, + { + "epoch": 75.0, + "eval_loss": 0.40281620621681213, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5513, + "eval_samples_per_second": 1.516, + "eval_steps_per_second": 0.095, + "step": 28125 + }, + { + "epoch": 75.01333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.000498325398894194, + "loss": 0.3252, + "step": 28130 + }, + { + "epoch": 75.04, + "grad_norm": 0.162109375, + "learning_rate": 0.0004983241878258035, + "loss": 0.3518, + "step": 28140 + }, + { + "epoch": 75.06666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0004983229763211227, + "loss": 0.3363, + "step": 28150 + }, + { + "epoch": 75.09333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004983217643801538, + "loss": 0.3338, + "step": 28160 + }, + { + "epoch": 75.12, + "grad_norm": 0.185546875, + "learning_rate": 0.000498320552002899, + "loss": 0.3298, + "step": 28170 + }, + { + "epoch": 75.14666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004983193391893603, + "loss": 0.3312, + "step": 28180 + }, + { + "epoch": 75.17333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0004983181259395399, + "loss": 0.33, + "step": 28190 + }, + { + "epoch": 75.2, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004983169122534401, + "loss": 0.3232, + "step": 28200 + }, + { + "epoch": 75.22666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004983156981310624, + "loss": 0.3181, + "step": 28210 + }, + { + "epoch": 75.25333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0004983144835724097, + "loss": 0.3186, + "step": 28220 + }, + { + "epoch": 75.28, + "grad_norm": 0.21484375, + "learning_rate": 0.0004983132685774838, + "loss": 0.3371, + "step": 28230 + }, + { + "epoch": 75.30666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004983120531462868, + "loss": 0.318, + "step": 28240 + }, + { + "epoch": 75.33333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004983108372788209, + "loss": 0.3321, + "step": 28250 + }, + { + "epoch": 75.36, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004983096209750881, + "loss": 0.324, + "step": 28260 + }, + { + "epoch": 75.38666666666667, + "grad_norm": 0.318359375, + "learning_rate": 0.0004983084042350909, + "loss": 0.3209, + "step": 28270 + }, + { + "epoch": 75.41333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004983071870588309, + "loss": 0.327, + "step": 28280 + }, + { + "epoch": 75.44, + "grad_norm": 0.181640625, + "learning_rate": 0.0004983059694463107, + "loss": 0.3342, + "step": 28290 + }, + { + "epoch": 75.46666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004983047513975323, + "loss": 0.3382, + "step": 28300 + }, + { + "epoch": 75.49333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004983035329124977, + "loss": 0.3271, + "step": 28310 + }, + { + "epoch": 75.52, + "grad_norm": 0.158203125, + "learning_rate": 0.0004983023139912093, + "loss": 0.3304, + "step": 28320 + }, + { + "epoch": 75.54666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004983010946336689, + "loss": 0.3218, + "step": 28330 + }, + { + "epoch": 75.57333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004982998748398789, + "loss": 0.3249, + "step": 28340 + }, + { + "epoch": 75.6, + "grad_norm": 0.28125, + "learning_rate": 0.0004982986546098415, + "loss": 0.3196, + "step": 28350 + }, + { + "epoch": 75.62666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004982974339435587, + "loss": 0.3154, + "step": 28360 + }, + { + "epoch": 75.65333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004982962128410325, + "loss": 0.3295, + "step": 28370 + }, + { + "epoch": 75.68, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004982949913022655, + "loss": 0.3178, + "step": 28380 + }, + { + "epoch": 75.70666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0004982937693272593, + "loss": 0.3187, + "step": 28390 + }, + { + "epoch": 75.73333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004982925469160163, + "loss": 0.335, + "step": 28400 + }, + { + "epoch": 75.76, + "grad_norm": 0.189453125, + "learning_rate": 0.0004982913240685388, + "loss": 0.3361, + "step": 28410 + }, + { + "epoch": 75.78666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004982901007848287, + "loss": 0.3365, + "step": 28420 + }, + { + "epoch": 75.81333333333333, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004982888770648883, + "loss": 0.3193, + "step": 28430 + }, + { + "epoch": 75.84, + "grad_norm": 0.208984375, + "learning_rate": 0.0004982876529087197, + "loss": 0.3187, + "step": 28440 + }, + { + "epoch": 75.86666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004982864283163251, + "loss": 0.3203, + "step": 28450 + }, + { + "epoch": 75.89333333333333, + "grad_norm": 0.15625, + "learning_rate": 0.0004982852032877066, + "loss": 0.3207, + "step": 28460 + }, + { + "epoch": 75.92, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004982839778228663, + "loss": 0.3222, + "step": 28470 + }, + { + "epoch": 75.94666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004982827519218064, + "loss": 0.3237, + "step": 28480 + }, + { + "epoch": 75.97333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004982815255845291, + "loss": 0.332, + "step": 28490 + }, + { + "epoch": 76.0, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004982802988110365, + "loss": 0.32, + "step": 28500 + }, + { + "epoch": 76.0, + "eval_loss": 0.4025021493434906, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7303, + "eval_samples_per_second": 1.491, + "eval_steps_per_second": 0.093, + "step": 28500 + }, + { + "epoch": 76.02666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004982790716013308, + "loss": 0.3423, + "step": 28510 + }, + { + "epoch": 76.05333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004982778439554141, + "loss": 0.3485, + "step": 28520 + }, + { + "epoch": 76.08, + "grad_norm": 0.181640625, + "learning_rate": 0.0004982766158732886, + "loss": 0.3321, + "step": 28530 + }, + { + "epoch": 76.10666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004982753873549564, + "loss": 0.3334, + "step": 28540 + }, + { + "epoch": 76.13333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004982741584004198, + "loss": 0.3263, + "step": 28550 + }, + { + "epoch": 76.16, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004982729290096808, + "loss": 0.333, + "step": 28560 + }, + { + "epoch": 76.18666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004982716991827417, + "loss": 0.3275, + "step": 28570 + }, + { + "epoch": 76.21333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004982704689196044, + "loss": 0.3168, + "step": 28580 + }, + { + "epoch": 76.24, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004982692382202714, + "loss": 0.3211, + "step": 28590 + }, + { + "epoch": 76.26666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.0004982680070847446, + "loss": 0.327, + "step": 28600 + }, + { + "epoch": 76.29333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.0004982667755130263, + "loss": 0.322, + "step": 28610 + }, + { + "epoch": 76.32, + "grad_norm": 0.205078125, + "learning_rate": 0.0004982655435051187, + "loss": 0.3293, + "step": 28620 + }, + { + "epoch": 76.34666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.0004982643110610238, + "loss": 0.3287, + "step": 28630 + }, + { + "epoch": 76.37333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.000498263078180744, + "loss": 0.3216, + "step": 28640 + }, + { + "epoch": 76.4, + "grad_norm": 0.2109375, + "learning_rate": 0.0004982618448642812, + "loss": 0.3233, + "step": 28650 + }, + { + "epoch": 76.42666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004982606111116378, + "loss": 0.3292, + "step": 28660 + }, + { + "epoch": 76.45333333333333, + "grad_norm": 0.30078125, + "learning_rate": 0.0004982593769228158, + "loss": 0.3377, + "step": 28670 + }, + { + "epoch": 76.48, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004982581422978174, + "loss": 0.3336, + "step": 28680 + }, + { + "epoch": 76.50666666666666, + "grad_norm": 0.169921875, + "learning_rate": 0.0004982569072366448, + "loss": 0.3295, + "step": 28690 + }, + { + "epoch": 76.53333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004982556717393003, + "loss": 0.3252, + "step": 28700 + }, + { + "epoch": 76.56, + "grad_norm": 0.259765625, + "learning_rate": 0.0004982544358057858, + "loss": 0.3219, + "step": 28710 + }, + { + "epoch": 76.58666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0004982531994361037, + "loss": 0.324, + "step": 28720 + }, + { + "epoch": 76.61333333333333, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004982519626302561, + "loss": 0.3157, + "step": 28730 + }, + { + "epoch": 76.64, + "grad_norm": 0.248046875, + "learning_rate": 0.000498250725388245, + "loss": 0.3181, + "step": 28740 + }, + { + "epoch": 76.66666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0004982494877100729, + "loss": 0.3334, + "step": 28750 + }, + { + "epoch": 76.69333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004982482495957418, + "loss": 0.3126, + "step": 28760 + }, + { + "epoch": 76.72, + "grad_norm": 0.486328125, + "learning_rate": 0.0004982470110452537, + "loss": 0.3283, + "step": 28770 + }, + { + "epoch": 76.74666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004982457720586112, + "loss": 0.3305, + "step": 28780 + }, + { + "epoch": 76.77333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004982445326358161, + "loss": 0.3414, + "step": 28790 + }, + { + "epoch": 76.8, + "grad_norm": 0.203125, + "learning_rate": 0.0004982432927768708, + "loss": 0.3275, + "step": 28800 + }, + { + "epoch": 76.82666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.0004982420524817773, + "loss": 0.3168, + "step": 28810 + }, + { + "epoch": 76.85333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004982408117505378, + "loss": 0.3207, + "step": 28820 + }, + { + "epoch": 76.88, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004982395705831548, + "loss": 0.3189, + "step": 28830 + }, + { + "epoch": 76.90666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004982383289796299, + "loss": 0.3219, + "step": 28840 + }, + { + "epoch": 76.93333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004982370869399659, + "loss": 0.3226, + "step": 28850 + }, + { + "epoch": 76.96, + "grad_norm": 0.263671875, + "learning_rate": 0.0004982358444641646, + "loss": 0.3217, + "step": 28860 + }, + { + "epoch": 76.98666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004982346015522282, + "loss": 0.3359, + "step": 28870 + }, + { + "epoch": 77.0, + "eval_loss": 0.4006229043006897, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4451, + "eval_samples_per_second": 1.398, + "eval_steps_per_second": 0.087, + "step": 28875 + }, + { + "epoch": 77.01333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004982333582041591, + "loss": 0.3243, + "step": 28880 + }, + { + "epoch": 77.04, + "grad_norm": 0.158203125, + "learning_rate": 0.0004982321144199592, + "loss": 0.3507, + "step": 28890 + }, + { + "epoch": 77.06666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004982308701996309, + "loss": 0.3354, + "step": 28900 + }, + { + "epoch": 77.09333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004982296255431763, + "loss": 0.3332, + "step": 28910 + }, + { + "epoch": 77.12, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004982283804505976, + "loss": 0.3288, + "step": 28920 + }, + { + "epoch": 77.14666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498227134921897, + "loss": 0.3306, + "step": 28930 + }, + { + "epoch": 77.17333333333333, + "grad_norm": 0.333984375, + "learning_rate": 0.0004982258889570766, + "loss": 0.3292, + "step": 28940 + }, + { + "epoch": 77.2, + "grad_norm": 0.5, + "learning_rate": 0.0004982246425561388, + "loss": 0.3231, + "step": 28950 + }, + { + "epoch": 77.22666666666667, + "grad_norm": 0.357421875, + "learning_rate": 0.0004982233957190856, + "loss": 0.3179, + "step": 28960 + }, + { + "epoch": 77.25333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0004982221484459193, + "loss": 0.3173, + "step": 28970 + }, + { + "epoch": 77.28, + "grad_norm": 0.23828125, + "learning_rate": 0.000498220900736642, + "loss": 0.3364, + "step": 28980 + }, + { + "epoch": 77.30666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004982196525912559, + "loss": 0.3173, + "step": 28990 + }, + { + "epoch": 77.33333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004982184040097633, + "loss": 0.3312, + "step": 29000 + }, + { + "epoch": 77.36, + "grad_norm": 0.19140625, + "learning_rate": 0.0004982171549921663, + "loss": 0.3231, + "step": 29010 + }, + { + "epoch": 77.38666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0004982159055384671, + "loss": 0.3209, + "step": 29020 + }, + { + "epoch": 77.41333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004982146556486678, + "loss": 0.3267, + "step": 29030 + }, + { + "epoch": 77.44, + "grad_norm": 0.279296875, + "learning_rate": 0.0004982134053227709, + "loss": 0.333, + "step": 29040 + }, + { + "epoch": 77.46666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004982121545607783, + "loss": 0.3378, + "step": 29050 + }, + { + "epoch": 77.49333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004982109033626923, + "loss": 0.3268, + "step": 29060 + }, + { + "epoch": 77.52, + "grad_norm": 0.171875, + "learning_rate": 0.000498209651728515, + "loss": 0.3298, + "step": 29070 + }, + { + "epoch": 77.54666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004982083996582489, + "loss": 0.3207, + "step": 29080 + }, + { + "epoch": 77.57333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004982071471518959, + "loss": 0.3236, + "step": 29090 + }, + { + "epoch": 77.6, + "grad_norm": 0.267578125, + "learning_rate": 0.0004982058942094583, + "loss": 0.319, + "step": 29100 + }, + { + "epoch": 77.62666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004982046408309381, + "loss": 0.3146, + "step": 29110 + }, + { + "epoch": 77.65333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004982033870163379, + "loss": 0.3285, + "step": 29120 + }, + { + "epoch": 77.68, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004982021327656597, + "loss": 0.3167, + "step": 29130 + }, + { + "epoch": 77.70666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004982008780789058, + "loss": 0.3173, + "step": 29140 + }, + { + "epoch": 77.73333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004981996229560782, + "loss": 0.3346, + "step": 29150 + }, + { + "epoch": 77.76, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004981983673971791, + "loss": 0.3357, + "step": 29160 + }, + { + "epoch": 77.78666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.000498197111402211, + "loss": 0.3363, + "step": 29170 + }, + { + "epoch": 77.81333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004981958549711759, + "loss": 0.3185, + "step": 29180 + }, + { + "epoch": 77.84, + "grad_norm": 0.2080078125, + "learning_rate": 0.000498194598104076, + "loss": 0.3179, + "step": 29190 + }, + { + "epoch": 77.86666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004981933408009135, + "loss": 0.3195, + "step": 29200 + }, + { + "epoch": 77.89333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004981920830616907, + "loss": 0.3192, + "step": 29210 + }, + { + "epoch": 77.92, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004981908248864097, + "loss": 0.322, + "step": 29220 + }, + { + "epoch": 77.94666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.000498189566275073, + "loss": 0.323, + "step": 29230 + }, + { + "epoch": 77.97333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004981883072276824, + "loss": 0.3309, + "step": 29240 + }, + { + "epoch": 78.0, + "grad_norm": 0.208984375, + "learning_rate": 0.0004981870477442403, + "loss": 0.3186, + "step": 29250 + }, + { + "epoch": 78.0, + "eval_loss": 0.4010658264160156, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.7125, + "eval_samples_per_second": 1.259, + "eval_steps_per_second": 0.079, + "step": 29250 + }, + { + "epoch": 78.02666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004981857878247489, + "loss": 0.3412, + "step": 29260 + }, + { + "epoch": 78.05333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004981845274692105, + "loss": 0.3477, + "step": 29270 + }, + { + "epoch": 78.08, + "grad_norm": 0.193359375, + "learning_rate": 0.0004981832666776272, + "loss": 0.3325, + "step": 29280 + }, + { + "epoch": 78.10666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004981820054500012, + "loss": 0.3332, + "step": 29290 + }, + { + "epoch": 78.13333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004981807437863348, + "loss": 0.3256, + "step": 29300 + }, + { + "epoch": 78.16, + "grad_norm": 0.255859375, + "learning_rate": 0.0004981794816866302, + "loss": 0.3319, + "step": 29310 + }, + { + "epoch": 78.18666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0004981782191508895, + "loss": 0.3264, + "step": 29320 + }, + { + "epoch": 78.21333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004981769561791152, + "loss": 0.316, + "step": 29330 + }, + { + "epoch": 78.24, + "grad_norm": 0.34765625, + "learning_rate": 0.0004981756927713093, + "loss": 0.3209, + "step": 29340 + }, + { + "epoch": 78.26666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.000498174428927474, + "loss": 0.3265, + "step": 29350 + }, + { + "epoch": 78.29333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004981731646476116, + "loss": 0.3213, + "step": 29360 + }, + { + "epoch": 78.32, + "grad_norm": 0.201171875, + "learning_rate": 0.0004981718999317242, + "loss": 0.3283, + "step": 29370 + }, + { + "epoch": 78.34666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004981706347798143, + "loss": 0.3286, + "step": 29380 + }, + { + "epoch": 78.37333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004981693691918839, + "loss": 0.321, + "step": 29390 + }, + { + "epoch": 78.4, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004981681031679352, + "loss": 0.322, + "step": 29400 + }, + { + "epoch": 78.42666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004981668367079706, + "loss": 0.3283, + "step": 29410 + }, + { + "epoch": 78.45333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004981655698119921, + "loss": 0.3371, + "step": 29420 + }, + { + "epoch": 78.48, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004981643024800021, + "loss": 0.3329, + "step": 29430 + }, + { + "epoch": 78.50666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004981630347120028, + "loss": 0.3286, + "step": 29440 + }, + { + "epoch": 78.53333333333333, + "grad_norm": 0.1640625, + "learning_rate": 0.0004981617665079964, + "loss": 0.3235, + "step": 29450 + }, + { + "epoch": 78.56, + "grad_norm": 0.2421875, + "learning_rate": 0.0004981604978679851, + "loss": 0.3213, + "step": 29460 + }, + { + "epoch": 78.58666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004981592287919711, + "loss": 0.3229, + "step": 29470 + }, + { + "epoch": 78.61333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004981579592799567, + "loss": 0.3148, + "step": 29480 + }, + { + "epoch": 78.64, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004981566893319442, + "loss": 0.3173, + "step": 29490 + }, + { + "epoch": 78.66666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004981554189479357, + "loss": 0.3328, + "step": 29500 + }, + { + "epoch": 78.69333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004981541481279334, + "loss": 0.3117, + "step": 29510 + }, + { + "epoch": 78.72, + "grad_norm": 0.396484375, + "learning_rate": 0.0004981528768719398, + "loss": 0.3272, + "step": 29520 + }, + { + "epoch": 78.74666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004981516051799569, + "loss": 0.3297, + "step": 29530 + }, + { + "epoch": 78.77333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004981503330519869, + "loss": 0.3407, + "step": 29540 + }, + { + "epoch": 78.8, + "grad_norm": 0.49609375, + "learning_rate": 0.0004981490604880321, + "loss": 0.3273, + "step": 29550 + }, + { + "epoch": 78.82666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004981477874880947, + "loss": 0.3156, + "step": 29560 + }, + { + "epoch": 78.85333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004981465140521771, + "loss": 0.3195, + "step": 29570 + }, + { + "epoch": 78.88, + "grad_norm": 0.1875, + "learning_rate": 0.0004981452401802814, + "loss": 0.3186, + "step": 29580 + }, + { + "epoch": 78.90666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.00049814396587241, + "loss": 0.321, + "step": 29590 + }, + { + "epoch": 78.93333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004981426911285648, + "loss": 0.3216, + "step": 29600 + }, + { + "epoch": 78.96, + "grad_norm": 0.169921875, + "learning_rate": 0.0004981414159487483, + "loss": 0.3209, + "step": 29610 + }, + { + "epoch": 78.98666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004981401403329627, + "loss": 0.3346, + "step": 29620 + }, + { + "epoch": 79.0, + "eval_loss": 0.40321120619773865, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.3524, + "eval_samples_per_second": 1.295, + "eval_steps_per_second": 0.081, + "step": 29625 + }, + { + "epoch": 79.01333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004981388642812102, + "loss": 0.3239, + "step": 29630 + }, + { + "epoch": 79.04, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004981375877934931, + "loss": 0.3501, + "step": 29640 + }, + { + "epoch": 79.06666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004981363108698135, + "loss": 0.3347, + "step": 29650 + }, + { + "epoch": 79.09333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004981350335101738, + "loss": 0.3323, + "step": 29660 + }, + { + "epoch": 79.12, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004981337557145763, + "loss": 0.3276, + "step": 29670 + }, + { + "epoch": 79.14666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.000498132477483023, + "loss": 0.3296, + "step": 29680 + }, + { + "epoch": 79.17333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0004981311988155164, + "loss": 0.3286, + "step": 29690 + }, + { + "epoch": 79.2, + "grad_norm": 0.2109375, + "learning_rate": 0.0004981299197120587, + "loss": 0.3216, + "step": 29700 + }, + { + "epoch": 79.22666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004981286401726519, + "loss": 0.3168, + "step": 29710 + }, + { + "epoch": 79.25333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0004981273601972985, + "loss": 0.3162, + "step": 29720 + }, + { + "epoch": 79.28, + "grad_norm": 0.212890625, + "learning_rate": 0.0004981260797860007, + "loss": 0.335, + "step": 29730 + }, + { + "epoch": 79.30666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004981247989387607, + "loss": 0.316, + "step": 29740 + }, + { + "epoch": 79.33333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004981235176555808, + "loss": 0.3309, + "step": 29750 + }, + { + "epoch": 79.36, + "grad_norm": 0.201171875, + "learning_rate": 0.0004981222359364631, + "loss": 0.3227, + "step": 29760 + }, + { + "epoch": 79.38666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004981209537814102, + "loss": 0.3195, + "step": 29770 + }, + { + "epoch": 79.41333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.000498119671190424, + "loss": 0.3253, + "step": 29780 + }, + { + "epoch": 79.44, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004981183881635068, + "loss": 0.332, + "step": 29790 + }, + { + "epoch": 79.46666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004981171047006611, + "loss": 0.3369, + "step": 29800 + }, + { + "epoch": 79.49333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.000498115820801889, + "loss": 0.3255, + "step": 29810 + }, + { + "epoch": 79.52, + "grad_norm": 0.19140625, + "learning_rate": 0.0004981145364671926, + "loss": 0.3294, + "step": 29820 + }, + { + "epoch": 79.54666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004981132516965745, + "loss": 0.32, + "step": 29830 + }, + { + "epoch": 79.57333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004981119664900366, + "loss": 0.3228, + "step": 29840 + }, + { + "epoch": 79.6, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004981106808475814, + "loss": 0.3182, + "step": 29850 + }, + { + "epoch": 79.62666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004981093947692111, + "loss": 0.314, + "step": 29860 + }, + { + "epoch": 79.65333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.000498108108254928, + "loss": 0.3282, + "step": 29870 + }, + { + "epoch": 79.68, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004981068213047341, + "loss": 0.3159, + "step": 29880 + }, + { + "epoch": 79.70666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.000498105533918632, + "loss": 0.3168, + "step": 29890 + }, + { + "epoch": 79.73333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004981042460966238, + "loss": 0.3331, + "step": 29900 + }, + { + "epoch": 79.76, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004981029578387118, + "loss": 0.3346, + "step": 29910 + }, + { + "epoch": 79.78666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004981016691448982, + "loss": 0.3351, + "step": 29920 + }, + { + "epoch": 79.81333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004981003800151854, + "loss": 0.3179, + "step": 29930 + }, + { + "epoch": 79.84, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004980990904495756, + "loss": 0.3172, + "step": 29940 + }, + { + "epoch": 79.86666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004980978004480709, + "loss": 0.3183, + "step": 29950 + }, + { + "epoch": 79.89333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004980965100106738, + "loss": 0.3192, + "step": 29960 + }, + { + "epoch": 79.92, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004980952191373865, + "loss": 0.3212, + "step": 29970 + }, + { + "epoch": 79.94666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004980939278282112, + "loss": 0.3223, + "step": 29980 + }, + { + "epoch": 79.97333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004980926360831502, + "loss": 0.3302, + "step": 29990 + }, + { + "epoch": 80.0, + "grad_norm": 0.1953125, + "learning_rate": 0.0004980913439022057, + "loss": 0.3186, + "step": 30000 + }, + { + "epoch": 80.0, + "eval_loss": 0.4013185203075409, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6065, + "eval_samples_per_second": 1.509, + "eval_steps_per_second": 0.094, + "step": 30000 + }, + { + "epoch": 80.02666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004980900512853803, + "loss": 0.3407, + "step": 30010 + }, + { + "epoch": 80.05333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004980887582326758, + "loss": 0.3472, + "step": 30020 + }, + { + "epoch": 80.08, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004980874647440948, + "loss": 0.3312, + "step": 30030 + }, + { + "epoch": 80.10666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004980861708196395, + "loss": 0.3322, + "step": 30040 + }, + { + "epoch": 80.13333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004980848764593121, + "loss": 0.325, + "step": 30050 + }, + { + "epoch": 80.16, + "grad_norm": 0.27734375, + "learning_rate": 0.000498083581663115, + "loss": 0.3316, + "step": 30060 + }, + { + "epoch": 80.18666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004980822864310503, + "loss": 0.3259, + "step": 30070 + }, + { + "epoch": 80.21333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004980809907631204, + "loss": 0.3151, + "step": 30080 + }, + { + "epoch": 80.24, + "grad_norm": 0.1875, + "learning_rate": 0.0004980796946593275, + "loss": 0.3204, + "step": 30090 + }, + { + "epoch": 80.26666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004980783981196739, + "loss": 0.3259, + "step": 30100 + }, + { + "epoch": 80.29333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.000498077101144162, + "loss": 0.3209, + "step": 30110 + }, + { + "epoch": 80.32, + "grad_norm": 0.16796875, + "learning_rate": 0.000498075803732794, + "loss": 0.3278, + "step": 30120 + }, + { + "epoch": 80.34666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004980745058855721, + "loss": 0.3279, + "step": 30130 + }, + { + "epoch": 80.37333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004980732076024986, + "loss": 0.3199, + "step": 30140 + }, + { + "epoch": 80.4, + "grad_norm": 0.193359375, + "learning_rate": 0.0004980719088835759, + "loss": 0.3214, + "step": 30150 + }, + { + "epoch": 80.42666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004980706097288062, + "loss": 0.3276, + "step": 30160 + }, + { + "epoch": 80.45333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004980693101381917, + "loss": 0.3361, + "step": 30170 + }, + { + "epoch": 80.48, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004980680101117347, + "loss": 0.3322, + "step": 30180 + }, + { + "epoch": 80.50666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004980667096494378, + "loss": 0.3278, + "step": 30190 + }, + { + "epoch": 80.53333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004980654087513028, + "loss": 0.323, + "step": 30200 + }, + { + "epoch": 80.56, + "grad_norm": 0.33984375, + "learning_rate": 0.0004980641074173323, + "loss": 0.3201, + "step": 30210 + }, + { + "epoch": 80.58666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004980628056475286, + "loss": 0.3225, + "step": 30220 + }, + { + "epoch": 80.61333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004980615034418938, + "loss": 0.3139, + "step": 30230 + }, + { + "epoch": 80.64, + "grad_norm": 0.177734375, + "learning_rate": 0.0004980602008004303, + "loss": 0.3163, + "step": 30240 + }, + { + "epoch": 80.66666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004980588977231404, + "loss": 0.3315, + "step": 30250 + }, + { + "epoch": 80.69333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004980575942100262, + "loss": 0.3111, + "step": 30260 + }, + { + "epoch": 80.72, + "grad_norm": 0.306640625, + "learning_rate": 0.0004980562902610904, + "loss": 0.3269, + "step": 30270 + }, + { + "epoch": 80.74666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004980549858763349, + "loss": 0.3283, + "step": 30280 + }, + { + "epoch": 80.77333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004980536810557622, + "loss": 0.3401, + "step": 30290 + }, + { + "epoch": 80.8, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004980523757993745, + "loss": 0.3263, + "step": 30300 + }, + { + "epoch": 80.82666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004980510701071741, + "loss": 0.3149, + "step": 30310 + }, + { + "epoch": 80.85333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004980497639791633, + "loss": 0.3193, + "step": 30320 + }, + { + "epoch": 80.88, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004980484574153444, + "loss": 0.318, + "step": 30330 + }, + { + "epoch": 80.90666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004980471504157198, + "loss": 0.321, + "step": 30340 + }, + { + "epoch": 80.93333333333334, + "grad_norm": 0.166015625, + "learning_rate": 0.0004980458429802916, + "loss": 0.3209, + "step": 30350 + }, + { + "epoch": 80.96, + "grad_norm": 0.2109375, + "learning_rate": 0.0004980445351090623, + "loss": 0.3203, + "step": 30360 + }, + { + "epoch": 80.98666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004980432268020341, + "loss": 0.3333, + "step": 30370 + }, + { + "epoch": 81.0, + "eval_loss": 0.4018370509147644, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.9021, + "eval_samples_per_second": 1.24, + "eval_steps_per_second": 0.078, + "step": 30375 + }, + { + "epoch": 81.01333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004980419180592091, + "loss": 0.323, + "step": 30380 + }, + { + "epoch": 81.04, + "grad_norm": 0.173828125, + "learning_rate": 0.00049804060888059, + "loss": 0.3494, + "step": 30390 + }, + { + "epoch": 81.06666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004980392992661788, + "loss": 0.3341, + "step": 30400 + }, + { + "epoch": 81.09333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004980379892159779, + "loss": 0.3314, + "step": 30410 + }, + { + "epoch": 81.12, + "grad_norm": 0.1875, + "learning_rate": 0.0004980366787299896, + "loss": 0.3272, + "step": 30420 + }, + { + "epoch": 81.14666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004980353678082163, + "loss": 0.3292, + "step": 30430 + }, + { + "epoch": 81.17333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0004980340564506601, + "loss": 0.3279, + "step": 30440 + }, + { + "epoch": 81.2, + "grad_norm": 0.59375, + "learning_rate": 0.0004980327446573234, + "loss": 0.321, + "step": 30450 + }, + { + "epoch": 81.22666666666667, + "grad_norm": 0.431640625, + "learning_rate": 0.0004980314324282085, + "loss": 0.3155, + "step": 30460 + }, + { + "epoch": 81.25333333333333, + "grad_norm": 0.4921875, + "learning_rate": 0.0004980301197633176, + "loss": 0.316, + "step": 30470 + }, + { + "epoch": 81.28, + "grad_norm": 0.369140625, + "learning_rate": 0.0004980288066626534, + "loss": 0.3346, + "step": 30480 + }, + { + "epoch": 81.30666666666667, + "grad_norm": 0.427734375, + "learning_rate": 0.0004980274931262178, + "loss": 0.3156, + "step": 30490 + }, + { + "epoch": 81.33333333333333, + "grad_norm": 0.490234375, + "learning_rate": 0.0004980261791540132, + "loss": 0.3307, + "step": 30500 + }, + { + "epoch": 81.36, + "grad_norm": 0.310546875, + "learning_rate": 0.0004980248647460419, + "loss": 0.3215, + "step": 30510 + }, + { + "epoch": 81.38666666666667, + "grad_norm": 0.21875, + "learning_rate": 0.0004980235499023064, + "loss": 0.3191, + "step": 30520 + }, + { + "epoch": 81.41333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004980222346228088, + "loss": 0.3253, + "step": 30530 + }, + { + "epoch": 81.44, + "grad_norm": 0.228515625, + "learning_rate": 0.0004980209189075515, + "loss": 0.3318, + "step": 30540 + }, + { + "epoch": 81.46666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004980196027565367, + "loss": 0.3359, + "step": 30550 + }, + { + "epoch": 81.49333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004980182861697668, + "loss": 0.3249, + "step": 30560 + }, + { + "epoch": 81.52, + "grad_norm": 0.220703125, + "learning_rate": 0.0004980169691472442, + "loss": 0.3284, + "step": 30570 + }, + { + "epoch": 81.54666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004980156516889711, + "loss": 0.3197, + "step": 30580 + }, + { + "epoch": 81.57333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004980143337949499, + "loss": 0.3226, + "step": 30590 + }, + { + "epoch": 81.6, + "grad_norm": 0.18359375, + "learning_rate": 0.0004980130154651828, + "loss": 0.3182, + "step": 30600 + }, + { + "epoch": 81.62666666666667, + "grad_norm": 0.296875, + "learning_rate": 0.0004980116966996722, + "loss": 0.3144, + "step": 30610 + }, + { + "epoch": 81.65333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004980103774984203, + "loss": 0.3275, + "step": 30620 + }, + { + "epoch": 81.68, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004980090578614296, + "loss": 0.3163, + "step": 30630 + }, + { + "epoch": 81.70666666666666, + "grad_norm": 0.326171875, + "learning_rate": 0.0004980077377887024, + "loss": 0.3164, + "step": 30640 + }, + { + "epoch": 81.73333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004980064172802408, + "loss": 0.333, + "step": 30650 + }, + { + "epoch": 81.76, + "grad_norm": 0.345703125, + "learning_rate": 0.0004980050963360473, + "loss": 0.3345, + "step": 30660 + }, + { + "epoch": 81.78666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004980037749561241, + "loss": 0.3347, + "step": 30670 + }, + { + "epoch": 81.81333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0004980024531404738, + "loss": 0.3172, + "step": 30680 + }, + { + "epoch": 81.84, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004980011308890984, + "loss": 0.3161, + "step": 30690 + }, + { + "epoch": 81.86666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0004979998082020004, + "loss": 0.3185, + "step": 30700 + }, + { + "epoch": 81.89333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004979984850791822, + "loss": 0.3179, + "step": 30710 + }, + { + "epoch": 81.92, + "grad_norm": 0.197265625, + "learning_rate": 0.0004979971615206457, + "loss": 0.3204, + "step": 30720 + }, + { + "epoch": 81.94666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004979958375263937, + "loss": 0.321, + "step": 30730 + }, + { + "epoch": 81.97333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004979945130964284, + "loss": 0.3295, + "step": 30740 + }, + { + "epoch": 82.0, + "grad_norm": 0.181640625, + "learning_rate": 0.000497993188230752, + "loss": 0.3182, + "step": 30750 + }, + { + "epoch": 82.0, + "eval_loss": 0.4036901295185089, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1585, + "eval_samples_per_second": 1.434, + "eval_steps_per_second": 0.09, + "step": 30750 + }, + { + "epoch": 82.02666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.000497991862929367, + "loss": 0.3399, + "step": 30760 + }, + { + "epoch": 82.05333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004979905371922756, + "loss": 0.3466, + "step": 30770 + }, + { + "epoch": 82.08, + "grad_norm": 0.349609375, + "learning_rate": 0.0004979892110194801, + "loss": 0.3305, + "step": 30780 + }, + { + "epoch": 82.10666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.000497987884410983, + "loss": 0.3318, + "step": 30790 + }, + { + "epoch": 82.13333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0004979865573667865, + "loss": 0.3233, + "step": 30800 + }, + { + "epoch": 82.16, + "grad_norm": 0.20703125, + "learning_rate": 0.0004979852298868929, + "loss": 0.3305, + "step": 30810 + }, + { + "epoch": 82.18666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004979839019713046, + "loss": 0.3249, + "step": 30820 + }, + { + "epoch": 82.21333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.000497982573620024, + "loss": 0.3141, + "step": 30830 + }, + { + "epoch": 82.24, + "grad_norm": 0.232421875, + "learning_rate": 0.0004979812448330533, + "loss": 0.3193, + "step": 30840 + }, + { + "epoch": 82.26666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004979799156103949, + "loss": 0.3252, + "step": 30850 + }, + { + "epoch": 82.29333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.000497978585952051, + "loss": 0.32, + "step": 30860 + }, + { + "epoch": 82.32, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004979772558580243, + "loss": 0.327, + "step": 30870 + }, + { + "epoch": 82.34666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004979759253283168, + "loss": 0.3273, + "step": 30880 + }, + { + "epoch": 82.37333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004979745943629309, + "loss": 0.3188, + "step": 30890 + }, + { + "epoch": 82.4, + "grad_norm": 0.2236328125, + "learning_rate": 0.000497973262961869, + "loss": 0.3206, + "step": 30900 + }, + { + "epoch": 82.42666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004979719311251334, + "loss": 0.3272, + "step": 30910 + }, + { + "epoch": 82.45333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004979705988527264, + "loss": 0.3348, + "step": 30920 + }, + { + "epoch": 82.48, + "grad_norm": 0.17578125, + "learning_rate": 0.0004979692661446505, + "loss": 0.3311, + "step": 30930 + }, + { + "epoch": 82.50666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004979679330009081, + "loss": 0.3271, + "step": 30940 + }, + { + "epoch": 82.53333333333333, + "grad_norm": 0.162109375, + "learning_rate": 0.0004979665994215011, + "loss": 0.3227, + "step": 30950 + }, + { + "epoch": 82.56, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004979652654064322, + "loss": 0.3199, + "step": 30960 + }, + { + "epoch": 82.58666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004979639309557037, + "loss": 0.3219, + "step": 30970 + }, + { + "epoch": 82.61333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004979625960693179, + "loss": 0.3131, + "step": 30980 + }, + { + "epoch": 82.64, + "grad_norm": 0.1796875, + "learning_rate": 0.0004979612607472772, + "loss": 0.3158, + "step": 30990 + }, + { + "epoch": 82.66666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004979599249895839, + "loss": 0.3313, + "step": 31000 + }, + { + "epoch": 82.69333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004979585887962402, + "loss": 0.3103, + "step": 31010 + }, + { + "epoch": 82.72, + "grad_norm": 0.265625, + "learning_rate": 0.0004979572521672487, + "loss": 0.3264, + "step": 31020 + }, + { + "epoch": 82.74666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004979559151026118, + "loss": 0.3278, + "step": 31030 + }, + { + "epoch": 82.77333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004979545776023314, + "loss": 0.34, + "step": 31040 + }, + { + "epoch": 82.8, + "grad_norm": 0.251953125, + "learning_rate": 0.0004979532396664104, + "loss": 0.3258, + "step": 31050 + }, + { + "epoch": 82.82666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004979519012948508, + "loss": 0.3142, + "step": 31060 + }, + { + "epoch": 82.85333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.000497950562487655, + "loss": 0.3181, + "step": 31070 + }, + { + "epoch": 82.88, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004979492232448254, + "loss": 0.3173, + "step": 31080 + }, + { + "epoch": 82.90666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004979478835663645, + "loss": 0.3199, + "step": 31090 + }, + { + "epoch": 82.93333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004979465434522743, + "loss": 0.3203, + "step": 31100 + }, + { + "epoch": 82.96, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004979452029025576, + "loss": 0.3203, + "step": 31110 + }, + { + "epoch": 82.98666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004979438619172162, + "loss": 0.3325, + "step": 31120 + }, + { + "epoch": 83.0, + "eval_loss": 0.4017693102359772, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1919, + "eval_samples_per_second": 1.43, + "eval_steps_per_second": 0.089, + "step": 31125 + }, + { + "epoch": 83.01333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.000497942520496253, + "loss": 0.323, + "step": 31130 + }, + { + "epoch": 83.04, + "grad_norm": 0.455078125, + "learning_rate": 0.0004979411786396701, + "loss": 0.3489, + "step": 31140 + }, + { + "epoch": 83.06666666666666, + "grad_norm": 0.39453125, + "learning_rate": 0.0004979398363474699, + "loss": 0.3338, + "step": 31150 + }, + { + "epoch": 83.09333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004979384936196547, + "loss": 0.3311, + "step": 31160 + }, + { + "epoch": 83.12, + "grad_norm": 0.177734375, + "learning_rate": 0.0004979371504562268, + "loss": 0.3275, + "step": 31170 + }, + { + "epoch": 83.14666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004979358068571888, + "loss": 0.3286, + "step": 31180 + }, + { + "epoch": 83.17333333333333, + "grad_norm": 0.37109375, + "learning_rate": 0.000497934462822543, + "loss": 0.3275, + "step": 31190 + }, + { + "epoch": 83.2, + "grad_norm": 0.21484375, + "learning_rate": 0.0004979331183522915, + "loss": 0.3204, + "step": 31200 + }, + { + "epoch": 83.22666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.000497931773446437, + "loss": 0.3157, + "step": 31210 + }, + { + "epoch": 83.25333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004979304281049815, + "loss": 0.3158, + "step": 31220 + }, + { + "epoch": 83.28, + "grad_norm": 0.22265625, + "learning_rate": 0.0004979290823279278, + "loss": 0.3337, + "step": 31230 + }, + { + "epoch": 83.30666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.000497927736115278, + "loss": 0.315, + "step": 31240 + }, + { + "epoch": 83.33333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004979263894670345, + "loss": 0.3291, + "step": 31250 + }, + { + "epoch": 83.36, + "grad_norm": 0.201171875, + "learning_rate": 0.0004979250423831996, + "loss": 0.321, + "step": 31260 + }, + { + "epoch": 83.38666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004979236948637757, + "loss": 0.3184, + "step": 31270 + }, + { + "epoch": 83.41333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004979223469087654, + "loss": 0.3239, + "step": 31280 + }, + { + "epoch": 83.44, + "grad_norm": 0.208984375, + "learning_rate": 0.0004979209985181707, + "loss": 0.3313, + "step": 31290 + }, + { + "epoch": 83.46666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004979196496919942, + "loss": 0.3347, + "step": 31300 + }, + { + "epoch": 83.49333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004979183004302382, + "loss": 0.3242, + "step": 31310 + }, + { + "epoch": 83.52, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004979169507329051, + "loss": 0.328, + "step": 31320 + }, + { + "epoch": 83.54666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004979156005999972, + "loss": 0.3188, + "step": 31330 + }, + { + "epoch": 83.57333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004979142500315169, + "loss": 0.322, + "step": 31340 + }, + { + "epoch": 83.6, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004979128990274667, + "loss": 0.3173, + "step": 31350 + }, + { + "epoch": 83.62666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004979115475878488, + "loss": 0.3134, + "step": 31360 + }, + { + "epoch": 83.65333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004979101957126658, + "loss": 0.3268, + "step": 31370 + }, + { + "epoch": 83.68, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004979088434019197, + "loss": 0.3151, + "step": 31380 + }, + { + "epoch": 83.70666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004979074906556133, + "loss": 0.3167, + "step": 31390 + }, + { + "epoch": 83.73333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004979061374737485, + "loss": 0.3323, + "step": 31400 + }, + { + "epoch": 83.76, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004979047838563282, + "loss": 0.3336, + "step": 31410 + }, + { + "epoch": 83.78666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004979034298033544, + "loss": 0.3345, + "step": 31420 + }, + { + "epoch": 83.81333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004979020753148297, + "loss": 0.3165, + "step": 31430 + }, + { + "epoch": 83.84, + "grad_norm": 0.48828125, + "learning_rate": 0.0004979007203907564, + "loss": 0.316, + "step": 31440 + }, + { + "epoch": 83.86666666666666, + "grad_norm": 0.38671875, + "learning_rate": 0.0004978993650311368, + "loss": 0.3174, + "step": 31450 + }, + { + "epoch": 83.89333333333333, + "grad_norm": 0.361328125, + "learning_rate": 0.0004978980092359734, + "loss": 0.3176, + "step": 31460 + }, + { + "epoch": 83.92, + "grad_norm": 0.28515625, + "learning_rate": 0.0004978966530052685, + "loss": 0.3199, + "step": 31470 + }, + { + "epoch": 83.94666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0004978952963390245, + "loss": 0.3211, + "step": 31480 + }, + { + "epoch": 83.97333333333333, + "grad_norm": 0.322265625, + "learning_rate": 0.0004978939392372438, + "loss": 0.3297, + "step": 31490 + }, + { + "epoch": 84.0, + "grad_norm": 0.17578125, + "learning_rate": 0.0004978925816999288, + "loss": 0.3171, + "step": 31500 + }, + { + "epoch": 84.0, + "eval_loss": 0.40279027819633484, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.2383, + "eval_samples_per_second": 1.307, + "eval_steps_per_second": 0.082, + "step": 31500 + }, + { + "epoch": 84.02666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004978912237270819, + "loss": 0.3395, + "step": 31510 + }, + { + "epoch": 84.05333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004978898653187054, + "loss": 0.3455, + "step": 31520 + }, + { + "epoch": 84.08, + "grad_norm": 0.353515625, + "learning_rate": 0.0004978885064748018, + "loss": 0.3299, + "step": 31530 + }, + { + "epoch": 84.10666666666667, + "grad_norm": 0.345703125, + "learning_rate": 0.0004978871471953733, + "loss": 0.3305, + "step": 31540 + }, + { + "epoch": 84.13333333333334, + "grad_norm": 0.33984375, + "learning_rate": 0.0004978857874804226, + "loss": 0.3236, + "step": 31550 + }, + { + "epoch": 84.16, + "grad_norm": 0.208984375, + "learning_rate": 0.0004978844273299518, + "loss": 0.3295, + "step": 31560 + }, + { + "epoch": 84.18666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004978830667439634, + "loss": 0.3247, + "step": 31570 + }, + { + "epoch": 84.21333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004978817057224598, + "loss": 0.3134, + "step": 31580 + }, + { + "epoch": 84.24, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004978803442654433, + "loss": 0.3181, + "step": 31590 + }, + { + "epoch": 84.26666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004978789823729165, + "loss": 0.3241, + "step": 31600 + }, + { + "epoch": 84.29333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004978776200448816, + "loss": 0.3197, + "step": 31610 + }, + { + "epoch": 84.32, + "grad_norm": 0.171875, + "learning_rate": 0.000497876257281341, + "loss": 0.326, + "step": 31620 + }, + { + "epoch": 84.34666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004978748940822973, + "loss": 0.3268, + "step": 31630 + }, + { + "epoch": 84.37333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004978735304477526, + "loss": 0.3187, + "step": 31640 + }, + { + "epoch": 84.4, + "grad_norm": 0.232421875, + "learning_rate": 0.0004978721663777095, + "loss": 0.3197, + "step": 31650 + }, + { + "epoch": 84.42666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004978708018721703, + "loss": 0.3263, + "step": 31660 + }, + { + "epoch": 84.45333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004978694369311375, + "loss": 0.3344, + "step": 31670 + }, + { + "epoch": 84.48, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004978680715546134, + "loss": 0.3307, + "step": 31680 + }, + { + "epoch": 84.50666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0004978667057426004, + "loss": 0.3266, + "step": 31690 + }, + { + "epoch": 84.53333333333333, + "grad_norm": 0.32421875, + "learning_rate": 0.000497865339495101, + "loss": 0.3218, + "step": 31700 + }, + { + "epoch": 84.56, + "grad_norm": 0.482421875, + "learning_rate": 0.0004978639728121175, + "loss": 0.3192, + "step": 31710 + }, + { + "epoch": 84.58666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004978626056936523, + "loss": 0.3206, + "step": 31720 + }, + { + "epoch": 84.61333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004978612381397079, + "loss": 0.3119, + "step": 31730 + }, + { + "epoch": 84.64, + "grad_norm": 0.25390625, + "learning_rate": 0.0004978598701502865, + "loss": 0.3152, + "step": 31740 + }, + { + "epoch": 84.66666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004978585017253907, + "loss": 0.3305, + "step": 31750 + }, + { + "epoch": 84.69333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004978571328650229, + "loss": 0.3089, + "step": 31760 + }, + { + "epoch": 84.72, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004978557635691855, + "loss": 0.3257, + "step": 31770 + }, + { + "epoch": 84.74666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004978543938378808, + "loss": 0.3273, + "step": 31780 + }, + { + "epoch": 84.77333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004978530236711112, + "loss": 0.3385, + "step": 31790 + }, + { + "epoch": 84.8, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004978516530688791, + "loss": 0.3249, + "step": 31800 + }, + { + "epoch": 84.82666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004978502820311872, + "loss": 0.313, + "step": 31810 + }, + { + "epoch": 84.85333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004978489105580376, + "loss": 0.3173, + "step": 31820 + }, + { + "epoch": 84.88, + "grad_norm": 0.234375, + "learning_rate": 0.0004978475386494327, + "loss": 0.3165, + "step": 31830 + }, + { + "epoch": 84.90666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004978461663053751, + "loss": 0.3193, + "step": 31840 + }, + { + "epoch": 84.93333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004978447935258671, + "loss": 0.3194, + "step": 31850 + }, + { + "epoch": 84.96, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004978434203109112, + "loss": 0.3191, + "step": 31860 + }, + { + "epoch": 84.98666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004978420466605096, + "loss": 0.3328, + "step": 31870 + }, + { + "epoch": 85.0, + "eval_loss": 0.4018096923828125, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.1546, + "eval_samples_per_second": 1.316, + "eval_steps_per_second": 0.082, + "step": 31875 + }, + { + "epoch": 85.01333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.000497840672574665, + "loss": 0.3213, + "step": 31880 + }, + { + "epoch": 85.04, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004978392980533794, + "loss": 0.3481, + "step": 31890 + }, + { + "epoch": 85.06666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004978379230966558, + "loss": 0.3331, + "step": 31900 + }, + { + "epoch": 85.09333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004978365477044961, + "loss": 0.3302, + "step": 31910 + }, + { + "epoch": 85.12, + "grad_norm": 0.1962890625, + "learning_rate": 0.000497835171876903, + "loss": 0.3258, + "step": 31920 + }, + { + "epoch": 85.14666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004978337956138789, + "loss": 0.3275, + "step": 31930 + }, + { + "epoch": 85.17333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.000497832418915426, + "loss": 0.3268, + "step": 31940 + }, + { + "epoch": 85.2, + "grad_norm": 0.2294921875, + "learning_rate": 0.000497831041781547, + "loss": 0.3198, + "step": 31950 + }, + { + "epoch": 85.22666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004978296642122441, + "loss": 0.3154, + "step": 31960 + }, + { + "epoch": 85.25333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004978282862075199, + "loss": 0.3142, + "step": 31970 + }, + { + "epoch": 85.28, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004978269077673766, + "loss": 0.3333, + "step": 31980 + }, + { + "epoch": 85.30666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004978255288918169, + "loss": 0.314, + "step": 31990 + }, + { + "epoch": 85.33333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.000497824149580843, + "loss": 0.3297, + "step": 32000 + }, + { + "epoch": 85.36, + "grad_norm": 0.1875, + "learning_rate": 0.0004978227698344574, + "loss": 0.3204, + "step": 32010 + }, + { + "epoch": 85.38666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004978213896526625, + "loss": 0.3179, + "step": 32020 + }, + { + "epoch": 85.41333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004978200090354608, + "loss": 0.3232, + "step": 32030 + }, + { + "epoch": 85.44, + "grad_norm": 0.26171875, + "learning_rate": 0.0004978186279828548, + "loss": 0.3306, + "step": 32040 + }, + { + "epoch": 85.46666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004978172464948465, + "loss": 0.334, + "step": 32050 + }, + { + "epoch": 85.49333333333334, + "grad_norm": 0.236328125, + "learning_rate": 0.0004978158645714388, + "loss": 0.3239, + "step": 32060 + }, + { + "epoch": 85.52, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004978144822126339, + "loss": 0.3274, + "step": 32070 + }, + { + "epoch": 85.54666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004978130994184344, + "loss": 0.318, + "step": 32080 + }, + { + "epoch": 85.57333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004978117161888425, + "loss": 0.3213, + "step": 32090 + }, + { + "epoch": 85.6, + "grad_norm": 0.205078125, + "learning_rate": 0.0004978103325238608, + "loss": 0.3163, + "step": 32100 + }, + { + "epoch": 85.62666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004978089484234916, + "loss": 0.3121, + "step": 32110 + }, + { + "epoch": 85.65333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004978075638877375, + "loss": 0.3262, + "step": 32120 + }, + { + "epoch": 85.68, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004978061789166009, + "loss": 0.3144, + "step": 32130 + }, + { + "epoch": 85.70666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.000497804793510084, + "loss": 0.3152, + "step": 32140 + }, + { + "epoch": 85.73333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004978034076681895, + "loss": 0.3308, + "step": 32150 + }, + { + "epoch": 85.76, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004978020213909197, + "loss": 0.3322, + "step": 32160 + }, + { + "epoch": 85.78666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.0004978006346782771, + "loss": 0.3334, + "step": 32170 + }, + { + "epoch": 85.81333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.000497799247530264, + "loss": 0.3159, + "step": 32180 + }, + { + "epoch": 85.84, + "grad_norm": 0.234375, + "learning_rate": 0.0004977978599468833, + "loss": 0.3154, + "step": 32190 + }, + { + "epoch": 85.86666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004977964719281367, + "loss": 0.3164, + "step": 32200 + }, + { + "epoch": 85.89333333333333, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004977950834740273, + "loss": 0.3171, + "step": 32210 + }, + { + "epoch": 85.92, + "grad_norm": 0.1826171875, + "learning_rate": 0.000497793694584557, + "loss": 0.3192, + "step": 32220 + }, + { + "epoch": 85.94666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004977923052597288, + "loss": 0.3203, + "step": 32230 + }, + { + "epoch": 85.97333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004977909154995446, + "loss": 0.3287, + "step": 32240 + }, + { + "epoch": 86.0, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004977895253040072, + "loss": 0.3164, + "step": 32250 + }, + { + "epoch": 86.0, + "eval_loss": 0.4031406044960022, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3148, + "eval_samples_per_second": 1.414, + "eval_steps_per_second": 0.088, + "step": 32250 + }, + { + "epoch": 86.02666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004977881346731189, + "loss": 0.3386, + "step": 32260 + }, + { + "epoch": 86.05333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004977867436068823, + "loss": 0.3451, + "step": 32270 + }, + { + "epoch": 86.08, + "grad_norm": 0.18359375, + "learning_rate": 0.0004977853521052995, + "loss": 0.3293, + "step": 32280 + }, + { + "epoch": 86.10666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0004977839601683733, + "loss": 0.3302, + "step": 32290 + }, + { + "epoch": 86.13333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.000497782567796106, + "loss": 0.3232, + "step": 32300 + }, + { + "epoch": 86.16, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004977811749885, + "loss": 0.3294, + "step": 32310 + }, + { + "epoch": 86.18666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004977797817455579, + "loss": 0.3237, + "step": 32320 + }, + { + "epoch": 86.21333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.000497778388067282, + "loss": 0.3127, + "step": 32330 + }, + { + "epoch": 86.24, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004977769939536748, + "loss": 0.3178, + "step": 32340 + }, + { + "epoch": 86.26666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004977755994047387, + "loss": 0.3233, + "step": 32350 + }, + { + "epoch": 86.29333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004977742044204763, + "loss": 0.3191, + "step": 32360 + }, + { + "epoch": 86.32, + "grad_norm": 0.1826171875, + "learning_rate": 0.00049777280900089, + "loss": 0.3252, + "step": 32370 + }, + { + "epoch": 86.34666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.000497771413145982, + "loss": 0.3253, + "step": 32380 + }, + { + "epoch": 86.37333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004977700168557551, + "loss": 0.3181, + "step": 32390 + }, + { + "epoch": 86.4, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004977686201302115, + "loss": 0.3192, + "step": 32400 + }, + { + "epoch": 86.42666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004977672229693538, + "loss": 0.3257, + "step": 32410 + }, + { + "epoch": 86.45333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004977658253731845, + "loss": 0.3339, + "step": 32420 + }, + { + "epoch": 86.48, + "grad_norm": 0.19140625, + "learning_rate": 0.0004977644273417059, + "loss": 0.33, + "step": 32430 + }, + { + "epoch": 86.50666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004977630288749205, + "loss": 0.3257, + "step": 32440 + }, + { + "epoch": 86.53333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004977616299728308, + "loss": 0.321, + "step": 32450 + }, + { + "epoch": 86.56, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004977602306354393, + "loss": 0.3181, + "step": 32460 + }, + { + "epoch": 86.58666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004977588308627484, + "loss": 0.3203, + "step": 32470 + }, + { + "epoch": 86.61333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004977574306547605, + "loss": 0.3123, + "step": 32480 + }, + { + "epoch": 86.64, + "grad_norm": 0.181640625, + "learning_rate": 0.0004977560300114781, + "loss": 0.3142, + "step": 32490 + }, + { + "epoch": 86.66666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004977546289329038, + "loss": 0.3299, + "step": 32500 + }, + { + "epoch": 86.69333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004977532274190398, + "loss": 0.3092, + "step": 32510 + }, + { + "epoch": 86.72, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004977518254698889, + "loss": 0.3248, + "step": 32520 + }, + { + "epoch": 86.74666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004977504230854531, + "loss": 0.327, + "step": 32530 + }, + { + "epoch": 86.77333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004977490202657353, + "loss": 0.3383, + "step": 32540 + }, + { + "epoch": 86.8, + "grad_norm": 0.177734375, + "learning_rate": 0.0004977476170107377, + "loss": 0.3238, + "step": 32550 + }, + { + "epoch": 86.82666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.000497746213320463, + "loss": 0.3129, + "step": 32560 + }, + { + "epoch": 86.85333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004977448091949135, + "loss": 0.317, + "step": 32570 + }, + { + "epoch": 86.88, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004977434046340917, + "loss": 0.3155, + "step": 32580 + }, + { + "epoch": 86.90666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004977419996380001, + "loss": 0.3187, + "step": 32590 + }, + { + "epoch": 86.93333333333334, + "grad_norm": 0.1533203125, + "learning_rate": 0.000497740594206641, + "loss": 0.3192, + "step": 32600 + }, + { + "epoch": 86.96, + "grad_norm": 0.158203125, + "learning_rate": 0.000497739188340017, + "loss": 0.3181, + "step": 32610 + }, + { + "epoch": 86.98666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004977377820381306, + "loss": 0.3318, + "step": 32620 + }, + { + "epoch": 87.0, + "eval_loss": 0.3999280035495758, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.8655, + "eval_samples_per_second": 1.244, + "eval_steps_per_second": 0.078, + "step": 32625 + }, + { + "epoch": 87.01333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004977363753009843, + "loss": 0.321, + "step": 32630 + }, + { + "epoch": 87.04, + "grad_norm": 0.2109375, + "learning_rate": 0.0004977349681285805, + "loss": 0.3472, + "step": 32640 + }, + { + "epoch": 87.06666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004977335605209217, + "loss": 0.3321, + "step": 32650 + }, + { + "epoch": 87.09333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004977321524780103, + "loss": 0.3304, + "step": 32660 + }, + { + "epoch": 87.12, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004977307439998489, + "loss": 0.3263, + "step": 32670 + }, + { + "epoch": 87.14666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004977293350864399, + "loss": 0.3266, + "step": 32680 + }, + { + "epoch": 87.17333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004977279257377856, + "loss": 0.3255, + "step": 32690 + }, + { + "epoch": 87.2, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004977265159538889, + "loss": 0.3191, + "step": 32700 + }, + { + "epoch": 87.22666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004977251057347519, + "loss": 0.3139, + "step": 32710 + }, + { + "epoch": 87.25333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004977236950803772, + "loss": 0.3139, + "step": 32720 + }, + { + "epoch": 87.28, + "grad_norm": 0.234375, + "learning_rate": 0.0004977222839907673, + "loss": 0.3322, + "step": 32730 + }, + { + "epoch": 87.30666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004977208724659248, + "loss": 0.3132, + "step": 32740 + }, + { + "epoch": 87.33333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.000497719460505852, + "loss": 0.328, + "step": 32750 + }, + { + "epoch": 87.36, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004977180481105514, + "loss": 0.3198, + "step": 32760 + }, + { + "epoch": 87.38666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004977166352800256, + "loss": 0.3167, + "step": 32770 + }, + { + "epoch": 87.41333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004977152220142768, + "loss": 0.3227, + "step": 32780 + }, + { + "epoch": 87.44, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004977138083133078, + "loss": 0.3291, + "step": 32790 + }, + { + "epoch": 87.46666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004977123941771209, + "loss": 0.334, + "step": 32800 + }, + { + "epoch": 87.49333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0004977109796057188, + "loss": 0.3234, + "step": 32810 + }, + { + "epoch": 87.52, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004977095645991036, + "loss": 0.3272, + "step": 32820 + }, + { + "epoch": 87.54666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004977081491572782, + "loss": 0.3179, + "step": 32830 + }, + { + "epoch": 87.57333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004977067332802449, + "loss": 0.3203, + "step": 32840 + }, + { + "epoch": 87.6, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004977053169680062, + "loss": 0.316, + "step": 32850 + }, + { + "epoch": 87.62666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004977039002205645, + "loss": 0.3122, + "step": 32860 + }, + { + "epoch": 87.65333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004977024830379223, + "loss": 0.3248, + "step": 32870 + }, + { + "epoch": 87.68, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004977010654200822, + "loss": 0.3133, + "step": 32880 + }, + { + "epoch": 87.70666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0004976996473670468, + "loss": 0.3144, + "step": 32890 + }, + { + "epoch": 87.73333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0004976982288788183, + "loss": 0.3308, + "step": 32900 + }, + { + "epoch": 87.76, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004976968099553994, + "loss": 0.3319, + "step": 32910 + }, + { + "epoch": 87.78666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004976953905967925, + "loss": 0.3324, + "step": 32920 + }, + { + "epoch": 87.81333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004976939708030002, + "loss": 0.315, + "step": 32930 + }, + { + "epoch": 87.84, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004976925505740247, + "loss": 0.3143, + "step": 32940 + }, + { + "epoch": 87.86666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.000497691129909869, + "loss": 0.3161, + "step": 32950 + }, + { + "epoch": 87.89333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004976897088105351, + "loss": 0.3163, + "step": 32960 + }, + { + "epoch": 87.92, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004976882872760258, + "loss": 0.3188, + "step": 32970 + }, + { + "epoch": 87.94666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004976868653063434, + "loss": 0.3195, + "step": 32980 + }, + { + "epoch": 87.97333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004976854429014906, + "loss": 0.3276, + "step": 32990 + }, + { + "epoch": 88.0, + "grad_norm": 0.19140625, + "learning_rate": 0.0004976840200614697, + "loss": 0.3153, + "step": 33000 + }, + { + "epoch": 88.0, + "eval_loss": 0.40317627787590027, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6833, + "eval_samples_per_second": 1.369, + "eval_steps_per_second": 0.086, + "step": 33000 + }, + { + "epoch": 88.02666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004976825967862834, + "loss": 0.3382, + "step": 33010 + }, + { + "epoch": 88.05333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.000497681173075934, + "loss": 0.3446, + "step": 33020 + }, + { + "epoch": 88.08, + "grad_norm": 0.185546875, + "learning_rate": 0.0004976797489304242, + "loss": 0.3281, + "step": 33030 + }, + { + "epoch": 88.10666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004976783243497565, + "loss": 0.3291, + "step": 33040 + }, + { + "epoch": 88.13333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.000497676899333933, + "loss": 0.3222, + "step": 33050 + }, + { + "epoch": 88.16, + "grad_norm": 0.31640625, + "learning_rate": 0.0004976754738829568, + "loss": 0.3286, + "step": 33060 + }, + { + "epoch": 88.18666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.00049767404799683, + "loss": 0.3231, + "step": 33070 + }, + { + "epoch": 88.21333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004976726216755551, + "loss": 0.3128, + "step": 33080 + }, + { + "epoch": 88.24, + "grad_norm": 0.2109375, + "learning_rate": 0.0004976711949191349, + "loss": 0.3165, + "step": 33090 + }, + { + "epoch": 88.26666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004976697677275717, + "loss": 0.3231, + "step": 33100 + }, + { + "epoch": 88.29333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004976683401008679, + "loss": 0.3181, + "step": 33110 + }, + { + "epoch": 88.32, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004976669120390262, + "loss": 0.3246, + "step": 33120 + }, + { + "epoch": 88.34666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004976654835420492, + "loss": 0.3243, + "step": 33130 + }, + { + "epoch": 88.37333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004976640546099392, + "loss": 0.3174, + "step": 33140 + }, + { + "epoch": 88.4, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004976626252426987, + "loss": 0.3183, + "step": 33150 + }, + { + "epoch": 88.42666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004976611954403304, + "loss": 0.3253, + "step": 33160 + }, + { + "epoch": 88.45333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004976597652028367, + "loss": 0.3334, + "step": 33170 + }, + { + "epoch": 88.48, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004976583345302199, + "loss": 0.3288, + "step": 33180 + }, + { + "epoch": 88.50666666666666, + "grad_norm": 0.166015625, + "learning_rate": 0.000497656903422483, + "loss": 0.325, + "step": 33190 + }, + { + "epoch": 88.53333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.000497655471879628, + "loss": 0.3202, + "step": 33200 + }, + { + "epoch": 88.56, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004976540399016578, + "loss": 0.3169, + "step": 33210 + }, + { + "epoch": 88.58666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004976526074885748, + "loss": 0.3202, + "step": 33220 + }, + { + "epoch": 88.61333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004976511746403814, + "loss": 0.3113, + "step": 33230 + }, + { + "epoch": 88.64, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004976497413570802, + "loss": 0.3137, + "step": 33240 + }, + { + "epoch": 88.66666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004976483076386737, + "loss": 0.3293, + "step": 33250 + }, + { + "epoch": 88.69333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004976468734851645, + "loss": 0.3084, + "step": 33260 + }, + { + "epoch": 88.72, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004976454388965551, + "loss": 0.3243, + "step": 33270 + }, + { + "epoch": 88.74666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.000497644003872848, + "loss": 0.3264, + "step": 33280 + }, + { + "epoch": 88.77333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004976425684140456, + "loss": 0.337, + "step": 33290 + }, + { + "epoch": 88.8, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004976411325201506, + "loss": 0.3226, + "step": 33300 + }, + { + "epoch": 88.82666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004976396961911654, + "loss": 0.3121, + "step": 33310 + }, + { + "epoch": 88.85333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.0004976382594270927, + "loss": 0.3163, + "step": 33320 + }, + { + "epoch": 88.88, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004976368222279347, + "loss": 0.3152, + "step": 33330 + }, + { + "epoch": 88.90666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004976353845936943, + "loss": 0.3178, + "step": 33340 + }, + { + "epoch": 88.93333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004976339465243737, + "loss": 0.3182, + "step": 33350 + }, + { + "epoch": 88.96, + "grad_norm": 0.216796875, + "learning_rate": 0.0004976325080199757, + "loss": 0.3177, + "step": 33360 + }, + { + "epoch": 88.98666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004976310690805026, + "loss": 0.331, + "step": 33370 + }, + { + "epoch": 89.0, + "eval_loss": 0.4005465805530548, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.737, + "eval_samples_per_second": 1.49, + "eval_steps_per_second": 0.093, + "step": 33375 + }, + { + "epoch": 89.01333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004976296297059571, + "loss": 0.3199, + "step": 33380 + }, + { + "epoch": 89.04, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004976281898963417, + "loss": 0.3465, + "step": 33390 + }, + { + "epoch": 89.06666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004976267496516587, + "loss": 0.3318, + "step": 33400 + }, + { + "epoch": 89.09333333333333, + "grad_norm": 0.353515625, + "learning_rate": 0.0004976253089719109, + "loss": 0.3287, + "step": 33410 + }, + { + "epoch": 89.12, + "grad_norm": 0.197265625, + "learning_rate": 0.0004976238678571008, + "loss": 0.3246, + "step": 33420 + }, + { + "epoch": 89.14666666666666, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004976224263072309, + "loss": 0.3262, + "step": 33430 + }, + { + "epoch": 89.17333333333333, + "grad_norm": 0.326171875, + "learning_rate": 0.0004976209843223037, + "loss": 0.3258, + "step": 33440 + }, + { + "epoch": 89.2, + "grad_norm": 0.21875, + "learning_rate": 0.0004976195419023218, + "loss": 0.3186, + "step": 33450 + }, + { + "epoch": 89.22666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004976180990472875, + "loss": 0.3135, + "step": 33460 + }, + { + "epoch": 89.25333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004976166557572037, + "loss": 0.3135, + "step": 33470 + }, + { + "epoch": 89.28, + "grad_norm": 0.21484375, + "learning_rate": 0.0004976152120320726, + "loss": 0.3321, + "step": 33480 + }, + { + "epoch": 89.30666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004976137678718971, + "loss": 0.3135, + "step": 33490 + }, + { + "epoch": 89.33333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004976123232766793, + "loss": 0.3271, + "step": 33500 + }, + { + "epoch": 89.36, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004976108782464221, + "loss": 0.3193, + "step": 33510 + }, + { + "epoch": 89.38666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004976094327811279, + "loss": 0.3162, + "step": 33520 + }, + { + "epoch": 89.41333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004976079868807993, + "loss": 0.3222, + "step": 33530 + }, + { + "epoch": 89.44, + "grad_norm": 0.193359375, + "learning_rate": 0.0004976065405454385, + "loss": 0.3293, + "step": 33540 + }, + { + "epoch": 89.46666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004976050937750486, + "loss": 0.3332, + "step": 33550 + }, + { + "epoch": 89.49333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004976036465696318, + "loss": 0.3223, + "step": 33560 + }, + { + "epoch": 89.52, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004976021989291907, + "loss": 0.326, + "step": 33570 + }, + { + "epoch": 89.54666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004976007508537279, + "loss": 0.3162, + "step": 33580 + }, + { + "epoch": 89.57333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004975993023432458, + "loss": 0.3197, + "step": 33590 + }, + { + "epoch": 89.6, + "grad_norm": 0.177734375, + "learning_rate": 0.0004975978533977471, + "loss": 0.315, + "step": 33600 + }, + { + "epoch": 89.62666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004975964040172343, + "loss": 0.3113, + "step": 33610 + }, + { + "epoch": 89.65333333333334, + "grad_norm": 0.234375, + "learning_rate": 0.0004975949542017099, + "loss": 0.3245, + "step": 33620 + }, + { + "epoch": 89.68, + "grad_norm": 0.17578125, + "learning_rate": 0.0004975935039511764, + "loss": 0.3134, + "step": 33630 + }, + { + "epoch": 89.70666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004975920532656366, + "loss": 0.314, + "step": 33640 + }, + { + "epoch": 89.73333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004975906021450928, + "loss": 0.3299, + "step": 33650 + }, + { + "epoch": 89.76, + "grad_norm": 0.306640625, + "learning_rate": 0.0004975891505895477, + "loss": 0.3316, + "step": 33660 + }, + { + "epoch": 89.78666666666666, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004975876985990037, + "loss": 0.3318, + "step": 33670 + }, + { + "epoch": 89.81333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0004975862461734634, + "loss": 0.3142, + "step": 33680 + }, + { + "epoch": 89.84, + "grad_norm": 0.19140625, + "learning_rate": 0.0004975847933129294, + "loss": 0.3135, + "step": 33690 + }, + { + "epoch": 89.86666666666666, + "grad_norm": 0.232421875, + "learning_rate": 0.0004975833400174042, + "loss": 0.3152, + "step": 33700 + }, + { + "epoch": 89.89333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004975818862868905, + "loss": 0.3156, + "step": 33710 + }, + { + "epoch": 89.92, + "grad_norm": 0.203125, + "learning_rate": 0.0004975804321213907, + "loss": 0.3179, + "step": 33720 + }, + { + "epoch": 89.94666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004975789775209074, + "loss": 0.3188, + "step": 33730 + }, + { + "epoch": 89.97333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004975775224854431, + "loss": 0.3265, + "step": 33740 + }, + { + "epoch": 90.0, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004975760670150004, + "loss": 0.3149, + "step": 33750 + }, + { + "epoch": 90.0, + "eval_loss": 0.4022298753261566, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9141, + "eval_samples_per_second": 1.466, + "eval_steps_per_second": 0.092, + "step": 33750 + }, + { + "epoch": 90.02666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004975746111095819, + "loss": 0.3375, + "step": 33760 + }, + { + "epoch": 90.05333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004975731547691902, + "loss": 0.344, + "step": 33770 + }, + { + "epoch": 90.08, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004975716979938276, + "loss": 0.3281, + "step": 33780 + }, + { + "epoch": 90.10666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.000497570240783497, + "loss": 0.3287, + "step": 33790 + }, + { + "epoch": 90.13333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004975687831382008, + "loss": 0.3208, + "step": 33800 + }, + { + "epoch": 90.16, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004975673250579415, + "loss": 0.3279, + "step": 33810 + }, + { + "epoch": 90.18666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004975658665427216, + "loss": 0.3226, + "step": 33820 + }, + { + "epoch": 90.21333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.000497564407592544, + "loss": 0.312, + "step": 33830 + }, + { + "epoch": 90.24, + "grad_norm": 0.1875, + "learning_rate": 0.000497562948207411, + "loss": 0.3159, + "step": 33840 + }, + { + "epoch": 90.26666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004975614883873251, + "loss": 0.3216, + "step": 33850 + }, + { + "epoch": 90.29333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004975600281322891, + "loss": 0.3175, + "step": 33860 + }, + { + "epoch": 90.32, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004975585674423054, + "loss": 0.3243, + "step": 33870 + }, + { + "epoch": 90.34666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004975571063173766, + "loss": 0.3234, + "step": 33880 + }, + { + "epoch": 90.37333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004975556447575054, + "loss": 0.3166, + "step": 33890 + }, + { + "epoch": 90.4, + "grad_norm": 0.208984375, + "learning_rate": 0.0004975541827626941, + "loss": 0.318, + "step": 33900 + }, + { + "epoch": 90.42666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004975527203329454, + "loss": 0.3244, + "step": 33910 + }, + { + "epoch": 90.45333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004975512574682619, + "loss": 0.3327, + "step": 33920 + }, + { + "epoch": 90.48, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004975497941686462, + "loss": 0.3288, + "step": 33930 + }, + { + "epoch": 90.50666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004975483304341009, + "loss": 0.3246, + "step": 33940 + }, + { + "epoch": 90.53333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004975468662646285, + "loss": 0.3196, + "step": 33950 + }, + { + "epoch": 90.56, + "grad_norm": 0.173828125, + "learning_rate": 0.0004975454016602314, + "loss": 0.3171, + "step": 33960 + }, + { + "epoch": 90.58666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004975439366209124, + "loss": 0.3198, + "step": 33970 + }, + { + "epoch": 90.61333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004975424711466741, + "loss": 0.3109, + "step": 33980 + }, + { + "epoch": 90.64, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004975410052375189, + "loss": 0.3134, + "step": 33990 + }, + { + "epoch": 90.66666666666667, + "grad_norm": 0.3125, + "learning_rate": 0.0004975395388934495, + "loss": 0.3289, + "step": 34000 + }, + { + "epoch": 90.69333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004975380721144684, + "loss": 0.3075, + "step": 34010 + }, + { + "epoch": 90.72, + "grad_norm": 0.3203125, + "learning_rate": 0.0004975366049005783, + "loss": 0.3237, + "step": 34020 + }, + { + "epoch": 90.74666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004975351372517817, + "loss": 0.3249, + "step": 34030 + }, + { + "epoch": 90.77333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004975336691680811, + "loss": 0.3367, + "step": 34040 + }, + { + "epoch": 90.8, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004975322006494791, + "loss": 0.3223, + "step": 34050 + }, + { + "epoch": 90.82666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004975307316959785, + "loss": 0.3118, + "step": 34060 + }, + { + "epoch": 90.85333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004975292623075817, + "loss": 0.316, + "step": 34070 + }, + { + "epoch": 90.88, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004975277924842912, + "loss": 0.3145, + "step": 34080 + }, + { + "epoch": 90.90666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004975263222261097, + "loss": 0.3176, + "step": 34090 + }, + { + "epoch": 90.93333333333334, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004975248515330398, + "loss": 0.3175, + "step": 34100 + }, + { + "epoch": 90.96, + "grad_norm": 0.185546875, + "learning_rate": 0.0004975233804050841, + "loss": 0.3175, + "step": 34110 + }, + { + "epoch": 90.98666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.000497521908842245, + "loss": 0.3301, + "step": 34120 + }, + { + "epoch": 91.0, + "eval_loss": 0.4014798402786255, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3776, + "eval_samples_per_second": 1.406, + "eval_steps_per_second": 0.088, + "step": 34125 + }, + { + "epoch": 91.01333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004975204368445253, + "loss": 0.3197, + "step": 34130 + }, + { + "epoch": 91.04, + "grad_norm": 0.2734375, + "learning_rate": 0.0004975189644119274, + "loss": 0.3467, + "step": 34140 + }, + { + "epoch": 91.06666666666666, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004975174915444542, + "loss": 0.3311, + "step": 34150 + }, + { + "epoch": 91.09333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.000497516018242108, + "loss": 0.3278, + "step": 34160 + }, + { + "epoch": 91.12, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004975145445048913, + "loss": 0.3236, + "step": 34170 + }, + { + "epoch": 91.14666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.000497513070332807, + "loss": 0.3257, + "step": 34180 + }, + { + "epoch": 91.17333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004975115957258575, + "loss": 0.3251, + "step": 34190 + }, + { + "epoch": 91.2, + "grad_norm": 0.265625, + "learning_rate": 0.0004975101206840455, + "loss": 0.318, + "step": 34200 + }, + { + "epoch": 91.22666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004975086452073734, + "loss": 0.3128, + "step": 34210 + }, + { + "epoch": 91.25333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004975071692958441, + "loss": 0.3117, + "step": 34220 + }, + { + "epoch": 91.28, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004975056929494599, + "loss": 0.3311, + "step": 34230 + }, + { + "epoch": 91.30666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004975042161682235, + "loss": 0.3123, + "step": 34240 + }, + { + "epoch": 91.33333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004975027389521376, + "loss": 0.3272, + "step": 34250 + }, + { + "epoch": 91.36, + "grad_norm": 0.185546875, + "learning_rate": 0.0004975012613012047, + "loss": 0.3181, + "step": 34260 + }, + { + "epoch": 91.38666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0004974997832154272, + "loss": 0.3157, + "step": 34270 + }, + { + "epoch": 91.41333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004974983046948081, + "loss": 0.3216, + "step": 34280 + }, + { + "epoch": 91.44, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004974968257393497, + "loss": 0.3285, + "step": 34290 + }, + { + "epoch": 91.46666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004974953463490546, + "loss": 0.3323, + "step": 34300 + }, + { + "epoch": 91.49333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004974938665239256, + "loss": 0.3217, + "step": 34310 + }, + { + "epoch": 91.52, + "grad_norm": 0.193359375, + "learning_rate": 0.0004974923862639652, + "loss": 0.3255, + "step": 34320 + }, + { + "epoch": 91.54666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.000497490905569176, + "loss": 0.316, + "step": 34330 + }, + { + "epoch": 91.57333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004974894244395605, + "loss": 0.3192, + "step": 34340 + }, + { + "epoch": 91.6, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004974879428751214, + "loss": 0.315, + "step": 34350 + }, + { + "epoch": 91.62666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004974864608758613, + "loss": 0.3108, + "step": 34360 + }, + { + "epoch": 91.65333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004974849784417829, + "loss": 0.324, + "step": 34370 + }, + { + "epoch": 91.68, + "grad_norm": 0.18359375, + "learning_rate": 0.0004974834955728887, + "loss": 0.3124, + "step": 34380 + }, + { + "epoch": 91.70666666666666, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004974820122691812, + "loss": 0.3138, + "step": 34390 + }, + { + "epoch": 91.73333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.000497480528530663, + "loss": 0.3296, + "step": 34400 + }, + { + "epoch": 91.76, + "grad_norm": 0.2294921875, + "learning_rate": 0.000497479044357337, + "loss": 0.331, + "step": 34410 + }, + { + "epoch": 91.78666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004974775597492056, + "loss": 0.3317, + "step": 34420 + }, + { + "epoch": 91.81333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0004974760747062715, + "loss": 0.3141, + "step": 34430 + }, + { + "epoch": 91.84, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004974745892285372, + "loss": 0.314, + "step": 34440 + }, + { + "epoch": 91.86666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004974731033160053, + "loss": 0.315, + "step": 34450 + }, + { + "epoch": 91.89333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004974716169686785, + "loss": 0.3149, + "step": 34460 + }, + { + "epoch": 91.92, + "grad_norm": 0.189453125, + "learning_rate": 0.0004974701301865593, + "loss": 0.3176, + "step": 34470 + }, + { + "epoch": 91.94666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004974686429696505, + "loss": 0.3181, + "step": 34480 + }, + { + "epoch": 91.97333333333333, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004974671553179546, + "loss": 0.3263, + "step": 34490 + }, + { + "epoch": 92.0, + "grad_norm": 0.17578125, + "learning_rate": 0.0004974656672314742, + "loss": 0.3147, + "step": 34500 + }, + { + "epoch": 92.0, + "eval_loss": 0.4021482467651367, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.26, + "eval_samples_per_second": 1.207, + "eval_steps_per_second": 0.075, + "step": 34500 + }, + { + "epoch": 92.02666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004974641787102119, + "loss": 0.3374, + "step": 34510 + }, + { + "epoch": 92.05333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004974626897541703, + "loss": 0.3432, + "step": 34520 + }, + { + "epoch": 92.08, + "grad_norm": 0.208984375, + "learning_rate": 0.0004974612003633521, + "loss": 0.3278, + "step": 34530 + }, + { + "epoch": 92.10666666666667, + "grad_norm": 0.23828125, + "learning_rate": 0.0004974597105377599, + "loss": 0.3289, + "step": 34540 + }, + { + "epoch": 92.13333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004974582202773964, + "loss": 0.3208, + "step": 34550 + }, + { + "epoch": 92.16, + "grad_norm": 0.181640625, + "learning_rate": 0.0004974567295822639, + "loss": 0.3279, + "step": 34560 + }, + { + "epoch": 92.18666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004974552384523654, + "loss": 0.3219, + "step": 34570 + }, + { + "epoch": 92.21333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004974537468877033, + "loss": 0.3109, + "step": 34580 + }, + { + "epoch": 92.24, + "grad_norm": 0.197265625, + "learning_rate": 0.0004974522548882803, + "loss": 0.3153, + "step": 34590 + }, + { + "epoch": 92.26666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.000497450762454099, + "loss": 0.3211, + "step": 34600 + }, + { + "epoch": 92.29333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.000497449269585162, + "loss": 0.3168, + "step": 34610 + }, + { + "epoch": 92.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004974477762814719, + "loss": 0.3241, + "step": 34620 + }, + { + "epoch": 92.34666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004974462825430314, + "loss": 0.3234, + "step": 34630 + }, + { + "epoch": 92.37333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.000497444788369843, + "loss": 0.3158, + "step": 34640 + }, + { + "epoch": 92.4, + "grad_norm": 0.234375, + "learning_rate": 0.0004974432937619095, + "loss": 0.3174, + "step": 34650 + }, + { + "epoch": 92.42666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004974417987192335, + "loss": 0.3234, + "step": 34660 + }, + { + "epoch": 92.45333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004974403032418174, + "loss": 0.3322, + "step": 34670 + }, + { + "epoch": 92.48, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004974388073296642, + "loss": 0.3279, + "step": 34680 + }, + { + "epoch": 92.50666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004974373109827762, + "loss": 0.3246, + "step": 34690 + }, + { + "epoch": 92.53333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004974358142011561, + "loss": 0.3195, + "step": 34700 + }, + { + "epoch": 92.56, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004974343169848067, + "loss": 0.3165, + "step": 34710 + }, + { + "epoch": 92.58666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004974328193337304, + "loss": 0.3183, + "step": 34720 + }, + { + "epoch": 92.61333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.00049743132124793, + "loss": 0.3101, + "step": 34730 + }, + { + "epoch": 92.64, + "grad_norm": 0.197265625, + "learning_rate": 0.0004974298227274081, + "loss": 0.3129, + "step": 34740 + }, + { + "epoch": 92.66666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004974283237721673, + "loss": 0.328, + "step": 34750 + }, + { + "epoch": 92.69333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004974268243822102, + "loss": 0.308, + "step": 34760 + }, + { + "epoch": 92.72, + "grad_norm": 0.24609375, + "learning_rate": 0.0004974253245575395, + "loss": 0.3233, + "step": 34770 + }, + { + "epoch": 92.74666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0004974238242981578, + "loss": 0.3247, + "step": 34780 + }, + { + "epoch": 92.77333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004974223236040677, + "loss": 0.3357, + "step": 34790 + }, + { + "epoch": 92.8, + "grad_norm": 0.19921875, + "learning_rate": 0.000497420822475272, + "loss": 0.3224, + "step": 34800 + }, + { + "epoch": 92.82666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004974193209117731, + "loss": 0.3109, + "step": 34810 + }, + { + "epoch": 92.85333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004974178189135739, + "loss": 0.3152, + "step": 34820 + }, + { + "epoch": 92.88, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004974163164806767, + "loss": 0.3142, + "step": 34830 + }, + { + "epoch": 92.90666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004974148136130845, + "loss": 0.3167, + "step": 34840 + }, + { + "epoch": 92.93333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004974133103107998, + "loss": 0.3176, + "step": 34850 + }, + { + "epoch": 92.96, + "grad_norm": 0.162109375, + "learning_rate": 0.0004974118065738251, + "loss": 0.3171, + "step": 34860 + }, + { + "epoch": 92.98666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004974103024021631, + "loss": 0.3297, + "step": 34870 + }, + { + "epoch": 93.0, + "eval_loss": 0.40197426080703735, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5105, + "eval_samples_per_second": 1.279, + "eval_steps_per_second": 0.08, + "step": 34875 + }, + { + "epoch": 93.01333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004974087977958167, + "loss": 0.319, + "step": 34880 + }, + { + "epoch": 93.04, + "grad_norm": 0.259765625, + "learning_rate": 0.0004974072927547882, + "loss": 0.346, + "step": 34890 + }, + { + "epoch": 93.06666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004974057872790805, + "loss": 0.3302, + "step": 34900 + }, + { + "epoch": 93.09333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.000497404281368696, + "loss": 0.3278, + "step": 34910 + }, + { + "epoch": 93.12, + "grad_norm": 0.2109375, + "learning_rate": 0.0004974027750236376, + "loss": 0.3241, + "step": 34920 + }, + { + "epoch": 93.14666666666666, + "grad_norm": 0.34375, + "learning_rate": 0.0004974012682439078, + "loss": 0.3251, + "step": 34930 + }, + { + "epoch": 93.17333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004973997610295092, + "loss": 0.325, + "step": 34940 + }, + { + "epoch": 93.2, + "grad_norm": 0.17578125, + "learning_rate": 0.0004973982533804447, + "loss": 0.3173, + "step": 34950 + }, + { + "epoch": 93.22666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004973967452967166, + "loss": 0.312, + "step": 34960 + }, + { + "epoch": 93.25333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004973952367783277, + "loss": 0.3115, + "step": 34970 + }, + { + "epoch": 93.28, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004973937278252808, + "loss": 0.3302, + "step": 34980 + }, + { + "epoch": 93.30666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004973922184375784, + "loss": 0.3119, + "step": 34990 + }, + { + "epoch": 93.33333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004973907086152231, + "loss": 0.3267, + "step": 35000 + }, + { + "epoch": 93.36, + "grad_norm": 0.24609375, + "learning_rate": 0.0004973891983582178, + "loss": 0.3178, + "step": 35010 + }, + { + "epoch": 93.38666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.0004973876876665648, + "loss": 0.3152, + "step": 35020 + }, + { + "epoch": 93.41333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.000497386176540267, + "loss": 0.3207, + "step": 35030 + }, + { + "epoch": 93.44, + "grad_norm": 0.27734375, + "learning_rate": 0.000497384664979327, + "loss": 0.3276, + "step": 35040 + }, + { + "epoch": 93.46666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004973831529837475, + "loss": 0.3319, + "step": 35050 + }, + { + "epoch": 93.49333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.000497381640553531, + "loss": 0.3215, + "step": 35060 + }, + { + "epoch": 93.52, + "grad_norm": 0.181640625, + "learning_rate": 0.0004973801276886803, + "loss": 0.3249, + "step": 35070 + }, + { + "epoch": 93.54666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.000497378614389198, + "loss": 0.316, + "step": 35080 + }, + { + "epoch": 93.57333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004973771006550868, + "loss": 0.3186, + "step": 35090 + }, + { + "epoch": 93.6, + "grad_norm": 0.228515625, + "learning_rate": 0.0004973755864863494, + "loss": 0.314, + "step": 35100 + }, + { + "epoch": 93.62666666666667, + "grad_norm": 0.330078125, + "learning_rate": 0.0004973740718829882, + "loss": 0.3105, + "step": 35110 + }, + { + "epoch": 93.65333333333334, + "grad_norm": 0.287109375, + "learning_rate": 0.0004973725568450062, + "loss": 0.3241, + "step": 35120 + }, + { + "epoch": 93.68, + "grad_norm": 0.2392578125, + "learning_rate": 0.000497371041372406, + "loss": 0.3118, + "step": 35130 + }, + { + "epoch": 93.70666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004973695254651901, + "loss": 0.3132, + "step": 35140 + }, + { + "epoch": 93.73333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0004973680091233612, + "loss": 0.3296, + "step": 35150 + }, + { + "epoch": 93.76, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004973664923469221, + "loss": 0.3304, + "step": 35160 + }, + { + "epoch": 93.78666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004973649751358753, + "loss": 0.3313, + "step": 35170 + }, + { + "epoch": 93.81333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004973634574902236, + "loss": 0.3136, + "step": 35180 + }, + { + "epoch": 93.84, + "grad_norm": 0.208984375, + "learning_rate": 0.0004973619394099695, + "loss": 0.3131, + "step": 35190 + }, + { + "epoch": 93.86666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004973604208951158, + "loss": 0.3146, + "step": 35200 + }, + { + "epoch": 93.89333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004973589019456652, + "loss": 0.3148, + "step": 35210 + }, + { + "epoch": 93.92, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004973573825616203, + "loss": 0.3165, + "step": 35220 + }, + { + "epoch": 93.94666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004973558627429838, + "loss": 0.3177, + "step": 35230 + }, + { + "epoch": 93.97333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004973543424897583, + "loss": 0.3254, + "step": 35240 + }, + { + "epoch": 94.0, + "grad_norm": 0.173828125, + "learning_rate": 0.0004973528218019466, + "loss": 0.3141, + "step": 35250 + }, + { + "epoch": 94.0, + "eval_loss": 0.4029242694377899, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1078, + "eval_samples_per_second": 1.44, + "eval_steps_per_second": 0.09, + "step": 35250 + }, + { + "epoch": 94.02666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004973513006795513, + "loss": 0.3361, + "step": 35260 + }, + { + "epoch": 94.05333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.000497349779122575, + "loss": 0.3424, + "step": 35270 + }, + { + "epoch": 94.08, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004973482571310204, + "loss": 0.3268, + "step": 35280 + }, + { + "epoch": 94.10666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004973467347048902, + "loss": 0.3283, + "step": 35290 + }, + { + "epoch": 94.13333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004973452118441872, + "loss": 0.3202, + "step": 35300 + }, + { + "epoch": 94.16, + "grad_norm": 0.173828125, + "learning_rate": 0.0004973436885489139, + "loss": 0.3265, + "step": 35310 + }, + { + "epoch": 94.18666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.000497342164819073, + "loss": 0.3214, + "step": 35320 + }, + { + "epoch": 94.21333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004973406406546673, + "loss": 0.3104, + "step": 35330 + }, + { + "epoch": 94.24, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004973391160556994, + "loss": 0.3151, + "step": 35340 + }, + { + "epoch": 94.26666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004973375910221719, + "loss": 0.3208, + "step": 35350 + }, + { + "epoch": 94.29333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004973360655540876, + "loss": 0.3163, + "step": 35360 + }, + { + "epoch": 94.32, + "grad_norm": 0.17578125, + "learning_rate": 0.0004973345396514492, + "loss": 0.3233, + "step": 35370 + }, + { + "epoch": 94.34666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004973330133142592, + "loss": 0.3232, + "step": 35380 + }, + { + "epoch": 94.37333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004973314865425204, + "loss": 0.315, + "step": 35390 + }, + { + "epoch": 94.4, + "grad_norm": 0.255859375, + "learning_rate": 0.0004973299593362355, + "loss": 0.3169, + "step": 35400 + }, + { + "epoch": 94.42666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004973284316954072, + "loss": 0.323, + "step": 35410 + }, + { + "epoch": 94.45333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.000497326903620038, + "loss": 0.3313, + "step": 35420 + }, + { + "epoch": 94.48, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004973253751101308, + "loss": 0.3271, + "step": 35430 + }, + { + "epoch": 94.50666666666666, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004973238461656883, + "loss": 0.3235, + "step": 35440 + }, + { + "epoch": 94.53333333333333, + "grad_norm": 0.1572265625, + "learning_rate": 0.0004973223167867131, + "loss": 0.3189, + "step": 35450 + }, + { + "epoch": 94.56, + "grad_norm": 0.185546875, + "learning_rate": 0.0004973207869732078, + "loss": 0.3157, + "step": 35460 + }, + { + "epoch": 94.58666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004973192567251753, + "loss": 0.3183, + "step": 35470 + }, + { + "epoch": 94.61333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.000497317726042618, + "loss": 0.3097, + "step": 35480 + }, + { + "epoch": 94.64, + "grad_norm": 0.212890625, + "learning_rate": 0.000497316194925539, + "loss": 0.3119, + "step": 35490 + }, + { + "epoch": 94.66666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004973146633739405, + "loss": 0.3273, + "step": 35500 + }, + { + "epoch": 94.69333333333333, + "grad_norm": 0.28515625, + "learning_rate": 0.0004973131313878255, + "loss": 0.3065, + "step": 35510 + }, + { + "epoch": 94.72, + "grad_norm": 0.19921875, + "learning_rate": 0.0004973115989671967, + "loss": 0.3223, + "step": 35520 + }, + { + "epoch": 94.74666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004973100661120566, + "loss": 0.3241, + "step": 35530 + }, + { + "epoch": 94.77333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004973085328224082, + "loss": 0.3356, + "step": 35540 + }, + { + "epoch": 94.8, + "grad_norm": 0.19140625, + "learning_rate": 0.0004973069990982539, + "loss": 0.322, + "step": 35550 + }, + { + "epoch": 94.82666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004973054649395963, + "loss": 0.3104, + "step": 35560 + }, + { + "epoch": 94.85333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0004973039303464386, + "loss": 0.3147, + "step": 35570 + }, + { + "epoch": 94.88, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004973023953187831, + "loss": 0.3139, + "step": 35580 + }, + { + "epoch": 94.90666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0004973008598566325, + "loss": 0.3162, + "step": 35590 + }, + { + "epoch": 94.93333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0004972993239599897, + "loss": 0.3164, + "step": 35600 + }, + { + "epoch": 94.96, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004972977876288572, + "loss": 0.3164, + "step": 35610 + }, + { + "epoch": 94.98666666666666, + "grad_norm": 0.345703125, + "learning_rate": 0.0004972962508632378, + "loss": 0.3297, + "step": 35620 + }, + { + "epoch": 95.0, + "eval_loss": 0.4011842608451843, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5909, + "eval_samples_per_second": 1.511, + "eval_steps_per_second": 0.094, + "step": 35625 + }, + { + "epoch": 95.01333333333334, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004972947136631342, + "loss": 0.3192, + "step": 35630 + }, + { + "epoch": 95.04, + "grad_norm": 0.185546875, + "learning_rate": 0.0004972931760285492, + "loss": 0.3451, + "step": 35640 + }, + { + "epoch": 95.06666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004972916379594852, + "loss": 0.3296, + "step": 35650 + }, + { + "epoch": 95.09333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004972900994559452, + "loss": 0.327, + "step": 35660 + }, + { + "epoch": 95.12, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004972885605179317, + "loss": 0.3236, + "step": 35670 + }, + { + "epoch": 95.14666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004972870211454476, + "loss": 0.3245, + "step": 35680 + }, + { + "epoch": 95.17333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004972854813384954, + "loss": 0.3243, + "step": 35690 + }, + { + "epoch": 95.2, + "grad_norm": 0.330078125, + "learning_rate": 0.0004972839410970779, + "loss": 0.3167, + "step": 35700 + }, + { + "epoch": 95.22666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.000497282400421198, + "loss": 0.3113, + "step": 35710 + }, + { + "epoch": 95.25333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.000497280859310858, + "loss": 0.3112, + "step": 35720 + }, + { + "epoch": 95.28, + "grad_norm": 0.2216796875, + "learning_rate": 0.000497279317766061, + "loss": 0.3295, + "step": 35730 + }, + { + "epoch": 95.30666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004972777757868094, + "loss": 0.3113, + "step": 35740 + }, + { + "epoch": 95.33333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004972762333731062, + "loss": 0.3261, + "step": 35750 + }, + { + "epoch": 95.36, + "grad_norm": 0.2578125, + "learning_rate": 0.0004972746905249538, + "loss": 0.3166, + "step": 35760 + }, + { + "epoch": 95.38666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004972731472423551, + "loss": 0.314, + "step": 35770 + }, + { + "epoch": 95.41333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004972716035253128, + "loss": 0.3204, + "step": 35780 + }, + { + "epoch": 95.44, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004972700593738296, + "loss": 0.3275, + "step": 35790 + }, + { + "epoch": 95.46666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004972685147879082, + "loss": 0.3312, + "step": 35800 + }, + { + "epoch": 95.49333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004972669697675512, + "loss": 0.3206, + "step": 35810 + }, + { + "epoch": 95.52, + "grad_norm": 0.224609375, + "learning_rate": 0.0004972654243127616, + "loss": 0.3239, + "step": 35820 + }, + { + "epoch": 95.54666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.000497263878423542, + "loss": 0.3153, + "step": 35830 + }, + { + "epoch": 95.57333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004972623320998948, + "loss": 0.3183, + "step": 35840 + }, + { + "epoch": 95.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004972607853418232, + "loss": 0.3139, + "step": 35850 + }, + { + "epoch": 95.62666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004972592381493296, + "loss": 0.3092, + "step": 35860 + }, + { + "epoch": 95.65333333333334, + "grad_norm": 0.30078125, + "learning_rate": 0.0004972576905224168, + "loss": 0.3229, + "step": 35870 + }, + { + "epoch": 95.68, + "grad_norm": 0.181640625, + "learning_rate": 0.0004972561424610875, + "loss": 0.3114, + "step": 35880 + }, + { + "epoch": 95.70666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004972545939653446, + "loss": 0.3125, + "step": 35890 + }, + { + "epoch": 95.73333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004972530450351905, + "loss": 0.3281, + "step": 35900 + }, + { + "epoch": 95.76, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004972514956706282, + "loss": 0.3295, + "step": 35910 + }, + { + "epoch": 95.78666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004972499458716602, + "loss": 0.3304, + "step": 35920 + }, + { + "epoch": 95.81333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004972483956382895, + "loss": 0.3131, + "step": 35930 + }, + { + "epoch": 95.84, + "grad_norm": 0.19140625, + "learning_rate": 0.0004972468449705186, + "loss": 0.3124, + "step": 35940 + }, + { + "epoch": 95.86666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004972452938683503, + "loss": 0.3141, + "step": 35950 + }, + { + "epoch": 95.89333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004972437423317874, + "loss": 0.3143, + "step": 35960 + }, + { + "epoch": 95.92, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004972421903608323, + "loss": 0.316, + "step": 35970 + }, + { + "epoch": 95.94666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004972406379554882, + "loss": 0.3178, + "step": 35980 + }, + { + "epoch": 95.97333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004972390851157574, + "loss": 0.3252, + "step": 35990 + }, + { + "epoch": 96.0, + "grad_norm": 0.181640625, + "learning_rate": 0.000497237531841643, + "loss": 0.3136, + "step": 36000 + }, + { + "epoch": 96.0, + "eval_loss": 0.4026261568069458, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.8806, + "eval_samples_per_second": 1.242, + "eval_steps_per_second": 0.078, + "step": 36000 + }, + { + "epoch": 96.02666666666667, + "grad_norm": 0.283203125, + "learning_rate": 0.0004972359781331475, + "loss": 0.336, + "step": 36010 + }, + { + "epoch": 96.05333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004972344239902736, + "loss": 0.3417, + "step": 36020 + }, + { + "epoch": 96.08, + "grad_norm": 0.337890625, + "learning_rate": 0.0004972328694130241, + "loss": 0.3263, + "step": 36030 + }, + { + "epoch": 96.10666666666667, + "grad_norm": 0.359375, + "learning_rate": 0.0004972313144014018, + "loss": 0.327, + "step": 36040 + }, + { + "epoch": 96.13333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004972297589554094, + "loss": 0.3192, + "step": 36050 + }, + { + "epoch": 96.16, + "grad_norm": 0.19921875, + "learning_rate": 0.0004972282030750496, + "loss": 0.3263, + "step": 36060 + }, + { + "epoch": 96.18666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004972266467603251, + "loss": 0.3218, + "step": 36070 + }, + { + "epoch": 96.21333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004972250900112387, + "loss": 0.31, + "step": 36080 + }, + { + "epoch": 96.24, + "grad_norm": 0.181640625, + "learning_rate": 0.0004972235328277932, + "loss": 0.3145, + "step": 36090 + }, + { + "epoch": 96.26666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.000497221975209991, + "loss": 0.3204, + "step": 36100 + }, + { + "epoch": 96.29333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004972204171578353, + "loss": 0.3158, + "step": 36110 + }, + { + "epoch": 96.32, + "grad_norm": 0.1875, + "learning_rate": 0.0004972188586713285, + "loss": 0.3229, + "step": 36120 + }, + { + "epoch": 96.34666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004972172997504736, + "loss": 0.322, + "step": 36130 + }, + { + "epoch": 96.37333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.000497215740395273, + "loss": 0.3142, + "step": 36140 + }, + { + "epoch": 96.4, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004972141806057299, + "loss": 0.3159, + "step": 36150 + }, + { + "epoch": 96.42666666666666, + "grad_norm": 0.17578125, + "learning_rate": 0.0004972126203818466, + "loss": 0.3224, + "step": 36160 + }, + { + "epoch": 96.45333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.000497211059723626, + "loss": 0.3308, + "step": 36170 + }, + { + "epoch": 96.48, + "grad_norm": 0.259765625, + "learning_rate": 0.0004972094986310709, + "loss": 0.3267, + "step": 36180 + }, + { + "epoch": 96.50666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.000497207937104184, + "loss": 0.3235, + "step": 36190 + }, + { + "epoch": 96.53333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.000497206375142968, + "loss": 0.3181, + "step": 36200 + }, + { + "epoch": 96.56, + "grad_norm": 0.21875, + "learning_rate": 0.0004972048127474258, + "loss": 0.3151, + "step": 36210 + }, + { + "epoch": 96.58666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004972032499175599, + "loss": 0.3175, + "step": 36220 + }, + { + "epoch": 96.61333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004972016866533734, + "loss": 0.3093, + "step": 36230 + }, + { + "epoch": 96.64, + "grad_norm": 0.189453125, + "learning_rate": 0.0004972001229548687, + "loss": 0.3116, + "step": 36240 + }, + { + "epoch": 96.66666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004971985588220487, + "loss": 0.3269, + "step": 36250 + }, + { + "epoch": 96.69333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.000497196994254916, + "loss": 0.306, + "step": 36260 + }, + { + "epoch": 96.72, + "grad_norm": 0.25, + "learning_rate": 0.0004971954292534736, + "loss": 0.3222, + "step": 36270 + }, + { + "epoch": 96.74666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.000497193863817724, + "loss": 0.3237, + "step": 36280 + }, + { + "epoch": 96.77333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004971922979476701, + "loss": 0.3346, + "step": 36290 + }, + { + "epoch": 96.8, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004971907316433147, + "loss": 0.3212, + "step": 36300 + }, + { + "epoch": 96.82666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004971891649046606, + "loss": 0.3099, + "step": 36310 + }, + { + "epoch": 96.85333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004971875977317102, + "loss": 0.3141, + "step": 36320 + }, + { + "epoch": 96.88, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004971860301244667, + "loss": 0.3132, + "step": 36330 + }, + { + "epoch": 96.90666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004971844620829324, + "loss": 0.3161, + "step": 36340 + }, + { + "epoch": 96.93333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004971828936071104, + "loss": 0.3161, + "step": 36350 + }, + { + "epoch": 96.96, + "grad_norm": 0.177734375, + "learning_rate": 0.0004971813246970033, + "loss": 0.3157, + "step": 36360 + }, + { + "epoch": 96.98666666666666, + "grad_norm": 0.27734375, + "learning_rate": 0.0004971797553526139, + "loss": 0.3282, + "step": 36370 + }, + { + "epoch": 97.0, + "eval_loss": 0.40192320942878723, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.548, + "eval_samples_per_second": 1.386, + "eval_steps_per_second": 0.087, + "step": 36375 + }, + { + "epoch": 97.01333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.000497178185573945, + "loss": 0.3184, + "step": 36380 + }, + { + "epoch": 97.04, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004971766153609994, + "loss": 0.345, + "step": 36390 + }, + { + "epoch": 97.06666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004971750447137796, + "loss": 0.3291, + "step": 36400 + }, + { + "epoch": 97.09333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004971734736322887, + "loss": 0.3269, + "step": 36410 + }, + { + "epoch": 97.12, + "grad_norm": 0.2265625, + "learning_rate": 0.0004971719021165292, + "loss": 0.3222, + "step": 36420 + }, + { + "epoch": 97.14666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.0004971703301665041, + "loss": 0.3231, + "step": 36430 + }, + { + "epoch": 97.17333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004971687577822159, + "loss": 0.3234, + "step": 36440 + }, + { + "epoch": 97.2, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004971671849636674, + "loss": 0.3167, + "step": 36450 + }, + { + "epoch": 97.22666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004971656117108615, + "loss": 0.311, + "step": 36460 + }, + { + "epoch": 97.25333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004971640380238009, + "loss": 0.3113, + "step": 36470 + }, + { + "epoch": 97.28, + "grad_norm": 0.263671875, + "learning_rate": 0.0004971624639024885, + "loss": 0.3292, + "step": 36480 + }, + { + "epoch": 97.30666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004971608893469268, + "loss": 0.3109, + "step": 36490 + }, + { + "epoch": 97.33333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004971593143571188, + "loss": 0.325, + "step": 36500 + }, + { + "epoch": 97.36, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004971577389330671, + "loss": 0.3171, + "step": 36510 + }, + { + "epoch": 97.38666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004971561630747746, + "loss": 0.3144, + "step": 36520 + }, + { + "epoch": 97.41333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.000497154586782244, + "loss": 0.3199, + "step": 36530 + }, + { + "epoch": 97.44, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004971530100554781, + "loss": 0.3265, + "step": 36540 + }, + { + "epoch": 97.46666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004971514328944796, + "loss": 0.3315, + "step": 36550 + }, + { + "epoch": 97.49333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004971498552992514, + "loss": 0.3205, + "step": 36560 + }, + { + "epoch": 97.52, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004971482772697961, + "loss": 0.3243, + "step": 36570 + }, + { + "epoch": 97.54666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004971466988061166, + "loss": 0.3148, + "step": 36580 + }, + { + "epoch": 97.57333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004971451199082156, + "loss": 0.3173, + "step": 36590 + }, + { + "epoch": 97.6, + "grad_norm": 0.1884765625, + "learning_rate": 0.000497143540576096, + "loss": 0.3134, + "step": 36600 + }, + { + "epoch": 97.62666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004971419608097604, + "loss": 0.3093, + "step": 36610 + }, + { + "epoch": 97.65333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004971403806092117, + "loss": 0.3226, + "step": 36620 + }, + { + "epoch": 97.68, + "grad_norm": 0.1875, + "learning_rate": 0.0004971387999744526, + "loss": 0.3106, + "step": 36630 + }, + { + "epoch": 97.70666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.000497137218905486, + "loss": 0.3116, + "step": 36640 + }, + { + "epoch": 97.73333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0004971356374023145, + "loss": 0.3275, + "step": 36650 + }, + { + "epoch": 97.76, + "grad_norm": 0.275390625, + "learning_rate": 0.0004971340554649411, + "loss": 0.3293, + "step": 36660 + }, + { + "epoch": 97.78666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004971324730933683, + "loss": 0.3299, + "step": 36670 + }, + { + "epoch": 97.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004971308902875991, + "loss": 0.312, + "step": 36680 + }, + { + "epoch": 97.84, + "grad_norm": 0.212890625, + "learning_rate": 0.0004971293070476362, + "loss": 0.3119, + "step": 36690 + }, + { + "epoch": 97.86666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004971277233734824, + "loss": 0.3135, + "step": 36700 + }, + { + "epoch": 97.89333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004971261392651405, + "loss": 0.3131, + "step": 36710 + }, + { + "epoch": 97.92, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004971245547226133, + "loss": 0.3156, + "step": 36720 + }, + { + "epoch": 97.94666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004971229697459035, + "loss": 0.3164, + "step": 36730 + }, + { + "epoch": 97.97333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004971213843350139, + "loss": 0.3243, + "step": 36740 + }, + { + "epoch": 98.0, + "grad_norm": 0.189453125, + "learning_rate": 0.0004971197984899474, + "loss": 0.3131, + "step": 36750 + }, + { + "epoch": 98.0, + "eval_loss": 0.40003642439842224, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7399, + "eval_samples_per_second": 1.49, + "eval_steps_per_second": 0.093, + "step": 36750 + }, + { + "epoch": 98.02666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004971182122107065, + "loss": 0.3351, + "step": 36760 + }, + { + "epoch": 98.05333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004971166254972944, + "loss": 0.3416, + "step": 36770 + }, + { + "epoch": 98.08, + "grad_norm": 0.197265625, + "learning_rate": 0.0004971150383497136, + "loss": 0.3256, + "step": 36780 + }, + { + "epoch": 98.10666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.000497113450767967, + "loss": 0.3268, + "step": 36790 + }, + { + "epoch": 98.13333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004971118627520574, + "loss": 0.319, + "step": 36800 + }, + { + "epoch": 98.16, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004971102743019873, + "loss": 0.3261, + "step": 36810 + }, + { + "epoch": 98.18666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.00049710868541776, + "loss": 0.32, + "step": 36820 + }, + { + "epoch": 98.21333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004971070960993779, + "loss": 0.3094, + "step": 36830 + }, + { + "epoch": 98.24, + "grad_norm": 0.232421875, + "learning_rate": 0.000497105506346844, + "loss": 0.3144, + "step": 36840 + }, + { + "epoch": 98.26666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004971039161601608, + "loss": 0.32, + "step": 36850 + }, + { + "epoch": 98.29333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004971023255393315, + "loss": 0.3148, + "step": 36860 + }, + { + "epoch": 98.32, + "grad_norm": 0.24609375, + "learning_rate": 0.0004971007344843586, + "loss": 0.322, + "step": 36870 + }, + { + "epoch": 98.34666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004970991429952451, + "loss": 0.3214, + "step": 36880 + }, + { + "epoch": 98.37333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004970975510719936, + "loss": 0.3138, + "step": 36890 + }, + { + "epoch": 98.4, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004970959587146071, + "loss": 0.3156, + "step": 36900 + }, + { + "epoch": 98.42666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004970943659230882, + "loss": 0.3223, + "step": 36910 + }, + { + "epoch": 98.45333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004970927726974398, + "loss": 0.3302, + "step": 36920 + }, + { + "epoch": 98.48, + "grad_norm": 0.203125, + "learning_rate": 0.0004970911790376646, + "loss": 0.3265, + "step": 36930 + }, + { + "epoch": 98.50666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004970895849437657, + "loss": 0.3228, + "step": 36940 + }, + { + "epoch": 98.53333333333333, + "grad_norm": 0.162109375, + "learning_rate": 0.0004970879904157455, + "loss": 0.3181, + "step": 36950 + }, + { + "epoch": 98.56, + "grad_norm": 0.17578125, + "learning_rate": 0.000497086395453607, + "loss": 0.3147, + "step": 36960 + }, + { + "epoch": 98.58666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.000497084800057353, + "loss": 0.3175, + "step": 36970 + }, + { + "epoch": 98.61333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004970832042269864, + "loss": 0.3085, + "step": 36980 + }, + { + "epoch": 98.64, + "grad_norm": 0.22265625, + "learning_rate": 0.0004970816079625098, + "loss": 0.3105, + "step": 36990 + }, + { + "epoch": 98.66666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004970800112639261, + "loss": 0.3268, + "step": 37000 + }, + { + "epoch": 98.69333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004970784141312381, + "loss": 0.3055, + "step": 37010 + }, + { + "epoch": 98.72, + "grad_norm": 0.216796875, + "learning_rate": 0.0004970768165644486, + "loss": 0.3211, + "step": 37020 + }, + { + "epoch": 98.74666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004970752185635604, + "loss": 0.3226, + "step": 37030 + }, + { + "epoch": 98.77333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004970736201285764, + "loss": 0.3345, + "step": 37040 + }, + { + "epoch": 98.8, + "grad_norm": 0.189453125, + "learning_rate": 0.0004970720212594992, + "loss": 0.3207, + "step": 37050 + }, + { + "epoch": 98.82666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004970704219563319, + "loss": 0.309, + "step": 37060 + }, + { + "epoch": 98.85333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004970688222190771, + "loss": 0.3138, + "step": 37070 + }, + { + "epoch": 98.88, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004970672220477376, + "loss": 0.313, + "step": 37080 + }, + { + "epoch": 98.90666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0004970656214423163, + "loss": 0.3147, + "step": 37090 + }, + { + "epoch": 98.93333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004970640204028161, + "loss": 0.3154, + "step": 37100 + }, + { + "epoch": 98.96, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004970624189292397, + "loss": 0.3153, + "step": 37110 + }, + { + "epoch": 98.98666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004970608170215898, + "loss": 0.3281, + "step": 37120 + }, + { + "epoch": 99.0, + "eval_loss": 0.4015541076660156, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.015, + "eval_samples_per_second": 1.453, + "eval_steps_per_second": 0.091, + "step": 37125 + }, + { + "epoch": 99.01333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0004970592146798693, + "loss": 0.3182, + "step": 37130 + }, + { + "epoch": 99.04, + "grad_norm": 0.373046875, + "learning_rate": 0.0004970576119040811, + "loss": 0.3446, + "step": 37140 + }, + { + "epoch": 99.06666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0004970560086942279, + "loss": 0.3288, + "step": 37150 + }, + { + "epoch": 99.09333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004970544050503127, + "loss": 0.3262, + "step": 37160 + }, + { + "epoch": 99.12, + "grad_norm": 0.1982421875, + "learning_rate": 0.000497052800972338, + "loss": 0.322, + "step": 37170 + }, + { + "epoch": 99.14666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004970511964603071, + "loss": 0.3235, + "step": 37180 + }, + { + "epoch": 99.17333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004970495915142223, + "loss": 0.3227, + "step": 37190 + }, + { + "epoch": 99.2, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004970479861340867, + "loss": 0.3164, + "step": 37200 + }, + { + "epoch": 99.22666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004970463803199031, + "loss": 0.3108, + "step": 37210 + }, + { + "epoch": 99.25333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004970447740716743, + "loss": 0.3106, + "step": 37220 + }, + { + "epoch": 99.28, + "grad_norm": 0.310546875, + "learning_rate": 0.000497043167389403, + "loss": 0.3289, + "step": 37230 + }, + { + "epoch": 99.30666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004970415602730923, + "loss": 0.3104, + "step": 37240 + }, + { + "epoch": 99.33333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004970399527227448, + "loss": 0.3256, + "step": 37250 + }, + { + "epoch": 99.36, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004970383447383634, + "loss": 0.3164, + "step": 37260 + }, + { + "epoch": 99.38666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004970367363199508, + "loss": 0.3138, + "step": 37270 + }, + { + "epoch": 99.41333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.00049703512746751, + "loss": 0.3198, + "step": 37280 + }, + { + "epoch": 99.44, + "grad_norm": 0.181640625, + "learning_rate": 0.0004970335181810438, + "loss": 0.3264, + "step": 37290 + }, + { + "epoch": 99.46666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.000497031908460555, + "loss": 0.331, + "step": 37300 + }, + { + "epoch": 99.49333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004970302983060464, + "loss": 0.3195, + "step": 37310 + }, + { + "epoch": 99.52, + "grad_norm": 0.16796875, + "learning_rate": 0.0004970286877175209, + "loss": 0.3233, + "step": 37320 + }, + { + "epoch": 99.54666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004970270766949811, + "loss": 0.3141, + "step": 37330 + }, + { + "epoch": 99.57333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004970254652384301, + "loss": 0.3171, + "step": 37340 + }, + { + "epoch": 99.6, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004970238533478707, + "loss": 0.3128, + "step": 37350 + }, + { + "epoch": 99.62666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004970222410233057, + "loss": 0.3089, + "step": 37360 + }, + { + "epoch": 99.65333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004970206282647378, + "loss": 0.322, + "step": 37370 + }, + { + "epoch": 99.68, + "grad_norm": 0.201171875, + "learning_rate": 0.00049701901507217, + "loss": 0.311, + "step": 37380 + }, + { + "epoch": 99.70666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004970174014456049, + "loss": 0.3117, + "step": 37390 + }, + { + "epoch": 99.73333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004970157873850457, + "loss": 0.3269, + "step": 37400 + }, + { + "epoch": 99.76, + "grad_norm": 0.1875, + "learning_rate": 0.000497014172890495, + "loss": 0.3288, + "step": 37410 + }, + { + "epoch": 99.78666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004970125579619556, + "loss": 0.3288, + "step": 37420 + }, + { + "epoch": 99.81333333333333, + "grad_norm": 0.318359375, + "learning_rate": 0.0004970109425994306, + "loss": 0.3117, + "step": 37430 + }, + { + "epoch": 99.84, + "grad_norm": 0.193359375, + "learning_rate": 0.0004970093268029225, + "loss": 0.311, + "step": 37440 + }, + { + "epoch": 99.86666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004970077105724343, + "loss": 0.3134, + "step": 37450 + }, + { + "epoch": 99.89333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004970060939079689, + "loss": 0.3129, + "step": 37460 + }, + { + "epoch": 99.92, + "grad_norm": 0.23046875, + "learning_rate": 0.000497004476809529, + "loss": 0.3149, + "step": 37470 + }, + { + "epoch": 99.94666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004970028592771175, + "loss": 0.3165, + "step": 37480 + }, + { + "epoch": 99.97333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004970012413107373, + "loss": 0.3241, + "step": 37490 + }, + { + "epoch": 100.0, + "grad_norm": 0.181640625, + "learning_rate": 0.0004969996229103913, + "loss": 0.3121, + "step": 37500 + }, + { + "epoch": 100.0, + "eval_loss": 0.4001418948173523, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.292, + "eval_samples_per_second": 1.302, + "eval_steps_per_second": 0.081, + "step": 37500 + }, + { + "epoch": 100.02666666666667, + "grad_norm": 0.2890625, + "learning_rate": 0.000496998004076082, + "loss": 0.3354, + "step": 37510 + }, + { + "epoch": 100.05333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004969963848078127, + "loss": 0.3408, + "step": 37520 + }, + { + "epoch": 100.08, + "grad_norm": 0.232421875, + "learning_rate": 0.0004969947651055859, + "loss": 0.3249, + "step": 37530 + }, + { + "epoch": 100.10666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004969931449694047, + "loss": 0.3262, + "step": 37540 + }, + { + "epoch": 100.13333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004969915243992717, + "loss": 0.3183, + "step": 37550 + }, + { + "epoch": 100.16, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004969899033951899, + "loss": 0.3255, + "step": 37560 + }, + { + "epoch": 100.18666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004969882819571621, + "loss": 0.3199, + "step": 37570 + }, + { + "epoch": 100.21333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.0004969866600851913, + "loss": 0.3089, + "step": 37580 + }, + { + "epoch": 100.24, + "grad_norm": 0.212890625, + "learning_rate": 0.0004969850377792802, + "loss": 0.3136, + "step": 37590 + }, + { + "epoch": 100.26666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004969834150394315, + "loss": 0.3194, + "step": 37600 + }, + { + "epoch": 100.29333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004969817918656483, + "loss": 0.3147, + "step": 37610 + }, + { + "epoch": 100.32, + "grad_norm": 0.19140625, + "learning_rate": 0.0004969801682579334, + "loss": 0.3217, + "step": 37620 + }, + { + "epoch": 100.34666666666666, + "grad_norm": 0.2578125, + "learning_rate": 0.0004969785442162897, + "loss": 0.3208, + "step": 37630 + }, + { + "epoch": 100.37333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004969769197407198, + "loss": 0.3136, + "step": 37640 + }, + { + "epoch": 100.4, + "grad_norm": 0.177734375, + "learning_rate": 0.0004969752948312268, + "loss": 0.3146, + "step": 37650 + }, + { + "epoch": 100.42666666666666, + "grad_norm": 0.171875, + "learning_rate": 0.0004969736694878135, + "loss": 0.322, + "step": 37660 + }, + { + "epoch": 100.45333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004969720437104828, + "loss": 0.3302, + "step": 37670 + }, + { + "epoch": 100.48, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004969704174992373, + "loss": 0.3262, + "step": 37680 + }, + { + "epoch": 100.50666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004969687908540802, + "loss": 0.3223, + "step": 37690 + }, + { + "epoch": 100.53333333333333, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004969671637750142, + "loss": 0.3172, + "step": 37700 + }, + { + "epoch": 100.56, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004969655362620422, + "loss": 0.314, + "step": 37710 + }, + { + "epoch": 100.58666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.000496963908315167, + "loss": 0.3168, + "step": 37720 + }, + { + "epoch": 100.61333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004969622799343915, + "loss": 0.3081, + "step": 37730 + }, + { + "epoch": 100.64, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004969606511197185, + "loss": 0.3107, + "step": 37740 + }, + { + "epoch": 100.66666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.000496959021871151, + "loss": 0.3264, + "step": 37750 + }, + { + "epoch": 100.69333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004969573921886917, + "loss": 0.3052, + "step": 37760 + }, + { + "epoch": 100.72, + "grad_norm": 0.234375, + "learning_rate": 0.0004969557620723436, + "loss": 0.3209, + "step": 37770 + }, + { + "epoch": 100.74666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004969541315221095, + "loss": 0.3226, + "step": 37780 + }, + { + "epoch": 100.77333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004969525005379922, + "loss": 0.334, + "step": 37790 + }, + { + "epoch": 100.8, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004969508691199946, + "loss": 0.3209, + "step": 37800 + }, + { + "epoch": 100.82666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004969492372681197, + "loss": 0.3088, + "step": 37810 + }, + { + "epoch": 100.85333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004969476049823703, + "loss": 0.3137, + "step": 37820 + }, + { + "epoch": 100.88, + "grad_norm": 0.244140625, + "learning_rate": 0.0004969459722627491, + "loss": 0.3122, + "step": 37830 + }, + { + "epoch": 100.90666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004969443391092592, + "loss": 0.3147, + "step": 37840 + }, + { + "epoch": 100.93333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004969427055219034, + "loss": 0.3153, + "step": 37850 + }, + { + "epoch": 100.96, + "grad_norm": 0.177734375, + "learning_rate": 0.0004969410715006844, + "loss": 0.3154, + "step": 37860 + }, + { + "epoch": 100.98666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.0004969394370456053, + "loss": 0.3271, + "step": 37870 + }, + { + "epoch": 101.0, + "eval_loss": 0.40342414379119873, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5931, + "eval_samples_per_second": 1.271, + "eval_steps_per_second": 0.079, + "step": 37875 + }, + { + "epoch": 101.01333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004969378021566688, + "loss": 0.317, + "step": 37880 + }, + { + "epoch": 101.04, + "grad_norm": 0.1767578125, + "learning_rate": 0.000496936166833878, + "loss": 0.344, + "step": 37890 + }, + { + "epoch": 101.06666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.0004969345310772356, + "loss": 0.3286, + "step": 37900 + }, + { + "epoch": 101.09333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004969328948867444, + "loss": 0.3258, + "step": 37910 + }, + { + "epoch": 101.12, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004969312582624075, + "loss": 0.3214, + "step": 37920 + }, + { + "epoch": 101.14666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004969296212042276, + "loss": 0.3227, + "step": 37930 + }, + { + "epoch": 101.17333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004969279837122076, + "loss": 0.3218, + "step": 37940 + }, + { + "epoch": 101.2, + "grad_norm": 0.19921875, + "learning_rate": 0.0004969263457863505, + "loss": 0.3154, + "step": 37950 + }, + { + "epoch": 101.22666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.000496924707426659, + "loss": 0.3102, + "step": 37960 + }, + { + "epoch": 101.25333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0004969230686331361, + "loss": 0.3098, + "step": 37970 + }, + { + "epoch": 101.28, + "grad_norm": 0.296875, + "learning_rate": 0.0004969214294057846, + "loss": 0.328, + "step": 37980 + }, + { + "epoch": 101.30666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004969197897446075, + "loss": 0.3098, + "step": 37990 + }, + { + "epoch": 101.33333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004969181496496075, + "loss": 0.3243, + "step": 38000 + }, + { + "epoch": 101.36, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004969165091207877, + "loss": 0.3157, + "step": 38010 + }, + { + "epoch": 101.38666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0004969148681581508, + "loss": 0.3127, + "step": 38020 + }, + { + "epoch": 101.41333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004969132267616998, + "loss": 0.3185, + "step": 38030 + }, + { + "epoch": 101.44, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004969115849314374, + "loss": 0.3259, + "step": 38040 + }, + { + "epoch": 101.46666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004969099426673668, + "loss": 0.3293, + "step": 38050 + }, + { + "epoch": 101.49333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004969082999694907, + "loss": 0.319, + "step": 38060 + }, + { + "epoch": 101.52, + "grad_norm": 0.220703125, + "learning_rate": 0.0004969066568378118, + "loss": 0.323, + "step": 38070 + }, + { + "epoch": 101.54666666666667, + "grad_norm": 0.26953125, + "learning_rate": 0.0004969050132723333, + "loss": 0.3143, + "step": 38080 + }, + { + "epoch": 101.57333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004969033692730579, + "loss": 0.3169, + "step": 38090 + }, + { + "epoch": 101.6, + "grad_norm": 0.1953125, + "learning_rate": 0.0004969017248399886, + "loss": 0.3129, + "step": 38100 + }, + { + "epoch": 101.62666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004969000799731283, + "loss": 0.3079, + "step": 38110 + }, + { + "epoch": 101.65333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004968984346724797, + "loss": 0.3213, + "step": 38120 + }, + { + "epoch": 101.68, + "grad_norm": 0.201171875, + "learning_rate": 0.000496896788938046, + "loss": 0.3097, + "step": 38130 + }, + { + "epoch": 101.70666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004968951427698298, + "loss": 0.3101, + "step": 38140 + }, + { + "epoch": 101.73333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004968934961678341, + "loss": 0.326, + "step": 38150 + }, + { + "epoch": 101.76, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004968918491320618, + "loss": 0.3281, + "step": 38160 + }, + { + "epoch": 101.78666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004968902016625158, + "loss": 0.3289, + "step": 38170 + }, + { + "epoch": 101.81333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0004968885537591991, + "loss": 0.311, + "step": 38180 + }, + { + "epoch": 101.84, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004968869054221143, + "loss": 0.3107, + "step": 38190 + }, + { + "epoch": 101.86666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004968852566512646, + "loss": 0.3124, + "step": 38200 + }, + { + "epoch": 101.89333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004968836074466527, + "loss": 0.3123, + "step": 38210 + }, + { + "epoch": 101.92, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004968819578082817, + "loss": 0.3145, + "step": 38220 + }, + { + "epoch": 101.94666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004968803077361543, + "loss": 0.3159, + "step": 38230 + }, + { + "epoch": 101.97333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004968786572302734, + "loss": 0.324, + "step": 38240 + }, + { + "epoch": 102.0, + "grad_norm": 0.18359375, + "learning_rate": 0.000496877006290642, + "loss": 0.3116, + "step": 38250 + }, + { + "epoch": 102.0, + "eval_loss": 0.40354910492897034, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.205, + "eval_samples_per_second": 1.311, + "eval_steps_per_second": 0.082, + "step": 38250 + }, + { + "epoch": 102.02666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004968753549172631, + "loss": 0.334, + "step": 38260 + }, + { + "epoch": 102.05333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004968737031101393, + "loss": 0.3402, + "step": 38270 + }, + { + "epoch": 102.08, + "grad_norm": 0.193359375, + "learning_rate": 0.0004968720508692738, + "loss": 0.3247, + "step": 38280 + }, + { + "epoch": 102.10666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004968703981946694, + "loss": 0.3258, + "step": 38290 + }, + { + "epoch": 102.13333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004968687450863288, + "loss": 0.3179, + "step": 38300 + }, + { + "epoch": 102.16, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004968670915442553, + "loss": 0.3245, + "step": 38310 + }, + { + "epoch": 102.18666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004968654375684514, + "loss": 0.3196, + "step": 38320 + }, + { + "epoch": 102.21333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004968637831589204, + "loss": 0.3085, + "step": 38330 + }, + { + "epoch": 102.24, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004968621283156648, + "loss": 0.3132, + "step": 38340 + }, + { + "epoch": 102.26666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004968604730386878, + "loss": 0.3191, + "step": 38350 + }, + { + "epoch": 102.29333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004968588173279922, + "loss": 0.3145, + "step": 38360 + }, + { + "epoch": 102.32, + "grad_norm": 0.1591796875, + "learning_rate": 0.000496857161183581, + "loss": 0.3215, + "step": 38370 + }, + { + "epoch": 102.34666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.000496855504605457, + "loss": 0.32, + "step": 38380 + }, + { + "epoch": 102.37333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004968538475936231, + "loss": 0.3132, + "step": 38390 + }, + { + "epoch": 102.4, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004968521901480823, + "loss": 0.3146, + "step": 38400 + }, + { + "epoch": 102.42666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004968505322688375, + "loss": 0.3214, + "step": 38410 + }, + { + "epoch": 102.45333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004968488739558915, + "loss": 0.3294, + "step": 38420 + }, + { + "epoch": 102.48, + "grad_norm": 0.208984375, + "learning_rate": 0.0004968472152092474, + "loss": 0.325, + "step": 38430 + }, + { + "epoch": 102.50666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004968455560289079, + "loss": 0.3215, + "step": 38440 + }, + { + "epoch": 102.53333333333333, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004968438964148761, + "loss": 0.3169, + "step": 38450 + }, + { + "epoch": 102.56, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004968422363671549, + "loss": 0.3139, + "step": 38460 + }, + { + "epoch": 102.58666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004968405758857471, + "loss": 0.3163, + "step": 38470 + }, + { + "epoch": 102.61333333333333, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004968389149706555, + "loss": 0.3078, + "step": 38480 + }, + { + "epoch": 102.64, + "grad_norm": 0.18359375, + "learning_rate": 0.0004968372536218835, + "loss": 0.3101, + "step": 38490 + }, + { + "epoch": 102.66666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004968355918394336, + "loss": 0.3258, + "step": 38500 + }, + { + "epoch": 102.69333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004968339296233088, + "loss": 0.3049, + "step": 38510 + }, + { + "epoch": 102.72, + "grad_norm": 0.24609375, + "learning_rate": 0.000496832266973512, + "loss": 0.3207, + "step": 38520 + }, + { + "epoch": 102.74666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004968306038900463, + "loss": 0.3221, + "step": 38530 + }, + { + "epoch": 102.77333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004968289403729145, + "loss": 0.3333, + "step": 38540 + }, + { + "epoch": 102.8, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004968272764221195, + "loss": 0.3198, + "step": 38550 + }, + { + "epoch": 102.82666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.000496825612037664, + "loss": 0.308, + "step": 38560 + }, + { + "epoch": 102.85333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004968239472195515, + "loss": 0.3122, + "step": 38570 + }, + { + "epoch": 102.88, + "grad_norm": 0.25, + "learning_rate": 0.0004968222819677845, + "loss": 0.3115, + "step": 38580 + }, + { + "epoch": 102.90666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.000496820616282366, + "loss": 0.3139, + "step": 38590 + }, + { + "epoch": 102.93333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.000496818950163299, + "loss": 0.3145, + "step": 38600 + }, + { + "epoch": 102.96, + "grad_norm": 0.189453125, + "learning_rate": 0.0004968172836105862, + "loss": 0.3146, + "step": 38610 + }, + { + "epoch": 102.98666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004968156166242308, + "loss": 0.3266, + "step": 38620 + }, + { + "epoch": 103.0, + "eval_loss": 0.40117982029914856, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.5642, + "eval_samples_per_second": 1.18, + "eval_steps_per_second": 0.074, + "step": 38625 + }, + { + "epoch": 103.01333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.0004968139492042356, + "loss": 0.3168, + "step": 38630 + }, + { + "epoch": 103.04, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004968122813506036, + "loss": 0.3427, + "step": 38640 + }, + { + "epoch": 103.06666666666666, + "grad_norm": 0.2734375, + "learning_rate": 0.0004968106130633377, + "loss": 0.3276, + "step": 38650 + }, + { + "epoch": 103.09333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004968089443424409, + "loss": 0.3247, + "step": 38660 + }, + { + "epoch": 103.12, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004968072751879159, + "loss": 0.3215, + "step": 38670 + }, + { + "epoch": 103.14666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004968056055997659, + "loss": 0.3222, + "step": 38680 + }, + { + "epoch": 103.17333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004968039355779935, + "loss": 0.3216, + "step": 38690 + }, + { + "epoch": 103.2, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004968022651226021, + "loss": 0.3147, + "step": 38700 + }, + { + "epoch": 103.22666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004968005942335942, + "loss": 0.3086, + "step": 38710 + }, + { + "epoch": 103.25333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.000496798922910973, + "loss": 0.3091, + "step": 38720 + }, + { + "epoch": 103.28, + "grad_norm": 0.33984375, + "learning_rate": 0.0004967972511547415, + "loss": 0.3275, + "step": 38730 + }, + { + "epoch": 103.30666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004967955789649023, + "loss": 0.3094, + "step": 38740 + }, + { + "epoch": 103.33333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004967939063414586, + "loss": 0.3237, + "step": 38750 + }, + { + "epoch": 103.36, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004967922332844134, + "loss": 0.315, + "step": 38760 + }, + { + "epoch": 103.38666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004967905597937693, + "loss": 0.3124, + "step": 38770 + }, + { + "epoch": 103.41333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004967888858695296, + "loss": 0.3182, + "step": 38780 + }, + { + "epoch": 103.44, + "grad_norm": 0.1767578125, + "learning_rate": 0.000496787211511697, + "loss": 0.3256, + "step": 38790 + }, + { + "epoch": 103.46666666666667, + "grad_norm": 0.267578125, + "learning_rate": 0.0004967855367202746, + "loss": 0.3294, + "step": 38800 + }, + { + "epoch": 103.49333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0004967838614952653, + "loss": 0.3187, + "step": 38810 + }, + { + "epoch": 103.52, + "grad_norm": 0.2265625, + "learning_rate": 0.000496782185836672, + "loss": 0.3221, + "step": 38820 + }, + { + "epoch": 103.54666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004967805097444976, + "loss": 0.3126, + "step": 38830 + }, + { + "epoch": 103.57333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004967788332187452, + "loss": 0.3161, + "step": 38840 + }, + { + "epoch": 103.6, + "grad_norm": 0.189453125, + "learning_rate": 0.0004967771562594175, + "loss": 0.3125, + "step": 38850 + }, + { + "epoch": 103.62666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004967754788665177, + "loss": 0.3079, + "step": 38860 + }, + { + "epoch": 103.65333333333334, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004967738010400487, + "loss": 0.3207, + "step": 38870 + }, + { + "epoch": 103.68, + "grad_norm": 0.19921875, + "learning_rate": 0.0004967721227800134, + "loss": 0.3094, + "step": 38880 + }, + { + "epoch": 103.70666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004967704440864147, + "loss": 0.3106, + "step": 38890 + }, + { + "epoch": 103.73333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0004967687649592555, + "loss": 0.3261, + "step": 38900 + }, + { + "epoch": 103.76, + "grad_norm": 0.2080078125, + "learning_rate": 0.000496767085398539, + "loss": 0.3272, + "step": 38910 + }, + { + "epoch": 103.78666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004967654054042679, + "loss": 0.328, + "step": 38920 + }, + { + "epoch": 103.81333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004967637249764453, + "loss": 0.3107, + "step": 38930 + }, + { + "epoch": 103.84, + "grad_norm": 0.18359375, + "learning_rate": 0.0004967620441150741, + "loss": 0.3102, + "step": 38940 + }, + { + "epoch": 103.86666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004967603628201572, + "loss": 0.3116, + "step": 38950 + }, + { + "epoch": 103.89333333333333, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004967586810916976, + "loss": 0.3125, + "step": 38960 + }, + { + "epoch": 103.92, + "grad_norm": 0.173828125, + "learning_rate": 0.0004967569989296984, + "loss": 0.314, + "step": 38970 + }, + { + "epoch": 103.94666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004967553163341623, + "loss": 0.3148, + "step": 38980 + }, + { + "epoch": 103.97333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004967536333050923, + "loss": 0.3229, + "step": 38990 + }, + { + "epoch": 104.0, + "grad_norm": 0.19140625, + "learning_rate": 0.0004967519498424916, + "loss": 0.311, + "step": 39000 + }, + { + "epoch": 104.0, + "eval_loss": 0.39859873056411743, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.395, + "eval_samples_per_second": 1.291, + "eval_steps_per_second": 0.081, + "step": 39000 + }, + { + "epoch": 104.02666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004967502659463629, + "loss": 0.3331, + "step": 39010 + }, + { + "epoch": 104.05333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004967485816167093, + "loss": 0.3399, + "step": 39020 + }, + { + "epoch": 104.08, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004967468968535337, + "loss": 0.3245, + "step": 39030 + }, + { + "epoch": 104.10666666666667, + "grad_norm": 0.322265625, + "learning_rate": 0.0004967452116568389, + "loss": 0.3252, + "step": 39040 + }, + { + "epoch": 104.13333333333334, + "grad_norm": 0.330078125, + "learning_rate": 0.0004967435260266283, + "loss": 0.3171, + "step": 39050 + }, + { + "epoch": 104.16, + "grad_norm": 0.46484375, + "learning_rate": 0.0004967418399629044, + "loss": 0.325, + "step": 39060 + }, + { + "epoch": 104.18666666666667, + "grad_norm": 0.263671875, + "learning_rate": 0.0004967401534656704, + "loss": 0.3186, + "step": 39070 + }, + { + "epoch": 104.21333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004967384665349291, + "loss": 0.3076, + "step": 39080 + }, + { + "epoch": 104.24, + "grad_norm": 0.216796875, + "learning_rate": 0.0004967367791706838, + "loss": 0.3124, + "step": 39090 + }, + { + "epoch": 104.26666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004967350913729371, + "loss": 0.3182, + "step": 39100 + }, + { + "epoch": 104.29333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004967334031416921, + "loss": 0.3137, + "step": 39110 + }, + { + "epoch": 104.32, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004967317144769518, + "loss": 0.3205, + "step": 39120 + }, + { + "epoch": 104.34666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004967300253787192, + "loss": 0.3197, + "step": 39130 + }, + { + "epoch": 104.37333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004967283358469971, + "loss": 0.3127, + "step": 39140 + }, + { + "epoch": 104.4, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004967266458817888, + "loss": 0.314, + "step": 39150 + }, + { + "epoch": 104.42666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004967249554830968, + "loss": 0.3206, + "step": 39160 + }, + { + "epoch": 104.45333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004967232646509244, + "loss": 0.3286, + "step": 39170 + }, + { + "epoch": 104.48, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004967215733852745, + "loss": 0.3247, + "step": 39180 + }, + { + "epoch": 104.50666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.00049671988168615, + "loss": 0.3214, + "step": 39190 + }, + { + "epoch": 104.53333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.000496718189553554, + "loss": 0.3165, + "step": 39200 + }, + { + "epoch": 104.56, + "grad_norm": 0.181640625, + "learning_rate": 0.0004967164969874894, + "loss": 0.3129, + "step": 39210 + }, + { + "epoch": 104.58666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004967148039879591, + "loss": 0.3154, + "step": 39220 + }, + { + "epoch": 104.61333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004967131105549662, + "loss": 0.3078, + "step": 39230 + }, + { + "epoch": 104.64, + "grad_norm": 0.173828125, + "learning_rate": 0.0004967114166885136, + "loss": 0.3099, + "step": 39240 + }, + { + "epoch": 104.66666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004967097223886042, + "loss": 0.3247, + "step": 39250 + }, + { + "epoch": 104.69333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004967080276552413, + "loss": 0.3041, + "step": 39260 + }, + { + "epoch": 104.72, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004967063324884276, + "loss": 0.3204, + "step": 39270 + }, + { + "epoch": 104.74666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.0004967046368881661, + "loss": 0.3218, + "step": 39280 + }, + { + "epoch": 104.77333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004967029408544598, + "loss": 0.3326, + "step": 39290 + }, + { + "epoch": 104.8, + "grad_norm": 0.193359375, + "learning_rate": 0.0004967012443873117, + "loss": 0.319, + "step": 39300 + }, + { + "epoch": 104.82666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.0004966995474867248, + "loss": 0.3082, + "step": 39310 + }, + { + "epoch": 104.85333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.000496697850152702, + "loss": 0.3126, + "step": 39320 + }, + { + "epoch": 104.88, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004966961523852464, + "loss": 0.3113, + "step": 39330 + }, + { + "epoch": 104.90666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004966944541843609, + "loss": 0.3135, + "step": 39340 + }, + { + "epoch": 104.93333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004966927555500485, + "loss": 0.3145, + "step": 39350 + }, + { + "epoch": 104.96, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004966910564823122, + "loss": 0.3134, + "step": 39360 + }, + { + "epoch": 104.98666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.000496689356981155, + "loss": 0.3265, + "step": 39370 + }, + { + "epoch": 105.0, + "eval_loss": 0.4008204936981201, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.0122, + "eval_samples_per_second": 1.23, + "eval_steps_per_second": 0.077, + "step": 39375 + }, + { + "epoch": 105.01333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0004966876570465797, + "loss": 0.316, + "step": 39380 + }, + { + "epoch": 105.04, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004966859566785896, + "loss": 0.3434, + "step": 39390 + }, + { + "epoch": 105.06666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004966842558771874, + "loss": 0.3276, + "step": 39400 + }, + { + "epoch": 105.09333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0004966825546423764, + "loss": 0.3247, + "step": 39410 + }, + { + "epoch": 105.12, + "grad_norm": 0.18359375, + "learning_rate": 0.0004966808529741593, + "loss": 0.3208, + "step": 39420 + }, + { + "epoch": 105.14666666666666, + "grad_norm": 0.171875, + "learning_rate": 0.0004966791508725393, + "loss": 0.3218, + "step": 39430 + }, + { + "epoch": 105.17333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004966774483375192, + "loss": 0.3214, + "step": 39440 + }, + { + "epoch": 105.2, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004966757453691021, + "loss": 0.314, + "step": 39450 + }, + { + "epoch": 105.22666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.000496674041967291, + "loss": 0.3084, + "step": 39460 + }, + { + "epoch": 105.25333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004966723381320888, + "loss": 0.3087, + "step": 39470 + }, + { + "epoch": 105.28, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004966706338634986, + "loss": 0.3275, + "step": 39480 + }, + { + "epoch": 105.30666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004966689291615234, + "loss": 0.3082, + "step": 39490 + }, + { + "epoch": 105.33333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004966672240261661, + "loss": 0.3233, + "step": 39500 + }, + { + "epoch": 105.36, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004966655184574297, + "loss": 0.3146, + "step": 39510 + }, + { + "epoch": 105.38666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004966638124553174, + "loss": 0.3114, + "step": 39520 + }, + { + "epoch": 105.41333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004966621060198318, + "loss": 0.318, + "step": 39530 + }, + { + "epoch": 105.44, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004966603991509764, + "loss": 0.3246, + "step": 39540 + }, + { + "epoch": 105.46666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004966586918487538, + "loss": 0.3289, + "step": 39550 + }, + { + "epoch": 105.49333333333334, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004966569841131672, + "loss": 0.3181, + "step": 39560 + }, + { + "epoch": 105.52, + "grad_norm": 0.251953125, + "learning_rate": 0.0004966552759442194, + "loss": 0.322, + "step": 39570 + }, + { + "epoch": 105.54666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004966535673419137, + "loss": 0.3125, + "step": 39580 + }, + { + "epoch": 105.57333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004966518583062529, + "loss": 0.3155, + "step": 39590 + }, + { + "epoch": 105.6, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004966501488372399, + "loss": 0.3114, + "step": 39600 + }, + { + "epoch": 105.62666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.000496648438934878, + "loss": 0.3076, + "step": 39610 + }, + { + "epoch": 105.65333333333334, + "grad_norm": 0.1630859375, + "learning_rate": 0.00049664672859917, + "loss": 0.321, + "step": 39620 + }, + { + "epoch": 105.68, + "grad_norm": 0.1826171875, + "learning_rate": 0.000496645017830119, + "loss": 0.3089, + "step": 39630 + }, + { + "epoch": 105.70666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0004966433066277279, + "loss": 0.31, + "step": 39640 + }, + { + "epoch": 105.73333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004966415949919998, + "loss": 0.3257, + "step": 39650 + }, + { + "epoch": 105.76, + "grad_norm": 0.21484375, + "learning_rate": 0.0004966398829229376, + "loss": 0.3272, + "step": 39660 + }, + { + "epoch": 105.78666666666666, + "grad_norm": 0.296875, + "learning_rate": 0.0004966381704205445, + "loss": 0.3276, + "step": 39670 + }, + { + "epoch": 105.81333333333333, + "grad_norm": 0.3046875, + "learning_rate": 0.0004966364574848233, + "loss": 0.3109, + "step": 39680 + }, + { + "epoch": 105.84, + "grad_norm": 0.193359375, + "learning_rate": 0.0004966347441157772, + "loss": 0.31, + "step": 39690 + }, + { + "epoch": 105.86666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.000496633030313409, + "loss": 0.3113, + "step": 39700 + }, + { + "epoch": 105.89333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004966313160777219, + "loss": 0.3116, + "step": 39710 + }, + { + "epoch": 105.92, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004966296014087188, + "loss": 0.3135, + "step": 39720 + }, + { + "epoch": 105.94666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004966278863064028, + "loss": 0.3146, + "step": 39730 + }, + { + "epoch": 105.97333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004966261707707768, + "loss": 0.3218, + "step": 39740 + }, + { + "epoch": 106.0, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004966244548018438, + "loss": 0.3106, + "step": 39750 + }, + { + "epoch": 106.0, + "eval_loss": 0.3998126983642578, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3984, + "eval_samples_per_second": 1.404, + "eval_steps_per_second": 0.088, + "step": 39750 + }, + { + "epoch": 106.02666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.000496622738399607, + "loss": 0.3336, + "step": 39760 + }, + { + "epoch": 106.05333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004966210215640693, + "loss": 0.3396, + "step": 39770 + }, + { + "epoch": 106.08, + "grad_norm": 0.22265625, + "learning_rate": 0.0004966193042952338, + "loss": 0.3237, + "step": 39780 + }, + { + "epoch": 106.10666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004966175865931033, + "loss": 0.3249, + "step": 39790 + }, + { + "epoch": 106.13333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004966158684576809, + "loss": 0.3164, + "step": 39800 + }, + { + "epoch": 106.16, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004966141498889698, + "loss": 0.3242, + "step": 39810 + }, + { + "epoch": 106.18666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004966124308869729, + "loss": 0.3185, + "step": 39820 + }, + { + "epoch": 106.21333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004966107114516931, + "loss": 0.3076, + "step": 39830 + }, + { + "epoch": 106.24, + "grad_norm": 0.1875, + "learning_rate": 0.0004966089915831337, + "loss": 0.3115, + "step": 39840 + }, + { + "epoch": 106.26666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004966072712812975, + "loss": 0.3182, + "step": 39850 + }, + { + "epoch": 106.29333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004966055505461875, + "loss": 0.3134, + "step": 39860 + }, + { + "epoch": 106.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004966038293778069, + "loss": 0.3197, + "step": 39870 + }, + { + "epoch": 106.34666666666666, + "grad_norm": 0.279296875, + "learning_rate": 0.0004966021077761585, + "loss": 0.3197, + "step": 39880 + }, + { + "epoch": 106.37333333333333, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004966003857412455, + "loss": 0.3118, + "step": 39890 + }, + { + "epoch": 106.4, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004965986632730709, + "loss": 0.3133, + "step": 39900 + }, + { + "epoch": 106.42666666666666, + "grad_norm": 0.169921875, + "learning_rate": 0.0004965969403716377, + "loss": 0.32, + "step": 39910 + }, + { + "epoch": 106.45333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.000496595217036949, + "loss": 0.3282, + "step": 39920 + }, + { + "epoch": 106.48, + "grad_norm": 0.17578125, + "learning_rate": 0.0004965934932690077, + "loss": 0.3243, + "step": 39930 + }, + { + "epoch": 106.50666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004965917690678169, + "loss": 0.3209, + "step": 39940 + }, + { + "epoch": 106.53333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004965900444333796, + "loss": 0.3156, + "step": 39950 + }, + { + "epoch": 106.56, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004965883193656988, + "loss": 0.3126, + "step": 39960 + }, + { + "epoch": 106.58666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004965865938647777, + "loss": 0.3153, + "step": 39970 + }, + { + "epoch": 106.61333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004965848679306191, + "loss": 0.3074, + "step": 39980 + }, + { + "epoch": 106.64, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004965831415632262, + "loss": 0.3091, + "step": 39990 + }, + { + "epoch": 106.66666666666667, + "grad_norm": 0.279296875, + "learning_rate": 0.0004965814147626019, + "loss": 0.3251, + "step": 40000 + }, + { + "epoch": 106.69333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004965796875287493, + "loss": 0.3037, + "step": 40010 + }, + { + "epoch": 106.72, + "grad_norm": 0.27734375, + "learning_rate": 0.0004965779598616715, + "loss": 0.3198, + "step": 40020 + }, + { + "epoch": 106.74666666666667, + "grad_norm": 0.265625, + "learning_rate": 0.0004965762317613715, + "loss": 0.3213, + "step": 40030 + }, + { + "epoch": 106.77333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004965745032278522, + "loss": 0.3324, + "step": 40040 + }, + { + "epoch": 106.8, + "grad_norm": 0.1982421875, + "learning_rate": 0.000496572774261117, + "loss": 0.319, + "step": 40050 + }, + { + "epoch": 106.82666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004965710448611684, + "loss": 0.3072, + "step": 40060 + }, + { + "epoch": 106.85333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004965693150280098, + "loss": 0.3117, + "step": 40070 + }, + { + "epoch": 106.88, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004965675847616443, + "loss": 0.3112, + "step": 40080 + }, + { + "epoch": 106.90666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004965658540620747, + "loss": 0.3131, + "step": 40090 + }, + { + "epoch": 106.93333333333334, + "grad_norm": 0.228515625, + "learning_rate": 0.0004965641229293042, + "loss": 0.3137, + "step": 40100 + }, + { + "epoch": 106.96, + "grad_norm": 0.201171875, + "learning_rate": 0.0004965623913633357, + "loss": 0.3135, + "step": 40110 + }, + { + "epoch": 106.98666666666666, + "grad_norm": 0.19140625, + "learning_rate": 0.0004965606593641725, + "loss": 0.3257, + "step": 40120 + }, + { + "epoch": 107.0, + "eval_loss": 0.40082797408103943, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4974, + "eval_samples_per_second": 1.392, + "eval_steps_per_second": 0.087, + "step": 40125 + }, + { + "epoch": 107.01333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004965589269318174, + "loss": 0.3157, + "step": 40130 + }, + { + "epoch": 107.04, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004965571940662734, + "loss": 0.3424, + "step": 40140 + }, + { + "epoch": 107.06666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004965554607675437, + "loss": 0.3268, + "step": 40150 + }, + { + "epoch": 107.09333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004965537270356314, + "loss": 0.3246, + "step": 40160 + }, + { + "epoch": 107.12, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004965519928705394, + "loss": 0.3202, + "step": 40170 + }, + { + "epoch": 107.14666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004965502582722708, + "loss": 0.3215, + "step": 40180 + }, + { + "epoch": 107.17333333333333, + "grad_norm": 0.291015625, + "learning_rate": 0.0004965485232408286, + "loss": 0.3209, + "step": 40190 + }, + { + "epoch": 107.2, + "grad_norm": 0.2158203125, + "learning_rate": 0.000496546787776216, + "loss": 0.3142, + "step": 40200 + }, + { + "epoch": 107.22666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004965450518784358, + "loss": 0.3079, + "step": 40210 + }, + { + "epoch": 107.25333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004965433155474914, + "loss": 0.3087, + "step": 40220 + }, + { + "epoch": 107.28, + "grad_norm": 0.21875, + "learning_rate": 0.0004965415787833855, + "loss": 0.3266, + "step": 40230 + }, + { + "epoch": 107.30666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004965398415861213, + "loss": 0.3081, + "step": 40240 + }, + { + "epoch": 107.33333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004965381039557018, + "loss": 0.323, + "step": 40250 + }, + { + "epoch": 107.36, + "grad_norm": 0.185546875, + "learning_rate": 0.0004965363658921303, + "loss": 0.3142, + "step": 40260 + }, + { + "epoch": 107.38666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0004965346273954095, + "loss": 0.3111, + "step": 40270 + }, + { + "epoch": 107.41333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004965328884655426, + "loss": 0.3174, + "step": 40280 + }, + { + "epoch": 107.44, + "grad_norm": 0.201171875, + "learning_rate": 0.0004965311491025328, + "loss": 0.3243, + "step": 40290 + }, + { + "epoch": 107.46666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004965294093063828, + "loss": 0.3278, + "step": 40300 + }, + { + "epoch": 107.49333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004965276690770961, + "loss": 0.3175, + "step": 40310 + }, + { + "epoch": 107.52, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004965259284146754, + "loss": 0.3214, + "step": 40320 + }, + { + "epoch": 107.54666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.000496524187319124, + "loss": 0.3119, + "step": 40330 + }, + { + "epoch": 107.57333333333334, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004965224457904447, + "loss": 0.3151, + "step": 40340 + }, + { + "epoch": 107.6, + "grad_norm": 0.208984375, + "learning_rate": 0.0004965207038286407, + "loss": 0.3111, + "step": 40350 + }, + { + "epoch": 107.62666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004965189614337153, + "loss": 0.307, + "step": 40360 + }, + { + "epoch": 107.65333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004965172186056712, + "loss": 0.3206, + "step": 40370 + }, + { + "epoch": 107.68, + "grad_norm": 0.201171875, + "learning_rate": 0.0004965154753445116, + "loss": 0.3089, + "step": 40380 + }, + { + "epoch": 107.70666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0004965137316502396, + "loss": 0.3091, + "step": 40390 + }, + { + "epoch": 107.73333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004965119875228581, + "loss": 0.3252, + "step": 40400 + }, + { + "epoch": 107.76, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004965102429623704, + "loss": 0.3263, + "step": 40410 + }, + { + "epoch": 107.78666666666666, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004965084979687795, + "loss": 0.3275, + "step": 40420 + }, + { + "epoch": 107.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004965067525420883, + "loss": 0.3096, + "step": 40430 + }, + { + "epoch": 107.84, + "grad_norm": 0.18359375, + "learning_rate": 0.0004965050066823001, + "loss": 0.3095, + "step": 40440 + }, + { + "epoch": 107.86666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004965032603894177, + "loss": 0.3108, + "step": 40450 + }, + { + "epoch": 107.89333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004965015136634445, + "loss": 0.3109, + "step": 40460 + }, + { + "epoch": 107.92, + "grad_norm": 0.298828125, + "learning_rate": 0.0004964997665043833, + "loss": 0.3128, + "step": 40470 + }, + { + "epoch": 107.94666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004964980189122371, + "loss": 0.314, + "step": 40480 + }, + { + "epoch": 107.97333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004964962708870094, + "loss": 0.3224, + "step": 40490 + }, + { + "epoch": 108.0, + "grad_norm": 0.166015625, + "learning_rate": 0.0004964945224287027, + "loss": 0.3108, + "step": 40500 + }, + { + "epoch": 108.0, + "eval_loss": 0.40004104375839233, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2243, + "eval_samples_per_second": 1.425, + "eval_steps_per_second": 0.089, + "step": 40500 + }, + { + "epoch": 108.02666666666667, + "grad_norm": 0.2578125, + "learning_rate": 0.0004964927735373206, + "loss": 0.3329, + "step": 40510 + }, + { + "epoch": 108.05333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004964910242128659, + "loss": 0.3388, + "step": 40520 + }, + { + "epoch": 108.08, + "grad_norm": 0.427734375, + "learning_rate": 0.0004964892744553417, + "loss": 0.323, + "step": 40530 + }, + { + "epoch": 108.10666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004964875242647512, + "loss": 0.3249, + "step": 40540 + }, + { + "epoch": 108.13333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004964857736410972, + "loss": 0.3168, + "step": 40550 + }, + { + "epoch": 108.16, + "grad_norm": 0.1884765625, + "learning_rate": 0.000496484022584383, + "loss": 0.3232, + "step": 40560 + }, + { + "epoch": 108.18666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004964822710946116, + "loss": 0.3183, + "step": 40570 + }, + { + "epoch": 108.21333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004964805191717862, + "loss": 0.3068, + "step": 40580 + }, + { + "epoch": 108.24, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004964787668159097, + "loss": 0.3117, + "step": 40590 + }, + { + "epoch": 108.26666666666667, + "grad_norm": 0.2265625, + "learning_rate": 0.0004964770140269852, + "loss": 0.3172, + "step": 40600 + }, + { + "epoch": 108.29333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.000496475260805016, + "loss": 0.3131, + "step": 40610 + }, + { + "epoch": 108.32, + "grad_norm": 0.18359375, + "learning_rate": 0.0004964735071500048, + "loss": 0.3196, + "step": 40620 + }, + { + "epoch": 108.34666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.000496471753061955, + "loss": 0.3188, + "step": 40630 + }, + { + "epoch": 108.37333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004964699985408696, + "loss": 0.3111, + "step": 40640 + }, + { + "epoch": 108.4, + "grad_norm": 0.251953125, + "learning_rate": 0.0004964682435867516, + "loss": 0.3128, + "step": 40650 + }, + { + "epoch": 108.42666666666666, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004964664881996042, + "loss": 0.3189, + "step": 40660 + }, + { + "epoch": 108.45333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0004964647323794304, + "loss": 0.3286, + "step": 40670 + }, + { + "epoch": 108.48, + "grad_norm": 0.419921875, + "learning_rate": 0.0004964629761262333, + "loss": 0.3241, + "step": 40680 + }, + { + "epoch": 108.50666666666666, + "grad_norm": 0.47265625, + "learning_rate": 0.0004964612194400161, + "loss": 0.3206, + "step": 40690 + }, + { + "epoch": 108.53333333333333, + "grad_norm": 0.427734375, + "learning_rate": 0.0004964594623207817, + "loss": 0.3156, + "step": 40700 + }, + { + "epoch": 108.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004964577047685332, + "loss": 0.3123, + "step": 40710 + }, + { + "epoch": 108.58666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004964559467832738, + "loss": 0.3151, + "step": 40720 + }, + { + "epoch": 108.61333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004964541883650065, + "loss": 0.3065, + "step": 40730 + }, + { + "epoch": 108.64, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004964524295137346, + "loss": 0.3088, + "step": 40740 + }, + { + "epoch": 108.66666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004964506702294609, + "loss": 0.3243, + "step": 40750 + }, + { + "epoch": 108.69333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004964489105121887, + "loss": 0.3034, + "step": 40760 + }, + { + "epoch": 108.72, + "grad_norm": 0.267578125, + "learning_rate": 0.0004964471503619208, + "loss": 0.3187, + "step": 40770 + }, + { + "epoch": 108.74666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004964453897786608, + "loss": 0.321, + "step": 40780 + }, + { + "epoch": 108.77333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004964436287624113, + "loss": 0.3325, + "step": 40790 + }, + { + "epoch": 108.8, + "grad_norm": 0.212890625, + "learning_rate": 0.0004964418673131757, + "loss": 0.3183, + "step": 40800 + }, + { + "epoch": 108.82666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004964401054309569, + "loss": 0.3071, + "step": 40810 + }, + { + "epoch": 108.85333333333334, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004964383431157581, + "loss": 0.3112, + "step": 40820 + }, + { + "epoch": 108.88, + "grad_norm": 0.193359375, + "learning_rate": 0.0004964365803675824, + "loss": 0.3105, + "step": 40830 + }, + { + "epoch": 108.90666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004964348171864329, + "loss": 0.3133, + "step": 40840 + }, + { + "epoch": 108.93333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.0004964330535723126, + "loss": 0.3129, + "step": 40850 + }, + { + "epoch": 108.96, + "grad_norm": 0.166015625, + "learning_rate": 0.0004964312895252247, + "loss": 0.3132, + "step": 40860 + }, + { + "epoch": 108.98666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004964295250451722, + "loss": 0.3255, + "step": 40870 + }, + { + "epoch": 109.0, + "eval_loss": 0.3988592326641083, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.9609, + "eval_samples_per_second": 1.234, + "eval_steps_per_second": 0.077, + "step": 40875 + }, + { + "epoch": 109.01333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004964277601321584, + "loss": 0.315, + "step": 40880 + }, + { + "epoch": 109.04, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004964259947861863, + "loss": 0.3419, + "step": 40890 + }, + { + "epoch": 109.06666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004964242290072588, + "loss": 0.3267, + "step": 40900 + }, + { + "epoch": 109.09333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004964224627953792, + "loss": 0.3229, + "step": 40910 + }, + { + "epoch": 109.12, + "grad_norm": 0.181640625, + "learning_rate": 0.0004964206961505506, + "loss": 0.3197, + "step": 40920 + }, + { + "epoch": 109.14666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004964189290727762, + "loss": 0.3206, + "step": 40930 + }, + { + "epoch": 109.17333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004964171615620588, + "loss": 0.3204, + "step": 40940 + }, + { + "epoch": 109.2, + "grad_norm": 0.208984375, + "learning_rate": 0.0004964153936184018, + "loss": 0.3134, + "step": 40950 + }, + { + "epoch": 109.22666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004964136252418082, + "loss": 0.3078, + "step": 40960 + }, + { + "epoch": 109.25333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004964118564322811, + "loss": 0.3077, + "step": 40970 + }, + { + "epoch": 109.28, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004964100871898235, + "loss": 0.3261, + "step": 40980 + }, + { + "epoch": 109.30666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004964083175144387, + "loss": 0.3081, + "step": 40990 + }, + { + "epoch": 109.33333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004964065474061298, + "loss": 0.3229, + "step": 41000 + }, + { + "epoch": 109.36, + "grad_norm": 0.203125, + "learning_rate": 0.0004964047768648998, + "loss": 0.3133, + "step": 41010 + }, + { + "epoch": 109.38666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004964030058907517, + "loss": 0.3104, + "step": 41020 + }, + { + "epoch": 109.41333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004964012344836889, + "loss": 0.3171, + "step": 41030 + }, + { + "epoch": 109.44, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004963994626437145, + "loss": 0.3242, + "step": 41040 + }, + { + "epoch": 109.46666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004963976903708312, + "loss": 0.3283, + "step": 41050 + }, + { + "epoch": 109.49333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004963959176650426, + "loss": 0.3173, + "step": 41060 + }, + { + "epoch": 109.52, + "grad_norm": 0.21484375, + "learning_rate": 0.0004963941445263515, + "loss": 0.3205, + "step": 41070 + }, + { + "epoch": 109.54666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004963923709547613, + "loss": 0.3115, + "step": 41080 + }, + { + "epoch": 109.57333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004963905969502748, + "loss": 0.3146, + "step": 41090 + }, + { + "epoch": 109.6, + "grad_norm": 0.216796875, + "learning_rate": 0.0004963888225128953, + "loss": 0.3107, + "step": 41100 + }, + { + "epoch": 109.62666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004963870476426259, + "loss": 0.3062, + "step": 41110 + }, + { + "epoch": 109.65333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004963852723394696, + "loss": 0.3194, + "step": 41120 + }, + { + "epoch": 109.68, + "grad_norm": 0.21484375, + "learning_rate": 0.0004963834966034297, + "loss": 0.3077, + "step": 41130 + }, + { + "epoch": 109.70666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004963817204345092, + "loss": 0.3093, + "step": 41140 + }, + { + "epoch": 109.73333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004963799438327113, + "loss": 0.3244, + "step": 41150 + }, + { + "epoch": 109.76, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004963781667980391, + "loss": 0.3265, + "step": 41160 + }, + { + "epoch": 109.78666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004963763893304957, + "loss": 0.3268, + "step": 41170 + }, + { + "epoch": 109.81333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004963746114300842, + "loss": 0.3097, + "step": 41180 + }, + { + "epoch": 109.84, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004963728330968077, + "loss": 0.3088, + "step": 41190 + }, + { + "epoch": 109.86666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004963710543306694, + "loss": 0.3111, + "step": 41200 + }, + { + "epoch": 109.89333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004963692751316724, + "loss": 0.3104, + "step": 41210 + }, + { + "epoch": 109.92, + "grad_norm": 0.220703125, + "learning_rate": 0.0004963674954998199, + "loss": 0.313, + "step": 41220 + }, + { + "epoch": 109.94666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004963657154351149, + "loss": 0.3139, + "step": 41230 + }, + { + "epoch": 109.97333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004963639349375605, + "loss": 0.3212, + "step": 41240 + }, + { + "epoch": 110.0, + "grad_norm": 0.212890625, + "learning_rate": 0.00049636215400716, + "loss": 0.31, + "step": 41250 + }, + { + "epoch": 110.0, + "eval_loss": 0.4007114768028259, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5367, + "eval_samples_per_second": 1.276, + "eval_steps_per_second": 0.08, + "step": 41250 + }, + { + "epoch": 110.02666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004963603726439164, + "loss": 0.3323, + "step": 41260 + }, + { + "epoch": 110.05333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004963585908478329, + "loss": 0.3385, + "step": 41270 + }, + { + "epoch": 110.08, + "grad_norm": 0.212890625, + "learning_rate": 0.0004963568086189126, + "loss": 0.3229, + "step": 41280 + }, + { + "epoch": 110.10666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004963550259571585, + "loss": 0.324, + "step": 41290 + }, + { + "epoch": 110.13333333333334, + "grad_norm": 0.2265625, + "learning_rate": 0.000496353242862574, + "loss": 0.3159, + "step": 41300 + }, + { + "epoch": 110.16, + "grad_norm": 0.2021484375, + "learning_rate": 0.000496351459335162, + "loss": 0.3226, + "step": 41310 + }, + { + "epoch": 110.18666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004963496753749258, + "loss": 0.3179, + "step": 41320 + }, + { + "epoch": 110.21333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004963478909818684, + "loss": 0.3063, + "step": 41330 + }, + { + "epoch": 110.24, + "grad_norm": 0.28515625, + "learning_rate": 0.0004963461061559931, + "loss": 0.3105, + "step": 41340 + }, + { + "epoch": 110.26666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004963443208973029, + "loss": 0.3165, + "step": 41350 + }, + { + "epoch": 110.29333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004963425352058009, + "loss": 0.3118, + "step": 41360 + }, + { + "epoch": 110.32, + "grad_norm": 0.2109375, + "learning_rate": 0.0004963407490814903, + "loss": 0.3197, + "step": 41370 + }, + { + "epoch": 110.34666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004963389625243743, + "loss": 0.3186, + "step": 41380 + }, + { + "epoch": 110.37333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.0004963371755344559, + "loss": 0.3113, + "step": 41390 + }, + { + "epoch": 110.4, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004963353881117384, + "loss": 0.3125, + "step": 41400 + }, + { + "epoch": 110.42666666666666, + "grad_norm": 0.169921875, + "learning_rate": 0.0004963336002562248, + "loss": 0.3191, + "step": 41410 + }, + { + "epoch": 110.45333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004963318119679183, + "loss": 0.3277, + "step": 41420 + }, + { + "epoch": 110.48, + "grad_norm": 0.22265625, + "learning_rate": 0.0004963300232468221, + "loss": 0.3235, + "step": 41430 + }, + { + "epoch": 110.50666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004963282340929392, + "loss": 0.3202, + "step": 41440 + }, + { + "epoch": 110.53333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.000496326444506273, + "loss": 0.3148, + "step": 41450 + }, + { + "epoch": 110.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004963246544868263, + "loss": 0.3116, + "step": 41460 + }, + { + "epoch": 110.58666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.0004963228640346024, + "loss": 0.3146, + "step": 41470 + }, + { + "epoch": 110.61333333333333, + "grad_norm": 0.396484375, + "learning_rate": 0.0004963210731496046, + "loss": 0.3062, + "step": 41480 + }, + { + "epoch": 110.64, + "grad_norm": 0.326171875, + "learning_rate": 0.0004963192818318359, + "loss": 0.3083, + "step": 41490 + }, + { + "epoch": 110.66666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004963174900812995, + "loss": 0.3241, + "step": 41500 + }, + { + "epoch": 110.69333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004963156978979984, + "loss": 0.3025, + "step": 41510 + }, + { + "epoch": 110.72, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004963139052819359, + "loss": 0.3194, + "step": 41520 + }, + { + "epoch": 110.74666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.000496312112233115, + "loss": 0.3207, + "step": 41530 + }, + { + "epoch": 110.77333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004963103187515391, + "loss": 0.3318, + "step": 41540 + }, + { + "epoch": 110.8, + "grad_norm": 0.189453125, + "learning_rate": 0.0004963085248372111, + "loss": 0.3178, + "step": 41550 + }, + { + "epoch": 110.82666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004963067304901343, + "loss": 0.3061, + "step": 41560 + }, + { + "epoch": 110.85333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004963049357103119, + "loss": 0.3109, + "step": 41570 + }, + { + "epoch": 110.88, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004963031404977468, + "loss": 0.3103, + "step": 41580 + }, + { + "epoch": 110.90666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004963013448524425, + "loss": 0.3124, + "step": 41590 + }, + { + "epoch": 110.93333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004962995487744019, + "loss": 0.313, + "step": 41600 + }, + { + "epoch": 110.96, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004962977522636282, + "loss": 0.3123, + "step": 41610 + }, + { + "epoch": 110.98666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004962959553201246, + "loss": 0.3248, + "step": 41620 + }, + { + "epoch": 111.0, + "eval_loss": 0.3983340859413147, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7285, + "eval_samples_per_second": 1.364, + "eval_steps_per_second": 0.085, + "step": 41625 + }, + { + "epoch": 111.01333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004962941579438942, + "loss": 0.3144, + "step": 41630 + }, + { + "epoch": 111.04, + "grad_norm": 0.234375, + "learning_rate": 0.0004962923601349402, + "loss": 0.3414, + "step": 41640 + }, + { + "epoch": 111.06666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004962905618932658, + "loss": 0.3262, + "step": 41650 + }, + { + "epoch": 111.09333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004962887632188741, + "loss": 0.3236, + "step": 41660 + }, + { + "epoch": 111.12, + "grad_norm": 0.19921875, + "learning_rate": 0.0004962869641117683, + "loss": 0.319, + "step": 41670 + }, + { + "epoch": 111.14666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004962851645719515, + "loss": 0.3203, + "step": 41680 + }, + { + "epoch": 111.17333333333333, + "grad_norm": 0.25, + "learning_rate": 0.000496283364599427, + "loss": 0.32, + "step": 41690 + }, + { + "epoch": 111.2, + "grad_norm": 0.208984375, + "learning_rate": 0.0004962815641941977, + "loss": 0.3129, + "step": 41700 + }, + { + "epoch": 111.22666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004962797633562671, + "loss": 0.3076, + "step": 41710 + }, + { + "epoch": 111.25333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.000496277962085638, + "loss": 0.3072, + "step": 41720 + }, + { + "epoch": 111.28, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004962761603823139, + "loss": 0.325, + "step": 41730 + }, + { + "epoch": 111.30666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004962743582462978, + "loss": 0.3069, + "step": 41740 + }, + { + "epoch": 111.33333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004962725556775929, + "loss": 0.3217, + "step": 41750 + }, + { + "epoch": 111.36, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004962707526762022, + "loss": 0.3129, + "step": 41760 + }, + { + "epoch": 111.38666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004962689492421291, + "loss": 0.3109, + "step": 41770 + }, + { + "epoch": 111.41333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004962671453753769, + "loss": 0.3164, + "step": 41780 + }, + { + "epoch": 111.44, + "grad_norm": 0.205078125, + "learning_rate": 0.0004962653410759484, + "loss": 0.3238, + "step": 41790 + }, + { + "epoch": 111.46666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004962635363438469, + "loss": 0.3277, + "step": 41800 + }, + { + "epoch": 111.49333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004962617311790756, + "loss": 0.3169, + "step": 41810 + }, + { + "epoch": 111.52, + "grad_norm": 0.181640625, + "learning_rate": 0.0004962599255816377, + "loss": 0.3211, + "step": 41820 + }, + { + "epoch": 111.54666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004962581195515363, + "loss": 0.311, + "step": 41830 + }, + { + "epoch": 111.57333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004962563130887747, + "loss": 0.3144, + "step": 41840 + }, + { + "epoch": 111.6, + "grad_norm": 0.203125, + "learning_rate": 0.0004962545061933559, + "loss": 0.3105, + "step": 41850 + }, + { + "epoch": 111.62666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004962526988652832, + "loss": 0.3056, + "step": 41860 + }, + { + "epoch": 111.65333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004962508911045598, + "loss": 0.3194, + "step": 41870 + }, + { + "epoch": 111.68, + "grad_norm": 0.17578125, + "learning_rate": 0.0004962490829111888, + "loss": 0.3077, + "step": 41880 + }, + { + "epoch": 111.70666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004962472742851734, + "loss": 0.3088, + "step": 41890 + }, + { + "epoch": 111.73333333333333, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004962454652265167, + "loss": 0.3243, + "step": 41900 + }, + { + "epoch": 111.76, + "grad_norm": 0.169921875, + "learning_rate": 0.0004962436557352219, + "loss": 0.3259, + "step": 41910 + }, + { + "epoch": 111.78666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004962418458112924, + "loss": 0.3266, + "step": 41920 + }, + { + "epoch": 111.81333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004962400354547311, + "loss": 0.3084, + "step": 41930 + }, + { + "epoch": 111.84, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004962382246655414, + "loss": 0.3083, + "step": 41940 + }, + { + "epoch": 111.86666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004962364134437261, + "loss": 0.3102, + "step": 41950 + }, + { + "epoch": 111.89333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004962346017892889, + "loss": 0.3105, + "step": 41960 + }, + { + "epoch": 111.92, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004962327897022327, + "loss": 0.312, + "step": 41970 + }, + { + "epoch": 111.94666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004962309771825607, + "loss": 0.3134, + "step": 41980 + }, + { + "epoch": 111.97333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004962291642302761, + "loss": 0.3207, + "step": 41990 + }, + { + "epoch": 112.0, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004962273508453822, + "loss": 0.3097, + "step": 42000 + }, + { + "epoch": 112.0, + "eval_loss": 0.40091875195503235, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.0532, + "eval_samples_per_second": 1.327, + "eval_steps_per_second": 0.083, + "step": 42000 + }, + { + "epoch": 112.02666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004962255370278819, + "loss": 0.3316, + "step": 42010 + }, + { + "epoch": 112.05333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004962237227777786, + "loss": 0.3385, + "step": 42020 + }, + { + "epoch": 112.08, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004962219080950755, + "loss": 0.3222, + "step": 42030 + }, + { + "epoch": 112.10666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004962200929797757, + "loss": 0.3236, + "step": 42040 + }, + { + "epoch": 112.13333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004962182774318825, + "loss": 0.3162, + "step": 42050 + }, + { + "epoch": 112.16, + "grad_norm": 0.294921875, + "learning_rate": 0.000496216461451399, + "loss": 0.3223, + "step": 42060 + }, + { + "epoch": 112.18666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004962146450383282, + "loss": 0.3168, + "step": 42070 + }, + { + "epoch": 112.21333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004962128281926737, + "loss": 0.3063, + "step": 42080 + }, + { + "epoch": 112.24, + "grad_norm": 0.20703125, + "learning_rate": 0.0004962110109144385, + "loss": 0.3102, + "step": 42090 + }, + { + "epoch": 112.26666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004962091932036258, + "loss": 0.3161, + "step": 42100 + }, + { + "epoch": 112.29333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004962073750602388, + "loss": 0.3116, + "step": 42110 + }, + { + "epoch": 112.32, + "grad_norm": 0.19140625, + "learning_rate": 0.0004962055564842804, + "loss": 0.3181, + "step": 42120 + }, + { + "epoch": 112.34666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004962037374757544, + "loss": 0.3181, + "step": 42130 + }, + { + "epoch": 112.37333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004962019180346635, + "loss": 0.3105, + "step": 42140 + }, + { + "epoch": 112.4, + "grad_norm": 0.1845703125, + "learning_rate": 0.000496200098161011, + "loss": 0.312, + "step": 42150 + }, + { + "epoch": 112.42666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004961982778548004, + "loss": 0.3185, + "step": 42160 + }, + { + "epoch": 112.45333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004961964571160344, + "loss": 0.327, + "step": 42170 + }, + { + "epoch": 112.48, + "grad_norm": 0.205078125, + "learning_rate": 0.0004961946359447166, + "loss": 0.3227, + "step": 42180 + }, + { + "epoch": 112.50666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.00049619281434085, + "loss": 0.3198, + "step": 42190 + }, + { + "epoch": 112.53333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004961909923044379, + "loss": 0.3145, + "step": 42200 + }, + { + "epoch": 112.56, + "grad_norm": 0.203125, + "learning_rate": 0.0004961891698354833, + "loss": 0.3111, + "step": 42210 + }, + { + "epoch": 112.58666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004961873469339897, + "loss": 0.3148, + "step": 42220 + }, + { + "epoch": 112.61333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004961855235999602, + "loss": 0.3061, + "step": 42230 + }, + { + "epoch": 112.64, + "grad_norm": 0.1640625, + "learning_rate": 0.0004961836998333978, + "loss": 0.307, + "step": 42240 + }, + { + "epoch": 112.66666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004961818756343061, + "loss": 0.3235, + "step": 42250 + }, + { + "epoch": 112.69333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004961800510026879, + "loss": 0.302, + "step": 42260 + }, + { + "epoch": 112.72, + "grad_norm": 0.3203125, + "learning_rate": 0.0004961782259385465, + "loss": 0.3186, + "step": 42270 + }, + { + "epoch": 112.74666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004961764004418854, + "loss": 0.3203, + "step": 42280 + }, + { + "epoch": 112.77333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004961745745127075, + "loss": 0.331, + "step": 42290 + }, + { + "epoch": 112.8, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004961727481510161, + "loss": 0.3166, + "step": 42300 + }, + { + "epoch": 112.82666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004961709213568144, + "loss": 0.3063, + "step": 42310 + }, + { + "epoch": 112.85333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004961690941301056, + "loss": 0.3102, + "step": 42320 + }, + { + "epoch": 112.88, + "grad_norm": 0.208984375, + "learning_rate": 0.000496167266470893, + "loss": 0.3101, + "step": 42330 + }, + { + "epoch": 112.90666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004961654383791798, + "loss": 0.3114, + "step": 42340 + }, + { + "epoch": 112.93333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004961636098549689, + "loss": 0.3119, + "step": 42350 + }, + { + "epoch": 112.96, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004961617808982639, + "loss": 0.3124, + "step": 42360 + }, + { + "epoch": 112.98666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004961599515090679, + "loss": 0.3244, + "step": 42370 + }, + { + "epoch": 113.0, + "eval_loss": 0.39934012293815613, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9562, + "eval_samples_per_second": 1.338, + "eval_steps_per_second": 0.084, + "step": 42375 + }, + { + "epoch": 113.01333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.0004961581216873841, + "loss": 0.314, + "step": 42380 + }, + { + "epoch": 113.04, + "grad_norm": 0.173828125, + "learning_rate": 0.0004961562914332158, + "loss": 0.3407, + "step": 42390 + }, + { + "epoch": 113.06666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004961544607465659, + "loss": 0.3252, + "step": 42400 + }, + { + "epoch": 113.09333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.000496152629627438, + "loss": 0.3225, + "step": 42410 + }, + { + "epoch": 113.12, + "grad_norm": 0.25, + "learning_rate": 0.0004961507980758351, + "loss": 0.3193, + "step": 42420 + }, + { + "epoch": 113.14666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004961489660917605, + "loss": 0.3195, + "step": 42430 + }, + { + "epoch": 113.17333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004961471336752173, + "loss": 0.32, + "step": 42440 + }, + { + "epoch": 113.2, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004961453008262089, + "loss": 0.3118, + "step": 42450 + }, + { + "epoch": 113.22666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004961434675447385, + "loss": 0.3073, + "step": 42460 + }, + { + "epoch": 113.25333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004961416338308091, + "loss": 0.3069, + "step": 42470 + }, + { + "epoch": 113.28, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004961397996844242, + "loss": 0.3252, + "step": 42480 + }, + { + "epoch": 113.30666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004961379651055868, + "loss": 0.3068, + "step": 42490 + }, + { + "epoch": 113.33333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004961361300943003, + "loss": 0.3214, + "step": 42500 + }, + { + "epoch": 113.36, + "grad_norm": 0.197265625, + "learning_rate": 0.0004961342946505678, + "loss": 0.3129, + "step": 42510 + }, + { + "epoch": 113.38666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.0004961324587743926, + "loss": 0.3106, + "step": 42520 + }, + { + "epoch": 113.41333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004961306224657779, + "loss": 0.3163, + "step": 42530 + }, + { + "epoch": 113.44, + "grad_norm": 0.169921875, + "learning_rate": 0.0004961287857247269, + "loss": 0.3232, + "step": 42540 + }, + { + "epoch": 113.46666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004961269485512428, + "loss": 0.3272, + "step": 42550 + }, + { + "epoch": 113.49333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.000496125110945329, + "loss": 0.3165, + "step": 42560 + }, + { + "epoch": 113.52, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004961232729069886, + "loss": 0.3205, + "step": 42570 + }, + { + "epoch": 113.54666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004961214344362247, + "loss": 0.3109, + "step": 42580 + }, + { + "epoch": 113.57333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004961195955330408, + "loss": 0.3135, + "step": 42590 + }, + { + "epoch": 113.6, + "grad_norm": 0.189453125, + "learning_rate": 0.0004961177561974399, + "loss": 0.3096, + "step": 42600 + }, + { + "epoch": 113.62666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004961159164294253, + "loss": 0.3052, + "step": 42610 + }, + { + "epoch": 113.65333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004961140762290003, + "loss": 0.3184, + "step": 42620 + }, + { + "epoch": 113.68, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004961122355961682, + "loss": 0.3071, + "step": 42630 + }, + { + "epoch": 113.70666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.000496110394530932, + "loss": 0.3081, + "step": 42640 + }, + { + "epoch": 113.73333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.000496108553033295, + "loss": 0.324, + "step": 42650 + }, + { + "epoch": 113.76, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004961067111032606, + "loss": 0.3255, + "step": 42660 + }, + { + "epoch": 113.78666666666666, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004961048687408319, + "loss": 0.3256, + "step": 42670 + }, + { + "epoch": 113.81333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004961030259460123, + "loss": 0.3085, + "step": 42680 + }, + { + "epoch": 113.84, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004961011827188048, + "loss": 0.3077, + "step": 42690 + }, + { + "epoch": 113.86666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004960993390592126, + "loss": 0.3102, + "step": 42700 + }, + { + "epoch": 113.89333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004960974949672393, + "loss": 0.3098, + "step": 42710 + }, + { + "epoch": 113.92, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004960956504428879, + "loss": 0.3119, + "step": 42720 + }, + { + "epoch": 113.94666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004960938054861616, + "loss": 0.3126, + "step": 42730 + }, + { + "epoch": 113.97333333333333, + "grad_norm": 0.29296875, + "learning_rate": 0.0004960919600970637, + "loss": 0.3198, + "step": 42740 + }, + { + "epoch": 114.0, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004960901142755975, + "loss": 0.3092, + "step": 42750 + }, + { + "epoch": 114.0, + "eval_loss": 0.3987213969230652, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9024, + "eval_samples_per_second": 1.468, + "eval_steps_per_second": 0.092, + "step": 42750 + }, + { + "epoch": 114.02666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004960882680217662, + "loss": 0.3311, + "step": 42760 + }, + { + "epoch": 114.05333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004960864213355731, + "loss": 0.3377, + "step": 42770 + }, + { + "epoch": 114.08, + "grad_norm": 0.30078125, + "learning_rate": 0.0004960845742170212, + "loss": 0.3218, + "step": 42780 + }, + { + "epoch": 114.10666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.000496082726666114, + "loss": 0.3226, + "step": 42790 + }, + { + "epoch": 114.13333333333334, + "grad_norm": 0.32421875, + "learning_rate": 0.0004960808786828546, + "loss": 0.3151, + "step": 42800 + }, + { + "epoch": 114.16, + "grad_norm": 0.17578125, + "learning_rate": 0.0004960790302672465, + "loss": 0.322, + "step": 42810 + }, + { + "epoch": 114.18666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004960771814192926, + "loss": 0.3163, + "step": 42820 + }, + { + "epoch": 114.21333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004960753321389964, + "loss": 0.3057, + "step": 42830 + }, + { + "epoch": 114.24, + "grad_norm": 0.1953125, + "learning_rate": 0.0004960734824263611, + "loss": 0.3105, + "step": 42840 + }, + { + "epoch": 114.26666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004960716322813898, + "loss": 0.3158, + "step": 42850 + }, + { + "epoch": 114.29333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004960697817040859, + "loss": 0.3113, + "step": 42860 + }, + { + "epoch": 114.32, + "grad_norm": 0.30078125, + "learning_rate": 0.0004960679306944527, + "loss": 0.3183, + "step": 42870 + }, + { + "epoch": 114.34666666666666, + "grad_norm": 0.421875, + "learning_rate": 0.0004960660792524932, + "loss": 0.3181, + "step": 42880 + }, + { + "epoch": 114.37333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.000496064227378211, + "loss": 0.3098, + "step": 42890 + }, + { + "epoch": 114.4, + "grad_norm": 0.310546875, + "learning_rate": 0.0004960623750716091, + "loss": 0.3112, + "step": 42900 + }, + { + "epoch": 114.42666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004960605223326909, + "loss": 0.318, + "step": 42910 + }, + { + "epoch": 114.45333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004960586691614594, + "loss": 0.3266, + "step": 42920 + }, + { + "epoch": 114.48, + "grad_norm": 0.181640625, + "learning_rate": 0.0004960568155579181, + "loss": 0.3224, + "step": 42930 + }, + { + "epoch": 114.50666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004960549615220703, + "loss": 0.3188, + "step": 42940 + }, + { + "epoch": 114.53333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004960531070539191, + "loss": 0.3138, + "step": 42950 + }, + { + "epoch": 114.56, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004960512521534678, + "loss": 0.3111, + "step": 42960 + }, + { + "epoch": 114.58666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004960493968207197, + "loss": 0.3138, + "step": 42970 + }, + { + "epoch": 114.61333333333333, + "grad_norm": 0.1640625, + "learning_rate": 0.000496047541055678, + "loss": 0.3057, + "step": 42980 + }, + { + "epoch": 114.64, + "grad_norm": 0.2109375, + "learning_rate": 0.000496045684858346, + "loss": 0.3073, + "step": 42990 + }, + { + "epoch": 114.66666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.000496043828228727, + "loss": 0.3231, + "step": 43000 + }, + { + "epoch": 114.69333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.0004960419711668242, + "loss": 0.3022, + "step": 43010 + }, + { + "epoch": 114.72, + "grad_norm": 0.291015625, + "learning_rate": 0.0004960401136726407, + "loss": 0.3185, + "step": 43020 + }, + { + "epoch": 114.74666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004960382557461802, + "loss": 0.3193, + "step": 43030 + }, + { + "epoch": 114.77333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004960363973874456, + "loss": 0.3314, + "step": 43040 + }, + { + "epoch": 114.8, + "grad_norm": 0.2734375, + "learning_rate": 0.0004960345385964402, + "loss": 0.3174, + "step": 43050 + }, + { + "epoch": 114.82666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004960326793731674, + "loss": 0.3052, + "step": 43060 + }, + { + "epoch": 114.85333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004960308197176304, + "loss": 0.3095, + "step": 43070 + }, + { + "epoch": 114.88, + "grad_norm": 0.259765625, + "learning_rate": 0.0004960289596298324, + "loss": 0.309, + "step": 43080 + }, + { + "epoch": 114.90666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004960270991097768, + "loss": 0.3115, + "step": 43090 + }, + { + "epoch": 114.93333333333334, + "grad_norm": 0.228515625, + "learning_rate": 0.0004960252381574668, + "loss": 0.3119, + "step": 43100 + }, + { + "epoch": 114.96, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004960233767729058, + "loss": 0.3115, + "step": 43110 + }, + { + "epoch": 114.98666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004960215149560968, + "loss": 0.3238, + "step": 43120 + }, + { + "epoch": 115.0, + "eval_loss": 0.40038642287254333, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1292, + "eval_samples_per_second": 1.438, + "eval_steps_per_second": 0.09, + "step": 43125 + }, + { + "epoch": 115.01333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004960196527070431, + "loss": 0.3138, + "step": 43130 + }, + { + "epoch": 115.04, + "grad_norm": 0.2578125, + "learning_rate": 0.0004960177900257483, + "loss": 0.3406, + "step": 43140 + }, + { + "epoch": 115.06666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004960159269122154, + "loss": 0.3248, + "step": 43150 + }, + { + "epoch": 115.09333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004960140633664477, + "loss": 0.3223, + "step": 43160 + }, + { + "epoch": 115.12, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004960121993884486, + "loss": 0.3184, + "step": 43170 + }, + { + "epoch": 115.14666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004960103349782212, + "loss": 0.3194, + "step": 43180 + }, + { + "epoch": 115.17333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0004960084701357689, + "loss": 0.3195, + "step": 43190 + }, + { + "epoch": 115.2, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004960066048610949, + "loss": 0.3123, + "step": 43200 + }, + { + "epoch": 115.22666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004960047391542026, + "loss": 0.3069, + "step": 43210 + }, + { + "epoch": 115.25333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004960028730150951, + "loss": 0.3069, + "step": 43220 + }, + { + "epoch": 115.28, + "grad_norm": 0.2109375, + "learning_rate": 0.0004960010064437758, + "loss": 0.3255, + "step": 43230 + }, + { + "epoch": 115.30666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004959991394402479, + "loss": 0.3068, + "step": 43240 + }, + { + "epoch": 115.33333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004959972720045147, + "loss": 0.3208, + "step": 43250 + }, + { + "epoch": 115.36, + "grad_norm": 0.19140625, + "learning_rate": 0.0004959954041365796, + "loss": 0.3129, + "step": 43260 + }, + { + "epoch": 115.38666666666667, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004959935358364458, + "loss": 0.3094, + "step": 43270 + }, + { + "epoch": 115.41333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004959916671041165, + "loss": 0.3154, + "step": 43280 + }, + { + "epoch": 115.44, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004959897979395951, + "loss": 0.3228, + "step": 43290 + }, + { + "epoch": 115.46666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004959879283428849, + "loss": 0.3277, + "step": 43300 + }, + { + "epoch": 115.49333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004959860583139891, + "loss": 0.3156, + "step": 43310 + }, + { + "epoch": 115.52, + "grad_norm": 0.17578125, + "learning_rate": 0.0004959841878529108, + "loss": 0.32, + "step": 43320 + }, + { + "epoch": 115.54666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004959823169596538, + "loss": 0.3103, + "step": 43330 + }, + { + "epoch": 115.57333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.000495980445634221, + "loss": 0.3132, + "step": 43340 + }, + { + "epoch": 115.6, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004959785738766157, + "loss": 0.3101, + "step": 43350 + }, + { + "epoch": 115.62666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004959767016868413, + "loss": 0.3052, + "step": 43360 + }, + { + "epoch": 115.65333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004959748290649011, + "loss": 0.3186, + "step": 43370 + }, + { + "epoch": 115.68, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004959729560107983, + "loss": 0.3071, + "step": 43380 + }, + { + "epoch": 115.70666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004959710825245361, + "loss": 0.3076, + "step": 43390 + }, + { + "epoch": 115.73333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004959692086061181, + "loss": 0.3235, + "step": 43400 + }, + { + "epoch": 115.76, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004959673342555474, + "loss": 0.3248, + "step": 43410 + }, + { + "epoch": 115.78666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004959654594728272, + "loss": 0.326, + "step": 43420 + }, + { + "epoch": 115.81333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004959635842579611, + "loss": 0.308, + "step": 43430 + }, + { + "epoch": 115.84, + "grad_norm": 0.17578125, + "learning_rate": 0.000495961708610952, + "loss": 0.3074, + "step": 43440 + }, + { + "epoch": 115.86666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004959598325318034, + "loss": 0.3097, + "step": 43450 + }, + { + "epoch": 115.89333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004959579560205187, + "loss": 0.3093, + "step": 43460 + }, + { + "epoch": 115.92, + "grad_norm": 0.205078125, + "learning_rate": 0.0004959560790771011, + "loss": 0.3106, + "step": 43470 + }, + { + "epoch": 115.94666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004959542017015538, + "loss": 0.3131, + "step": 43480 + }, + { + "epoch": 115.97333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004959523238938802, + "loss": 0.3198, + "step": 43490 + }, + { + "epoch": 116.0, + "grad_norm": 0.287109375, + "learning_rate": 0.0004959504456540835, + "loss": 0.3082, + "step": 43500 + }, + { + "epoch": 116.0, + "eval_loss": 0.4005337953567505, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.791, + "eval_samples_per_second": 1.483, + "eval_steps_per_second": 0.093, + "step": 43500 + }, + { + "epoch": 116.02666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004959485669821672, + "loss": 0.3314, + "step": 43510 + }, + { + "epoch": 116.05333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004959466878781345, + "loss": 0.3369, + "step": 43520 + }, + { + "epoch": 116.08, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004959448083419886, + "loss": 0.321, + "step": 43530 + }, + { + "epoch": 116.10666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004959429283737329, + "loss": 0.3233, + "step": 43540 + }, + { + "epoch": 116.13333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004959410479733708, + "loss": 0.3144, + "step": 43550 + }, + { + "epoch": 116.16, + "grad_norm": 0.21875, + "learning_rate": 0.0004959391671409053, + "loss": 0.3219, + "step": 43560 + }, + { + "epoch": 116.18666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.00049593728587634, + "loss": 0.316, + "step": 43570 + }, + { + "epoch": 116.21333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004959354041796781, + "loss": 0.3047, + "step": 43580 + }, + { + "epoch": 116.24, + "grad_norm": 0.21484375, + "learning_rate": 0.0004959335220509229, + "loss": 0.3089, + "step": 43590 + }, + { + "epoch": 116.26666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004959316394900778, + "loss": 0.3152, + "step": 43600 + }, + { + "epoch": 116.29333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004959297564971458, + "loss": 0.3112, + "step": 43610 + }, + { + "epoch": 116.32, + "grad_norm": 0.181640625, + "learning_rate": 0.0004959278730721307, + "loss": 0.3179, + "step": 43620 + }, + { + "epoch": 116.34666666666666, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004959259892150354, + "loss": 0.3173, + "step": 43630 + }, + { + "epoch": 116.37333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0004959241049258634, + "loss": 0.3096, + "step": 43640 + }, + { + "epoch": 116.4, + "grad_norm": 0.18359375, + "learning_rate": 0.0004959222202046179, + "loss": 0.3112, + "step": 43650 + }, + { + "epoch": 116.42666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004959203350513023, + "loss": 0.3177, + "step": 43660 + }, + { + "epoch": 116.45333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004959184494659199, + "loss": 0.3264, + "step": 43670 + }, + { + "epoch": 116.48, + "grad_norm": 0.1787109375, + "learning_rate": 0.000495916563448474, + "loss": 0.3219, + "step": 43680 + }, + { + "epoch": 116.50666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004959146769989678, + "loss": 0.3191, + "step": 43690 + }, + { + "epoch": 116.53333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004959127901174048, + "loss": 0.3134, + "step": 43700 + }, + { + "epoch": 116.56, + "grad_norm": 0.265625, + "learning_rate": 0.0004959109028037883, + "loss": 0.3106, + "step": 43710 + }, + { + "epoch": 116.58666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004959090150581215, + "loss": 0.3134, + "step": 43720 + }, + { + "epoch": 116.61333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004959071268804078, + "loss": 0.3055, + "step": 43730 + }, + { + "epoch": 116.64, + "grad_norm": 0.173828125, + "learning_rate": 0.0004959052382706504, + "loss": 0.3074, + "step": 43740 + }, + { + "epoch": 116.66666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004959033492288529, + "loss": 0.3225, + "step": 43750 + }, + { + "epoch": 116.69333333333333, + "grad_norm": 0.349609375, + "learning_rate": 0.0004959014597550182, + "loss": 0.3016, + "step": 43760 + }, + { + "epoch": 116.72, + "grad_norm": 0.2333984375, + "learning_rate": 0.00049589956984915, + "loss": 0.3177, + "step": 43770 + }, + { + "epoch": 116.74666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004958976795112514, + "loss": 0.3188, + "step": 43780 + }, + { + "epoch": 116.77333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004958957887413258, + "loss": 0.3305, + "step": 43790 + }, + { + "epoch": 116.8, + "grad_norm": 0.197265625, + "learning_rate": 0.0004958938975393766, + "loss": 0.3166, + "step": 43800 + }, + { + "epoch": 116.82666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004958920059054069, + "loss": 0.3057, + "step": 43810 + }, + { + "epoch": 116.85333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004958901138394202, + "loss": 0.3095, + "step": 43820 + }, + { + "epoch": 116.88, + "grad_norm": 0.1796875, + "learning_rate": 0.0004958882213414198, + "loss": 0.3082, + "step": 43830 + }, + { + "epoch": 116.90666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004958863284114089, + "loss": 0.3105, + "step": 43840 + }, + { + "epoch": 116.93333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004958844350493911, + "loss": 0.3109, + "step": 43850 + }, + { + "epoch": 116.96, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004958825412553694, + "loss": 0.3114, + "step": 43860 + }, + { + "epoch": 116.98666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004958806470293474, + "loss": 0.3234, + "step": 43870 + }, + { + "epoch": 117.0, + "eval_loss": 0.39964839816093445, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6258, + "eval_samples_per_second": 1.506, + "eval_steps_per_second": 0.094, + "step": 43875 + }, + { + "epoch": 117.01333333333334, + "grad_norm": 0.255859375, + "learning_rate": 0.0004958787523713283, + "loss": 0.3134, + "step": 43880 + }, + { + "epoch": 117.04, + "grad_norm": 0.21484375, + "learning_rate": 0.0004958768572813154, + "loss": 0.3405, + "step": 43890 + }, + { + "epoch": 117.06666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004958749617593122, + "loss": 0.325, + "step": 43900 + }, + { + "epoch": 117.09333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004958730658053217, + "loss": 0.3223, + "step": 43910 + }, + { + "epoch": 117.12, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004958711694193475, + "loss": 0.3179, + "step": 43920 + }, + { + "epoch": 117.14666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004958692726013929, + "loss": 0.3188, + "step": 43930 + }, + { + "epoch": 117.17333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004958673753514612, + "loss": 0.319, + "step": 43940 + }, + { + "epoch": 117.2, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004958654776695557, + "loss": 0.3118, + "step": 43950 + }, + { + "epoch": 117.22666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004958635795556798, + "loss": 0.3064, + "step": 43960 + }, + { + "epoch": 117.25333333333333, + "grad_norm": 0.2734375, + "learning_rate": 0.0004958616810098368, + "loss": 0.3063, + "step": 43970 + }, + { + "epoch": 117.28, + "grad_norm": 0.21875, + "learning_rate": 0.0004958597820320299, + "loss": 0.3244, + "step": 43980 + }, + { + "epoch": 117.30666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.0004958578826222629, + "loss": 0.3063, + "step": 43990 + }, + { + "epoch": 117.33333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004958559827805385, + "loss": 0.3206, + "step": 44000 + }, + { + "epoch": 117.36, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004958540825068605, + "loss": 0.3117, + "step": 44010 + }, + { + "epoch": 117.38666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.000495852181801232, + "loss": 0.3096, + "step": 44020 + }, + { + "epoch": 117.41333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004958502806636564, + "loss": 0.3152, + "step": 44030 + }, + { + "epoch": 117.44, + "grad_norm": 0.2109375, + "learning_rate": 0.0004958483790941372, + "loss": 0.3223, + "step": 44040 + }, + { + "epoch": 117.46666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004958464770926775, + "loss": 0.3262, + "step": 44050 + }, + { + "epoch": 117.49333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004958445746592807, + "loss": 0.3159, + "step": 44060 + }, + { + "epoch": 117.52, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004958426717939504, + "loss": 0.3197, + "step": 44070 + }, + { + "epoch": 117.54666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004958407684966895, + "loss": 0.3102, + "step": 44080 + }, + { + "epoch": 117.57333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004958388647675017, + "loss": 0.3136, + "step": 44090 + }, + { + "epoch": 117.6, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004958369606063902, + "loss": 0.3089, + "step": 44100 + }, + { + "epoch": 117.62666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004958350560133584, + "loss": 0.3046, + "step": 44110 + }, + { + "epoch": 117.65333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004958331509884095, + "loss": 0.3181, + "step": 44120 + }, + { + "epoch": 117.68, + "grad_norm": 0.1943359375, + "learning_rate": 0.000495831245531547, + "loss": 0.3065, + "step": 44130 + }, + { + "epoch": 117.70666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004958293396427743, + "loss": 0.3069, + "step": 44140 + }, + { + "epoch": 117.73333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004958274333220946, + "loss": 0.3235, + "step": 44150 + }, + { + "epoch": 117.76, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004958255265695113, + "loss": 0.3244, + "step": 44160 + }, + { + "epoch": 117.78666666666666, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004958236193850277, + "loss": 0.3249, + "step": 44170 + }, + { + "epoch": 117.81333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.0004958217117686473, + "loss": 0.3078, + "step": 44180 + }, + { + "epoch": 117.84, + "grad_norm": 0.17578125, + "learning_rate": 0.0004958198037203733, + "loss": 0.3071, + "step": 44190 + }, + { + "epoch": 117.86666666666666, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004958178952402092, + "loss": 0.3088, + "step": 44200 + }, + { + "epoch": 117.89333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004958159863281582, + "loss": 0.3092, + "step": 44210 + }, + { + "epoch": 117.92, + "grad_norm": 0.28125, + "learning_rate": 0.0004958140769842238, + "loss": 0.3112, + "step": 44220 + }, + { + "epoch": 117.94666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004958121672084091, + "loss": 0.3119, + "step": 44230 + }, + { + "epoch": 117.97333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004958102570007178, + "loss": 0.3196, + "step": 44240 + }, + { + "epoch": 118.0, + "grad_norm": 0.2041015625, + "learning_rate": 0.000495808346361153, + "loss": 0.3081, + "step": 44250 + }, + { + "epoch": 118.0, + "eval_loss": 0.3994916081428528, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.3217, + "eval_samples_per_second": 1.299, + "eval_steps_per_second": 0.081, + "step": 44250 + }, + { + "epoch": 118.02666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004958064352897181, + "loss": 0.3306, + "step": 44260 + }, + { + "epoch": 118.05333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004958045237864166, + "loss": 0.3371, + "step": 44270 + }, + { + "epoch": 118.08, + "grad_norm": 0.373046875, + "learning_rate": 0.0004958026118512517, + "loss": 0.3207, + "step": 44280 + }, + { + "epoch": 118.10666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0004958006994842267, + "loss": 0.3224, + "step": 44290 + }, + { + "epoch": 118.13333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004957987866853453, + "loss": 0.3141, + "step": 44300 + }, + { + "epoch": 118.16, + "grad_norm": 0.201171875, + "learning_rate": 0.0004957968734546106, + "loss": 0.3215, + "step": 44310 + }, + { + "epoch": 118.18666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004957949597920258, + "loss": 0.3165, + "step": 44320 + }, + { + "epoch": 118.21333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004957930456975946, + "loss": 0.3052, + "step": 44330 + }, + { + "epoch": 118.24, + "grad_norm": 0.349609375, + "learning_rate": 0.0004957911311713202, + "loss": 0.3091, + "step": 44340 + }, + { + "epoch": 118.26666666666667, + "grad_norm": 0.59375, + "learning_rate": 0.000495789216213206, + "loss": 0.3152, + "step": 44350 + }, + { + "epoch": 118.29333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004957873008232554, + "loss": 0.3105, + "step": 44360 + }, + { + "epoch": 118.32, + "grad_norm": 0.265625, + "learning_rate": 0.0004957853850014717, + "loss": 0.3176, + "step": 44370 + }, + { + "epoch": 118.34666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004957834687478582, + "loss": 0.3168, + "step": 44380 + }, + { + "epoch": 118.37333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004957815520624184, + "loss": 0.3089, + "step": 44390 + }, + { + "epoch": 118.4, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004957796349451557, + "loss": 0.3105, + "step": 44400 + }, + { + "epoch": 118.42666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004957777173960733, + "loss": 0.3176, + "step": 44410 + }, + { + "epoch": 118.45333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004957757994151746, + "loss": 0.3256, + "step": 44420 + }, + { + "epoch": 118.48, + "grad_norm": 0.23046875, + "learning_rate": 0.0004957738810024632, + "loss": 0.3212, + "step": 44430 + }, + { + "epoch": 118.50666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004957719621579421, + "loss": 0.3184, + "step": 44440 + }, + { + "epoch": 118.53333333333333, + "grad_norm": 0.16015625, + "learning_rate": 0.0004957700428816149, + "loss": 0.3133, + "step": 44450 + }, + { + "epoch": 118.56, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004957681231734849, + "loss": 0.31, + "step": 44460 + }, + { + "epoch": 118.58666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004957662030335557, + "loss": 0.3138, + "step": 44470 + }, + { + "epoch": 118.61333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004957642824618304, + "loss": 0.305, + "step": 44480 + }, + { + "epoch": 118.64, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004957623614583124, + "loss": 0.3067, + "step": 44490 + }, + { + "epoch": 118.66666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004957604400230052, + "loss": 0.322, + "step": 44500 + }, + { + "epoch": 118.69333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.000495758518155912, + "loss": 0.3005, + "step": 44510 + }, + { + "epoch": 118.72, + "grad_norm": 0.20703125, + "learning_rate": 0.0004957565958570363, + "loss": 0.3166, + "step": 44520 + }, + { + "epoch": 118.74666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004957546731263816, + "loss": 0.3185, + "step": 44530 + }, + { + "epoch": 118.77333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004957527499639511, + "loss": 0.3292, + "step": 44540 + }, + { + "epoch": 118.8, + "grad_norm": 0.34765625, + "learning_rate": 0.0004957508263697481, + "loss": 0.3163, + "step": 44550 + }, + { + "epoch": 118.82666666666667, + "grad_norm": 0.3203125, + "learning_rate": 0.0004957489023437763, + "loss": 0.3048, + "step": 44560 + }, + { + "epoch": 118.85333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004957469778860388, + "loss": 0.309, + "step": 44570 + }, + { + "epoch": 118.88, + "grad_norm": 0.25390625, + "learning_rate": 0.0004957450529965389, + "loss": 0.3081, + "step": 44580 + }, + { + "epoch": 118.90666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004957431276752803, + "loss": 0.3102, + "step": 44590 + }, + { + "epoch": 118.93333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004957412019222662, + "loss": 0.3107, + "step": 44600 + }, + { + "epoch": 118.96, + "grad_norm": 0.181640625, + "learning_rate": 0.0004957392757375, + "loss": 0.311, + "step": 44610 + }, + { + "epoch": 118.98666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004957373491209852, + "loss": 0.3224, + "step": 44620 + }, + { + "epoch": 119.0, + "eval_loss": 0.39924654364585876, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8152, + "eval_samples_per_second": 1.479, + "eval_steps_per_second": 0.092, + "step": 44625 + }, + { + "epoch": 119.01333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004957354220727249, + "loss": 0.3132, + "step": 44630 + }, + { + "epoch": 119.04, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004957334945927227, + "loss": 0.3396, + "step": 44640 + }, + { + "epoch": 119.06666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004957315666809821, + "loss": 0.3238, + "step": 44650 + }, + { + "epoch": 119.09333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004957296383375062, + "loss": 0.3213, + "step": 44660 + }, + { + "epoch": 119.12, + "grad_norm": 0.220703125, + "learning_rate": 0.0004957277095622985, + "loss": 0.3176, + "step": 44670 + }, + { + "epoch": 119.14666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004957257803553625, + "loss": 0.3188, + "step": 44680 + }, + { + "epoch": 119.17333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004957238507167014, + "loss": 0.3192, + "step": 44690 + }, + { + "epoch": 119.2, + "grad_norm": 0.22265625, + "learning_rate": 0.0004957219206463188, + "loss": 0.3116, + "step": 44700 + }, + { + "epoch": 119.22666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.000495719990144218, + "loss": 0.3055, + "step": 44710 + }, + { + "epoch": 119.25333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004957180592104023, + "loss": 0.3054, + "step": 44720 + }, + { + "epoch": 119.28, + "grad_norm": 0.19921875, + "learning_rate": 0.0004957161278448753, + "loss": 0.3239, + "step": 44730 + }, + { + "epoch": 119.30666666666667, + "grad_norm": 0.2734375, + "learning_rate": 0.0004957141960476401, + "loss": 0.3059, + "step": 44740 + }, + { + "epoch": 119.33333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004957122638187004, + "loss": 0.3206, + "step": 44750 + }, + { + "epoch": 119.36, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004957103311580593, + "loss": 0.3117, + "step": 44760 + }, + { + "epoch": 119.38666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.0004957083980657204, + "loss": 0.3084, + "step": 44770 + }, + { + "epoch": 119.41333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004957064645416871, + "loss": 0.3148, + "step": 44780 + }, + { + "epoch": 119.44, + "grad_norm": 0.232421875, + "learning_rate": 0.0004957045305859628, + "loss": 0.3218, + "step": 44790 + }, + { + "epoch": 119.46666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004957025961985507, + "loss": 0.3254, + "step": 44800 + }, + { + "epoch": 119.49333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004957006613794543, + "loss": 0.315, + "step": 44810 + }, + { + "epoch": 119.52, + "grad_norm": 0.171875, + "learning_rate": 0.0004956987261286772, + "loss": 0.3188, + "step": 44820 + }, + { + "epoch": 119.54666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004956967904462225, + "loss": 0.3091, + "step": 44830 + }, + { + "epoch": 119.57333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004956948543320939, + "loss": 0.3118, + "step": 44840 + }, + { + "epoch": 119.6, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004956929177862945, + "loss": 0.3086, + "step": 44850 + }, + { + "epoch": 119.62666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004956909808088278, + "loss": 0.3043, + "step": 44860 + }, + { + "epoch": 119.65333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004956890433996974, + "loss": 0.3173, + "step": 44870 + }, + { + "epoch": 119.68, + "grad_norm": 0.30078125, + "learning_rate": 0.0004956871055589064, + "loss": 0.3061, + "step": 44880 + }, + { + "epoch": 119.70666666666666, + "grad_norm": 0.408203125, + "learning_rate": 0.0004956851672864585, + "loss": 0.3068, + "step": 44890 + }, + { + "epoch": 119.73333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004956832285823568, + "loss": 0.3227, + "step": 44900 + }, + { + "epoch": 119.76, + "grad_norm": 0.25, + "learning_rate": 0.000495681289446605, + "loss": 0.3244, + "step": 44910 + }, + { + "epoch": 119.78666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004956793498792064, + "loss": 0.3245, + "step": 44920 + }, + { + "epoch": 119.81333333333333, + "grad_norm": 0.3515625, + "learning_rate": 0.0004956774098801642, + "loss": 0.3073, + "step": 44930 + }, + { + "epoch": 119.84, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004956754694494822, + "loss": 0.3067, + "step": 44940 + }, + { + "epoch": 119.86666666666666, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004956735285871634, + "loss": 0.3081, + "step": 44950 + }, + { + "epoch": 119.89333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004956715872932115, + "loss": 0.3087, + "step": 44960 + }, + { + "epoch": 119.92, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004956696455676299, + "loss": 0.3109, + "step": 44970 + }, + { + "epoch": 119.94666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004956677034104218, + "loss": 0.312, + "step": 44980 + }, + { + "epoch": 119.97333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004956657608215908, + "loss": 0.3195, + "step": 44990 + }, + { + "epoch": 120.0, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004956638178011402, + "loss": 0.3077, + "step": 45000 + }, + { + "epoch": 120.0, + "eval_loss": 0.39817091822624207, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4022, + "eval_samples_per_second": 1.403, + "eval_steps_per_second": 0.088, + "step": 45000 + }, + { + "epoch": 120.02666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004956618743490735, + "loss": 0.3305, + "step": 45010 + }, + { + "epoch": 120.05333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.000495659930465394, + "loss": 0.3367, + "step": 45020 + }, + { + "epoch": 120.08, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004956579861501054, + "loss": 0.3204, + "step": 45030 + }, + { + "epoch": 120.10666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004956560414032107, + "loss": 0.322, + "step": 45040 + }, + { + "epoch": 120.13333333333334, + "grad_norm": 0.279296875, + "learning_rate": 0.0004956540962247137, + "loss": 0.3137, + "step": 45050 + }, + { + "epoch": 120.16, + "grad_norm": 0.21875, + "learning_rate": 0.0004956521506146176, + "loss": 0.3206, + "step": 45060 + }, + { + "epoch": 120.18666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004956502045729259, + "loss": 0.3156, + "step": 45070 + }, + { + "epoch": 120.21333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004956482580996418, + "loss": 0.3044, + "step": 45080 + }, + { + "epoch": 120.24, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004956463111947691, + "loss": 0.309, + "step": 45090 + }, + { + "epoch": 120.26666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.000495644363858311, + "loss": 0.3146, + "step": 45100 + }, + { + "epoch": 120.29333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.000495642416090271, + "loss": 0.3109, + "step": 45110 + }, + { + "epoch": 120.32, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004956404678906523, + "loss": 0.3174, + "step": 45120 + }, + { + "epoch": 120.34666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004956385192594585, + "loss": 0.3164, + "step": 45130 + }, + { + "epoch": 120.37333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004956365701966932, + "loss": 0.309, + "step": 45140 + }, + { + "epoch": 120.4, + "grad_norm": 0.2109375, + "learning_rate": 0.0004956346207023595, + "loss": 0.3102, + "step": 45150 + }, + { + "epoch": 120.42666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.000495632670776461, + "loss": 0.3173, + "step": 45160 + }, + { + "epoch": 120.45333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004956307204190012, + "loss": 0.3255, + "step": 45170 + }, + { + "epoch": 120.48, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004956287696299832, + "loss": 0.3211, + "step": 45180 + }, + { + "epoch": 120.50666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004956268184094109, + "loss": 0.3178, + "step": 45190 + }, + { + "epoch": 120.53333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004956248667572872, + "loss": 0.3127, + "step": 45200 + }, + { + "epoch": 120.56, + "grad_norm": 0.1806640625, + "learning_rate": 0.000495622914673616, + "loss": 0.3096, + "step": 45210 + }, + { + "epoch": 120.58666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004956209621584005, + "loss": 0.3125, + "step": 45220 + }, + { + "epoch": 120.61333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.000495619009211644, + "loss": 0.3049, + "step": 45230 + }, + { + "epoch": 120.64, + "grad_norm": 0.19921875, + "learning_rate": 0.0004956170558333503, + "loss": 0.3063, + "step": 45240 + }, + { + "epoch": 120.66666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004956151020235226, + "loss": 0.3215, + "step": 45250 + }, + { + "epoch": 120.69333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004956131477821642, + "loss": 0.3011, + "step": 45260 + }, + { + "epoch": 120.72, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004956111931092789, + "loss": 0.3166, + "step": 45270 + }, + { + "epoch": 120.74666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004956092380048698, + "loss": 0.3179, + "step": 45280 + }, + { + "epoch": 120.77333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004956072824689405, + "loss": 0.329, + "step": 45290 + }, + { + "epoch": 120.8, + "grad_norm": 0.28515625, + "learning_rate": 0.0004956053265014943, + "loss": 0.3158, + "step": 45300 + }, + { + "epoch": 120.82666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0004956033701025349, + "loss": 0.3048, + "step": 45310 + }, + { + "epoch": 120.85333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004956014132720656, + "loss": 0.3084, + "step": 45320 + }, + { + "epoch": 120.88, + "grad_norm": 0.2265625, + "learning_rate": 0.0004955994560100896, + "loss": 0.308, + "step": 45330 + }, + { + "epoch": 120.90666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004955974983166107, + "loss": 0.3103, + "step": 45340 + }, + { + "epoch": 120.93333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0004955955401916321, + "loss": 0.3096, + "step": 45350 + }, + { + "epoch": 120.96, + "grad_norm": 0.248046875, + "learning_rate": 0.0004955935816351575, + "loss": 0.3102, + "step": 45360 + }, + { + "epoch": 120.98666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.00049559162264719, + "loss": 0.3217, + "step": 45370 + }, + { + "epoch": 121.0, + "eval_loss": 0.400937020778656, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5213, + "eval_samples_per_second": 1.389, + "eval_steps_per_second": 0.087, + "step": 45375 + }, + { + "epoch": 121.01333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004955896632277332, + "loss": 0.3129, + "step": 45380 + }, + { + "epoch": 121.04, + "grad_norm": 0.169921875, + "learning_rate": 0.0004955877033767906, + "loss": 0.3394, + "step": 45390 + }, + { + "epoch": 121.06666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0004955857430943657, + "loss": 0.3238, + "step": 45400 + }, + { + "epoch": 121.09333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004955837823804616, + "loss": 0.3206, + "step": 45410 + }, + { + "epoch": 121.12, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004955818212350823, + "loss": 0.3176, + "step": 45420 + }, + { + "epoch": 121.14666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004955798596582307, + "loss": 0.3187, + "step": 45430 + }, + { + "epoch": 121.17333333333333, + "grad_norm": 0.35546875, + "learning_rate": 0.0004955778976499105, + "loss": 0.3179, + "step": 45440 + }, + { + "epoch": 121.2, + "grad_norm": 0.19921875, + "learning_rate": 0.0004955759352101252, + "loss": 0.3108, + "step": 45450 + }, + { + "epoch": 121.22666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004955739723388782, + "loss": 0.3056, + "step": 45460 + }, + { + "epoch": 121.25333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004955720090361727, + "loss": 0.3056, + "step": 45470 + }, + { + "epoch": 121.28, + "grad_norm": 0.2109375, + "learning_rate": 0.0004955700453020127, + "loss": 0.3233, + "step": 45480 + }, + { + "epoch": 121.30666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.000495568081136401, + "loss": 0.3057, + "step": 45490 + }, + { + "epoch": 121.33333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004955661165393416, + "loss": 0.3201, + "step": 45500 + }, + { + "epoch": 121.36, + "grad_norm": 0.255859375, + "learning_rate": 0.0004955641515108377, + "loss": 0.3113, + "step": 45510 + }, + { + "epoch": 121.38666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0004955621860508926, + "loss": 0.3088, + "step": 45520 + }, + { + "epoch": 121.41333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004955602201595101, + "loss": 0.3144, + "step": 45530 + }, + { + "epoch": 121.44, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004955582538366934, + "loss": 0.3217, + "step": 45540 + }, + { + "epoch": 121.46666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004955562870824461, + "loss": 0.3254, + "step": 45550 + }, + { + "epoch": 121.49333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004955543198967716, + "loss": 0.3142, + "step": 45560 + }, + { + "epoch": 121.52, + "grad_norm": 0.185546875, + "learning_rate": 0.0004955523522796733, + "loss": 0.3193, + "step": 45570 + }, + { + "epoch": 121.54666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004955503842311547, + "loss": 0.309, + "step": 45580 + }, + { + "epoch": 121.57333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004955484157512193, + "loss": 0.3122, + "step": 45590 + }, + { + "epoch": 121.6, + "grad_norm": 0.203125, + "learning_rate": 0.0004955464468398706, + "loss": 0.3081, + "step": 45600 + }, + { + "epoch": 121.62666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004955444774971118, + "loss": 0.3038, + "step": 45610 + }, + { + "epoch": 121.65333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004955425077229467, + "loss": 0.3177, + "step": 45620 + }, + { + "epoch": 121.68, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004955405375173785, + "loss": 0.3056, + "step": 45630 + }, + { + "epoch": 121.70666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004955385668804108, + "loss": 0.3062, + "step": 45640 + }, + { + "epoch": 121.73333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.000495536595812047, + "loss": 0.3222, + "step": 45650 + }, + { + "epoch": 121.76, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004955346243122907, + "loss": 0.3237, + "step": 45660 + }, + { + "epoch": 121.78666666666666, + "grad_norm": 0.169921875, + "learning_rate": 0.0004955326523811451, + "loss": 0.3238, + "step": 45670 + }, + { + "epoch": 121.81333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.000495530680018614, + "loss": 0.3065, + "step": 45680 + }, + { + "epoch": 121.84, + "grad_norm": 0.22265625, + "learning_rate": 0.0004955287072247005, + "loss": 0.3066, + "step": 45690 + }, + { + "epoch": 121.86666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004955267339994084, + "loss": 0.308, + "step": 45700 + }, + { + "epoch": 121.89333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004955247603427408, + "loss": 0.3081, + "step": 45710 + }, + { + "epoch": 121.92, + "grad_norm": 0.197265625, + "learning_rate": 0.0004955227862547016, + "loss": 0.3096, + "step": 45720 + }, + { + "epoch": 121.94666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.000495520811735294, + "loss": 0.3114, + "step": 45730 + }, + { + "epoch": 121.97333333333333, + "grad_norm": 0.287109375, + "learning_rate": 0.0004955188367845215, + "loss": 0.3184, + "step": 45740 + }, + { + "epoch": 122.0, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004955168614023876, + "loss": 0.3067, + "step": 45750 + }, + { + "epoch": 122.0, + "eval_loss": 0.39838284254074097, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1089, + "eval_samples_per_second": 1.44, + "eval_steps_per_second": 0.09, + "step": 45750 + }, + { + "epoch": 122.02666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004955148855888957, + "loss": 0.3296, + "step": 45760 + }, + { + "epoch": 122.05333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004955129093440494, + "loss": 0.336, + "step": 45770 + }, + { + "epoch": 122.08, + "grad_norm": 0.2890625, + "learning_rate": 0.000495510932667852, + "loss": 0.3202, + "step": 45780 + }, + { + "epoch": 122.10666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004955089555603073, + "loss": 0.3215, + "step": 45790 + }, + { + "epoch": 122.13333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.0004955069780214185, + "loss": 0.3135, + "step": 45800 + }, + { + "epoch": 122.16, + "grad_norm": 0.1875, + "learning_rate": 0.0004955050000511889, + "loss": 0.3205, + "step": 45810 + }, + { + "epoch": 122.18666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004955030216496224, + "loss": 0.3159, + "step": 45820 + }, + { + "epoch": 122.21333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004955010428167223, + "loss": 0.3045, + "step": 45830 + }, + { + "epoch": 122.24, + "grad_norm": 0.18359375, + "learning_rate": 0.0004954990635524919, + "loss": 0.3083, + "step": 45840 + }, + { + "epoch": 122.26666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.000495497083856935, + "loss": 0.3142, + "step": 45850 + }, + { + "epoch": 122.29333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004954951037300547, + "loss": 0.3097, + "step": 45860 + }, + { + "epoch": 122.32, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004954931231718548, + "loss": 0.3168, + "step": 45870 + }, + { + "epoch": 122.34666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004954911421823387, + "loss": 0.3154, + "step": 45880 + }, + { + "epoch": 122.37333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004954891607615099, + "loss": 0.3081, + "step": 45890 + }, + { + "epoch": 122.4, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004954871789093718, + "loss": 0.3098, + "step": 45900 + }, + { + "epoch": 122.42666666666666, + "grad_norm": 0.1640625, + "learning_rate": 0.0004954851966259278, + "loss": 0.3167, + "step": 45910 + }, + { + "epoch": 122.45333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004954832139111815, + "loss": 0.3246, + "step": 45920 + }, + { + "epoch": 122.48, + "grad_norm": 0.203125, + "learning_rate": 0.0004954812307651365, + "loss": 0.3212, + "step": 45930 + }, + { + "epoch": 122.50666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004954792471877961, + "loss": 0.3168, + "step": 45940 + }, + { + "epoch": 122.53333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004954772631791638, + "loss": 0.3121, + "step": 45950 + }, + { + "epoch": 122.56, + "grad_norm": 0.248046875, + "learning_rate": 0.0004954752787392433, + "loss": 0.3098, + "step": 45960 + }, + { + "epoch": 122.58666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004954732938680377, + "loss": 0.3116, + "step": 45970 + }, + { + "epoch": 122.61333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004954713085655509, + "loss": 0.3047, + "step": 45980 + }, + { + "epoch": 122.64, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004954693228317862, + "loss": 0.3055, + "step": 45990 + }, + { + "epoch": 122.66666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.000495467336666747, + "loss": 0.3219, + "step": 46000 + }, + { + "epoch": 122.69333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0004954653500704368, + "loss": 0.3, + "step": 46010 + }, + { + "epoch": 122.72, + "grad_norm": 0.2578125, + "learning_rate": 0.0004954633630428593, + "loss": 0.3161, + "step": 46020 + }, + { + "epoch": 122.74666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004954613755840178, + "loss": 0.3178, + "step": 46030 + }, + { + "epoch": 122.77333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004954593876939158, + "loss": 0.3292, + "step": 46040 + }, + { + "epoch": 122.8, + "grad_norm": 0.18359375, + "learning_rate": 0.0004954573993725569, + "loss": 0.3154, + "step": 46050 + }, + { + "epoch": 122.82666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004954554106199444, + "loss": 0.304, + "step": 46060 + }, + { + "epoch": 122.85333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004954534214360821, + "loss": 0.3085, + "step": 46070 + }, + { + "epoch": 122.88, + "grad_norm": 0.30078125, + "learning_rate": 0.0004954514318209732, + "loss": 0.3075, + "step": 46080 + }, + { + "epoch": 122.90666666666667, + "grad_norm": 0.32421875, + "learning_rate": 0.0004954494417746214, + "loss": 0.3096, + "step": 46090 + }, + { + "epoch": 122.93333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.00049544745129703, + "loss": 0.3104, + "step": 46100 + }, + { + "epoch": 122.96, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004954454603882028, + "loss": 0.3094, + "step": 46110 + }, + { + "epoch": 122.98666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.000495443469048143, + "loss": 0.3218, + "step": 46120 + }, + { + "epoch": 123.0, + "eval_loss": 0.4006408751010895, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.8192, + "eval_samples_per_second": 1.248, + "eval_steps_per_second": 0.078, + "step": 46125 + }, + { + "epoch": 123.01333333333334, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004954414772768542, + "loss": 0.3123, + "step": 46130 + }, + { + "epoch": 123.04, + "grad_norm": 0.244140625, + "learning_rate": 0.0004954394850743399, + "loss": 0.3393, + "step": 46140 + }, + { + "epoch": 123.06666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004954374924406036, + "loss": 0.3235, + "step": 46150 + }, + { + "epoch": 123.09333333333333, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004954354993756489, + "loss": 0.3207, + "step": 46160 + }, + { + "epoch": 123.12, + "grad_norm": 0.20703125, + "learning_rate": 0.0004954335058794792, + "loss": 0.3165, + "step": 46170 + }, + { + "epoch": 123.14666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.000495431511952098, + "loss": 0.318, + "step": 46180 + }, + { + "epoch": 123.17333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004954295175935088, + "loss": 0.3177, + "step": 46190 + }, + { + "epoch": 123.2, + "grad_norm": 0.2490234375, + "learning_rate": 0.000495427522803715, + "loss": 0.3112, + "step": 46200 + }, + { + "epoch": 123.22666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004954255275827203, + "loss": 0.3053, + "step": 46210 + }, + { + "epoch": 123.25333333333333, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004954235319305282, + "loss": 0.3048, + "step": 46220 + }, + { + "epoch": 123.28, + "grad_norm": 0.25390625, + "learning_rate": 0.0004954215358471421, + "loss": 0.3236, + "step": 46230 + }, + { + "epoch": 123.30666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004954195393325656, + "loss": 0.3046, + "step": 46240 + }, + { + "epoch": 123.33333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.0004954175423868021, + "loss": 0.3195, + "step": 46250 + }, + { + "epoch": 123.36, + "grad_norm": 0.193359375, + "learning_rate": 0.0004954155450098551, + "loss": 0.3107, + "step": 46260 + }, + { + "epoch": 123.38666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004954135472017282, + "loss": 0.3078, + "step": 46270 + }, + { + "epoch": 123.41333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004954115489624249, + "loss": 0.3137, + "step": 46280 + }, + { + "epoch": 123.44, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004954095502919487, + "loss": 0.3212, + "step": 46290 + }, + { + "epoch": 123.46666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.000495407551190303, + "loss": 0.3255, + "step": 46300 + }, + { + "epoch": 123.49333333333334, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004954055516574915, + "loss": 0.3145, + "step": 46310 + }, + { + "epoch": 123.52, + "grad_norm": 0.189453125, + "learning_rate": 0.0004954035516935176, + "loss": 0.3182, + "step": 46320 + }, + { + "epoch": 123.54666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004954015512983849, + "loss": 0.309, + "step": 46330 + }, + { + "epoch": 123.57333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004953995504720968, + "loss": 0.3119, + "step": 46340 + }, + { + "epoch": 123.6, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004953975492146569, + "loss": 0.3084, + "step": 46350 + }, + { + "epoch": 123.62666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004953955475260687, + "loss": 0.3038, + "step": 46360 + }, + { + "epoch": 123.65333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004953935454063357, + "loss": 0.3167, + "step": 46370 + }, + { + "epoch": 123.68, + "grad_norm": 0.181640625, + "learning_rate": 0.0004953915428554613, + "loss": 0.3051, + "step": 46380 + }, + { + "epoch": 123.70666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004953895398734493, + "loss": 0.3068, + "step": 46390 + }, + { + "epoch": 123.73333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.000495387536460303, + "loss": 0.3223, + "step": 46400 + }, + { + "epoch": 123.76, + "grad_norm": 0.2421875, + "learning_rate": 0.0004953855326160259, + "loss": 0.3239, + "step": 46410 + }, + { + "epoch": 123.78666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004953835283406216, + "loss": 0.3239, + "step": 46420 + }, + { + "epoch": 123.81333333333333, + "grad_norm": 0.248046875, + "learning_rate": 0.0004953815236340938, + "loss": 0.3067, + "step": 46430 + }, + { + "epoch": 123.84, + "grad_norm": 0.19921875, + "learning_rate": 0.0004953795184964456, + "loss": 0.3063, + "step": 46440 + }, + { + "epoch": 123.86666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.000495377512927681, + "loss": 0.3079, + "step": 46450 + }, + { + "epoch": 123.89333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004953755069278032, + "loss": 0.3082, + "step": 46460 + }, + { + "epoch": 123.92, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004953735004968158, + "loss": 0.3094, + "step": 46470 + }, + { + "epoch": 123.94666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004953714936347224, + "loss": 0.311, + "step": 46480 + }, + { + "epoch": 123.97333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004953694863415264, + "loss": 0.3187, + "step": 46490 + }, + { + "epoch": 124.0, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004953674786172313, + "loss": 0.3071, + "step": 46500 + }, + { + "epoch": 124.0, + "eval_loss": 0.3988487720489502, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.398, + "eval_samples_per_second": 1.539, + "eval_steps_per_second": 0.096, + "step": 46500 + }, + { + "epoch": 124.02666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004953654704618408, + "loss": 0.3289, + "step": 46510 + }, + { + "epoch": 124.05333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004953634618753583, + "loss": 0.3358, + "step": 46520 + }, + { + "epoch": 124.08, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004953614528577874, + "loss": 0.3195, + "step": 46530 + }, + { + "epoch": 124.10666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004953594434091318, + "loss": 0.3214, + "step": 46540 + }, + { + "epoch": 124.13333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004953574335293945, + "loss": 0.3127, + "step": 46550 + }, + { + "epoch": 124.16, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004953554232185796, + "loss": 0.3196, + "step": 46560 + }, + { + "epoch": 124.18666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004953534124766903, + "loss": 0.3147, + "step": 46570 + }, + { + "epoch": 124.21333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004953514013037304, + "loss": 0.3038, + "step": 46580 + }, + { + "epoch": 124.24, + "grad_norm": 0.2197265625, + "learning_rate": 0.000495349389699703, + "loss": 0.3082, + "step": 46590 + }, + { + "epoch": 124.26666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004953473776646121, + "loss": 0.3135, + "step": 46600 + }, + { + "epoch": 124.29333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.000495345365198461, + "loss": 0.3093, + "step": 46610 + }, + { + "epoch": 124.32, + "grad_norm": 0.177734375, + "learning_rate": 0.0004953433523012531, + "loss": 0.3163, + "step": 46620 + }, + { + "epoch": 124.34666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004953413389729923, + "loss": 0.3155, + "step": 46630 + }, + { + "epoch": 124.37333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.000495339325213682, + "loss": 0.308, + "step": 46640 + }, + { + "epoch": 124.4, + "grad_norm": 0.1875, + "learning_rate": 0.0004953373110233255, + "loss": 0.3091, + "step": 46650 + }, + { + "epoch": 124.42666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004953352964019265, + "loss": 0.3168, + "step": 46660 + }, + { + "epoch": 124.45333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004953332813494888, + "loss": 0.3246, + "step": 46670 + }, + { + "epoch": 124.48, + "grad_norm": 0.234375, + "learning_rate": 0.0004953312658660155, + "loss": 0.3202, + "step": 46680 + }, + { + "epoch": 124.50666666666666, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004953292499515103, + "loss": 0.3173, + "step": 46690 + }, + { + "epoch": 124.53333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.000495327233605977, + "loss": 0.312, + "step": 46700 + }, + { + "epoch": 124.56, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004953252168294188, + "loss": 0.308, + "step": 46710 + }, + { + "epoch": 124.58666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004953231996218393, + "loss": 0.3118, + "step": 46720 + }, + { + "epoch": 124.61333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004953211819832421, + "loss": 0.3039, + "step": 46730 + }, + { + "epoch": 124.64, + "grad_norm": 0.185546875, + "learning_rate": 0.000495319163913631, + "loss": 0.3054, + "step": 46740 + }, + { + "epoch": 124.66666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004953171454130091, + "loss": 0.3213, + "step": 46750 + }, + { + "epoch": 124.69333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004953151264813802, + "loss": 0.2997, + "step": 46760 + }, + { + "epoch": 124.72, + "grad_norm": 0.216796875, + "learning_rate": 0.0004953131071187477, + "loss": 0.3154, + "step": 46770 + }, + { + "epoch": 124.74666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004953110873251155, + "loss": 0.3172, + "step": 46780 + }, + { + "epoch": 124.77333333333333, + "grad_norm": 0.28125, + "learning_rate": 0.0004953090671004867, + "loss": 0.3281, + "step": 46790 + }, + { + "epoch": 124.8, + "grad_norm": 0.2021484375, + "learning_rate": 0.000495307046444865, + "loss": 0.3146, + "step": 46800 + }, + { + "epoch": 124.82666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004953050253582542, + "loss": 0.3039, + "step": 46810 + }, + { + "epoch": 124.85333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004953030038406574, + "loss": 0.3079, + "step": 46820 + }, + { + "epoch": 124.88, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004953009818920786, + "loss": 0.3069, + "step": 46830 + }, + { + "epoch": 124.90666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.000495298959512521, + "loss": 0.3095, + "step": 46840 + }, + { + "epoch": 124.93333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004952969367019884, + "loss": 0.3097, + "step": 46850 + }, + { + "epoch": 124.96, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004952949134604842, + "loss": 0.3092, + "step": 46860 + }, + { + "epoch": 124.98666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.000495292889788012, + "loss": 0.3216, + "step": 46870 + }, + { + "epoch": 125.0, + "eval_loss": 0.3988818824291229, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.4224, + "eval_samples_per_second": 1.288, + "eval_steps_per_second": 0.08, + "step": 46875 + }, + { + "epoch": 125.01333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004952908656845755, + "loss": 0.3123, + "step": 46880 + }, + { + "epoch": 125.04, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004952888411501779, + "loss": 0.3386, + "step": 46890 + }, + { + "epoch": 125.06666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004952868161848232, + "loss": 0.3236, + "step": 46900 + }, + { + "epoch": 125.09333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004952847907885147, + "loss": 0.3202, + "step": 46910 + }, + { + "epoch": 125.12, + "grad_norm": 0.208984375, + "learning_rate": 0.0004952827649612558, + "loss": 0.3166, + "step": 46920 + }, + { + "epoch": 125.14666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004952807387030504, + "loss": 0.3169, + "step": 46930 + }, + { + "epoch": 125.17333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.000495278712013902, + "loss": 0.3172, + "step": 46940 + }, + { + "epoch": 125.2, + "grad_norm": 0.224609375, + "learning_rate": 0.0004952766848938139, + "loss": 0.3105, + "step": 46950 + }, + { + "epoch": 125.22666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004952746573427899, + "loss": 0.3054, + "step": 46960 + }, + { + "epoch": 125.25333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.0004952726293608335, + "loss": 0.3042, + "step": 46970 + }, + { + "epoch": 125.28, + "grad_norm": 0.21484375, + "learning_rate": 0.0004952706009479483, + "loss": 0.3232, + "step": 46980 + }, + { + "epoch": 125.30666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004952685721041378, + "loss": 0.3046, + "step": 46990 + }, + { + "epoch": 125.33333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004952665428294056, + "loss": 0.3196, + "step": 47000 + }, + { + "epoch": 125.36, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004952645131237552, + "loss": 0.3097, + "step": 47010 + }, + { + "epoch": 125.38666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004952624829871904, + "loss": 0.3077, + "step": 47020 + }, + { + "epoch": 125.41333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004952604524197144, + "loss": 0.3132, + "step": 47030 + }, + { + "epoch": 125.44, + "grad_norm": 0.2041015625, + "learning_rate": 0.000495258421421331, + "loss": 0.3209, + "step": 47040 + }, + { + "epoch": 125.46666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004952563899920438, + "loss": 0.3243, + "step": 47050 + }, + { + "epoch": 125.49333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004952543581318562, + "loss": 0.3137, + "step": 47060 + }, + { + "epoch": 125.52, + "grad_norm": 0.19140625, + "learning_rate": 0.0004952523258407719, + "loss": 0.3181, + "step": 47070 + }, + { + "epoch": 125.54666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004952502931187945, + "loss": 0.3085, + "step": 47080 + }, + { + "epoch": 125.57333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004952482599659274, + "loss": 0.311, + "step": 47090 + }, + { + "epoch": 125.6, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004952462263821744, + "loss": 0.3082, + "step": 47100 + }, + { + "epoch": 125.62666666666667, + "grad_norm": 0.4375, + "learning_rate": 0.0004952441923675388, + "loss": 0.3038, + "step": 47110 + }, + { + "epoch": 125.65333333333334, + "grad_norm": 0.396484375, + "learning_rate": 0.0004952421579220243, + "loss": 0.3163, + "step": 47120 + }, + { + "epoch": 125.68, + "grad_norm": 0.341796875, + "learning_rate": 0.0004952401230456348, + "loss": 0.3055, + "step": 47130 + }, + { + "epoch": 125.70666666666666, + "grad_norm": 0.322265625, + "learning_rate": 0.0004952380877383732, + "loss": 0.3066, + "step": 47140 + }, + { + "epoch": 125.73333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0004952360520002437, + "loss": 0.3214, + "step": 47150 + }, + { + "epoch": 125.76, + "grad_norm": 0.224609375, + "learning_rate": 0.0004952340158312495, + "loss": 0.3228, + "step": 47160 + }, + { + "epoch": 125.78666666666666, + "grad_norm": 0.19140625, + "learning_rate": 0.0004952319792313944, + "loss": 0.3242, + "step": 47170 + }, + { + "epoch": 125.81333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004952299422006818, + "loss": 0.306, + "step": 47180 + }, + { + "epoch": 125.84, + "grad_norm": 0.216796875, + "learning_rate": 0.0004952279047391154, + "loss": 0.3059, + "step": 47190 + }, + { + "epoch": 125.86666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004952258668466987, + "loss": 0.308, + "step": 47200 + }, + { + "epoch": 125.89333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004952238285234354, + "loss": 0.3079, + "step": 47210 + }, + { + "epoch": 125.92, + "grad_norm": 0.193359375, + "learning_rate": 0.0004952217897693289, + "loss": 0.3093, + "step": 47220 + }, + { + "epoch": 125.94666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004952197505843829, + "loss": 0.3111, + "step": 47230 + }, + { + "epoch": 125.97333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004952177109686011, + "loss": 0.3182, + "step": 47240 + }, + { + "epoch": 126.0, + "grad_norm": 0.251953125, + "learning_rate": 0.0004952156709219868, + "loss": 0.3072, + "step": 47250 + }, + { + "epoch": 126.0, + "eval_loss": 0.3995479643344879, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.3936, + "eval_samples_per_second": 1.291, + "eval_steps_per_second": 0.081, + "step": 47250 + }, + { + "epoch": 126.02666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004952136304445438, + "loss": 0.329, + "step": 47260 + }, + { + "epoch": 126.05333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004952115895362757, + "loss": 0.3357, + "step": 47270 + }, + { + "epoch": 126.08, + "grad_norm": 0.1953125, + "learning_rate": 0.0004952095481971859, + "loss": 0.3198, + "step": 47280 + }, + { + "epoch": 126.10666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.000495207506427278, + "loss": 0.3216, + "step": 47290 + }, + { + "epoch": 126.13333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004952054642265559, + "loss": 0.3127, + "step": 47300 + }, + { + "epoch": 126.16, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004952034215950228, + "loss": 0.3198, + "step": 47310 + }, + { + "epoch": 126.18666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004952013785326825, + "loss": 0.3145, + "step": 47320 + }, + { + "epoch": 126.21333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0004951993350395386, + "loss": 0.3034, + "step": 47330 + }, + { + "epoch": 126.24, + "grad_norm": 0.298828125, + "learning_rate": 0.0004951972911155947, + "loss": 0.3078, + "step": 47340 + }, + { + "epoch": 126.26666666666667, + "grad_norm": 0.62890625, + "learning_rate": 0.0004951952467608542, + "loss": 0.3134, + "step": 47350 + }, + { + "epoch": 126.29333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.0004951932019753208, + "loss": 0.3092, + "step": 47360 + }, + { + "epoch": 126.32, + "grad_norm": 0.16796875, + "learning_rate": 0.0004951911567589982, + "loss": 0.3161, + "step": 47370 + }, + { + "epoch": 126.34666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004951891111118898, + "loss": 0.3153, + "step": 47380 + }, + { + "epoch": 126.37333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004951870650339994, + "loss": 0.3076, + "step": 47390 + }, + { + "epoch": 126.4, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004951850185253304, + "loss": 0.3087, + "step": 47400 + }, + { + "epoch": 126.42666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004951829715858865, + "loss": 0.3159, + "step": 47410 + }, + { + "epoch": 126.45333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004951809242156715, + "loss": 0.3246, + "step": 47420 + }, + { + "epoch": 126.48, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004951788764146885, + "loss": 0.3201, + "step": 47430 + }, + { + "epoch": 126.50666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004951768281829416, + "loss": 0.3166, + "step": 47440 + }, + { + "epoch": 126.53333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.000495174779520434, + "loss": 0.3119, + "step": 47450 + }, + { + "epoch": 126.56, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004951727304271696, + "loss": 0.3086, + "step": 47460 + }, + { + "epoch": 126.58666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004951706809031518, + "loss": 0.3123, + "step": 47470 + }, + { + "epoch": 126.61333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004951686309483843, + "loss": 0.3037, + "step": 47480 + }, + { + "epoch": 126.64, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004951665805628707, + "loss": 0.3055, + "step": 47490 + }, + { + "epoch": 126.66666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004951645297466145, + "loss": 0.3214, + "step": 47500 + }, + { + "epoch": 126.69333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004951624784996194, + "loss": 0.2997, + "step": 47510 + }, + { + "epoch": 126.72, + "grad_norm": 0.333984375, + "learning_rate": 0.0004951604268218892, + "loss": 0.3152, + "step": 47520 + }, + { + "epoch": 126.74666666666667, + "grad_norm": 0.314453125, + "learning_rate": 0.0004951583747134272, + "loss": 0.3175, + "step": 47530 + }, + { + "epoch": 126.77333333333333, + "grad_norm": 0.33203125, + "learning_rate": 0.0004951563221742369, + "loss": 0.3287, + "step": 47540 + }, + { + "epoch": 126.8, + "grad_norm": 0.51953125, + "learning_rate": 0.0004951542692043223, + "loss": 0.3144, + "step": 47550 + }, + { + "epoch": 126.82666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0004951522158036868, + "loss": 0.3032, + "step": 47560 + }, + { + "epoch": 126.85333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.000495150161972334, + "loss": 0.3073, + "step": 47570 + }, + { + "epoch": 126.88, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004951481077102675, + "loss": 0.3065, + "step": 47580 + }, + { + "epoch": 126.90666666666667, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004951460530174909, + "loss": 0.3085, + "step": 47590 + }, + { + "epoch": 126.93333333333334, + "grad_norm": 0.19140625, + "learning_rate": 0.000495143997894008, + "loss": 0.3089, + "step": 47600 + }, + { + "epoch": 126.96, + "grad_norm": 0.20703125, + "learning_rate": 0.0004951419423398221, + "loss": 0.3089, + "step": 47610 + }, + { + "epoch": 126.98666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004951398863549371, + "loss": 0.321, + "step": 47620 + }, + { + "epoch": 127.0, + "eval_loss": 0.398946076631546, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8528, + "eval_samples_per_second": 1.35, + "eval_steps_per_second": 0.084, + "step": 47625 + }, + { + "epoch": 127.01333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004951378299393564, + "loss": 0.3111, + "step": 47630 + }, + { + "epoch": 127.04, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004951357730930838, + "loss": 0.3386, + "step": 47640 + }, + { + "epoch": 127.06666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004951337158161227, + "loss": 0.323, + "step": 47650 + }, + { + "epoch": 127.09333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004951316581084768, + "loss": 0.3203, + "step": 47660 + }, + { + "epoch": 127.12, + "grad_norm": 0.208984375, + "learning_rate": 0.0004951295999701498, + "loss": 0.3156, + "step": 47670 + }, + { + "epoch": 127.14666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004951275414011452, + "loss": 0.317, + "step": 47680 + }, + { + "epoch": 127.17333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004951254824014668, + "loss": 0.3173, + "step": 47690 + }, + { + "epoch": 127.2, + "grad_norm": 0.27734375, + "learning_rate": 0.000495123422971118, + "loss": 0.3092, + "step": 47700 + }, + { + "epoch": 127.22666666666667, + "grad_norm": 0.25, + "learning_rate": 0.0004951213631101025, + "loss": 0.3043, + "step": 47710 + }, + { + "epoch": 127.25333333333333, + "grad_norm": 0.359375, + "learning_rate": 0.000495119302818424, + "loss": 0.3048, + "step": 47720 + }, + { + "epoch": 127.28, + "grad_norm": 0.443359375, + "learning_rate": 0.000495117242096086, + "loss": 0.3226, + "step": 47730 + }, + { + "epoch": 127.30666666666667, + "grad_norm": 0.408203125, + "learning_rate": 0.0004951151809430922, + "loss": 0.3046, + "step": 47740 + }, + { + "epoch": 127.33333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0004951131193594461, + "loss": 0.3187, + "step": 47750 + }, + { + "epoch": 127.36, + "grad_norm": 0.3203125, + "learning_rate": 0.0004951110573451515, + "loss": 0.3108, + "step": 47760 + }, + { + "epoch": 127.38666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.0004951089949002119, + "loss": 0.3074, + "step": 47770 + }, + { + "epoch": 127.41333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.000495106932024631, + "loss": 0.313, + "step": 47780 + }, + { + "epoch": 127.44, + "grad_norm": 0.216796875, + "learning_rate": 0.0004951048687184123, + "loss": 0.3197, + "step": 47790 + }, + { + "epoch": 127.46666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004951028049815596, + "loss": 0.3247, + "step": 47800 + }, + { + "epoch": 127.49333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004951007408140764, + "loss": 0.3137, + "step": 47810 + }, + { + "epoch": 127.52, + "grad_norm": 0.193359375, + "learning_rate": 0.0004950986762159663, + "loss": 0.3176, + "step": 47820 + }, + { + "epoch": 127.54666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004950966111872331, + "loss": 0.3078, + "step": 47830 + }, + { + "epoch": 127.57333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.0004950945457278802, + "loss": 0.3111, + "step": 47840 + }, + { + "epoch": 127.6, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004950924798379114, + "loss": 0.3068, + "step": 47850 + }, + { + "epoch": 127.62666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004950904135173303, + "loss": 0.3026, + "step": 47860 + }, + { + "epoch": 127.65333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004950883467661404, + "loss": 0.3159, + "step": 47870 + }, + { + "epoch": 127.68, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004950862795843455, + "loss": 0.3045, + "step": 47880 + }, + { + "epoch": 127.70666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004950842119719492, + "loss": 0.3054, + "step": 47890 + }, + { + "epoch": 127.73333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004950821439289551, + "loss": 0.3212, + "step": 47900 + }, + { + "epoch": 127.76, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004950800754553668, + "loss": 0.3221, + "step": 47910 + }, + { + "epoch": 127.78666666666666, + "grad_norm": 0.16796875, + "learning_rate": 0.000495078006551188, + "loss": 0.3224, + "step": 47920 + }, + { + "epoch": 127.81333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004950759372164223, + "loss": 0.3053, + "step": 47930 + }, + { + "epoch": 127.84, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004950738674510733, + "loss": 0.3042, + "step": 47940 + }, + { + "epoch": 127.86666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004950717972551447, + "loss": 0.3072, + "step": 47950 + }, + { + "epoch": 127.89333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004950697266286402, + "loss": 0.3071, + "step": 47960 + }, + { + "epoch": 127.92, + "grad_norm": 0.216796875, + "learning_rate": 0.0004950676555715631, + "loss": 0.3087, + "step": 47970 + }, + { + "epoch": 127.94666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004950655840839175, + "loss": 0.3098, + "step": 47980 + }, + { + "epoch": 127.97333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004950635121657068, + "loss": 0.3172, + "step": 47990 + }, + { + "epoch": 128.0, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004950614398169346, + "loss": 0.3063, + "step": 48000 + }, + { + "epoch": 128.0, + "eval_loss": 0.39913466572761536, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2794, + "eval_samples_per_second": 1.419, + "eval_steps_per_second": 0.089, + "step": 48000 + }, + { + "epoch": 128.02666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004950593670376047, + "loss": 0.3288, + "step": 48010 + }, + { + "epoch": 128.05333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004950572938277205, + "loss": 0.3347, + "step": 48020 + }, + { + "epoch": 128.08, + "grad_norm": 0.236328125, + "learning_rate": 0.000495055220187286, + "loss": 0.319, + "step": 48030 + }, + { + "epoch": 128.10666666666665, + "grad_norm": 0.228515625, + "learning_rate": 0.0004950531461163046, + "loss": 0.3208, + "step": 48040 + }, + { + "epoch": 128.13333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004950510716147798, + "loss": 0.3121, + "step": 48050 + }, + { + "epoch": 128.16, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004950489966827156, + "loss": 0.3192, + "step": 48060 + }, + { + "epoch": 128.18666666666667, + "grad_norm": 0.228515625, + "learning_rate": 0.0004950469213201154, + "loss": 0.314, + "step": 48070 + }, + { + "epoch": 128.21333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004950448455269829, + "loss": 0.3029, + "step": 48080 + }, + { + "epoch": 128.24, + "grad_norm": 0.244140625, + "learning_rate": 0.0004950427693033218, + "loss": 0.3073, + "step": 48090 + }, + { + "epoch": 128.26666666666668, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004950406926491357, + "loss": 0.3131, + "step": 48100 + }, + { + "epoch": 128.29333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.0004950386155644283, + "loss": 0.309, + "step": 48110 + }, + { + "epoch": 128.32, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004950365380492032, + "loss": 0.3147, + "step": 48120 + }, + { + "epoch": 128.34666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.000495034460103464, + "loss": 0.3146, + "step": 48130 + }, + { + "epoch": 128.37333333333333, + "grad_norm": 0.30859375, + "learning_rate": 0.0004950323817272145, + "loss": 0.3065, + "step": 48140 + }, + { + "epoch": 128.4, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004950303029204582, + "loss": 0.3087, + "step": 48150 + }, + { + "epoch": 128.42666666666668, + "grad_norm": 0.1875, + "learning_rate": 0.0004950282236831988, + "loss": 0.3151, + "step": 48160 + }, + { + "epoch": 128.45333333333335, + "grad_norm": 0.2080078125, + "learning_rate": 0.00049502614401544, + "loss": 0.3238, + "step": 48170 + }, + { + "epoch": 128.48, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004950240639171854, + "loss": 0.3196, + "step": 48180 + }, + { + "epoch": 128.50666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004950219833884387, + "loss": 0.3167, + "step": 48190 + }, + { + "epoch": 128.53333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004950199024292035, + "loss": 0.3113, + "step": 48200 + }, + { + "epoch": 128.56, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004950178210394835, + "loss": 0.3075, + "step": 48210 + }, + { + "epoch": 128.58666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004950157392192825, + "loss": 0.3112, + "step": 48220 + }, + { + "epoch": 128.61333333333334, + "grad_norm": 0.283203125, + "learning_rate": 0.0004950136569686037, + "loss": 0.3026, + "step": 48230 + }, + { + "epoch": 128.64, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004950115742874513, + "loss": 0.3043, + "step": 48240 + }, + { + "epoch": 128.66666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004950094911758286, + "loss": 0.3197, + "step": 48250 + }, + { + "epoch": 128.69333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004950074076337395, + "loss": 0.2989, + "step": 48260 + }, + { + "epoch": 128.72, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004950053236611874, + "loss": 0.3152, + "step": 48270 + }, + { + "epoch": 128.74666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004950032392581762, + "loss": 0.3166, + "step": 48280 + }, + { + "epoch": 128.77333333333334, + "grad_norm": 0.302734375, + "learning_rate": 0.0004950011544247094, + "loss": 0.3278, + "step": 48290 + }, + { + "epoch": 128.8, + "grad_norm": 0.234375, + "learning_rate": 0.0004949990691607908, + "loss": 0.3139, + "step": 48300 + }, + { + "epoch": 128.82666666666665, + "grad_norm": 0.1787109375, + "learning_rate": 0.000494996983466424, + "loss": 0.303, + "step": 48310 + }, + { + "epoch": 128.85333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.0004949948973416125, + "loss": 0.3074, + "step": 48320 + }, + { + "epoch": 128.88, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004949928107863602, + "loss": 0.3061, + "step": 48330 + }, + { + "epoch": 128.90666666666667, + "grad_norm": 0.236328125, + "learning_rate": 0.0004949907238006708, + "loss": 0.3086, + "step": 48340 + }, + { + "epoch": 128.93333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004949886363845477, + "loss": 0.3089, + "step": 48350 + }, + { + "epoch": 128.96, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004949865485379949, + "loss": 0.309, + "step": 48360 + }, + { + "epoch": 128.98666666666668, + "grad_norm": 0.205078125, + "learning_rate": 0.0004949844602610158, + "loss": 0.3208, + "step": 48370 + }, + { + "epoch": 129.0, + "eval_loss": 0.40008044242858887, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6452, + "eval_samples_per_second": 1.374, + "eval_steps_per_second": 0.086, + "step": 48375 + }, + { + "epoch": 129.01333333333332, + "grad_norm": 0.2060546875, + "learning_rate": 0.000494982371553614, + "loss": 0.3119, + "step": 48380 + }, + { + "epoch": 129.04, + "grad_norm": 0.177734375, + "learning_rate": 0.0004949802824157936, + "loss": 0.3379, + "step": 48390 + }, + { + "epoch": 129.06666666666666, + "grad_norm": 0.294921875, + "learning_rate": 0.0004949781928475578, + "loss": 0.3226, + "step": 48400 + }, + { + "epoch": 129.09333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004949761028489104, + "loss": 0.3186, + "step": 48410 + }, + { + "epoch": 129.12, + "grad_norm": 0.185546875, + "learning_rate": 0.0004949740124198553, + "loss": 0.3157, + "step": 48420 + }, + { + "epoch": 129.14666666666668, + "grad_norm": 0.2265625, + "learning_rate": 0.000494971921560396, + "loss": 0.3163, + "step": 48430 + }, + { + "epoch": 129.17333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.0004949698302705362, + "loss": 0.3158, + "step": 48440 + }, + { + "epoch": 129.2, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004949677385502795, + "loss": 0.309, + "step": 48450 + }, + { + "epoch": 129.22666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004949656463996297, + "loss": 0.3042, + "step": 48460 + }, + { + "epoch": 129.25333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004949635538185903, + "loss": 0.3039, + "step": 48470 + }, + { + "epoch": 129.28, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004949614608071652, + "loss": 0.3218, + "step": 48480 + }, + { + "epoch": 129.30666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.000494959367365358, + "loss": 0.3043, + "step": 48490 + }, + { + "epoch": 129.33333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004949572734931723, + "loss": 0.3187, + "step": 48500 + }, + { + "epoch": 129.36, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004949551791906117, + "loss": 0.3097, + "step": 48510 + }, + { + "epoch": 129.38666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.0004949530844576801, + "loss": 0.3071, + "step": 48520 + }, + { + "epoch": 129.41333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004949509892943812, + "loss": 0.3128, + "step": 48530 + }, + { + "epoch": 129.44, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004949488937007184, + "loss": 0.3197, + "step": 48540 + }, + { + "epoch": 129.46666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004949467976766955, + "loss": 0.324, + "step": 48550 + }, + { + "epoch": 129.49333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004949447012223164, + "loss": 0.3135, + "step": 48560 + }, + { + "epoch": 129.52, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004949426043375846, + "loss": 0.3172, + "step": 48570 + }, + { + "epoch": 129.54666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004949405070225037, + "loss": 0.3076, + "step": 48580 + }, + { + "epoch": 129.57333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004949384092770776, + "loss": 0.3112, + "step": 48590 + }, + { + "epoch": 129.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004949363111013097, + "loss": 0.3077, + "step": 48600 + }, + { + "epoch": 129.62666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.000494934212495204, + "loss": 0.3027, + "step": 48610 + }, + { + "epoch": 129.65333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004949321134587639, + "loss": 0.3154, + "step": 48620 + }, + { + "epoch": 129.68, + "grad_norm": 0.189453125, + "learning_rate": 0.0004949300139919933, + "loss": 0.3038, + "step": 48630 + }, + { + "epoch": 129.70666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.000494927914094896, + "loss": 0.305, + "step": 48640 + }, + { + "epoch": 129.73333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004949258137674752, + "loss": 0.3206, + "step": 48650 + }, + { + "epoch": 129.76, + "grad_norm": 0.216796875, + "learning_rate": 0.000494923713009735, + "loss": 0.3222, + "step": 48660 + }, + { + "epoch": 129.78666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004949216118216791, + "loss": 0.3229, + "step": 48670 + }, + { + "epoch": 129.81333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004949195102033109, + "loss": 0.3049, + "step": 48680 + }, + { + "epoch": 129.84, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004949174081546343, + "loss": 0.305, + "step": 48690 + }, + { + "epoch": 129.86666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004949153056756532, + "loss": 0.3061, + "step": 48700 + }, + { + "epoch": 129.89333333333335, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004949132027663708, + "loss": 0.3065, + "step": 48710 + }, + { + "epoch": 129.92, + "grad_norm": 0.228515625, + "learning_rate": 0.0004949110994267911, + "loss": 0.308, + "step": 48720 + }, + { + "epoch": 129.94666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004949089956569179, + "loss": 0.3095, + "step": 48730 + }, + { + "epoch": 129.97333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004949068914567545, + "loss": 0.3172, + "step": 48740 + }, + { + "epoch": 130.0, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004949047868263051, + "loss": 0.3061, + "step": 48750 + }, + { + "epoch": 130.0, + "eval_loss": 0.4006252884864807, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.7299, + "eval_samples_per_second": 1.165, + "eval_steps_per_second": 0.073, + "step": 48750 + }, + { + "epoch": 130.02666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004949026817655729, + "loss": 0.3285, + "step": 48760 + }, + { + "epoch": 130.05333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.000494900576274562, + "loss": 0.3347, + "step": 48770 + }, + { + "epoch": 130.08, + "grad_norm": 0.271484375, + "learning_rate": 0.0004948984703532759, + "loss": 0.3181, + "step": 48780 + }, + { + "epoch": 130.10666666666665, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004948963640017182, + "loss": 0.32, + "step": 48790 + }, + { + "epoch": 130.13333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.0004948942572198929, + "loss": 0.3115, + "step": 48800 + }, + { + "epoch": 130.16, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004948921500078035, + "loss": 0.3192, + "step": 48810 + }, + { + "epoch": 130.18666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004948900423654538, + "loss": 0.3136, + "step": 48820 + }, + { + "epoch": 130.21333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004948879342928473, + "loss": 0.3023, + "step": 48830 + }, + { + "epoch": 130.24, + "grad_norm": 0.2060546875, + "learning_rate": 0.000494885825789988, + "loss": 0.3069, + "step": 48840 + }, + { + "epoch": 130.26666666666668, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004948837168568793, + "loss": 0.3126, + "step": 48850 + }, + { + "epoch": 130.29333333333332, + "grad_norm": 0.20703125, + "learning_rate": 0.0004948816074935252, + "loss": 0.3091, + "step": 48860 + }, + { + "epoch": 130.32, + "grad_norm": 0.208984375, + "learning_rate": 0.0004948794976999292, + "loss": 0.3153, + "step": 48870 + }, + { + "epoch": 130.34666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.0004948773874760951, + "loss": 0.3151, + "step": 48880 + }, + { + "epoch": 130.37333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004948752768220264, + "loss": 0.3072, + "step": 48890 + }, + { + "epoch": 130.4, + "grad_norm": 0.232421875, + "learning_rate": 0.0004948731657377272, + "loss": 0.3084, + "step": 48900 + }, + { + "epoch": 130.42666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.000494871054223201, + "loss": 0.3156, + "step": 48910 + }, + { + "epoch": 130.45333333333335, + "grad_norm": 0.18359375, + "learning_rate": 0.0004948689422784514, + "loss": 0.3239, + "step": 48920 + }, + { + "epoch": 130.48, + "grad_norm": 0.22265625, + "learning_rate": 0.0004948668299034823, + "loss": 0.3198, + "step": 48930 + }, + { + "epoch": 130.50666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004948647170982973, + "loss": 0.3156, + "step": 48940 + }, + { + "epoch": 130.53333333333333, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004948626038629, + "loss": 0.3111, + "step": 48950 + }, + { + "epoch": 130.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004948604901972945, + "loss": 0.3079, + "step": 48960 + }, + { + "epoch": 130.58666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004948583761014841, + "loss": 0.3104, + "step": 48970 + }, + { + "epoch": 130.61333333333334, + "grad_norm": 0.1533203125, + "learning_rate": 0.0004948562615754727, + "loss": 0.3028, + "step": 48980 + }, + { + "epoch": 130.64, + "grad_norm": 0.1796875, + "learning_rate": 0.000494854146619264, + "loss": 0.3041, + "step": 48990 + }, + { + "epoch": 130.66666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004948520312328617, + "loss": 0.3204, + "step": 49000 + }, + { + "epoch": 130.69333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004948499154162696, + "loss": 0.2989, + "step": 49010 + }, + { + "epoch": 130.72, + "grad_norm": 0.27734375, + "learning_rate": 0.0004948477991694913, + "loss": 0.3142, + "step": 49020 + }, + { + "epoch": 130.74666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004948456824925306, + "loss": 0.3165, + "step": 49030 + }, + { + "epoch": 130.77333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004948435653853911, + "loss": 0.3274, + "step": 49040 + }, + { + "epoch": 130.8, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004948414478480766, + "loss": 0.314, + "step": 49050 + }, + { + "epoch": 130.82666666666665, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004948393298805909, + "loss": 0.3028, + "step": 49060 + }, + { + "epoch": 130.85333333333332, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004948372114829376, + "loss": 0.3068, + "step": 49070 + }, + { + "epoch": 130.88, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004948350926551204, + "loss": 0.3064, + "step": 49080 + }, + { + "epoch": 130.90666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004948329733971432, + "loss": 0.308, + "step": 49090 + }, + { + "epoch": 130.93333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004948308537090095, + "loss": 0.3085, + "step": 49100 + }, + { + "epoch": 130.96, + "grad_norm": 0.19140625, + "learning_rate": 0.0004948287335907233, + "loss": 0.3085, + "step": 49110 + }, + { + "epoch": 130.98666666666668, + "grad_norm": 0.2451171875, + "learning_rate": 0.000494826613042288, + "loss": 0.3205, + "step": 49120 + }, + { + "epoch": 131.0, + "eval_loss": 0.3985663652420044, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5896, + "eval_samples_per_second": 1.511, + "eval_steps_per_second": 0.094, + "step": 49125 + }, + { + "epoch": 131.01333333333332, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004948244920637076, + "loss": 0.3105, + "step": 49130 + }, + { + "epoch": 131.04, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004948223706549857, + "loss": 0.3379, + "step": 49140 + }, + { + "epoch": 131.06666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.000494820248816126, + "loss": 0.3224, + "step": 49150 + }, + { + "epoch": 131.09333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004948181265471323, + "loss": 0.3194, + "step": 49160 + }, + { + "epoch": 131.12, + "grad_norm": 0.203125, + "learning_rate": 0.0004948160038480082, + "loss": 0.3148, + "step": 49170 + }, + { + "epoch": 131.14666666666668, + "grad_norm": 0.19921875, + "learning_rate": 0.0004948138807187576, + "loss": 0.3166, + "step": 49180 + }, + { + "epoch": 131.17333333333335, + "grad_norm": 0.259765625, + "learning_rate": 0.0004948117571593842, + "loss": 0.3161, + "step": 49190 + }, + { + "epoch": 131.2, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004948096331698915, + "loss": 0.3094, + "step": 49200 + }, + { + "epoch": 131.22666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004948075087502836, + "loss": 0.304, + "step": 49210 + }, + { + "epoch": 131.25333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004948053839005641, + "loss": 0.3031, + "step": 49220 + }, + { + "epoch": 131.28, + "grad_norm": 0.30078125, + "learning_rate": 0.0004948032586207365, + "loss": 0.3218, + "step": 49230 + }, + { + "epoch": 131.30666666666667, + "grad_norm": 0.28515625, + "learning_rate": 0.0004948011329108049, + "loss": 0.3035, + "step": 49240 + }, + { + "epoch": 131.33333333333334, + "grad_norm": 0.65625, + "learning_rate": 0.0004947990067707727, + "loss": 0.3181, + "step": 49250 + }, + { + "epoch": 131.36, + "grad_norm": 0.26171875, + "learning_rate": 0.0004947968802006439, + "loss": 0.3094, + "step": 49260 + }, + { + "epoch": 131.38666666666666, + "grad_norm": 0.2236328125, + "learning_rate": 0.000494794753200422, + "loss": 0.3062, + "step": 49270 + }, + { + "epoch": 131.41333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004947926257701109, + "loss": 0.3127, + "step": 49280 + }, + { + "epoch": 131.44, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004947904979097144, + "loss": 0.3201, + "step": 49290 + }, + { + "epoch": 131.46666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004947883696192361, + "loss": 0.3237, + "step": 49300 + }, + { + "epoch": 131.49333333333334, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004947862408986797, + "loss": 0.3127, + "step": 49310 + }, + { + "epoch": 131.52, + "grad_norm": 0.1953125, + "learning_rate": 0.000494784111748049, + "loss": 0.3171, + "step": 49320 + }, + { + "epoch": 131.54666666666665, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004947819821673478, + "loss": 0.308, + "step": 49330 + }, + { + "epoch": 131.57333333333332, + "grad_norm": 0.181640625, + "learning_rate": 0.0004947798521565799, + "loss": 0.3102, + "step": 49340 + }, + { + "epoch": 131.6, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004947777217157489, + "loss": 0.3067, + "step": 49350 + }, + { + "epoch": 131.62666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004947755908448584, + "loss": 0.3019, + "step": 49360 + }, + { + "epoch": 131.65333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0004947734595439125, + "loss": 0.315, + "step": 49370 + }, + { + "epoch": 131.68, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004947713278129148, + "loss": 0.3038, + "step": 49380 + }, + { + "epoch": 131.70666666666668, + "grad_norm": 0.234375, + "learning_rate": 0.000494769195651869, + "loss": 0.3045, + "step": 49390 + }, + { + "epoch": 131.73333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004947670630607788, + "loss": 0.3201, + "step": 49400 + }, + { + "epoch": 131.76, + "grad_norm": 0.197265625, + "learning_rate": 0.000494764930039648, + "loss": 0.3218, + "step": 49410 + }, + { + "epoch": 131.78666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004947627965884804, + "loss": 0.3224, + "step": 49420 + }, + { + "epoch": 131.81333333333333, + "grad_norm": 0.26171875, + "learning_rate": 0.0004947606627072797, + "loss": 0.305, + "step": 49430 + }, + { + "epoch": 131.84, + "grad_norm": 0.177734375, + "learning_rate": 0.0004947585283960497, + "loss": 0.3049, + "step": 49440 + }, + { + "epoch": 131.86666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.000494756393654794, + "loss": 0.3064, + "step": 49450 + }, + { + "epoch": 131.89333333333335, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004947542584835165, + "loss": 0.3066, + "step": 49460 + }, + { + "epoch": 131.92, + "grad_norm": 0.2177734375, + "learning_rate": 0.000494752122882221, + "loss": 0.3078, + "step": 49470 + }, + { + "epoch": 131.94666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004947499868509112, + "loss": 0.3095, + "step": 49480 + }, + { + "epoch": 131.97333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004947478503895906, + "loss": 0.3171, + "step": 49490 + }, + { + "epoch": 132.0, + "grad_norm": 0.1953125, + "learning_rate": 0.0004947457134982633, + "loss": 0.3057, + "step": 49500 + }, + { + "epoch": 132.0, + "eval_loss": 0.3994103670120239, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.842, + "eval_samples_per_second": 1.476, + "eval_steps_per_second": 0.092, + "step": 49500 + }, + { + "epoch": 132.02666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004947435761769328, + "loss": 0.3273, + "step": 49510 + }, + { + "epoch": 132.05333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004947414384256032, + "loss": 0.3348, + "step": 49520 + }, + { + "epoch": 132.08, + "grad_norm": 0.25390625, + "learning_rate": 0.0004947393002442778, + "loss": 0.3177, + "step": 49530 + }, + { + "epoch": 132.10666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004947371616329607, + "loss": 0.3205, + "step": 49540 + }, + { + "epoch": 132.13333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004947350225916556, + "loss": 0.3112, + "step": 49550 + }, + { + "epoch": 132.16, + "grad_norm": 0.19921875, + "learning_rate": 0.0004947328831203661, + "loss": 0.3187, + "step": 49560 + }, + { + "epoch": 132.18666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004947307432190962, + "loss": 0.3138, + "step": 49570 + }, + { + "epoch": 132.21333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004947286028878493, + "loss": 0.3029, + "step": 49580 + }, + { + "epoch": 132.24, + "grad_norm": 0.251953125, + "learning_rate": 0.0004947264621266295, + "loss": 0.3059, + "step": 49590 + }, + { + "epoch": 132.26666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004947243209354405, + "loss": 0.3122, + "step": 49600 + }, + { + "epoch": 132.29333333333332, + "grad_norm": 0.2412109375, + "learning_rate": 0.000494722179314286, + "loss": 0.3085, + "step": 49610 + }, + { + "epoch": 132.32, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004947200372631697, + "loss": 0.3146, + "step": 49620 + }, + { + "epoch": 132.34666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004947178947820954, + "loss": 0.314, + "step": 49630 + }, + { + "epoch": 132.37333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.000494715751871067, + "loss": 0.3063, + "step": 49640 + }, + { + "epoch": 132.4, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004947136085300881, + "loss": 0.3083, + "step": 49650 + }, + { + "epoch": 132.42666666666668, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004947114647591626, + "loss": 0.3146, + "step": 49660 + }, + { + "epoch": 132.45333333333335, + "grad_norm": 0.212890625, + "learning_rate": 0.0004947093205582941, + "loss": 0.3233, + "step": 49670 + }, + { + "epoch": 132.48, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004947071759274865, + "loss": 0.3188, + "step": 49680 + }, + { + "epoch": 132.50666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004947050308667435, + "loss": 0.3152, + "step": 49690 + }, + { + "epoch": 132.53333333333333, + "grad_norm": 0.2412109375, + "learning_rate": 0.000494702885376069, + "loss": 0.3107, + "step": 49700 + }, + { + "epoch": 132.56, + "grad_norm": 0.216796875, + "learning_rate": 0.0004947007394554665, + "loss": 0.3073, + "step": 49710 + }, + { + "epoch": 132.58666666666667, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004946985931049402, + "loss": 0.3103, + "step": 49720 + }, + { + "epoch": 132.61333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004946964463244934, + "loss": 0.3027, + "step": 49730 + }, + { + "epoch": 132.64, + "grad_norm": 0.173828125, + "learning_rate": 0.0004946942991141301, + "loss": 0.3038, + "step": 49740 + }, + { + "epoch": 132.66666666666666, + "grad_norm": 0.25, + "learning_rate": 0.000494692151473854, + "loss": 0.3195, + "step": 49750 + }, + { + "epoch": 132.69333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.000494690003403669, + "loss": 0.2984, + "step": 49760 + }, + { + "epoch": 132.72, + "grad_norm": 0.2060546875, + "learning_rate": 0.000494687854903579, + "loss": 0.3144, + "step": 49770 + }, + { + "epoch": 132.74666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004946857059735873, + "loss": 0.3159, + "step": 49780 + }, + { + "epoch": 132.77333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.000494683556613698, + "loss": 0.3271, + "step": 49790 + }, + { + "epoch": 132.8, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004946814068239148, + "loss": 0.3133, + "step": 49800 + }, + { + "epoch": 132.82666666666665, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004946792566042416, + "loss": 0.3025, + "step": 49810 + }, + { + "epoch": 132.85333333333332, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004946771059546821, + "loss": 0.3064, + "step": 49820 + }, + { + "epoch": 132.88, + "grad_norm": 0.185546875, + "learning_rate": 0.0004946749548752399, + "loss": 0.3061, + "step": 49830 + }, + { + "epoch": 132.90666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004946728033659192, + "loss": 0.3078, + "step": 49840 + }, + { + "epoch": 132.93333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004946706514267233, + "loss": 0.3086, + "step": 49850 + }, + { + "epoch": 132.96, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004946684990576562, + "loss": 0.3079, + "step": 49860 + }, + { + "epoch": 132.98666666666668, + "grad_norm": 0.2109375, + "learning_rate": 0.0004946663462587217, + "loss": 0.3199, + "step": 49870 + }, + { + "epoch": 133.0, + "eval_loss": 0.3993377685546875, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0237, + "eval_samples_per_second": 1.451, + "eval_steps_per_second": 0.091, + "step": 49875 + }, + { + "epoch": 133.01333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004946641930299237, + "loss": 0.3112, + "step": 49880 + }, + { + "epoch": 133.04, + "grad_norm": 0.1875, + "learning_rate": 0.0004946620393712658, + "loss": 0.3372, + "step": 49890 + }, + { + "epoch": 133.06666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004946598852827518, + "loss": 0.3221, + "step": 49900 + }, + { + "epoch": 133.09333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004946577307643854, + "loss": 0.3189, + "step": 49910 + }, + { + "epoch": 133.12, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004946555758161707, + "loss": 0.3154, + "step": 49920 + }, + { + "epoch": 133.14666666666668, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004946534204381111, + "loss": 0.3159, + "step": 49930 + }, + { + "epoch": 133.17333333333335, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004946512646302107, + "loss": 0.3154, + "step": 49940 + }, + { + "epoch": 133.2, + "grad_norm": 0.26171875, + "learning_rate": 0.0004946491083924732, + "loss": 0.3089, + "step": 49950 + }, + { + "epoch": 133.22666666666666, + "grad_norm": 0.271484375, + "learning_rate": 0.0004946469517249023, + "loss": 0.3033, + "step": 49960 + }, + { + "epoch": 133.25333333333333, + "grad_norm": 0.482421875, + "learning_rate": 0.0004946447946275017, + "loss": 0.3026, + "step": 49970 + }, + { + "epoch": 133.28, + "grad_norm": 0.51953125, + "learning_rate": 0.0004946426371002755, + "loss": 0.3214, + "step": 49980 + }, + { + "epoch": 133.30666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004946404791432273, + "loss": 0.3032, + "step": 49990 + }, + { + "epoch": 133.33333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004946383207563609, + "loss": 0.3174, + "step": 50000 + }, + { + "epoch": 133.36, + "grad_norm": 0.2177734375, + "learning_rate": 0.00049463616193968, + "loss": 0.3089, + "step": 50010 + }, + { + "epoch": 133.38666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.0004946340026931886, + "loss": 0.3059, + "step": 50020 + }, + { + "epoch": 133.41333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004946318430168904, + "loss": 0.3123, + "step": 50030 + }, + { + "epoch": 133.44, + "grad_norm": 0.28125, + "learning_rate": 0.0004946296829107891, + "loss": 0.3196, + "step": 50040 + }, + { + "epoch": 133.46666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004946275223748887, + "loss": 0.3233, + "step": 50050 + }, + { + "epoch": 133.49333333333334, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004946253614091928, + "loss": 0.313, + "step": 50060 + }, + { + "epoch": 133.52, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004946232000137053, + "loss": 0.3166, + "step": 50070 + }, + { + "epoch": 133.54666666666665, + "grad_norm": 0.275390625, + "learning_rate": 0.00049462103818843, + "loss": 0.308, + "step": 50080 + }, + { + "epoch": 133.57333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004946188759333705, + "loss": 0.31, + "step": 50090 + }, + { + "epoch": 133.6, + "grad_norm": 0.1806640625, + "learning_rate": 0.000494616713248531, + "loss": 0.3066, + "step": 50100 + }, + { + "epoch": 133.62666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004946145501339149, + "loss": 0.3019, + "step": 50110 + }, + { + "epoch": 133.65333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004946123865895262, + "loss": 0.3148, + "step": 50120 + }, + { + "epoch": 133.68, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004946102226153687, + "loss": 0.3037, + "step": 50130 + }, + { + "epoch": 133.70666666666668, + "grad_norm": 0.203125, + "learning_rate": 0.0004946080582114462, + "loss": 0.3045, + "step": 50140 + }, + { + "epoch": 133.73333333333332, + "grad_norm": 0.1953125, + "learning_rate": 0.0004946058933777625, + "loss": 0.3198, + "step": 50150 + }, + { + "epoch": 133.76, + "grad_norm": 0.19921875, + "learning_rate": 0.0004946037281143211, + "loss": 0.3211, + "step": 50160 + }, + { + "epoch": 133.78666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004946015624211264, + "loss": 0.3223, + "step": 50170 + }, + { + "epoch": 133.81333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004945993962981817, + "loss": 0.3044, + "step": 50180 + }, + { + "epoch": 133.84, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004945972297454911, + "loss": 0.3047, + "step": 50190 + }, + { + "epoch": 133.86666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004945950627630583, + "loss": 0.3064, + "step": 50200 + }, + { + "epoch": 133.89333333333335, + "grad_norm": 0.1884765625, + "learning_rate": 0.000494592895350887, + "loss": 0.3064, + "step": 50210 + }, + { + "epoch": 133.92, + "grad_norm": 0.287109375, + "learning_rate": 0.0004945907275089813, + "loss": 0.3082, + "step": 50220 + }, + { + "epoch": 133.94666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004945885592373447, + "loss": 0.3097, + "step": 50230 + }, + { + "epoch": 133.97333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004945863905359811, + "loss": 0.3172, + "step": 50240 + }, + { + "epoch": 134.0, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004945842214048944, + "loss": 0.3048, + "step": 50250 + }, + { + "epoch": 134.0, + "eval_loss": 0.39946791529655457, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3812, + "eval_samples_per_second": 1.406, + "eval_steps_per_second": 0.088, + "step": 50250 + }, + { + "epoch": 134.02666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004945820518440883, + "loss": 0.3276, + "step": 50260 + }, + { + "epoch": 134.05333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004945798818535667, + "loss": 0.334, + "step": 50270 + }, + { + "epoch": 134.08, + "grad_norm": 0.177734375, + "learning_rate": 0.0004945777114333333, + "loss": 0.3173, + "step": 50280 + }, + { + "epoch": 134.10666666666665, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004945755405833922, + "loss": 0.3196, + "step": 50290 + }, + { + "epoch": 134.13333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004945733693037468, + "loss": 0.3118, + "step": 50300 + }, + { + "epoch": 134.16, + "grad_norm": 0.203125, + "learning_rate": 0.0004945711975944012, + "loss": 0.3181, + "step": 50310 + }, + { + "epoch": 134.18666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004945690254553591, + "loss": 0.3129, + "step": 50320 + }, + { + "epoch": 134.21333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004945668528866244, + "loss": 0.3023, + "step": 50330 + }, + { + "epoch": 134.24, + "grad_norm": 0.24609375, + "learning_rate": 0.0004945646798882008, + "loss": 0.306, + "step": 50340 + }, + { + "epoch": 134.26666666666668, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004945625064600922, + "loss": 0.3123, + "step": 50350 + }, + { + "epoch": 134.29333333333332, + "grad_norm": 0.1796875, + "learning_rate": 0.0004945603326023025, + "loss": 0.3084, + "step": 50360 + }, + { + "epoch": 134.32, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004945581583148353, + "loss": 0.3149, + "step": 50370 + }, + { + "epoch": 134.34666666666666, + "grad_norm": 0.19140625, + "learning_rate": 0.0004945559835976947, + "loss": 0.314, + "step": 50380 + }, + { + "epoch": 134.37333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004945538084508842, + "loss": 0.3059, + "step": 50390 + }, + { + "epoch": 134.4, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004945516328744078, + "loss": 0.3077, + "step": 50400 + }, + { + "epoch": 134.42666666666668, + "grad_norm": 0.263671875, + "learning_rate": 0.0004945494568682694, + "loss": 0.3145, + "step": 50410 + }, + { + "epoch": 134.45333333333335, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004945472804324726, + "loss": 0.3233, + "step": 50420 + }, + { + "epoch": 134.48, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004945451035670215, + "loss": 0.3183, + "step": 50430 + }, + { + "epoch": 134.50666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004945429262719198, + "loss": 0.3149, + "step": 50440 + }, + { + "epoch": 134.53333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004945407485471712, + "loss": 0.3101, + "step": 50450 + }, + { + "epoch": 134.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004945385703927797, + "loss": 0.3074, + "step": 50460 + }, + { + "epoch": 134.58666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.000494536391808749, + "loss": 0.3105, + "step": 50470 + }, + { + "epoch": 134.61333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.000494534212795083, + "loss": 0.3018, + "step": 50480 + }, + { + "epoch": 134.64, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004945320333517855, + "loss": 0.304, + "step": 50490 + }, + { + "epoch": 134.66666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004945298534788603, + "loss": 0.3195, + "step": 50500 + }, + { + "epoch": 134.69333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004945276731763114, + "loss": 0.2985, + "step": 50510 + }, + { + "epoch": 134.72, + "grad_norm": 0.19140625, + "learning_rate": 0.0004945254924441424, + "loss": 0.3135, + "step": 50520 + }, + { + "epoch": 134.74666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004945233112823574, + "loss": 0.316, + "step": 50530 + }, + { + "epoch": 134.77333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004945211296909598, + "loss": 0.327, + "step": 50540 + }, + { + "epoch": 134.8, + "grad_norm": 0.1796875, + "learning_rate": 0.0004945189476699539, + "loss": 0.3135, + "step": 50550 + }, + { + "epoch": 134.82666666666665, + "grad_norm": 0.18359375, + "learning_rate": 0.0004945167652193433, + "loss": 0.3022, + "step": 50560 + }, + { + "epoch": 134.85333333333332, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004945145823391319, + "loss": 0.3055, + "step": 50570 + }, + { + "epoch": 134.88, + "grad_norm": 0.173828125, + "learning_rate": 0.0004945123990293235, + "loss": 0.3053, + "step": 50580 + }, + { + "epoch": 134.90666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004945102152899218, + "loss": 0.3072, + "step": 50590 + }, + { + "epoch": 134.93333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004945080311209309, + "loss": 0.3083, + "step": 50600 + }, + { + "epoch": 134.96, + "grad_norm": 0.189453125, + "learning_rate": 0.0004945058465223545, + "loss": 0.3081, + "step": 50610 + }, + { + "epoch": 134.98666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004945036614941964, + "loss": 0.3199, + "step": 50620 + }, + { + "epoch": 135.0, + "eval_loss": 0.40096619725227356, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.1666, + "eval_samples_per_second": 1.315, + "eval_steps_per_second": 0.082, + "step": 50625 + }, + { + "epoch": 135.01333333333332, + "grad_norm": 0.2109375, + "learning_rate": 0.0004945014760364605, + "loss": 0.3103, + "step": 50630 + }, + { + "epoch": 135.04, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004944992901491507, + "loss": 0.3363, + "step": 50640 + }, + { + "epoch": 135.06666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004944971038322708, + "loss": 0.322, + "step": 50650 + }, + { + "epoch": 135.09333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004944949170858245, + "loss": 0.3181, + "step": 50660 + }, + { + "epoch": 135.12, + "grad_norm": 0.189453125, + "learning_rate": 0.0004944927299098158, + "loss": 0.3148, + "step": 50670 + }, + { + "epoch": 135.14666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004944905423042485, + "loss": 0.3156, + "step": 50680 + }, + { + "epoch": 135.17333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.0004944883542691265, + "loss": 0.316, + "step": 50690 + }, + { + "epoch": 135.2, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004944861658044535, + "loss": 0.3089, + "step": 50700 + }, + { + "epoch": 135.22666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004944839769102335, + "loss": 0.3032, + "step": 50710 + }, + { + "epoch": 135.25333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004944817875864702, + "loss": 0.303, + "step": 50720 + }, + { + "epoch": 135.28, + "grad_norm": 0.2265625, + "learning_rate": 0.0004944795978331676, + "loss": 0.3216, + "step": 50730 + }, + { + "epoch": 135.30666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004944774076503293, + "loss": 0.303, + "step": 50740 + }, + { + "epoch": 135.33333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004944752170379595, + "loss": 0.3176, + "step": 50750 + }, + { + "epoch": 135.36, + "grad_norm": 0.240234375, + "learning_rate": 0.0004944730259960618, + "loss": 0.3092, + "step": 50760 + }, + { + "epoch": 135.38666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004944708345246401, + "loss": 0.3057, + "step": 50770 + }, + { + "epoch": 135.41333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004944686426236984, + "loss": 0.3119, + "step": 50780 + }, + { + "epoch": 135.44, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004944664502932402, + "loss": 0.319, + "step": 50790 + }, + { + "epoch": 135.46666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004944642575332697, + "loss": 0.3228, + "step": 50800 + }, + { + "epoch": 135.49333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004944620643437907, + "loss": 0.3121, + "step": 50810 + }, + { + "epoch": 135.52, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004944598707248068, + "loss": 0.3162, + "step": 50820 + }, + { + "epoch": 135.54666666666665, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004944576766763221, + "loss": 0.3073, + "step": 50830 + }, + { + "epoch": 135.57333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004944554821983404, + "loss": 0.3098, + "step": 50840 + }, + { + "epoch": 135.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004944532872908656, + "loss": 0.3064, + "step": 50850 + }, + { + "epoch": 135.62666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004944510919539013, + "loss": 0.3015, + "step": 50860 + }, + { + "epoch": 135.65333333333334, + "grad_norm": 0.3828125, + "learning_rate": 0.0004944488961874518, + "loss": 0.3154, + "step": 50870 + }, + { + "epoch": 135.68, + "grad_norm": 0.392578125, + "learning_rate": 0.0004944466999915205, + "loss": 0.3038, + "step": 50880 + }, + { + "epoch": 135.70666666666668, + "grad_norm": 0.306640625, + "learning_rate": 0.0004944445033661116, + "loss": 0.3048, + "step": 50890 + }, + { + "epoch": 135.73333333333332, + "grad_norm": 0.37109375, + "learning_rate": 0.0004944423063112288, + "loss": 0.3197, + "step": 50900 + }, + { + "epoch": 135.76, + "grad_norm": 0.2451171875, + "learning_rate": 0.000494440108826876, + "loss": 0.3213, + "step": 50910 + }, + { + "epoch": 135.78666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.000494437910913057, + "loss": 0.3215, + "step": 50920 + }, + { + "epoch": 135.81333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004944357125697757, + "loss": 0.3042, + "step": 50930 + }, + { + "epoch": 135.84, + "grad_norm": 0.1796875, + "learning_rate": 0.000494433513797036, + "loss": 0.304, + "step": 50940 + }, + { + "epoch": 135.86666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004944313145948419, + "loss": 0.306, + "step": 50950 + }, + { + "epoch": 135.89333333333335, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004944291149631968, + "loss": 0.3059, + "step": 50960 + }, + { + "epoch": 135.92, + "grad_norm": 0.240234375, + "learning_rate": 0.0004944269149021051, + "loss": 0.307, + "step": 50970 + }, + { + "epoch": 135.94666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004944247144115703, + "loss": 0.3094, + "step": 50980 + }, + { + "epoch": 135.97333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004944225134915965, + "loss": 0.3167, + "step": 50990 + }, + { + "epoch": 136.0, + "grad_norm": 0.287109375, + "learning_rate": 0.0004944203121421874, + "loss": 0.3054, + "step": 51000 + }, + { + "epoch": 136.0, + "eval_loss": 0.39999130368232727, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5696, + "eval_samples_per_second": 1.383, + "eval_steps_per_second": 0.086, + "step": 51000 + }, + { + "epoch": 136.02666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004944181103633469, + "loss": 0.3274, + "step": 51010 + }, + { + "epoch": 136.05333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004944159081550789, + "loss": 0.3337, + "step": 51020 + }, + { + "epoch": 136.08, + "grad_norm": 0.26953125, + "learning_rate": 0.0004944137055173873, + "loss": 0.3177, + "step": 51030 + }, + { + "epoch": 136.10666666666665, + "grad_norm": 0.275390625, + "learning_rate": 0.000494411502450276, + "loss": 0.3194, + "step": 51040 + }, + { + "epoch": 136.13333333333333, + "grad_norm": 0.267578125, + "learning_rate": 0.0004944092989537487, + "loss": 0.3107, + "step": 51050 + }, + { + "epoch": 136.16, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004944070950278095, + "loss": 0.3179, + "step": 51060 + }, + { + "epoch": 136.18666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.000494404890672462, + "loss": 0.3128, + "step": 51070 + }, + { + "epoch": 136.21333333333334, + "grad_norm": 0.29296875, + "learning_rate": 0.0004944026858877104, + "loss": 0.3015, + "step": 51080 + }, + { + "epoch": 136.24, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004944004806735582, + "loss": 0.3054, + "step": 51090 + }, + { + "epoch": 136.26666666666668, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004943982750300097, + "loss": 0.3118, + "step": 51100 + }, + { + "epoch": 136.29333333333332, + "grad_norm": 0.185546875, + "learning_rate": 0.0004943960689570684, + "loss": 0.3073, + "step": 51110 + }, + { + "epoch": 136.32, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004943938624547384, + "loss": 0.3145, + "step": 51120 + }, + { + "epoch": 136.34666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004943916555230233, + "loss": 0.3136, + "step": 51130 + }, + { + "epoch": 136.37333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004943894481619274, + "loss": 0.3057, + "step": 51140 + }, + { + "epoch": 136.4, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004943872403714543, + "loss": 0.3073, + "step": 51150 + }, + { + "epoch": 136.42666666666668, + "grad_norm": 0.1796875, + "learning_rate": 0.0004943850321516079, + "loss": 0.3139, + "step": 51160 + }, + { + "epoch": 136.45333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.0004943828235023922, + "loss": 0.3229, + "step": 51170 + }, + { + "epoch": 136.48, + "grad_norm": 0.2451171875, + "learning_rate": 0.000494380614423811, + "loss": 0.3192, + "step": 51180 + }, + { + "epoch": 136.50666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.000494378404915868, + "loss": 0.3151, + "step": 51190 + }, + { + "epoch": 136.53333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004943761949785674, + "loss": 0.3098, + "step": 51200 + }, + { + "epoch": 136.56, + "grad_norm": 0.2109375, + "learning_rate": 0.0004943739846119129, + "loss": 0.3069, + "step": 51210 + }, + { + "epoch": 136.58666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004943717738159084, + "loss": 0.31, + "step": 51220 + }, + { + "epoch": 136.61333333333334, + "grad_norm": 0.248046875, + "learning_rate": 0.0004943695625905579, + "loss": 0.3023, + "step": 51230 + }, + { + "epoch": 136.64, + "grad_norm": 0.171875, + "learning_rate": 0.0004943673509358652, + "loss": 0.3034, + "step": 51240 + }, + { + "epoch": 136.66666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004943651388518342, + "loss": 0.3188, + "step": 51250 + }, + { + "epoch": 136.69333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004943629263384686, + "loss": 0.2981, + "step": 51260 + }, + { + "epoch": 136.72, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004943607133957726, + "loss": 0.314, + "step": 51270 + }, + { + "epoch": 136.74666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004943585000237499, + "loss": 0.3155, + "step": 51280 + }, + { + "epoch": 136.77333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004943562862224044, + "loss": 0.3265, + "step": 51290 + }, + { + "epoch": 136.8, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004943540719917401, + "loss": 0.3126, + "step": 51300 + }, + { + "epoch": 136.82666666666665, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004943518573317608, + "loss": 0.3017, + "step": 51310 + }, + { + "epoch": 136.85333333333332, + "grad_norm": 0.17578125, + "learning_rate": 0.0004943496422424704, + "loss": 0.3062, + "step": 51320 + }, + { + "epoch": 136.88, + "grad_norm": 0.20703125, + "learning_rate": 0.0004943474267238727, + "loss": 0.3053, + "step": 51330 + }, + { + "epoch": 136.90666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004943452107759717, + "loss": 0.3066, + "step": 51340 + }, + { + "epoch": 136.93333333333334, + "grad_norm": 0.42578125, + "learning_rate": 0.0004943429943987714, + "loss": 0.3076, + "step": 51350 + }, + { + "epoch": 136.96, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004943407775922755, + "loss": 0.3079, + "step": 51360 + }, + { + "epoch": 136.98666666666668, + "grad_norm": 0.2001953125, + "learning_rate": 0.000494338560356488, + "loss": 0.3196, + "step": 51370 + }, + { + "epoch": 137.0, + "eval_loss": 0.3996056318283081, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.1103, + "eval_samples_per_second": 1.22, + "eval_steps_per_second": 0.076, + "step": 51375 + }, + { + "epoch": 137.01333333333332, + "grad_norm": 0.1875, + "learning_rate": 0.0004943363426914126, + "loss": 0.3107, + "step": 51380 + }, + { + "epoch": 137.04, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004943341245970535, + "loss": 0.3364, + "step": 51390 + }, + { + "epoch": 137.06666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004943319060734145, + "loss": 0.3212, + "step": 51400 + }, + { + "epoch": 137.09333333333333, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004943296871204994, + "loss": 0.3182, + "step": 51410 + }, + { + "epoch": 137.12, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004943274677383122, + "loss": 0.3144, + "step": 51420 + }, + { + "epoch": 137.14666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004943252479268567, + "loss": 0.3157, + "step": 51430 + }, + { + "epoch": 137.17333333333335, + "grad_norm": 0.23828125, + "learning_rate": 0.0004943230276861368, + "loss": 0.3152, + "step": 51440 + }, + { + "epoch": 137.2, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004943208070161565, + "loss": 0.3084, + "step": 51450 + }, + { + "epoch": 137.22666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004943185859169197, + "loss": 0.3026, + "step": 51460 + }, + { + "epoch": 137.25333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004943163643884302, + "loss": 0.3019, + "step": 51470 + }, + { + "epoch": 137.28, + "grad_norm": 0.203125, + "learning_rate": 0.0004943141424306921, + "loss": 0.3207, + "step": 51480 + }, + { + "epoch": 137.30666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.000494311920043709, + "loss": 0.3028, + "step": 51490 + }, + { + "epoch": 137.33333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.000494309697227485, + "loss": 0.3169, + "step": 51500 + }, + { + "epoch": 137.36, + "grad_norm": 0.2255859375, + "learning_rate": 0.000494307473982024, + "loss": 0.3081, + "step": 51510 + }, + { + "epoch": 137.38666666666666, + "grad_norm": 0.2421875, + "learning_rate": 0.0004943052503073299, + "loss": 0.3049, + "step": 51520 + }, + { + "epoch": 137.41333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004943030262034066, + "loss": 0.3117, + "step": 51530 + }, + { + "epoch": 137.44, + "grad_norm": 0.189453125, + "learning_rate": 0.0004943008016702579, + "loss": 0.3182, + "step": 51540 + }, + { + "epoch": 137.46666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004942985767078879, + "loss": 0.3228, + "step": 51550 + }, + { + "epoch": 137.49333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004942963513163003, + "loss": 0.312, + "step": 51560 + }, + { + "epoch": 137.52, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004942941254954992, + "loss": 0.3159, + "step": 51570 + }, + { + "epoch": 137.54666666666665, + "grad_norm": 0.265625, + "learning_rate": 0.0004942918992454885, + "loss": 0.3064, + "step": 51580 + }, + { + "epoch": 137.57333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.000494289672566272, + "loss": 0.3095, + "step": 51590 + }, + { + "epoch": 137.6, + "grad_norm": 0.201171875, + "learning_rate": 0.0004942874454578536, + "loss": 0.3057, + "step": 51600 + }, + { + "epoch": 137.62666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004942852179202373, + "loss": 0.3013, + "step": 51610 + }, + { + "epoch": 137.65333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.000494282989953427, + "loss": 0.3144, + "step": 51620 + }, + { + "epoch": 137.68, + "grad_norm": 0.2421875, + "learning_rate": 0.0004942807615574266, + "loss": 0.3029, + "step": 51630 + }, + { + "epoch": 137.70666666666668, + "grad_norm": 0.2373046875, + "learning_rate": 0.00049427853273224, + "loss": 0.3036, + "step": 51640 + }, + { + "epoch": 137.73333333333332, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004942763034778711, + "loss": 0.3195, + "step": 51650 + }, + { + "epoch": 137.76, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004942740737943239, + "loss": 0.3202, + "step": 51660 + }, + { + "epoch": 137.78666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004942718436816022, + "loss": 0.3212, + "step": 51670 + }, + { + "epoch": 137.81333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004942696131397101, + "loss": 0.3033, + "step": 51680 + }, + { + "epoch": 137.84, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004942673821686513, + "loss": 0.3038, + "step": 51690 + }, + { + "epoch": 137.86666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004942651507684298, + "loss": 0.3052, + "step": 51700 + }, + { + "epoch": 137.89333333333335, + "grad_norm": 0.158203125, + "learning_rate": 0.0004942629189390496, + "loss": 0.3053, + "step": 51710 + }, + { + "epoch": 137.92, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004942606866805146, + "loss": 0.3063, + "step": 51720 + }, + { + "epoch": 137.94666666666666, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004942584539928285, + "loss": 0.3078, + "step": 51730 + }, + { + "epoch": 137.97333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004942562208759955, + "loss": 0.3156, + "step": 51740 + }, + { + "epoch": 138.0, + "grad_norm": 0.1875, + "learning_rate": 0.0004942539873300196, + "loss": 0.3046, + "step": 51750 + }, + { + "epoch": 138.0, + "eval_loss": 0.3991408050060272, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9988, + "eval_samples_per_second": 1.333, + "eval_steps_per_second": 0.083, + "step": 51750 + }, + { + "epoch": 138.02666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004942517533549043, + "loss": 0.3273, + "step": 51760 + }, + { + "epoch": 138.05333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004942495189506539, + "loss": 0.3329, + "step": 51770 + }, + { + "epoch": 138.08, + "grad_norm": 0.275390625, + "learning_rate": 0.0004942472841172723, + "loss": 0.3174, + "step": 51780 + }, + { + "epoch": 138.10666666666665, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004942450488547632, + "loss": 0.3192, + "step": 51790 + }, + { + "epoch": 138.13333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004942428131631307, + "loss": 0.3107, + "step": 51800 + }, + { + "epoch": 138.16, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004942405770423786, + "loss": 0.3172, + "step": 51810 + }, + { + "epoch": 138.18666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004942383404925111, + "loss": 0.3125, + "step": 51820 + }, + { + "epoch": 138.21333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004942361035135317, + "loss": 0.3014, + "step": 51830 + }, + { + "epoch": 138.24, + "grad_norm": 0.291015625, + "learning_rate": 0.0004942338661054447, + "loss": 0.3053, + "step": 51840 + }, + { + "epoch": 138.26666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.000494231628268254, + "loss": 0.3114, + "step": 51850 + }, + { + "epoch": 138.29333333333332, + "grad_norm": 0.1875, + "learning_rate": 0.0004942293900019633, + "loss": 0.3069, + "step": 51860 + }, + { + "epoch": 138.32, + "grad_norm": 0.181640625, + "learning_rate": 0.0004942271513065767, + "loss": 0.3142, + "step": 51870 + }, + { + "epoch": 138.34666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004942249121820981, + "loss": 0.3131, + "step": 51880 + }, + { + "epoch": 138.37333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004942226726285315, + "loss": 0.3057, + "step": 51890 + }, + { + "epoch": 138.4, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004942204326458807, + "loss": 0.307, + "step": 51900 + }, + { + "epoch": 138.42666666666668, + "grad_norm": 0.171875, + "learning_rate": 0.0004942181922341498, + "loss": 0.3142, + "step": 51910 + }, + { + "epoch": 138.45333333333335, + "grad_norm": 0.2109375, + "learning_rate": 0.0004942159513933425, + "loss": 0.3222, + "step": 51920 + }, + { + "epoch": 138.48, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004942137101234629, + "loss": 0.3181, + "step": 51930 + }, + { + "epoch": 138.50666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.000494211468424515, + "loss": 0.3144, + "step": 51940 + }, + { + "epoch": 138.53333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004942092262965027, + "loss": 0.3098, + "step": 51950 + }, + { + "epoch": 138.56, + "grad_norm": 0.296875, + "learning_rate": 0.0004942069837394298, + "loss": 0.3063, + "step": 51960 + }, + { + "epoch": 138.58666666666667, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004942047407533003, + "loss": 0.3095, + "step": 51970 + }, + { + "epoch": 138.61333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004942024973381183, + "loss": 0.3015, + "step": 51980 + }, + { + "epoch": 138.64, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004942002534938875, + "loss": 0.303, + "step": 51990 + }, + { + "epoch": 138.66666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004941980092206121, + "loss": 0.3183, + "step": 52000 + }, + { + "epoch": 138.69333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004941957645182958, + "loss": 0.2973, + "step": 52010 + }, + { + "epoch": 138.72, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004941935193869427, + "loss": 0.3133, + "step": 52020 + }, + { + "epoch": 138.74666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004941912738265566, + "loss": 0.3149, + "step": 52030 + }, + { + "epoch": 138.77333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004941890278371417, + "loss": 0.3257, + "step": 52040 + }, + { + "epoch": 138.8, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004941867814187016, + "loss": 0.3122, + "step": 52050 + }, + { + "epoch": 138.82666666666665, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004941845345712406, + "loss": 0.3017, + "step": 52060 + }, + { + "epoch": 138.85333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004941822872947623, + "loss": 0.3055, + "step": 52070 + }, + { + "epoch": 138.88, + "grad_norm": 0.1865234375, + "learning_rate": 0.000494180039589271, + "loss": 0.3047, + "step": 52080 + }, + { + "epoch": 138.90666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004941777914547704, + "loss": 0.3069, + "step": 52090 + }, + { + "epoch": 138.93333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004941755428912644, + "loss": 0.3077, + "step": 52100 + }, + { + "epoch": 138.96, + "grad_norm": 0.189453125, + "learning_rate": 0.0004941732938987572, + "loss": 0.307, + "step": 52110 + }, + { + "epoch": 138.98666666666668, + "grad_norm": 0.203125, + "learning_rate": 0.0004941710444772527, + "loss": 0.3192, + "step": 52120 + }, + { + "epoch": 139.0, + "eval_loss": 0.3981202244758606, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7674, + "eval_samples_per_second": 1.36, + "eval_steps_per_second": 0.085, + "step": 52125 + }, + { + "epoch": 139.01333333333332, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004941687946267547, + "loss": 0.3093, + "step": 52130 + }, + { + "epoch": 139.04, + "grad_norm": 0.189453125, + "learning_rate": 0.0004941665443472671, + "loss": 0.3364, + "step": 52140 + }, + { + "epoch": 139.06666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0004941642936387942, + "loss": 0.3205, + "step": 52150 + }, + { + "epoch": 139.09333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004941620425013397, + "loss": 0.3175, + "step": 52160 + }, + { + "epoch": 139.12, + "grad_norm": 0.2265625, + "learning_rate": 0.0004941597909349075, + "loss": 0.3136, + "step": 52170 + }, + { + "epoch": 139.14666666666668, + "grad_norm": 0.19140625, + "learning_rate": 0.0004941575389395017, + "loss": 0.3151, + "step": 52180 + }, + { + "epoch": 139.17333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.0004941552865151262, + "loss": 0.3149, + "step": 52190 + }, + { + "epoch": 139.2, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004941530336617849, + "loss": 0.3082, + "step": 52200 + }, + { + "epoch": 139.22666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.000494150780379482, + "loss": 0.3021, + "step": 52210 + }, + { + "epoch": 139.25333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004941485266682212, + "loss": 0.3022, + "step": 52220 + }, + { + "epoch": 139.28, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004941462725280065, + "loss": 0.3205, + "step": 52230 + }, + { + "epoch": 139.30666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004941440179588418, + "loss": 0.3021, + "step": 52240 + }, + { + "epoch": 139.33333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004941417629607314, + "loss": 0.3166, + "step": 52250 + }, + { + "epoch": 139.36, + "grad_norm": 0.18359375, + "learning_rate": 0.0004941395075336788, + "loss": 0.3072, + "step": 52260 + }, + { + "epoch": 139.38666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0004941372516776884, + "loss": 0.3052, + "step": 52270 + }, + { + "epoch": 139.41333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004941349953927639, + "loss": 0.3113, + "step": 52280 + }, + { + "epoch": 139.44, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004941327386789092, + "loss": 0.3183, + "step": 52290 + }, + { + "epoch": 139.46666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004941304815361284, + "loss": 0.3225, + "step": 52300 + }, + { + "epoch": 139.49333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004941282239644255, + "loss": 0.3116, + "step": 52310 + }, + { + "epoch": 139.52, + "grad_norm": 0.1875, + "learning_rate": 0.0004941259659638045, + "loss": 0.3157, + "step": 52320 + }, + { + "epoch": 139.54666666666665, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004941237075342691, + "loss": 0.306, + "step": 52330 + }, + { + "epoch": 139.57333333333332, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004941214486758235, + "loss": 0.3091, + "step": 52340 + }, + { + "epoch": 139.6, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004941191893884717, + "loss": 0.3057, + "step": 52350 + }, + { + "epoch": 139.62666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004941169296722175, + "loss": 0.3015, + "step": 52360 + }, + { + "epoch": 139.65333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.000494114669527065, + "loss": 0.3139, + "step": 52370 + }, + { + "epoch": 139.68, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004941124089530182, + "loss": 0.3026, + "step": 52380 + }, + { + "epoch": 139.70666666666668, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004941101479500808, + "loss": 0.3038, + "step": 52390 + }, + { + "epoch": 139.73333333333332, + "grad_norm": 0.36328125, + "learning_rate": 0.0004941078865182572, + "loss": 0.3195, + "step": 52400 + }, + { + "epoch": 139.76, + "grad_norm": 0.330078125, + "learning_rate": 0.0004941056246575509, + "loss": 0.3204, + "step": 52410 + }, + { + "epoch": 139.78666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004941033623679662, + "loss": 0.3212, + "step": 52420 + }, + { + "epoch": 139.81333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.000494101099649507, + "loss": 0.3037, + "step": 52430 + }, + { + "epoch": 139.84, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004940988365021773, + "loss": 0.3031, + "step": 52440 + }, + { + "epoch": 139.86666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.000494096572925981, + "loss": 0.3046, + "step": 52450 + }, + { + "epoch": 139.89333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.0004940943089209223, + "loss": 0.3051, + "step": 52460 + }, + { + "epoch": 139.92, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004940920444870048, + "loss": 0.3071, + "step": 52470 + }, + { + "epoch": 139.94666666666666, + "grad_norm": 0.232421875, + "learning_rate": 0.0004940897796242328, + "loss": 0.3086, + "step": 52480 + }, + { + "epoch": 139.97333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004940875143326101, + "loss": 0.3154, + "step": 52490 + }, + { + "epoch": 140.0, + "grad_norm": 0.1875, + "learning_rate": 0.0004940852486121407, + "loss": 0.3041, + "step": 52500 + }, + { + "epoch": 140.0, + "eval_loss": 0.3995729684829712, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 13.7618, + "eval_samples_per_second": 1.163, + "eval_steps_per_second": 0.073, + "step": 52500 + }, + { + "epoch": 140.02666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004940829824628287, + "loss": 0.3262, + "step": 52510 + }, + { + "epoch": 140.05333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004940807158846779, + "loss": 0.3324, + "step": 52520 + }, + { + "epoch": 140.08, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004940784488776924, + "loss": 0.3166, + "step": 52530 + }, + { + "epoch": 140.10666666666665, + "grad_norm": 0.21875, + "learning_rate": 0.0004940761814418763, + "loss": 0.319, + "step": 52540 + }, + { + "epoch": 140.13333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004940739135772332, + "loss": 0.3101, + "step": 52550 + }, + { + "epoch": 140.16, + "grad_norm": 0.1953125, + "learning_rate": 0.0004940716452837675, + "loss": 0.3172, + "step": 52560 + }, + { + "epoch": 140.18666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.000494069376561483, + "loss": 0.3123, + "step": 52570 + }, + { + "epoch": 140.21333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004940671074103837, + "loss": 0.3011, + "step": 52580 + }, + { + "epoch": 140.24, + "grad_norm": 0.1875, + "learning_rate": 0.0004940648378304736, + "loss": 0.3051, + "step": 52590 + }, + { + "epoch": 140.26666666666668, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004940625678217566, + "loss": 0.3107, + "step": 52600 + }, + { + "epoch": 140.29333333333332, + "grad_norm": 0.181640625, + "learning_rate": 0.0004940602973842369, + "loss": 0.3066, + "step": 52610 + }, + { + "epoch": 140.32, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004940580265179183, + "loss": 0.3133, + "step": 52620 + }, + { + "epoch": 140.34666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004940557552228047, + "loss": 0.3124, + "step": 52630 + }, + { + "epoch": 140.37333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004940534834989005, + "loss": 0.3047, + "step": 52640 + }, + { + "epoch": 140.4, + "grad_norm": 0.189453125, + "learning_rate": 0.0004940512113462092, + "loss": 0.3066, + "step": 52650 + }, + { + "epoch": 140.42666666666668, + "grad_norm": 0.166015625, + "learning_rate": 0.0004940489387647351, + "loss": 0.3135, + "step": 52660 + }, + { + "epoch": 140.45333333333335, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004940466657544822, + "loss": 0.3221, + "step": 52670 + }, + { + "epoch": 140.48, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004940443923154543, + "loss": 0.3178, + "step": 52680 + }, + { + "epoch": 140.50666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004940421184476554, + "loss": 0.3143, + "step": 52690 + }, + { + "epoch": 140.53333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004940398441510898, + "loss": 0.3091, + "step": 52700 + }, + { + "epoch": 140.56, + "grad_norm": 0.181640625, + "learning_rate": 0.0004940375694257612, + "loss": 0.3062, + "step": 52710 + }, + { + "epoch": 140.58666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004940352942716737, + "loss": 0.3092, + "step": 52720 + }, + { + "epoch": 140.61333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004940330186888312, + "loss": 0.3013, + "step": 52730 + }, + { + "epoch": 140.64, + "grad_norm": 0.177734375, + "learning_rate": 0.0004940307426772379, + "loss": 0.303, + "step": 52740 + }, + { + "epoch": 140.66666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004940284662368977, + "loss": 0.3184, + "step": 52750 + }, + { + "epoch": 140.69333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004940261893678145, + "loss": 0.2972, + "step": 52760 + }, + { + "epoch": 140.72, + "grad_norm": 0.23828125, + "learning_rate": 0.0004940239120699923, + "loss": 0.3134, + "step": 52770 + }, + { + "epoch": 140.74666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004940216343434353, + "loss": 0.3143, + "step": 52780 + }, + { + "epoch": 140.77333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004940193561881474, + "loss": 0.326, + "step": 52790 + }, + { + "epoch": 140.8, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004940170776041326, + "loss": 0.3123, + "step": 52800 + }, + { + "epoch": 140.82666666666665, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004940147985913947, + "loss": 0.3014, + "step": 52810 + }, + { + "epoch": 140.85333333333332, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004940125191499382, + "loss": 0.3056, + "step": 52820 + }, + { + "epoch": 140.88, + "grad_norm": 0.23046875, + "learning_rate": 0.0004940102392797665, + "loss": 0.3042, + "step": 52830 + }, + { + "epoch": 140.90666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.000494007958980884, + "loss": 0.3062, + "step": 52840 + }, + { + "epoch": 140.93333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004940056782532947, + "loss": 0.3065, + "step": 52850 + }, + { + "epoch": 140.96, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004940033970970024, + "loss": 0.3066, + "step": 52860 + }, + { + "epoch": 140.98666666666668, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004940011155120114, + "loss": 0.3193, + "step": 52870 + }, + { + "epoch": 141.0, + "eval_loss": 0.400906503200531, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.4628, + "eval_samples_per_second": 1.396, + "eval_steps_per_second": 0.087, + "step": 52875 + }, + { + "epoch": 141.01333333333332, + "grad_norm": 0.21875, + "learning_rate": 0.0004939988334983254, + "loss": 0.3091, + "step": 52880 + }, + { + "epoch": 141.04, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004939965510559485, + "loss": 0.3357, + "step": 52890 + }, + { + "epoch": 141.06666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004939942681848849, + "loss": 0.3203, + "step": 52900 + }, + { + "epoch": 141.09333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004939919848851383, + "loss": 0.3183, + "step": 52910 + }, + { + "epoch": 141.12, + "grad_norm": 0.2177734375, + "learning_rate": 0.000493989701156713, + "loss": 0.314, + "step": 52920 + }, + { + "epoch": 141.14666666666668, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004939874169996128, + "loss": 0.3149, + "step": 52930 + }, + { + "epoch": 141.17333333333335, + "grad_norm": 0.201171875, + "learning_rate": 0.0004939851324138419, + "loss": 0.3144, + "step": 52940 + }, + { + "epoch": 141.2, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004939828473994041, + "loss": 0.307, + "step": 52950 + }, + { + "epoch": 141.22666666666666, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004939805619563036, + "loss": 0.3022, + "step": 52960 + }, + { + "epoch": 141.25333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004939782760845444, + "loss": 0.3014, + "step": 52970 + }, + { + "epoch": 141.28, + "grad_norm": 0.259765625, + "learning_rate": 0.0004939759897841304, + "loss": 0.3199, + "step": 52980 + }, + { + "epoch": 141.30666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004939737030550656, + "loss": 0.3022, + "step": 52990 + }, + { + "epoch": 141.33333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004939714158973542, + "loss": 0.316, + "step": 53000 + }, + { + "epoch": 141.36, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004939691283110001, + "loss": 0.3074, + "step": 53010 + }, + { + "epoch": 141.38666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0004939668402960073, + "loss": 0.3047, + "step": 53020 + }, + { + "epoch": 141.41333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004939645518523798, + "loss": 0.3108, + "step": 53030 + }, + { + "epoch": 141.44, + "grad_norm": 0.20703125, + "learning_rate": 0.0004939622629801219, + "loss": 0.3185, + "step": 53040 + }, + { + "epoch": 141.46666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004939599736792372, + "loss": 0.3222, + "step": 53050 + }, + { + "epoch": 141.49333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004939576839497299, + "loss": 0.311, + "step": 53060 + }, + { + "epoch": 141.52, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004939553937916041, + "loss": 0.3156, + "step": 53070 + }, + { + "epoch": 141.54666666666665, + "grad_norm": 0.21484375, + "learning_rate": 0.0004939531032048637, + "loss": 0.3058, + "step": 53080 + }, + { + "epoch": 141.57333333333332, + "grad_norm": 0.17578125, + "learning_rate": 0.0004939508121895129, + "loss": 0.3084, + "step": 53090 + }, + { + "epoch": 141.6, + "grad_norm": 0.21484375, + "learning_rate": 0.0004939485207455555, + "loss": 0.3051, + "step": 53100 + }, + { + "epoch": 141.62666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004939462288729957, + "loss": 0.3005, + "step": 53110 + }, + { + "epoch": 141.65333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004939439365718376, + "loss": 0.3138, + "step": 53120 + }, + { + "epoch": 141.68, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004939416438420849, + "loss": 0.3021, + "step": 53130 + }, + { + "epoch": 141.70666666666668, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004939393506837418, + "loss": 0.3033, + "step": 53140 + }, + { + "epoch": 141.73333333333332, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004939370570968125, + "loss": 0.3189, + "step": 53150 + }, + { + "epoch": 141.76, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004939347630813009, + "loss": 0.3201, + "step": 53160 + }, + { + "epoch": 141.78666666666666, + "grad_norm": 0.20703125, + "learning_rate": 0.0004939324686372108, + "loss": 0.3214, + "step": 53170 + }, + { + "epoch": 141.81333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004939301737645467, + "loss": 0.3031, + "step": 53180 + }, + { + "epoch": 141.84, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004939278784633121, + "loss": 0.3031, + "step": 53190 + }, + { + "epoch": 141.86666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004939255827335115, + "loss": 0.3054, + "step": 53200 + }, + { + "epoch": 141.89333333333335, + "grad_norm": 0.203125, + "learning_rate": 0.0004939232865751487, + "loss": 0.305, + "step": 53210 + }, + { + "epoch": 141.92, + "grad_norm": 0.228515625, + "learning_rate": 0.0004939209899882278, + "loss": 0.3064, + "step": 53220 + }, + { + "epoch": 141.94666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.0004939186929727527, + "loss": 0.3082, + "step": 53230 + }, + { + "epoch": 141.97333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004939163955287276, + "loss": 0.3156, + "step": 53240 + }, + { + "epoch": 142.0, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004939140976561565, + "loss": 0.3041, + "step": 53250 + }, + { + "epoch": 142.0, + "eval_loss": 0.3979343771934509, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0505, + "eval_samples_per_second": 1.448, + "eval_steps_per_second": 0.09, + "step": 53250 + }, + { + "epoch": 142.02666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004939117993550434, + "loss": 0.3265, + "step": 53260 + }, + { + "epoch": 142.05333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004939095006253924, + "loss": 0.3329, + "step": 53270 + }, + { + "epoch": 142.08, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004939072014672074, + "loss": 0.3161, + "step": 53280 + }, + { + "epoch": 142.10666666666665, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004939049018804927, + "loss": 0.319, + "step": 53290 + }, + { + "epoch": 142.13333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.000493902601865252, + "loss": 0.3096, + "step": 53300 + }, + { + "epoch": 142.16, + "grad_norm": 0.173828125, + "learning_rate": 0.0004939003014214897, + "loss": 0.3165, + "step": 53310 + }, + { + "epoch": 142.18666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004938980005492095, + "loss": 0.3124, + "step": 53320 + }, + { + "epoch": 142.21333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004938956992484156, + "loss": 0.3009, + "step": 53330 + }, + { + "epoch": 142.24, + "grad_norm": 0.205078125, + "learning_rate": 0.0004938933975191122, + "loss": 0.3046, + "step": 53340 + }, + { + "epoch": 142.26666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.000493891095361303, + "loss": 0.311, + "step": 53350 + }, + { + "epoch": 142.29333333333332, + "grad_norm": 0.21484375, + "learning_rate": 0.0004938887927749923, + "loss": 0.3061, + "step": 53360 + }, + { + "epoch": 142.32, + "grad_norm": 0.181640625, + "learning_rate": 0.0004938864897601841, + "loss": 0.3135, + "step": 53370 + }, + { + "epoch": 142.34666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004938841863168825, + "loss": 0.3126, + "step": 53380 + }, + { + "epoch": 142.37333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004938818824450913, + "loss": 0.3043, + "step": 53390 + }, + { + "epoch": 142.4, + "grad_norm": 0.203125, + "learning_rate": 0.0004938795781448149, + "loss": 0.3058, + "step": 53400 + }, + { + "epoch": 142.42666666666668, + "grad_norm": 0.25, + "learning_rate": 0.000493877273416057, + "loss": 0.3136, + "step": 53410 + }, + { + "epoch": 142.45333333333335, + "grad_norm": 0.21484375, + "learning_rate": 0.0004938749682588219, + "loss": 0.3214, + "step": 53420 + }, + { + "epoch": 142.48, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004938726626731136, + "loss": 0.3174, + "step": 53430 + }, + { + "epoch": 142.50666666666666, + "grad_norm": 0.1708984375, + "learning_rate": 0.000493870356658936, + "loss": 0.3139, + "step": 53440 + }, + { + "epoch": 142.53333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004938680502162934, + "loss": 0.3088, + "step": 53450 + }, + { + "epoch": 142.56, + "grad_norm": 0.21484375, + "learning_rate": 0.0004938657433451897, + "loss": 0.3056, + "step": 53460 + }, + { + "epoch": 142.58666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004938634360456288, + "loss": 0.3084, + "step": 53470 + }, + { + "epoch": 142.61333333333334, + "grad_norm": 0.169921875, + "learning_rate": 0.0004938611283176152, + "loss": 0.3008, + "step": 53480 + }, + { + "epoch": 142.64, + "grad_norm": 0.17578125, + "learning_rate": 0.0004938588201611524, + "loss": 0.3026, + "step": 53490 + }, + { + "epoch": 142.66666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.000493856511576245, + "loss": 0.3182, + "step": 53500 + }, + { + "epoch": 142.69333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004938542025628967, + "loss": 0.2972, + "step": 53510 + }, + { + "epoch": 142.72, + "grad_norm": 0.201171875, + "learning_rate": 0.0004938518931211116, + "loss": 0.3131, + "step": 53520 + }, + { + "epoch": 142.74666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004938495832508937, + "loss": 0.3141, + "step": 53530 + }, + { + "epoch": 142.77333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004938472729522475, + "loss": 0.3255, + "step": 53540 + }, + { + "epoch": 142.8, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004938449622251765, + "loss": 0.3117, + "step": 53550 + }, + { + "epoch": 142.82666666666665, + "grad_norm": 0.185546875, + "learning_rate": 0.0004938426510696849, + "loss": 0.3007, + "step": 53560 + }, + { + "epoch": 142.85333333333332, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004938403394857771, + "loss": 0.305, + "step": 53570 + }, + { + "epoch": 142.88, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004938380274734567, + "loss": 0.3046, + "step": 53580 + }, + { + "epoch": 142.90666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004938357150327281, + "loss": 0.3058, + "step": 53590 + }, + { + "epoch": 142.93333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004938334021635952, + "loss": 0.307, + "step": 53600 + }, + { + "epoch": 142.96, + "grad_norm": 0.193359375, + "learning_rate": 0.000493831088866062, + "loss": 0.3064, + "step": 53610 + }, + { + "epoch": 142.98666666666668, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004938287751401327, + "loss": 0.3187, + "step": 53620 + }, + { + "epoch": 143.0, + "eval_loss": 0.39864861965179443, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.9774, + "eval_samples_per_second": 1.336, + "eval_steps_per_second": 0.083, + "step": 53625 + }, + { + "epoch": 143.01333333333332, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004938264609858114, + "loss": 0.3088, + "step": 53630 + }, + { + "epoch": 143.04, + "grad_norm": 0.2041015625, + "learning_rate": 0.000493824146403102, + "loss": 0.3357, + "step": 53640 + }, + { + "epoch": 143.06666666666666, + "grad_norm": 0.298828125, + "learning_rate": 0.0004938218313920087, + "loss": 0.3201, + "step": 53650 + }, + { + "epoch": 143.09333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004938195159525355, + "loss": 0.3171, + "step": 53660 + }, + { + "epoch": 143.12, + "grad_norm": 0.17578125, + "learning_rate": 0.0004938172000846866, + "loss": 0.3134, + "step": 53670 + }, + { + "epoch": 143.14666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004938148837884659, + "loss": 0.3146, + "step": 53680 + }, + { + "epoch": 143.17333333333335, + "grad_norm": 0.28515625, + "learning_rate": 0.0004938125670638775, + "loss": 0.3144, + "step": 53690 + }, + { + "epoch": 143.2, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004938102499109255, + "loss": 0.3073, + "step": 53700 + }, + { + "epoch": 143.22666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.000493807932329614, + "loss": 0.3012, + "step": 53710 + }, + { + "epoch": 143.25333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.000493805614319947, + "loss": 0.3011, + "step": 53720 + }, + { + "epoch": 143.28, + "grad_norm": 0.279296875, + "learning_rate": 0.0004938032958819287, + "loss": 0.3197, + "step": 53730 + }, + { + "epoch": 143.30666666666667, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004938009770155629, + "loss": 0.302, + "step": 53740 + }, + { + "epoch": 143.33333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004937986577208541, + "loss": 0.3162, + "step": 53750 + }, + { + "epoch": 143.36, + "grad_norm": 0.197265625, + "learning_rate": 0.0004937963379978061, + "loss": 0.3074, + "step": 53760 + }, + { + "epoch": 143.38666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0004937940178464229, + "loss": 0.3046, + "step": 53770 + }, + { + "epoch": 143.41333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004937916972667087, + "loss": 0.3101, + "step": 53780 + }, + { + "epoch": 143.44, + "grad_norm": 0.25390625, + "learning_rate": 0.0004937893762586677, + "loss": 0.318, + "step": 53790 + }, + { + "epoch": 143.46666666666667, + "grad_norm": 0.50390625, + "learning_rate": 0.0004937870548223037, + "loss": 0.3222, + "step": 53800 + }, + { + "epoch": 143.49333333333334, + "grad_norm": 0.271484375, + "learning_rate": 0.0004937847329576211, + "loss": 0.3111, + "step": 53810 + }, + { + "epoch": 143.52, + "grad_norm": 0.1796875, + "learning_rate": 0.0004937824106646236, + "loss": 0.3152, + "step": 53820 + }, + { + "epoch": 143.54666666666665, + "grad_norm": 0.38671875, + "learning_rate": 0.0004937800879433156, + "loss": 0.3051, + "step": 53830 + }, + { + "epoch": 143.57333333333332, + "grad_norm": 0.28125, + "learning_rate": 0.0004937777647937011, + "loss": 0.3089, + "step": 53840 + }, + { + "epoch": 143.6, + "grad_norm": 0.3671875, + "learning_rate": 0.000493775441215784, + "loss": 0.3056, + "step": 53850 + }, + { + "epoch": 143.62666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004937731172095686, + "loss": 0.2998, + "step": 53860 + }, + { + "epoch": 143.65333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.000493770792775059, + "loss": 0.3134, + "step": 53870 + }, + { + "epoch": 143.68, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004937684679122591, + "loss": 0.3023, + "step": 53880 + }, + { + "epoch": 143.70666666666668, + "grad_norm": 0.26953125, + "learning_rate": 0.0004937661426211731, + "loss": 0.3023, + "step": 53890 + }, + { + "epoch": 143.73333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.000493763816901805, + "loss": 0.3181, + "step": 53900 + }, + { + "epoch": 143.76, + "grad_norm": 0.19921875, + "learning_rate": 0.0004937614907541591, + "loss": 0.3203, + "step": 53910 + }, + { + "epoch": 143.78666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004937591641782393, + "loss": 0.321, + "step": 53920 + }, + { + "epoch": 143.81333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004937568371740496, + "loss": 0.3028, + "step": 53930 + }, + { + "epoch": 143.84, + "grad_norm": 0.193359375, + "learning_rate": 0.0004937545097415944, + "loss": 0.3034, + "step": 53940 + }, + { + "epoch": 143.86666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004937521818808775, + "loss": 0.3048, + "step": 53950 + }, + { + "epoch": 143.89333333333335, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004937498535919031, + "loss": 0.3044, + "step": 53960 + }, + { + "epoch": 143.92, + "grad_norm": 0.205078125, + "learning_rate": 0.0004937475248746753, + "loss": 0.306, + "step": 53970 + }, + { + "epoch": 143.94666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0004937451957291982, + "loss": 0.3082, + "step": 53980 + }, + { + "epoch": 143.97333333333333, + "grad_norm": 0.48828125, + "learning_rate": 0.0004937428661554758, + "loss": 0.3148, + "step": 53990 + }, + { + "epoch": 144.0, + "grad_norm": 0.228515625, + "learning_rate": 0.0004937405361535123, + "loss": 0.3037, + "step": 54000 + }, + { + "epoch": 144.0, + "eval_loss": 0.3995320200920105, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.2584, + "eval_samples_per_second": 1.305, + "eval_steps_per_second": 0.082, + "step": 54000 + }, + { + "epoch": 144.02666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004937382057233118, + "loss": 0.3257, + "step": 54010 + }, + { + "epoch": 144.05333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004937358748648783, + "loss": 0.3325, + "step": 54020 + }, + { + "epoch": 144.08, + "grad_norm": 0.2294921875, + "learning_rate": 0.000493733543578216, + "loss": 0.3167, + "step": 54030 + }, + { + "epoch": 144.10666666666665, + "grad_norm": 0.16796875, + "learning_rate": 0.0004937312118633288, + "loss": 0.3182, + "step": 54040 + }, + { + "epoch": 144.13333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004937288797202211, + "loss": 0.3102, + "step": 54050 + }, + { + "epoch": 144.16, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004937265471488967, + "loss": 0.3166, + "step": 54060 + }, + { + "epoch": 144.18666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.00049372421414936, + "loss": 0.3121, + "step": 54070 + }, + { + "epoch": 144.21333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004937218807216148, + "loss": 0.3004, + "step": 54080 + }, + { + "epoch": 144.24, + "grad_norm": 0.34375, + "learning_rate": 0.0004937195468656654, + "loss": 0.3045, + "step": 54090 + }, + { + "epoch": 144.26666666666668, + "grad_norm": 0.287109375, + "learning_rate": 0.0004937172125815158, + "loss": 0.3104, + "step": 54100 + }, + { + "epoch": 144.29333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.0004937148778691702, + "loss": 0.306, + "step": 54110 + }, + { + "epoch": 144.32, + "grad_norm": 0.236328125, + "learning_rate": 0.0004937125427286324, + "loss": 0.3133, + "step": 54120 + }, + { + "epoch": 144.34666666666666, + "grad_norm": 0.291015625, + "learning_rate": 0.000493710207159907, + "loss": 0.3126, + "step": 54130 + }, + { + "epoch": 144.37333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004937078711629978, + "loss": 0.3046, + "step": 54140 + }, + { + "epoch": 144.4, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004937055347379088, + "loss": 0.3061, + "step": 54150 + }, + { + "epoch": 144.42666666666668, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004937031978846444, + "loss": 0.3128, + "step": 54160 + }, + { + "epoch": 144.45333333333335, + "grad_norm": 0.25, + "learning_rate": 0.0004937008606032085, + "loss": 0.3216, + "step": 54170 + }, + { + "epoch": 144.48, + "grad_norm": 0.197265625, + "learning_rate": 0.0004936985228936052, + "loss": 0.3176, + "step": 54180 + }, + { + "epoch": 144.50666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004936961847558387, + "loss": 0.3132, + "step": 54190 + }, + { + "epoch": 144.53333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004936938461899132, + "loss": 0.3089, + "step": 54200 + }, + { + "epoch": 144.56, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004936915071958325, + "loss": 0.3053, + "step": 54210 + }, + { + "epoch": 144.58666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004936891677736011, + "loss": 0.3091, + "step": 54220 + }, + { + "epoch": 144.61333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004936868279232228, + "loss": 0.301, + "step": 54230 + }, + { + "epoch": 144.64, + "grad_norm": 0.1953125, + "learning_rate": 0.0004936844876447018, + "loss": 0.3022, + "step": 54240 + }, + { + "epoch": 144.66666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004936821469380423, + "loss": 0.318, + "step": 54250 + }, + { + "epoch": 144.69333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004936798058032483, + "loss": 0.2967, + "step": 54260 + }, + { + "epoch": 144.72, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004936774642403239, + "loss": 0.3124, + "step": 54270 + }, + { + "epoch": 144.74666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004936751222492734, + "loss": 0.3139, + "step": 54280 + }, + { + "epoch": 144.77333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004936727798301006, + "loss": 0.3254, + "step": 54290 + }, + { + "epoch": 144.8, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004936704369828098, + "loss": 0.3118, + "step": 54300 + }, + { + "epoch": 144.82666666666665, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004936680937074053, + "loss": 0.3002, + "step": 54310 + }, + { + "epoch": 144.85333333333332, + "grad_norm": 0.181640625, + "learning_rate": 0.0004936657500038909, + "loss": 0.305, + "step": 54320 + }, + { + "epoch": 144.88, + "grad_norm": 0.21484375, + "learning_rate": 0.000493663405872271, + "loss": 0.304, + "step": 54330 + }, + { + "epoch": 144.90666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004936610613125494, + "loss": 0.3061, + "step": 54340 + }, + { + "epoch": 144.93333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004936587163247304, + "loss": 0.3064, + "step": 54350 + }, + { + "epoch": 144.96, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004936563709088182, + "loss": 0.306, + "step": 54360 + }, + { + "epoch": 144.98666666666668, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004936540250648168, + "loss": 0.3181, + "step": 54370 + }, + { + "epoch": 145.0, + "eval_loss": 0.39917775988578796, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6684, + "eval_samples_per_second": 1.371, + "eval_steps_per_second": 0.086, + "step": 54375 + }, + { + "epoch": 145.01333333333332, + "grad_norm": 0.302734375, + "learning_rate": 0.0004936516787927304, + "loss": 0.309, + "step": 54380 + }, + { + "epoch": 145.04, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004936493320925631, + "loss": 0.3355, + "step": 54390 + }, + { + "epoch": 145.06666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004936469849643188, + "loss": 0.3203, + "step": 54400 + }, + { + "epoch": 145.09333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004936446374080019, + "loss": 0.3172, + "step": 54410 + }, + { + "epoch": 145.12, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004936422894236164, + "loss": 0.313, + "step": 54420 + }, + { + "epoch": 145.14666666666668, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004936399410111666, + "loss": 0.3138, + "step": 54430 + }, + { + "epoch": 145.17333333333335, + "grad_norm": 0.279296875, + "learning_rate": 0.0004936375921706565, + "loss": 0.3139, + "step": 54440 + }, + { + "epoch": 145.2, + "grad_norm": 0.189453125, + "learning_rate": 0.0004936352429020901, + "loss": 0.3074, + "step": 54450 + }, + { + "epoch": 145.22666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004936328932054718, + "loss": 0.3008, + "step": 54460 + }, + { + "epoch": 145.25333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004936305430808054, + "loss": 0.3017, + "step": 54470 + }, + { + "epoch": 145.28, + "grad_norm": 0.1953125, + "learning_rate": 0.0004936281925280953, + "loss": 0.3192, + "step": 54480 + }, + { + "epoch": 145.30666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004936258415473455, + "loss": 0.3013, + "step": 54490 + }, + { + "epoch": 145.33333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004936234901385603, + "loss": 0.3155, + "step": 54500 + }, + { + "epoch": 145.36, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004936211383017435, + "loss": 0.3071, + "step": 54510 + }, + { + "epoch": 145.38666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004936187860368996, + "loss": 0.3038, + "step": 54520 + }, + { + "epoch": 145.41333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004936164333440324, + "loss": 0.3101, + "step": 54530 + }, + { + "epoch": 145.44, + "grad_norm": 0.177734375, + "learning_rate": 0.0004936140802231463, + "loss": 0.3175, + "step": 54540 + }, + { + "epoch": 145.46666666666667, + "grad_norm": 0.234375, + "learning_rate": 0.0004936117266742453, + "loss": 0.322, + "step": 54550 + }, + { + "epoch": 145.49333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004936093726973336, + "loss": 0.3105, + "step": 54560 + }, + { + "epoch": 145.52, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004936070182924153, + "loss": 0.3146, + "step": 54570 + }, + { + "epoch": 145.54666666666665, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004936046634594945, + "loss": 0.3055, + "step": 54580 + }, + { + "epoch": 145.57333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004936023081985753, + "loss": 0.3085, + "step": 54590 + }, + { + "epoch": 145.6, + "grad_norm": 0.185546875, + "learning_rate": 0.000493599952509662, + "loss": 0.3053, + "step": 54600 + }, + { + "epoch": 145.62666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004935975963927587, + "loss": 0.2999, + "step": 54610 + }, + { + "epoch": 145.65333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004935952398478694, + "loss": 0.3129, + "step": 54620 + }, + { + "epoch": 145.68, + "grad_norm": 0.169921875, + "learning_rate": 0.0004935928828749985, + "loss": 0.3014, + "step": 54630 + }, + { + "epoch": 145.70666666666668, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004935905254741499, + "loss": 0.3019, + "step": 54640 + }, + { + "epoch": 145.73333333333332, + "grad_norm": 0.234375, + "learning_rate": 0.0004935881676453276, + "loss": 0.3188, + "step": 54650 + }, + { + "epoch": 145.76, + "grad_norm": 0.189453125, + "learning_rate": 0.0004935858093885362, + "loss": 0.3195, + "step": 54660 + }, + { + "epoch": 145.78666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004935834507037795, + "loss": 0.3205, + "step": 54670 + }, + { + "epoch": 145.81333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004935810915910618, + "loss": 0.3029, + "step": 54680 + }, + { + "epoch": 145.84, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004935787320503872, + "loss": 0.302, + "step": 54690 + }, + { + "epoch": 145.86666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004935763720817597, + "loss": 0.3049, + "step": 54700 + }, + { + "epoch": 145.89333333333335, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004935740116851837, + "loss": 0.3043, + "step": 54710 + }, + { + "epoch": 145.92, + "grad_norm": 0.23828125, + "learning_rate": 0.0004935716508606633, + "loss": 0.3059, + "step": 54720 + }, + { + "epoch": 145.94666666666666, + "grad_norm": 0.171875, + "learning_rate": 0.0004935692896082025, + "loss": 0.3076, + "step": 54730 + }, + { + "epoch": 145.97333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004935669279278054, + "loss": 0.3146, + "step": 54740 + }, + { + "epoch": 146.0, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004935645658194764, + "loss": 0.3032, + "step": 54750 + }, + { + "epoch": 146.0, + "eval_loss": 0.39894866943359375, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7353, + "eval_samples_per_second": 1.363, + "eval_steps_per_second": 0.085, + "step": 54750 + }, + { + "epoch": 146.02666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.0004935622032832196, + "loss": 0.3255, + "step": 54760 + }, + { + "epoch": 146.05333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004935598403190389, + "loss": 0.3322, + "step": 54770 + }, + { + "epoch": 146.08, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004935574769269387, + "loss": 0.316, + "step": 54780 + }, + { + "epoch": 146.10666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.0004935551131069231, + "loss": 0.3176, + "step": 54790 + }, + { + "epoch": 146.13333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004935527488589963, + "loss": 0.3094, + "step": 54800 + }, + { + "epoch": 146.16, + "grad_norm": 0.34375, + "learning_rate": 0.0004935503841831622, + "loss": 0.3166, + "step": 54810 + }, + { + "epoch": 146.18666666666667, + "grad_norm": 0.3515625, + "learning_rate": 0.0004935480190794253, + "loss": 0.3118, + "step": 54820 + }, + { + "epoch": 146.21333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004935456535477895, + "loss": 0.3004, + "step": 54830 + }, + { + "epoch": 146.24, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004935432875882591, + "loss": 0.3045, + "step": 54840 + }, + { + "epoch": 146.26666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004935409212008383, + "loss": 0.3102, + "step": 54850 + }, + { + "epoch": 146.29333333333332, + "grad_norm": 0.208984375, + "learning_rate": 0.000493538554385531, + "loss": 0.3063, + "step": 54860 + }, + { + "epoch": 146.32, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004935361871423416, + "loss": 0.3128, + "step": 54870 + }, + { + "epoch": 146.34666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004935338194712741, + "loss": 0.3121, + "step": 54880 + }, + { + "epoch": 146.37333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004935314513723329, + "loss": 0.3043, + "step": 54890 + }, + { + "epoch": 146.4, + "grad_norm": 0.2001953125, + "learning_rate": 0.000493529082845522, + "loss": 0.3057, + "step": 54900 + }, + { + "epoch": 146.42666666666668, + "grad_norm": 0.228515625, + "learning_rate": 0.0004935267138908455, + "loss": 0.3129, + "step": 54910 + }, + { + "epoch": 146.45333333333335, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004935243445083076, + "loss": 0.3211, + "step": 54920 + }, + { + "epoch": 146.48, + "grad_norm": 0.25, + "learning_rate": 0.0004935219746979125, + "loss": 0.3166, + "step": 54930 + }, + { + "epoch": 146.50666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004935196044596644, + "loss": 0.3132, + "step": 54940 + }, + { + "epoch": 146.53333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004935172337935674, + "loss": 0.3084, + "step": 54950 + }, + { + "epoch": 146.56, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004935148626996256, + "loss": 0.3051, + "step": 54960 + }, + { + "epoch": 146.58666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004935124911778434, + "loss": 0.3084, + "step": 54970 + }, + { + "epoch": 146.61333333333334, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004935101192282247, + "loss": 0.3008, + "step": 54980 + }, + { + "epoch": 146.64, + "grad_norm": 0.16796875, + "learning_rate": 0.0004935077468507738, + "loss": 0.3013, + "step": 54990 + }, + { + "epoch": 146.66666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004935053740454949, + "loss": 0.3175, + "step": 55000 + }, + { + "epoch": 146.69333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004935030008123921, + "loss": 0.2968, + "step": 55010 + }, + { + "epoch": 146.72, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004935006271514696, + "loss": 0.3117, + "step": 55020 + }, + { + "epoch": 146.74666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004934982530627316, + "loss": 0.3138, + "step": 55030 + }, + { + "epoch": 146.77333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004934958785461821, + "loss": 0.3251, + "step": 55040 + }, + { + "epoch": 146.8, + "grad_norm": 0.2109375, + "learning_rate": 0.0004934935036018255, + "loss": 0.3111, + "step": 55050 + }, + { + "epoch": 146.82666666666665, + "grad_norm": 0.216796875, + "learning_rate": 0.0004934911282296658, + "loss": 0.3007, + "step": 55060 + }, + { + "epoch": 146.85333333333332, + "grad_norm": 0.21484375, + "learning_rate": 0.0004934887524297073, + "loss": 0.3045, + "step": 55070 + }, + { + "epoch": 146.88, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004934863762019541, + "loss": 0.3036, + "step": 55080 + }, + { + "epoch": 146.90666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004934839995464106, + "loss": 0.3055, + "step": 55090 + }, + { + "epoch": 146.93333333333334, + "grad_norm": 0.162109375, + "learning_rate": 0.0004934816224630806, + "loss": 0.3063, + "step": 55100 + }, + { + "epoch": 146.96, + "grad_norm": 0.1875, + "learning_rate": 0.0004934792449519684, + "loss": 0.3062, + "step": 55110 + }, + { + "epoch": 146.98666666666668, + "grad_norm": 0.22265625, + "learning_rate": 0.0004934768670130783, + "loss": 0.3176, + "step": 55120 + }, + { + "epoch": 147.0, + "eval_loss": 0.3982965350151062, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5411, + "eval_samples_per_second": 1.386, + "eval_steps_per_second": 0.087, + "step": 55125 + }, + { + "epoch": 147.01333333333332, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004934744886464144, + "loss": 0.3089, + "step": 55130 + }, + { + "epoch": 147.04, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004934721098519809, + "loss": 0.3351, + "step": 55140 + }, + { + "epoch": 147.06666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004934697306297819, + "loss": 0.3198, + "step": 55150 + }, + { + "epoch": 147.09333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004934673509798216, + "loss": 0.3166, + "step": 55160 + }, + { + "epoch": 147.12, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004934649709021044, + "loss": 0.3126, + "step": 55170 + }, + { + "epoch": 147.14666666666668, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004934625903966342, + "loss": 0.3136, + "step": 55180 + }, + { + "epoch": 147.17333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004934602094634153, + "loss": 0.3143, + "step": 55190 + }, + { + "epoch": 147.2, + "grad_norm": 0.22265625, + "learning_rate": 0.0004934578281024518, + "loss": 0.3065, + "step": 55200 + }, + { + "epoch": 147.22666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004934554463137481, + "loss": 0.3014, + "step": 55210 + }, + { + "epoch": 147.25333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004934530640973081, + "loss": 0.301, + "step": 55220 + }, + { + "epoch": 147.28, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004934506814531363, + "loss": 0.3183, + "step": 55230 + }, + { + "epoch": 147.30666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004934482983812367, + "loss": 0.3016, + "step": 55240 + }, + { + "epoch": 147.33333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004934459148816133, + "loss": 0.3153, + "step": 55250 + }, + { + "epoch": 147.36, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004934435309542706, + "loss": 0.3071, + "step": 55260 + }, + { + "epoch": 147.38666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004934411465992126, + "loss": 0.3038, + "step": 55270 + }, + { + "epoch": 147.41333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004934387618164437, + "loss": 0.3098, + "step": 55280 + }, + { + "epoch": 147.44, + "grad_norm": 0.17578125, + "learning_rate": 0.0004934363766059679, + "loss": 0.3168, + "step": 55290 + }, + { + "epoch": 147.46666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004934339909677894, + "loss": 0.3205, + "step": 55300 + }, + { + "epoch": 147.49333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004934316049019125, + "loss": 0.3108, + "step": 55310 + }, + { + "epoch": 147.52, + "grad_norm": 0.1796875, + "learning_rate": 0.0004934292184083413, + "loss": 0.3146, + "step": 55320 + }, + { + "epoch": 147.54666666666665, + "grad_norm": 0.2041015625, + "learning_rate": 0.00049342683148708, + "loss": 0.3043, + "step": 55330 + }, + { + "epoch": 147.57333333333332, + "grad_norm": 0.169921875, + "learning_rate": 0.0004934244441381329, + "loss": 0.3073, + "step": 55340 + }, + { + "epoch": 147.6, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004934220563615041, + "loss": 0.3044, + "step": 55350 + }, + { + "epoch": 147.62666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004934196681571976, + "loss": 0.2996, + "step": 55360 + }, + { + "epoch": 147.65333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004934172795252181, + "loss": 0.3129, + "step": 55370 + }, + { + "epoch": 147.68, + "grad_norm": 0.203125, + "learning_rate": 0.0004934148904655693, + "loss": 0.3013, + "step": 55380 + }, + { + "epoch": 147.70666666666668, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004934125009782557, + "loss": 0.3027, + "step": 55390 + }, + { + "epoch": 147.73333333333332, + "grad_norm": 0.248046875, + "learning_rate": 0.0004934101110632813, + "loss": 0.3179, + "step": 55400 + }, + { + "epoch": 147.76, + "grad_norm": 0.2578125, + "learning_rate": 0.0004934077207206503, + "loss": 0.319, + "step": 55410 + }, + { + "epoch": 147.78666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004934053299503672, + "loss": 0.3197, + "step": 55420 + }, + { + "epoch": 147.81333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004934029387524359, + "loss": 0.303, + "step": 55430 + }, + { + "epoch": 147.84, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004934005471268607, + "loss": 0.3022, + "step": 55440 + }, + { + "epoch": 147.86666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004933981550736458, + "loss": 0.3038, + "step": 55450 + }, + { + "epoch": 147.89333333333335, + "grad_norm": 0.19140625, + "learning_rate": 0.0004933957625927954, + "loss": 0.3039, + "step": 55460 + }, + { + "epoch": 147.92, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004933933696843137, + "loss": 0.3052, + "step": 55470 + }, + { + "epoch": 147.94666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.000493390976348205, + "loss": 0.3066, + "step": 55480 + }, + { + "epoch": 147.97333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004933885825844733, + "loss": 0.3147, + "step": 55490 + }, + { + "epoch": 148.0, + "grad_norm": 0.2265625, + "learning_rate": 0.0004933861883931229, + "loss": 0.3031, + "step": 55500 + }, + { + "epoch": 148.0, + "eval_loss": 0.3972439467906952, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8819, + "eval_samples_per_second": 1.47, + "eval_steps_per_second": 0.092, + "step": 55500 + }, + { + "epoch": 148.02666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004933837937741581, + "loss": 0.3256, + "step": 55510 + }, + { + "epoch": 148.05333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004933813987275829, + "loss": 0.3318, + "step": 55520 + }, + { + "epoch": 148.08, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004933790032534018, + "loss": 0.3157, + "step": 55530 + }, + { + "epoch": 148.10666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.0004933766073516187, + "loss": 0.3178, + "step": 55540 + }, + { + "epoch": 148.13333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004933742110222381, + "loss": 0.3093, + "step": 55550 + }, + { + "epoch": 148.16, + "grad_norm": 0.205078125, + "learning_rate": 0.000493371814265264, + "loss": 0.3157, + "step": 55560 + }, + { + "epoch": 148.18666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.0004933694170807006, + "loss": 0.3112, + "step": 55570 + }, + { + "epoch": 148.21333333333334, + "grad_norm": 0.169921875, + "learning_rate": 0.0004933670194685523, + "loss": 0.2996, + "step": 55580 + }, + { + "epoch": 148.24, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004933646214288232, + "loss": 0.304, + "step": 55590 + }, + { + "epoch": 148.26666666666668, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004933622229615174, + "loss": 0.3101, + "step": 55600 + }, + { + "epoch": 148.29333333333332, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004933598240666393, + "loss": 0.3053, + "step": 55610 + }, + { + "epoch": 148.32, + "grad_norm": 0.220703125, + "learning_rate": 0.0004933574247441931, + "loss": 0.3128, + "step": 55620 + }, + { + "epoch": 148.34666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0004933550249941828, + "loss": 0.3115, + "step": 55630 + }, + { + "epoch": 148.37333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.000493352624816613, + "loss": 0.304, + "step": 55640 + }, + { + "epoch": 148.4, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004933502242114875, + "loss": 0.3054, + "step": 55650 + }, + { + "epoch": 148.42666666666668, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004933478231788108, + "loss": 0.3117, + "step": 55660 + }, + { + "epoch": 148.45333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.000493345421718587, + "loss": 0.3209, + "step": 55670 + }, + { + "epoch": 148.48, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004933430198308204, + "loss": 0.3163, + "step": 55680 + }, + { + "epoch": 148.50666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004933406175155151, + "loss": 0.3134, + "step": 55690 + }, + { + "epoch": 148.53333333333333, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004933382147726754, + "loss": 0.308, + "step": 55700 + }, + { + "epoch": 148.56, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004933358116023056, + "loss": 0.305, + "step": 55710 + }, + { + "epoch": 148.58666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004933334080044097, + "loss": 0.3079, + "step": 55720 + }, + { + "epoch": 148.61333333333334, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004933310039789921, + "loss": 0.3008, + "step": 55730 + }, + { + "epoch": 148.64, + "grad_norm": 0.197265625, + "learning_rate": 0.000493328599526057, + "loss": 0.3016, + "step": 55740 + }, + { + "epoch": 148.66666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004933261946456085, + "loss": 0.3171, + "step": 55750 + }, + { + "epoch": 148.69333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004933237893376511, + "loss": 0.2965, + "step": 55760 + }, + { + "epoch": 148.72, + "grad_norm": 0.212890625, + "learning_rate": 0.0004933213836021887, + "loss": 0.3118, + "step": 55770 + }, + { + "epoch": 148.74666666666667, + "grad_norm": 0.244140625, + "learning_rate": 0.0004933189774392258, + "loss": 0.3134, + "step": 55780 + }, + { + "epoch": 148.77333333333334, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004933165708487664, + "loss": 0.3245, + "step": 55790 + }, + { + "epoch": 148.8, + "grad_norm": 0.2578125, + "learning_rate": 0.0004933141638308149, + "loss": 0.3107, + "step": 55800 + }, + { + "epoch": 148.82666666666665, + "grad_norm": 0.36328125, + "learning_rate": 0.0004933117563853755, + "loss": 0.2996, + "step": 55810 + }, + { + "epoch": 148.85333333333332, + "grad_norm": 0.271484375, + "learning_rate": 0.0004933093485124523, + "loss": 0.304, + "step": 55820 + }, + { + "epoch": 148.88, + "grad_norm": 0.185546875, + "learning_rate": 0.0004933069402120497, + "loss": 0.3036, + "step": 55830 + }, + { + "epoch": 148.90666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004933045314841719, + "loss": 0.3053, + "step": 55840 + }, + { + "epoch": 148.93333333333334, + "grad_norm": 0.16015625, + "learning_rate": 0.000493302122328823, + "loss": 0.3059, + "step": 55850 + }, + { + "epoch": 148.96, + "grad_norm": 0.18359375, + "learning_rate": 0.0004932997127460074, + "loss": 0.3056, + "step": 55860 + }, + { + "epoch": 148.98666666666668, + "grad_norm": 0.19921875, + "learning_rate": 0.0004932973027357291, + "loss": 0.3173, + "step": 55870 + }, + { + "epoch": 149.0, + "eval_loss": 0.3967016935348511, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.5981, + "eval_samples_per_second": 1.27, + "eval_steps_per_second": 0.079, + "step": 55875 + }, + { + "epoch": 149.01333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004932948922979927, + "loss": 0.3081, + "step": 55880 + }, + { + "epoch": 149.04, + "grad_norm": 0.2353515625, + "learning_rate": 0.000493292481432802, + "loss": 0.3349, + "step": 55890 + }, + { + "epoch": 149.06666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004932900701401615, + "loss": 0.3199, + "step": 55900 + }, + { + "epoch": 149.09333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004932876584200756, + "loss": 0.316, + "step": 55910 + }, + { + "epoch": 149.12, + "grad_norm": 0.19921875, + "learning_rate": 0.0004932852462725482, + "loss": 0.3121, + "step": 55920 + }, + { + "epoch": 149.14666666666668, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004932828336975837, + "loss": 0.3133, + "step": 55930 + }, + { + "epoch": 149.17333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.0004932804206951863, + "loss": 0.3133, + "step": 55940 + }, + { + "epoch": 149.2, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004932780072653602, + "loss": 0.3069, + "step": 55950 + }, + { + "epoch": 149.22666666666666, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004932755934081097, + "loss": 0.3005, + "step": 55960 + }, + { + "epoch": 149.25333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004932731791234391, + "loss": 0.3007, + "step": 55970 + }, + { + "epoch": 149.28, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004932707644113525, + "loss": 0.3186, + "step": 55980 + }, + { + "epoch": 149.30666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004932683492718542, + "loss": 0.3011, + "step": 55990 + }, + { + "epoch": 149.33333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004932659337049485, + "loss": 0.3156, + "step": 56000 + }, + { + "epoch": 149.36, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004932635177106397, + "loss": 0.3063, + "step": 56010 + }, + { + "epoch": 149.38666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004932611012889318, + "loss": 0.3035, + "step": 56020 + }, + { + "epoch": 149.41333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004932586844398292, + "loss": 0.3096, + "step": 56030 + }, + { + "epoch": 149.44, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004932562671633362, + "loss": 0.3167, + "step": 56040 + }, + { + "epoch": 149.46666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.000493253849459457, + "loss": 0.3213, + "step": 56050 + }, + { + "epoch": 149.49333333333334, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004932514313281958, + "loss": 0.3105, + "step": 56060 + }, + { + "epoch": 149.52, + "grad_norm": 0.201171875, + "learning_rate": 0.0004932490127695569, + "loss": 0.3144, + "step": 56070 + }, + { + "epoch": 149.54666666666665, + "grad_norm": 0.181640625, + "learning_rate": 0.0004932465937835445, + "loss": 0.3047, + "step": 56080 + }, + { + "epoch": 149.57333333333332, + "grad_norm": 0.1689453125, + "learning_rate": 0.000493244174370163, + "loss": 0.3079, + "step": 56090 + }, + { + "epoch": 149.6, + "grad_norm": 0.240234375, + "learning_rate": 0.0004932417545294164, + "loss": 0.3039, + "step": 56100 + }, + { + "epoch": 149.62666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004932393342613091, + "loss": 0.2998, + "step": 56110 + }, + { + "epoch": 149.65333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004932369135658453, + "loss": 0.312, + "step": 56120 + }, + { + "epoch": 149.68, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004932344924430294, + "loss": 0.3014, + "step": 56130 + }, + { + "epoch": 149.70666666666668, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004932320708928655, + "loss": 0.3016, + "step": 56140 + }, + { + "epoch": 149.73333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.000493229648915358, + "loss": 0.317, + "step": 56150 + }, + { + "epoch": 149.76, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004932272265105108, + "loss": 0.3187, + "step": 56160 + }, + { + "epoch": 149.78666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004932248036783285, + "loss": 0.3197, + "step": 56170 + }, + { + "epoch": 149.81333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004932223804188153, + "loss": 0.3021, + "step": 56180 + }, + { + "epoch": 149.84, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004932199567319755, + "loss": 0.3018, + "step": 56190 + }, + { + "epoch": 149.86666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004932175326178132, + "loss": 0.3037, + "step": 56200 + }, + { + "epoch": 149.89333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0004932151080763328, + "loss": 0.304, + "step": 56210 + }, + { + "epoch": 149.92, + "grad_norm": 0.212890625, + "learning_rate": 0.0004932126831075385, + "loss": 0.3051, + "step": 56220 + }, + { + "epoch": 149.94666666666666, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004932102577114344, + "loss": 0.3066, + "step": 56230 + }, + { + "epoch": 149.97333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004932078318880251, + "loss": 0.3144, + "step": 56240 + }, + { + "epoch": 150.0, + "grad_norm": 0.16796875, + "learning_rate": 0.0004932054056373147, + "loss": 0.3026, + "step": 56250 + }, + { + "epoch": 150.0, + "eval_loss": 0.3974718153476715, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1815, + "eval_samples_per_second": 1.431, + "eval_steps_per_second": 0.089, + "step": 56250 + }, + { + "epoch": 150.02666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004932029789593074, + "loss": 0.3249, + "step": 56260 + }, + { + "epoch": 150.05333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.0004932005518540073, + "loss": 0.3313, + "step": 56270 + }, + { + "epoch": 150.08, + "grad_norm": 0.24609375, + "learning_rate": 0.0004931981243214192, + "loss": 0.3157, + "step": 56280 + }, + { + "epoch": 150.10666666666665, + "grad_norm": 0.369140625, + "learning_rate": 0.0004931956963615469, + "loss": 0.3168, + "step": 56290 + }, + { + "epoch": 150.13333333333333, + "grad_norm": 0.27734375, + "learning_rate": 0.0004931932679743948, + "loss": 0.3088, + "step": 56300 + }, + { + "epoch": 150.16, + "grad_norm": 0.1953125, + "learning_rate": 0.0004931908391599671, + "loss": 0.3155, + "step": 56310 + }, + { + "epoch": 150.18666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004931884099182683, + "loss": 0.3108, + "step": 56320 + }, + { + "epoch": 150.21333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004931859802493023, + "loss": 0.2995, + "step": 56330 + }, + { + "epoch": 150.24, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004931835501530737, + "loss": 0.303, + "step": 56340 + }, + { + "epoch": 150.26666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004931811196295867, + "loss": 0.3092, + "step": 56350 + }, + { + "epoch": 150.29333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004931786886788454, + "loss": 0.3049, + "step": 56360 + }, + { + "epoch": 150.32, + "grad_norm": 0.1875, + "learning_rate": 0.0004931762573008542, + "loss": 0.3118, + "step": 56370 + }, + { + "epoch": 150.34666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0004931738254956175, + "loss": 0.3118, + "step": 56380 + }, + { + "epoch": 150.37333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004931713932631393, + "loss": 0.3032, + "step": 56390 + }, + { + "epoch": 150.4, + "grad_norm": 0.25390625, + "learning_rate": 0.000493168960603424, + "loss": 0.3051, + "step": 56400 + }, + { + "epoch": 150.42666666666668, + "grad_norm": 0.1826171875, + "learning_rate": 0.000493166527516476, + "loss": 0.3118, + "step": 56410 + }, + { + "epoch": 150.45333333333335, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004931640940022994, + "loss": 0.3208, + "step": 56420 + }, + { + "epoch": 150.48, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004931616600608985, + "loss": 0.3159, + "step": 56430 + }, + { + "epoch": 150.50666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004931592256922775, + "loss": 0.3129, + "step": 56440 + }, + { + "epoch": 150.53333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004931567908964409, + "loss": 0.308, + "step": 56450 + }, + { + "epoch": 150.56, + "grad_norm": 0.30859375, + "learning_rate": 0.0004931543556733929, + "loss": 0.3042, + "step": 56460 + }, + { + "epoch": 150.58666666666667, + "grad_norm": 0.271484375, + "learning_rate": 0.0004931519200231377, + "loss": 0.3078, + "step": 56470 + }, + { + "epoch": 150.61333333333334, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004931494839456796, + "loss": 0.2999, + "step": 56480 + }, + { + "epoch": 150.64, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004931470474410229, + "loss": 0.3011, + "step": 56490 + }, + { + "epoch": 150.66666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004931446105091718, + "loss": 0.3173, + "step": 56500 + }, + { + "epoch": 150.69333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004931421731501308, + "loss": 0.296, + "step": 56510 + }, + { + "epoch": 150.72, + "grad_norm": 0.2412109375, + "learning_rate": 0.000493139735363904, + "loss": 0.3114, + "step": 56520 + }, + { + "epoch": 150.74666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004931372971504956, + "loss": 0.3129, + "step": 56530 + }, + { + "epoch": 150.77333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004931348585099102, + "loss": 0.3242, + "step": 56540 + }, + { + "epoch": 150.8, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004931324194421518, + "loss": 0.3106, + "step": 56550 + }, + { + "epoch": 150.82666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.0004931299799472247, + "loss": 0.2998, + "step": 56560 + }, + { + "epoch": 150.85333333333332, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004931275400251333, + "loss": 0.3035, + "step": 56570 + }, + { + "epoch": 150.88, + "grad_norm": 0.1826171875, + "learning_rate": 0.000493125099675882, + "loss": 0.3031, + "step": 56580 + }, + { + "epoch": 150.90666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004931226588994748, + "loss": 0.3045, + "step": 56590 + }, + { + "epoch": 150.93333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004931202176959162, + "loss": 0.3057, + "step": 56600 + }, + { + "epoch": 150.96, + "grad_norm": 0.21875, + "learning_rate": 0.0004931177760652103, + "loss": 0.3055, + "step": 56610 + }, + { + "epoch": 150.98666666666668, + "grad_norm": 0.1875, + "learning_rate": 0.0004931153340073617, + "loss": 0.317, + "step": 56620 + }, + { + "epoch": 151.0, + "eval_loss": 0.3965689539909363, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5425, + "eval_samples_per_second": 1.386, + "eval_steps_per_second": 0.087, + "step": 56625 + }, + { + "epoch": 151.01333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004931128915223743, + "loss": 0.3072, + "step": 56630 + }, + { + "epoch": 151.04, + "grad_norm": 0.1796875, + "learning_rate": 0.0004931104486102527, + "loss": 0.3337, + "step": 56640 + }, + { + "epoch": 151.06666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004931080052710011, + "loss": 0.3191, + "step": 56650 + }, + { + "epoch": 151.09333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004931055615046237, + "loss": 0.3155, + "step": 56660 + }, + { + "epoch": 151.12, + "grad_norm": 0.1845703125, + "learning_rate": 0.000493103117311125, + "loss": 0.3117, + "step": 56670 + }, + { + "epoch": 151.14666666666668, + "grad_norm": 0.228515625, + "learning_rate": 0.000493100672690509, + "loss": 0.3124, + "step": 56680 + }, + { + "epoch": 151.17333333333335, + "grad_norm": 0.224609375, + "learning_rate": 0.0004930982276427803, + "loss": 0.3129, + "step": 56690 + }, + { + "epoch": 151.2, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004930957821679429, + "loss": 0.3063, + "step": 56700 + }, + { + "epoch": 151.22666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004930933362660013, + "loss": 0.3004, + "step": 56710 + }, + { + "epoch": 151.25333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004930908899369597, + "loss": 0.3003, + "step": 56720 + }, + { + "epoch": 151.28, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004930884431808226, + "loss": 0.3181, + "step": 56730 + }, + { + "epoch": 151.30666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004930859959975941, + "loss": 0.3009, + "step": 56740 + }, + { + "epoch": 151.33333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004930835483872785, + "loss": 0.3145, + "step": 56750 + }, + { + "epoch": 151.36, + "grad_norm": 0.205078125, + "learning_rate": 0.00049308110034988, + "loss": 0.3059, + "step": 56760 + }, + { + "epoch": 151.38666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004930786518854033, + "loss": 0.3029, + "step": 56770 + }, + { + "epoch": 151.41333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004930762029938523, + "loss": 0.3089, + "step": 56780 + }, + { + "epoch": 151.44, + "grad_norm": 0.228515625, + "learning_rate": 0.0004930737536752314, + "loss": 0.3166, + "step": 56790 + }, + { + "epoch": 151.46666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.000493071303929545, + "loss": 0.3205, + "step": 56800 + }, + { + "epoch": 151.49333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004930688537567974, + "loss": 0.3098, + "step": 56810 + }, + { + "epoch": 151.52, + "grad_norm": 0.177734375, + "learning_rate": 0.0004930664031569928, + "loss": 0.3141, + "step": 56820 + }, + { + "epoch": 151.54666666666665, + "grad_norm": 0.244140625, + "learning_rate": 0.0004930639521301357, + "loss": 0.3042, + "step": 56830 + }, + { + "epoch": 151.57333333333332, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004930615006762301, + "loss": 0.3074, + "step": 56840 + }, + { + "epoch": 151.6, + "grad_norm": 0.181640625, + "learning_rate": 0.0004930590487952805, + "loss": 0.3046, + "step": 56850 + }, + { + "epoch": 151.62666666666667, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004930565964872913, + "loss": 0.2991, + "step": 56860 + }, + { + "epoch": 151.65333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004930541437522666, + "loss": 0.3122, + "step": 56870 + }, + { + "epoch": 151.68, + "grad_norm": 0.232421875, + "learning_rate": 0.0004930516905902108, + "loss": 0.3003, + "step": 56880 + }, + { + "epoch": 151.70666666666668, + "grad_norm": 0.259765625, + "learning_rate": 0.0004930492370011283, + "loss": 0.3018, + "step": 56890 + }, + { + "epoch": 151.73333333333332, + "grad_norm": 0.201171875, + "learning_rate": 0.0004930467829850233, + "loss": 0.3171, + "step": 56900 + }, + { + "epoch": 151.76, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004930443285419001, + "loss": 0.3184, + "step": 56910 + }, + { + "epoch": 151.78666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.000493041873671763, + "loss": 0.3192, + "step": 56920 + }, + { + "epoch": 151.81333333333333, + "grad_norm": 0.298828125, + "learning_rate": 0.0004930394183746165, + "loss": 0.3021, + "step": 56930 + }, + { + "epoch": 151.84, + "grad_norm": 0.234375, + "learning_rate": 0.0004930369626504647, + "loss": 0.3013, + "step": 56940 + }, + { + "epoch": 151.86666666666667, + "grad_norm": 0.255859375, + "learning_rate": 0.0004930345064993119, + "loss": 0.3036, + "step": 56950 + }, + { + "epoch": 151.89333333333335, + "grad_norm": 0.197265625, + "learning_rate": 0.0004930320499211627, + "loss": 0.3032, + "step": 56960 + }, + { + "epoch": 151.92, + "grad_norm": 0.232421875, + "learning_rate": 0.0004930295929160212, + "loss": 0.3049, + "step": 56970 + }, + { + "epoch": 151.94666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0004930271354838915, + "loss": 0.3066, + "step": 56980 + }, + { + "epoch": 151.97333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004930246776247783, + "loss": 0.3136, + "step": 56990 + }, + { + "epoch": 152.0, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004930222193386859, + "loss": 0.3024, + "step": 57000 + }, + { + "epoch": 152.0, + "eval_loss": 0.3990558683872223, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4475, + "eval_samples_per_second": 1.531, + "eval_steps_per_second": 0.096, + "step": 57000 + }, + { + "epoch": 152.02666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004930197606256184, + "loss": 0.3251, + "step": 57010 + }, + { + "epoch": 152.05333333333334, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004930173014855801, + "loss": 0.3309, + "step": 57020 + }, + { + "epoch": 152.08, + "grad_norm": 0.220703125, + "learning_rate": 0.0004930148419185756, + "loss": 0.315, + "step": 57030 + }, + { + "epoch": 152.10666666666665, + "grad_norm": 0.197265625, + "learning_rate": 0.0004930123819246089, + "loss": 0.3167, + "step": 57040 + }, + { + "epoch": 152.13333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004930099215036846, + "loss": 0.3082, + "step": 57050 + }, + { + "epoch": 152.16, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004930074606558069, + "loss": 0.3151, + "step": 57060 + }, + { + "epoch": 152.18666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004930049993809801, + "loss": 0.3107, + "step": 57070 + }, + { + "epoch": 152.21333333333334, + "grad_norm": 0.2578125, + "learning_rate": 0.0004930025376792085, + "loss": 0.2994, + "step": 57080 + }, + { + "epoch": 152.24, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004930000755504966, + "loss": 0.3039, + "step": 57090 + }, + { + "epoch": 152.26666666666668, + "grad_norm": 0.263671875, + "learning_rate": 0.0004929976129948484, + "loss": 0.309, + "step": 57100 + }, + { + "epoch": 152.29333333333332, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004929951500122685, + "loss": 0.3052, + "step": 57110 + }, + { + "epoch": 152.32, + "grad_norm": 0.205078125, + "learning_rate": 0.0004929926866027612, + "loss": 0.3116, + "step": 57120 + }, + { + "epoch": 152.34666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004929902227663308, + "loss": 0.3108, + "step": 57130 + }, + { + "epoch": 152.37333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004929877585029816, + "loss": 0.3036, + "step": 57140 + }, + { + "epoch": 152.4, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004929852938127179, + "loss": 0.3045, + "step": 57150 + }, + { + "epoch": 152.42666666666668, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004929828286955441, + "loss": 0.3117, + "step": 57160 + }, + { + "epoch": 152.45333333333335, + "grad_norm": 0.2265625, + "learning_rate": 0.0004929803631514645, + "loss": 0.3201, + "step": 57170 + }, + { + "epoch": 152.48, + "grad_norm": 0.23046875, + "learning_rate": 0.0004929778971804834, + "loss": 0.316, + "step": 57180 + }, + { + "epoch": 152.50666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004929754307826052, + "loss": 0.3126, + "step": 57190 + }, + { + "epoch": 152.53333333333333, + "grad_norm": 0.154296875, + "learning_rate": 0.0004929729639578342, + "loss": 0.3078, + "step": 57200 + }, + { + "epoch": 152.56, + "grad_norm": 0.21875, + "learning_rate": 0.0004929704967061747, + "loss": 0.3047, + "step": 57210 + }, + { + "epoch": 152.58666666666667, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004929680290276311, + "loss": 0.3077, + "step": 57220 + }, + { + "epoch": 152.61333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004929655609222077, + "loss": 0.2999, + "step": 57230 + }, + { + "epoch": 152.64, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004929630923899088, + "loss": 0.3005, + "step": 57240 + }, + { + "epoch": 152.66666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004929606234307388, + "loss": 0.3172, + "step": 57250 + }, + { + "epoch": 152.69333333333333, + "grad_norm": 0.296875, + "learning_rate": 0.0004929581540447021, + "loss": 0.2954, + "step": 57260 + }, + { + "epoch": 152.72, + "grad_norm": 0.216796875, + "learning_rate": 0.0004929556842318027, + "loss": 0.3111, + "step": 57270 + }, + { + "epoch": 152.74666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004929532139920454, + "loss": 0.3132, + "step": 57280 + }, + { + "epoch": 152.77333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004929507433254343, + "loss": 0.3235, + "step": 57290 + }, + { + "epoch": 152.8, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004929482722319737, + "loss": 0.3111, + "step": 57300 + }, + { + "epoch": 152.82666666666665, + "grad_norm": 0.22265625, + "learning_rate": 0.0004929458007116681, + "loss": 0.2999, + "step": 57310 + }, + { + "epoch": 152.85333333333332, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004929433287645217, + "loss": 0.3037, + "step": 57320 + }, + { + "epoch": 152.88, + "grad_norm": 0.240234375, + "learning_rate": 0.000492940856390539, + "loss": 0.3033, + "step": 57330 + }, + { + "epoch": 152.90666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004929383835897242, + "loss": 0.3047, + "step": 57340 + }, + { + "epoch": 152.93333333333334, + "grad_norm": 0.25, + "learning_rate": 0.0004929359103620816, + "loss": 0.3056, + "step": 57350 + }, + { + "epoch": 152.96, + "grad_norm": 0.185546875, + "learning_rate": 0.0004929334367076157, + "loss": 0.3051, + "step": 57360 + }, + { + "epoch": 152.98666666666668, + "grad_norm": 0.255859375, + "learning_rate": 0.0004929309626263308, + "loss": 0.3167, + "step": 57370 + }, + { + "epoch": 153.0, + "eval_loss": 0.39711153507232666, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6041, + "eval_samples_per_second": 1.509, + "eval_steps_per_second": 0.094, + "step": 57375 + }, + { + "epoch": 153.01333333333332, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004929284881182312, + "loss": 0.3078, + "step": 57380 + }, + { + "epoch": 153.04, + "grad_norm": 0.181640625, + "learning_rate": 0.0004929260131833213, + "loss": 0.334, + "step": 57390 + }, + { + "epoch": 153.06666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0004929235378216053, + "loss": 0.3189, + "step": 57400 + }, + { + "epoch": 153.09333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004929210620330879, + "loss": 0.3156, + "step": 57410 + }, + { + "epoch": 153.12, + "grad_norm": 0.232421875, + "learning_rate": 0.000492918585817773, + "loss": 0.3116, + "step": 57420 + }, + { + "epoch": 153.14666666666668, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004929161091756653, + "loss": 0.3129, + "step": 57430 + }, + { + "epoch": 153.17333333333335, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004929136321067689, + "loss": 0.3131, + "step": 57440 + }, + { + "epoch": 153.2, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004929111546110885, + "loss": 0.3061, + "step": 57450 + }, + { + "epoch": 153.22666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.000492908676688628, + "loss": 0.2999, + "step": 57460 + }, + { + "epoch": 153.25333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004929061983393921, + "loss": 0.3, + "step": 57470 + }, + { + "epoch": 153.28, + "grad_norm": 0.212890625, + "learning_rate": 0.0004929037195633849, + "loss": 0.3181, + "step": 57480 + }, + { + "epoch": 153.30666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004929012403606111, + "loss": 0.3003, + "step": 57490 + }, + { + "epoch": 153.33333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004928987607310748, + "loss": 0.3144, + "step": 57500 + }, + { + "epoch": 153.36, + "grad_norm": 0.197265625, + "learning_rate": 0.0004928962806747803, + "loss": 0.3061, + "step": 57510 + }, + { + "epoch": 153.38666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004928938001917321, + "loss": 0.3034, + "step": 57520 + }, + { + "epoch": 153.41333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004928913192819345, + "loss": 0.3087, + "step": 57530 + }, + { + "epoch": 153.44, + "grad_norm": 0.208984375, + "learning_rate": 0.0004928888379453919, + "loss": 0.3164, + "step": 57540 + }, + { + "epoch": 153.46666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004928863561821087, + "loss": 0.3202, + "step": 57550 + }, + { + "epoch": 153.49333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004928838739920892, + "loss": 0.3098, + "step": 57560 + }, + { + "epoch": 153.52, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004928813913753377, + "loss": 0.3138, + "step": 57570 + }, + { + "epoch": 153.54666666666665, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004928789083318585, + "loss": 0.3043, + "step": 57580 + }, + { + "epoch": 153.57333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004928764248616562, + "loss": 0.3072, + "step": 57590 + }, + { + "epoch": 153.6, + "grad_norm": 0.2421875, + "learning_rate": 0.0004928739409647351, + "loss": 0.304, + "step": 57600 + }, + { + "epoch": 153.62666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004928714566410994, + "loss": 0.2993, + "step": 57610 + }, + { + "epoch": 153.65333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004928689718907536, + "loss": 0.3114, + "step": 57620 + }, + { + "epoch": 153.68, + "grad_norm": 0.1669921875, + "learning_rate": 0.000492866486713702, + "loss": 0.3008, + "step": 57630 + }, + { + "epoch": 153.70666666666668, + "grad_norm": 0.2421875, + "learning_rate": 0.0004928640011099491, + "loss": 0.3013, + "step": 57640 + }, + { + "epoch": 153.73333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004928615150794992, + "loss": 0.3167, + "step": 57650 + }, + { + "epoch": 153.76, + "grad_norm": 0.201171875, + "learning_rate": 0.0004928590286223566, + "loss": 0.3185, + "step": 57660 + }, + { + "epoch": 153.78666666666666, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004928565417385256, + "loss": 0.3192, + "step": 57670 + }, + { + "epoch": 153.81333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004928540544280107, + "loss": 0.3018, + "step": 57680 + }, + { + "epoch": 153.84, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004928515666908164, + "loss": 0.3012, + "step": 57690 + }, + { + "epoch": 153.86666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004928490785269468, + "loss": 0.3031, + "step": 57700 + }, + { + "epoch": 153.89333333333335, + "grad_norm": 0.189453125, + "learning_rate": 0.0004928465899364065, + "loss": 0.3032, + "step": 57710 + }, + { + "epoch": 153.92, + "grad_norm": 0.255859375, + "learning_rate": 0.0004928441009191996, + "loss": 0.3049, + "step": 57720 + }, + { + "epoch": 153.94666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004928416114753308, + "loss": 0.3066, + "step": 57730 + }, + { + "epoch": 153.97333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004928391216048043, + "loss": 0.314, + "step": 57740 + }, + { + "epoch": 154.0, + "grad_norm": 0.220703125, + "learning_rate": 0.0004928366313076243, + "loss": 0.3024, + "step": 57750 + }, + { + "epoch": 154.0, + "eval_loss": 0.39845743775367737, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9709, + "eval_samples_per_second": 1.458, + "eval_steps_per_second": 0.091, + "step": 57750 + }, + { + "epoch": 154.02666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004928341405837956, + "loss": 0.3245, + "step": 57760 + }, + { + "epoch": 154.05333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004928316494333222, + "loss": 0.3313, + "step": 57770 + }, + { + "epoch": 154.08, + "grad_norm": 0.208984375, + "learning_rate": 0.0004928291578562086, + "loss": 0.3151, + "step": 57780 + }, + { + "epoch": 154.10666666666665, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004928266658524592, + "loss": 0.3166, + "step": 57790 + }, + { + "epoch": 154.13333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004928241734220785, + "loss": 0.3078, + "step": 57800 + }, + { + "epoch": 154.16, + "grad_norm": 0.193359375, + "learning_rate": 0.0004928216805650706, + "loss": 0.3151, + "step": 57810 + }, + { + "epoch": 154.18666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004928191872814401, + "loss": 0.3104, + "step": 57820 + }, + { + "epoch": 154.21333333333334, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004928166935711913, + "loss": 0.2989, + "step": 57830 + }, + { + "epoch": 154.24, + "grad_norm": 0.265625, + "learning_rate": 0.0004928141994343285, + "loss": 0.3033, + "step": 57840 + }, + { + "epoch": 154.26666666666668, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004928117048708562, + "loss": 0.3089, + "step": 57850 + }, + { + "epoch": 154.29333333333332, + "grad_norm": 0.1796875, + "learning_rate": 0.0004928092098807789, + "loss": 0.3045, + "step": 57860 + }, + { + "epoch": 154.32, + "grad_norm": 0.20703125, + "learning_rate": 0.0004928067144641008, + "loss": 0.3116, + "step": 57870 + }, + { + "epoch": 154.34666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004928042186208262, + "loss": 0.3109, + "step": 57880 + }, + { + "epoch": 154.37333333333333, + "grad_norm": 0.255859375, + "learning_rate": 0.0004928017223509596, + "loss": 0.3031, + "step": 57890 + }, + { + "epoch": 154.4, + "grad_norm": 0.20703125, + "learning_rate": 0.0004927992256545055, + "loss": 0.3045, + "step": 57900 + }, + { + "epoch": 154.42666666666668, + "grad_norm": 0.18359375, + "learning_rate": 0.0004927967285314682, + "loss": 0.3121, + "step": 57910 + }, + { + "epoch": 154.45333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.000492794230981852, + "loss": 0.3201, + "step": 57920 + }, + { + "epoch": 154.48, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004927917330056613, + "loss": 0.3154, + "step": 57930 + }, + { + "epoch": 154.50666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004927892346029006, + "loss": 0.3124, + "step": 57940 + }, + { + "epoch": 154.53333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004927867357735743, + "loss": 0.307, + "step": 57950 + }, + { + "epoch": 154.56, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004927842365176866, + "loss": 0.3038, + "step": 57960 + }, + { + "epoch": 154.58666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004927817368352421, + "loss": 0.3077, + "step": 57970 + }, + { + "epoch": 154.61333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004927792367262451, + "loss": 0.2993, + "step": 57980 + }, + { + "epoch": 154.64, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004927767361907, + "loss": 0.3009, + "step": 57990 + }, + { + "epoch": 154.66666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004927742352286112, + "loss": 0.3169, + "step": 58000 + }, + { + "epoch": 154.69333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004927717338399831, + "loss": 0.2956, + "step": 58010 + }, + { + "epoch": 154.72, + "grad_norm": 0.392578125, + "learning_rate": 0.0004927692320248199, + "loss": 0.3113, + "step": 58020 + }, + { + "epoch": 154.74666666666667, + "grad_norm": 0.275390625, + "learning_rate": 0.0004927667297831265, + "loss": 0.3129, + "step": 58030 + }, + { + "epoch": 154.77333333333334, + "grad_norm": 0.28125, + "learning_rate": 0.0004927642271149067, + "loss": 0.324, + "step": 58040 + }, + { + "epoch": 154.8, + "grad_norm": 0.232421875, + "learning_rate": 0.0004927617240201652, + "loss": 0.3096, + "step": 58050 + }, + { + "epoch": 154.82666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004927592204989065, + "loss": 0.2993, + "step": 58060 + }, + { + "epoch": 154.85333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004927567165511347, + "loss": 0.3032, + "step": 58070 + }, + { + "epoch": 154.88, + "grad_norm": 0.21484375, + "learning_rate": 0.0004927542121768545, + "loss": 0.303, + "step": 58080 + }, + { + "epoch": 154.90666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004927517073760702, + "loss": 0.3047, + "step": 58090 + }, + { + "epoch": 154.93333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.000492749202148786, + "loss": 0.3046, + "step": 58100 + }, + { + "epoch": 154.96, + "grad_norm": 0.23046875, + "learning_rate": 0.0004927466964950066, + "loss": 0.3046, + "step": 58110 + }, + { + "epoch": 154.98666666666668, + "grad_norm": 0.205078125, + "learning_rate": 0.0004927441904147363, + "loss": 0.3171, + "step": 58120 + }, + { + "epoch": 155.0, + "eval_loss": 0.39804381132125854, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4154, + "eval_samples_per_second": 1.536, + "eval_steps_per_second": 0.096, + "step": 58125 + }, + { + "epoch": 155.01333333333332, + "grad_norm": 0.2421875, + "learning_rate": 0.0004927416839079794, + "loss": 0.3078, + "step": 58130 + }, + { + "epoch": 155.04, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004927391769747404, + "loss": 0.3339, + "step": 58140 + }, + { + "epoch": 155.06666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004927366696150236, + "loss": 0.3191, + "step": 58150 + }, + { + "epoch": 155.09333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004927341618288335, + "loss": 0.3153, + "step": 58160 + }, + { + "epoch": 155.12, + "grad_norm": 0.232421875, + "learning_rate": 0.0004927316536161746, + "loss": 0.3116, + "step": 58170 + }, + { + "epoch": 155.14666666666668, + "grad_norm": 0.171875, + "learning_rate": 0.0004927291449770511, + "loss": 0.3125, + "step": 58180 + }, + { + "epoch": 155.17333333333335, + "grad_norm": 0.234375, + "learning_rate": 0.0004927266359114676, + "loss": 0.3121, + "step": 58190 + }, + { + "epoch": 155.2, + "grad_norm": 0.2109375, + "learning_rate": 0.0004927241264194284, + "loss": 0.3056, + "step": 58200 + }, + { + "epoch": 155.22666666666666, + "grad_norm": 0.28125, + "learning_rate": 0.0004927216165009379, + "loss": 0.3006, + "step": 58210 + }, + { + "epoch": 155.25333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004927191061560005, + "loss": 0.3003, + "step": 58220 + }, + { + "epoch": 155.28, + "grad_norm": 0.2265625, + "learning_rate": 0.0004927165953846207, + "loss": 0.3183, + "step": 58230 + }, + { + "epoch": 155.30666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004927140841868028, + "loss": 0.3001, + "step": 58240 + }, + { + "epoch": 155.33333333333334, + "grad_norm": 0.228515625, + "learning_rate": 0.0004927115725625513, + "loss": 0.3142, + "step": 58250 + }, + { + "epoch": 155.36, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004927090605118706, + "loss": 0.3055, + "step": 58260 + }, + { + "epoch": 155.38666666666666, + "grad_norm": 0.2333984375, + "learning_rate": 0.000492706548034765, + "loss": 0.3029, + "step": 58270 + }, + { + "epoch": 155.41333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004927040351312392, + "loss": 0.3085, + "step": 58280 + }, + { + "epoch": 155.44, + "grad_norm": 0.22265625, + "learning_rate": 0.0004927015218012973, + "loss": 0.3161, + "step": 58290 + }, + { + "epoch": 155.46666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004926990080449438, + "loss": 0.3197, + "step": 58300 + }, + { + "epoch": 155.49333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004926964938621832, + "loss": 0.3094, + "step": 58310 + }, + { + "epoch": 155.52, + "grad_norm": 0.189453125, + "learning_rate": 0.0004926939792530198, + "loss": 0.3129, + "step": 58320 + }, + { + "epoch": 155.54666666666665, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004926914642174583, + "loss": 0.3038, + "step": 58330 + }, + { + "epoch": 155.57333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.0004926889487555028, + "loss": 0.3066, + "step": 58340 + }, + { + "epoch": 155.6, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004926864328671577, + "loss": 0.304, + "step": 58350 + }, + { + "epoch": 155.62666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004926839165524276, + "loss": 0.2989, + "step": 58360 + }, + { + "epoch": 155.65333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.000492681399811317, + "loss": 0.3115, + "step": 58370 + }, + { + "epoch": 155.68, + "grad_norm": 0.16796875, + "learning_rate": 0.0004926788826438301, + "loss": 0.3006, + "step": 58380 + }, + { + "epoch": 155.70666666666668, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004926763650499714, + "loss": 0.3015, + "step": 58390 + }, + { + "epoch": 155.73333333333332, + "grad_norm": 0.3046875, + "learning_rate": 0.0004926738470297454, + "loss": 0.3163, + "step": 58400 + }, + { + "epoch": 155.76, + "grad_norm": 0.197265625, + "learning_rate": 0.0004926713285831564, + "loss": 0.3186, + "step": 58410 + }, + { + "epoch": 155.78666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.000492668809710209, + "loss": 0.3185, + "step": 58420 + }, + { + "epoch": 155.81333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.0004926662904109073, + "loss": 0.3016, + "step": 58430 + }, + { + "epoch": 155.84, + "grad_norm": 0.189453125, + "learning_rate": 0.0004926637706852561, + "loss": 0.3006, + "step": 58440 + }, + { + "epoch": 155.86666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004926612505332598, + "loss": 0.3031, + "step": 58450 + }, + { + "epoch": 155.89333333333335, + "grad_norm": 0.1953125, + "learning_rate": 0.0004926587299549224, + "loss": 0.3029, + "step": 58460 + }, + { + "epoch": 155.92, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004926562089502488, + "loss": 0.304, + "step": 58470 + }, + { + "epoch": 155.94666666666666, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004926536875192433, + "loss": 0.3063, + "step": 58480 + }, + { + "epoch": 155.97333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004926511656619101, + "loss": 0.3133, + "step": 58490 + }, + { + "epoch": 156.0, + "grad_norm": 0.193359375, + "learning_rate": 0.0004926486433782539, + "loss": 0.3018, + "step": 58500 + }, + { + "epoch": 156.0, + "eval_loss": 0.3994687795639038, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.5168, + "eval_samples_per_second": 1.389, + "eval_steps_per_second": 0.087, + "step": 58500 + }, + { + "epoch": 156.02666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.000492646120668279, + "loss": 0.3239, + "step": 58510 + }, + { + "epoch": 156.05333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.00049264359753199, + "loss": 0.3306, + "step": 58520 + }, + { + "epoch": 156.08, + "grad_norm": 0.17578125, + "learning_rate": 0.0004926410739693911, + "loss": 0.3146, + "step": 58530 + }, + { + "epoch": 156.10666666666665, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004926385499804868, + "loss": 0.3164, + "step": 58540 + }, + { + "epoch": 156.13333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004926360255652816, + "loss": 0.3079, + "step": 58550 + }, + { + "epoch": 156.16, + "grad_norm": 0.2060546875, + "learning_rate": 0.00049263350072378, + "loss": 0.3148, + "step": 58560 + }, + { + "epoch": 156.18666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004926309754559864, + "loss": 0.3104, + "step": 58570 + }, + { + "epoch": 156.21333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.000492628449761905, + "loss": 0.2983, + "step": 58580 + }, + { + "epoch": 156.24, + "grad_norm": 0.2109375, + "learning_rate": 0.0004926259236415405, + "loss": 0.3026, + "step": 58590 + }, + { + "epoch": 156.26666666666668, + "grad_norm": 0.216796875, + "learning_rate": 0.0004926233970948973, + "loss": 0.309, + "step": 58600 + }, + { + "epoch": 156.29333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004926208701219797, + "loss": 0.3044, + "step": 58610 + }, + { + "epoch": 156.32, + "grad_norm": 0.171875, + "learning_rate": 0.0004926183427227924, + "loss": 0.3117, + "step": 58620 + }, + { + "epoch": 156.34666666666666, + "grad_norm": 0.287109375, + "learning_rate": 0.0004926158148973396, + "loss": 0.3104, + "step": 58630 + }, + { + "epoch": 156.37333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004926132866456258, + "loss": 0.3026, + "step": 58640 + }, + { + "epoch": 156.4, + "grad_norm": 0.1953125, + "learning_rate": 0.0004926107579676555, + "loss": 0.3042, + "step": 58650 + }, + { + "epoch": 156.42666666666668, + "grad_norm": 0.263671875, + "learning_rate": 0.000492608228863433, + "loss": 0.3115, + "step": 58660 + }, + { + "epoch": 156.45333333333335, + "grad_norm": 0.2041015625, + "learning_rate": 0.000492605699332963, + "loss": 0.3196, + "step": 58670 + }, + { + "epoch": 156.48, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004926031693762497, + "loss": 0.3148, + "step": 58680 + }, + { + "epoch": 156.50666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004926006389932977, + "loss": 0.3122, + "step": 58690 + }, + { + "epoch": 156.53333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004925981081841113, + "loss": 0.3072, + "step": 58700 + }, + { + "epoch": 156.56, + "grad_norm": 0.23046875, + "learning_rate": 0.0004925955769486952, + "loss": 0.3032, + "step": 58710 + }, + { + "epoch": 156.58666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004925930452870536, + "loss": 0.3074, + "step": 58720 + }, + { + "epoch": 156.61333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004925905131991909, + "loss": 0.2985, + "step": 58730 + }, + { + "epoch": 156.64, + "grad_norm": 0.169921875, + "learning_rate": 0.0004925879806851117, + "loss": 0.3005, + "step": 58740 + }, + { + "epoch": 156.66666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004925854477448205, + "loss": 0.316, + "step": 58750 + }, + { + "epoch": 156.69333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004925829143783217, + "loss": 0.2951, + "step": 58760 + }, + { + "epoch": 156.72, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004925803805856196, + "loss": 0.3111, + "step": 58770 + }, + { + "epoch": 156.74666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004925778463667189, + "loss": 0.3121, + "step": 58780 + }, + { + "epoch": 156.77333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004925753117216239, + "loss": 0.3234, + "step": 58790 + }, + { + "epoch": 156.8, + "grad_norm": 0.21484375, + "learning_rate": 0.000492572776650339, + "loss": 0.3096, + "step": 58800 + }, + { + "epoch": 156.82666666666665, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004925702411528688, + "loss": 0.2989, + "step": 58810 + }, + { + "epoch": 156.85333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004925677052292178, + "loss": 0.3026, + "step": 58820 + }, + { + "epoch": 156.88, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004925651688793902, + "loss": 0.3019, + "step": 58830 + }, + { + "epoch": 156.90666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.0004925626321033907, + "loss": 0.3042, + "step": 58840 + }, + { + "epoch": 156.93333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004925600949012236, + "loss": 0.305, + "step": 58850 + }, + { + "epoch": 156.96, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004925575572728934, + "loss": 0.3044, + "step": 58860 + }, + { + "epoch": 156.98666666666668, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004925550192184046, + "loss": 0.3168, + "step": 58870 + }, + { + "epoch": 157.0, + "eval_loss": 0.399666965007782, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7841, + "eval_samples_per_second": 1.484, + "eval_steps_per_second": 0.093, + "step": 58875 + }, + { + "epoch": 157.01333333333332, + "grad_norm": 0.3125, + "learning_rate": 0.0004925524807377617, + "loss": 0.3075, + "step": 58880 + }, + { + "epoch": 157.04, + "grad_norm": 0.236328125, + "learning_rate": 0.000492549941830969, + "loss": 0.3333, + "step": 58890 + }, + { + "epoch": 157.06666666666666, + "grad_norm": 0.3515625, + "learning_rate": 0.0004925474024980311, + "loss": 0.3182, + "step": 58900 + }, + { + "epoch": 157.09333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004925448627389524, + "loss": 0.3153, + "step": 58910 + }, + { + "epoch": 157.12, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004925423225537374, + "loss": 0.3108, + "step": 58920 + }, + { + "epoch": 157.14666666666668, + "grad_norm": 0.240234375, + "learning_rate": 0.0004925397819423906, + "loss": 0.3119, + "step": 58930 + }, + { + "epoch": 157.17333333333335, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004925372409049163, + "loss": 0.3124, + "step": 58940 + }, + { + "epoch": 157.2, + "grad_norm": 0.228515625, + "learning_rate": 0.0004925346994413191, + "loss": 0.3055, + "step": 58950 + }, + { + "epoch": 157.22666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004925321575516034, + "loss": 0.2997, + "step": 58960 + }, + { + "epoch": 157.25333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004925296152357738, + "loss": 0.2998, + "step": 58970 + }, + { + "epoch": 157.28, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004925270724938346, + "loss": 0.3172, + "step": 58980 + }, + { + "epoch": 157.30666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004925245293257904, + "loss": 0.2997, + "step": 58990 + }, + { + "epoch": 157.33333333333334, + "grad_norm": 0.224609375, + "learning_rate": 0.0004925219857316455, + "loss": 0.3141, + "step": 59000 + }, + { + "epoch": 157.36, + "grad_norm": 0.197265625, + "learning_rate": 0.0004925194417114045, + "loss": 0.3051, + "step": 59010 + }, + { + "epoch": 157.38666666666666, + "grad_norm": 0.267578125, + "learning_rate": 0.0004925168972650718, + "loss": 0.3024, + "step": 59020 + }, + { + "epoch": 157.41333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.000492514352392652, + "loss": 0.3079, + "step": 59030 + }, + { + "epoch": 157.44, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004925118070941496, + "loss": 0.3157, + "step": 59040 + }, + { + "epoch": 157.46666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004925092613695687, + "loss": 0.3194, + "step": 59050 + }, + { + "epoch": 157.49333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004925067152189142, + "loss": 0.3089, + "step": 59060 + }, + { + "epoch": 157.52, + "grad_norm": 0.18359375, + "learning_rate": 0.0004925041686421904, + "loss": 0.3132, + "step": 59070 + }, + { + "epoch": 157.54666666666665, + "grad_norm": 0.205078125, + "learning_rate": 0.0004925016216394017, + "loss": 0.3031, + "step": 59080 + }, + { + "epoch": 157.57333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.0004924990742105527, + "loss": 0.3067, + "step": 59090 + }, + { + "epoch": 157.6, + "grad_norm": 0.189453125, + "learning_rate": 0.0004924965263556478, + "loss": 0.3036, + "step": 59100 + }, + { + "epoch": 157.62666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004924939780746915, + "loss": 0.2987, + "step": 59110 + }, + { + "epoch": 157.65333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004924914293676883, + "loss": 0.3118, + "step": 59120 + }, + { + "epoch": 157.68, + "grad_norm": 0.189453125, + "learning_rate": 0.0004924888802346427, + "loss": 0.2997, + "step": 59130 + }, + { + "epoch": 157.70666666666668, + "grad_norm": 0.27734375, + "learning_rate": 0.0004924863306755591, + "loss": 0.3012, + "step": 59140 + }, + { + "epoch": 157.73333333333332, + "grad_norm": 0.208984375, + "learning_rate": 0.0004924837806904419, + "loss": 0.3164, + "step": 59150 + }, + { + "epoch": 157.76, + "grad_norm": 0.189453125, + "learning_rate": 0.000492481230279296, + "loss": 0.3177, + "step": 59160 + }, + { + "epoch": 157.78666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004924786794421254, + "loss": 0.3187, + "step": 59170 + }, + { + "epoch": 157.81333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004924761281789346, + "loss": 0.3011, + "step": 59180 + }, + { + "epoch": 157.84, + "grad_norm": 0.208984375, + "learning_rate": 0.0004924735764897285, + "loss": 0.3006, + "step": 59190 + }, + { + "epoch": 157.86666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004924710243745112, + "loss": 0.303, + "step": 59200 + }, + { + "epoch": 157.89333333333335, + "grad_norm": 0.19921875, + "learning_rate": 0.0004924684718332872, + "loss": 0.3025, + "step": 59210 + }, + { + "epoch": 157.92, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004924659188660612, + "loss": 0.304, + "step": 59220 + }, + { + "epoch": 157.94666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004924633654728377, + "loss": 0.3051, + "step": 59230 + }, + { + "epoch": 157.97333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.000492460811653621, + "loss": 0.3132, + "step": 59240 + }, + { + "epoch": 158.0, + "grad_norm": 0.181640625, + "learning_rate": 0.0004924582574084155, + "loss": 0.3014, + "step": 59250 + }, + { + "epoch": 158.0, + "eval_loss": 0.39744657278060913, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3474, + "eval_samples_per_second": 1.41, + "eval_steps_per_second": 0.088, + "step": 59250 + }, + { + "epoch": 158.02666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004924557027372261, + "loss": 0.3244, + "step": 59260 + }, + { + "epoch": 158.05333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004924531476400568, + "loss": 0.3305, + "step": 59270 + }, + { + "epoch": 158.08, + "grad_norm": 0.197265625, + "learning_rate": 0.0004924505921169124, + "loss": 0.3144, + "step": 59280 + }, + { + "epoch": 158.10666666666665, + "grad_norm": 0.306640625, + "learning_rate": 0.0004924480361677973, + "loss": 0.3163, + "step": 59290 + }, + { + "epoch": 158.13333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004924454797927161, + "loss": 0.3071, + "step": 59300 + }, + { + "epoch": 158.16, + "grad_norm": 0.1630859375, + "learning_rate": 0.000492442922991673, + "loss": 0.3147, + "step": 59310 + }, + { + "epoch": 158.18666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004924403657646728, + "loss": 0.3097, + "step": 59320 + }, + { + "epoch": 158.21333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004924378081117199, + "loss": 0.2988, + "step": 59330 + }, + { + "epoch": 158.24, + "grad_norm": 0.26171875, + "learning_rate": 0.0004924352500328186, + "loss": 0.3026, + "step": 59340 + }, + { + "epoch": 158.26666666666668, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004924326915279738, + "loss": 0.308, + "step": 59350 + }, + { + "epoch": 158.29333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004924301325971896, + "loss": 0.3043, + "step": 59360 + }, + { + "epoch": 158.32, + "grad_norm": 0.19140625, + "learning_rate": 0.0004924275732404706, + "loss": 0.3113, + "step": 59370 + }, + { + "epoch": 158.34666666666666, + "grad_norm": 0.275390625, + "learning_rate": 0.0004924250134578216, + "loss": 0.3106, + "step": 59380 + }, + { + "epoch": 158.37333333333333, + "grad_norm": 0.388671875, + "learning_rate": 0.0004924224532492466, + "loss": 0.3023, + "step": 59390 + }, + { + "epoch": 158.4, + "grad_norm": 0.375, + "learning_rate": 0.0004924198926147505, + "loss": 0.3041, + "step": 59400 + }, + { + "epoch": 158.42666666666668, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004924173315543376, + "loss": 0.311, + "step": 59410 + }, + { + "epoch": 158.45333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004924147700680123, + "loss": 0.3192, + "step": 59420 + }, + { + "epoch": 158.48, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004924122081557794, + "loss": 0.3148, + "step": 59430 + }, + { + "epoch": 158.50666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004924096458176433, + "loss": 0.3123, + "step": 59440 + }, + { + "epoch": 158.53333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004924070830536083, + "loss": 0.307, + "step": 59450 + }, + { + "epoch": 158.56, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004924045198636791, + "loss": 0.3032, + "step": 59460 + }, + { + "epoch": 158.58666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004924019562478601, + "loss": 0.3069, + "step": 59470 + }, + { + "epoch": 158.61333333333334, + "grad_norm": 0.158203125, + "learning_rate": 0.000492399392206156, + "loss": 0.2995, + "step": 59480 + }, + { + "epoch": 158.64, + "grad_norm": 0.279296875, + "learning_rate": 0.0004923968277385711, + "loss": 0.3001, + "step": 59490 + }, + { + "epoch": 158.66666666666666, + "grad_norm": 0.21484375, + "learning_rate": 0.0004923942628451099, + "loss": 0.3158, + "step": 59500 + }, + { + "epoch": 158.69333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004923916975257771, + "loss": 0.295, + "step": 59510 + }, + { + "epoch": 158.72, + "grad_norm": 0.197265625, + "learning_rate": 0.000492389131780577, + "loss": 0.3104, + "step": 59520 + }, + { + "epoch": 158.74666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004923865656095141, + "loss": 0.312, + "step": 59530 + }, + { + "epoch": 158.77333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004923839990125931, + "loss": 0.3233, + "step": 59540 + }, + { + "epoch": 158.8, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004923814319898184, + "loss": 0.3102, + "step": 59550 + }, + { + "epoch": 158.82666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004923788645411946, + "loss": 0.2992, + "step": 59560 + }, + { + "epoch": 158.85333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.000492376296666726, + "loss": 0.3028, + "step": 59570 + }, + { + "epoch": 158.88, + "grad_norm": 0.1796875, + "learning_rate": 0.0004923737283664174, + "loss": 0.3019, + "step": 59580 + }, + { + "epoch": 158.90666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.000492371159640273, + "loss": 0.3038, + "step": 59590 + }, + { + "epoch": 158.93333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004923685904882976, + "loss": 0.3051, + "step": 59600 + }, + { + "epoch": 158.96, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004923660209104954, + "loss": 0.3046, + "step": 59610 + }, + { + "epoch": 158.98666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004923634509068712, + "loss": 0.3164, + "step": 59620 + }, + { + "epoch": 159.0, + "eval_loss": 0.3962443768978119, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.696, + "eval_samples_per_second": 1.368, + "eval_steps_per_second": 0.085, + "step": 59625 + }, + { + "epoch": 159.01333333333332, + "grad_norm": 0.20703125, + "learning_rate": 0.0004923608804774293, + "loss": 0.3069, + "step": 59630 + }, + { + "epoch": 159.04, + "grad_norm": 0.322265625, + "learning_rate": 0.0004923583096221744, + "loss": 0.3337, + "step": 59640 + }, + { + "epoch": 159.06666666666666, + "grad_norm": 0.455078125, + "learning_rate": 0.000492355738341111, + "loss": 0.3184, + "step": 59650 + }, + { + "epoch": 159.09333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004923531666342436, + "loss": 0.3142, + "step": 59660 + }, + { + "epoch": 159.12, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004923505945015766, + "loss": 0.3115, + "step": 59670 + }, + { + "epoch": 159.14666666666668, + "grad_norm": 0.21484375, + "learning_rate": 0.0004923480219431145, + "loss": 0.3122, + "step": 59680 + }, + { + "epoch": 159.17333333333335, + "grad_norm": 0.28515625, + "learning_rate": 0.000492345448958862, + "loss": 0.3128, + "step": 59690 + }, + { + "epoch": 159.2, + "grad_norm": 0.25, + "learning_rate": 0.0004923428755488235, + "loss": 0.3055, + "step": 59700 + }, + { + "epoch": 159.22666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.0004923403017130037, + "loss": 0.2994, + "step": 59710 + }, + { + "epoch": 159.25333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004923377274514069, + "loss": 0.2988, + "step": 59720 + }, + { + "epoch": 159.28, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004923351527640376, + "loss": 0.3172, + "step": 59730 + }, + { + "epoch": 159.30666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004923325776509006, + "loss": 0.2994, + "step": 59740 + }, + { + "epoch": 159.33333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004923300021120002, + "loss": 0.3133, + "step": 59750 + }, + { + "epoch": 159.36, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004923274261473409, + "loss": 0.3047, + "step": 59760 + }, + { + "epoch": 159.38666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004923248497569274, + "loss": 0.3026, + "step": 59770 + }, + { + "epoch": 159.41333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004923222729407641, + "loss": 0.3077, + "step": 59780 + }, + { + "epoch": 159.44, + "grad_norm": 0.189453125, + "learning_rate": 0.0004923196956988555, + "loss": 0.3158, + "step": 59790 + }, + { + "epoch": 159.46666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004923171180312062, + "loss": 0.3196, + "step": 59800 + }, + { + "epoch": 159.49333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.0004923145399378207, + "loss": 0.3092, + "step": 59810 + }, + { + "epoch": 159.52, + "grad_norm": 0.189453125, + "learning_rate": 0.0004923119614187036, + "loss": 0.3129, + "step": 59820 + }, + { + "epoch": 159.54666666666665, + "grad_norm": 0.205078125, + "learning_rate": 0.0004923093824738594, + "loss": 0.3035, + "step": 59830 + }, + { + "epoch": 159.57333333333332, + "grad_norm": 0.318359375, + "learning_rate": 0.0004923068031032925, + "loss": 0.3065, + "step": 59840 + }, + { + "epoch": 159.6, + "grad_norm": 0.302734375, + "learning_rate": 0.0004923042233070075, + "loss": 0.3026, + "step": 59850 + }, + { + "epoch": 159.62666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004923016430850092, + "loss": 0.2988, + "step": 59860 + }, + { + "epoch": 159.65333333333334, + "grad_norm": 0.212890625, + "learning_rate": 0.0004922990624373016, + "loss": 0.3115, + "step": 59870 + }, + { + "epoch": 159.68, + "grad_norm": 0.18359375, + "learning_rate": 0.0004922964813638898, + "loss": 0.3002, + "step": 59880 + }, + { + "epoch": 159.70666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004922938998647779, + "loss": 0.3009, + "step": 59890 + }, + { + "epoch": 159.73333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004922913179399706, + "loss": 0.3163, + "step": 59900 + }, + { + "epoch": 159.76, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004922887355894726, + "loss": 0.3176, + "step": 59910 + }, + { + "epoch": 159.78666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004922861528132882, + "loss": 0.3184, + "step": 59920 + }, + { + "epoch": 159.81333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.000492283569611422, + "loss": 0.3008, + "step": 59930 + }, + { + "epoch": 159.84, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004922809859838785, + "loss": 0.3005, + "step": 59940 + }, + { + "epoch": 159.86666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004922784019306624, + "loss": 0.302, + "step": 59950 + }, + { + "epoch": 159.89333333333335, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004922758174517781, + "loss": 0.3028, + "step": 59960 + }, + { + "epoch": 159.92, + "grad_norm": 0.240234375, + "learning_rate": 0.0004922732325472301, + "loss": 0.3036, + "step": 59970 + }, + { + "epoch": 159.94666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004922706472170231, + "loss": 0.306, + "step": 59980 + }, + { + "epoch": 159.97333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004922680614611616, + "loss": 0.3125, + "step": 59990 + }, + { + "epoch": 160.0, + "grad_norm": 0.18359375, + "learning_rate": 0.00049226547527965, + "loss": 0.3015, + "step": 60000 + }, + { + "epoch": 160.0, + "eval_loss": 0.39841678738594055, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3741, + "eval_samples_per_second": 1.407, + "eval_steps_per_second": 0.088, + "step": 60000 + }, + { + "epoch": 160.02666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.000492262888672493, + "loss": 0.3244, + "step": 60010 + }, + { + "epoch": 160.05333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004922603016396951, + "loss": 0.3297, + "step": 60020 + }, + { + "epoch": 160.08, + "grad_norm": 0.29296875, + "learning_rate": 0.0004922577141812609, + "loss": 0.3137, + "step": 60030 + }, + { + "epoch": 160.10666666666665, + "grad_norm": 0.21484375, + "learning_rate": 0.0004922551262971947, + "loss": 0.3158, + "step": 60040 + }, + { + "epoch": 160.13333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004922525379875013, + "loss": 0.3072, + "step": 60050 + }, + { + "epoch": 160.16, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004922499492521853, + "loss": 0.3138, + "step": 60060 + }, + { + "epoch": 160.18666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.000492247360091251, + "loss": 0.31, + "step": 60070 + }, + { + "epoch": 160.21333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004922447705047031, + "loss": 0.2979, + "step": 60080 + }, + { + "epoch": 160.24, + "grad_norm": 0.216796875, + "learning_rate": 0.0004922421804925461, + "loss": 0.302, + "step": 60090 + }, + { + "epoch": 160.26666666666668, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004922395900547845, + "loss": 0.308, + "step": 60100 + }, + { + "epoch": 160.29333333333332, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004922369991914231, + "loss": 0.3034, + "step": 60110 + }, + { + "epoch": 160.32, + "grad_norm": 0.173828125, + "learning_rate": 0.0004922344079024662, + "loss": 0.3108, + "step": 60120 + }, + { + "epoch": 160.34666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004922318161879184, + "loss": 0.3101, + "step": 60130 + }, + { + "epoch": 160.37333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004922292240477844, + "loss": 0.3021, + "step": 60140 + }, + { + "epoch": 160.4, + "grad_norm": 0.19921875, + "learning_rate": 0.0004922266314820686, + "loss": 0.3036, + "step": 60150 + }, + { + "epoch": 160.42666666666668, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004922240384907754, + "loss": 0.3107, + "step": 60160 + }, + { + "epoch": 160.45333333333335, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004922214450739097, + "loss": 0.3192, + "step": 60170 + }, + { + "epoch": 160.48, + "grad_norm": 0.2578125, + "learning_rate": 0.0004922188512314759, + "loss": 0.3148, + "step": 60180 + }, + { + "epoch": 160.50666666666666, + "grad_norm": 0.173828125, + "learning_rate": 0.0004922162569634786, + "loss": 0.3113, + "step": 60190 + }, + { + "epoch": 160.53333333333333, + "grad_norm": 0.1552734375, + "learning_rate": 0.0004922136622699223, + "loss": 0.3064, + "step": 60200 + }, + { + "epoch": 160.56, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004922110671508115, + "loss": 0.3034, + "step": 60210 + }, + { + "epoch": 160.58666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.000492208471606151, + "loss": 0.3066, + "step": 60220 + }, + { + "epoch": 160.61333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.000492205875635945, + "loss": 0.299, + "step": 60230 + }, + { + "epoch": 160.64, + "grad_norm": 0.201171875, + "learning_rate": 0.0004922032792401984, + "loss": 0.2994, + "step": 60240 + }, + { + "epoch": 160.66666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004922006824189156, + "loss": 0.3162, + "step": 60250 + }, + { + "epoch": 160.69333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004921980851721011, + "loss": 0.2943, + "step": 60260 + }, + { + "epoch": 160.72, + "grad_norm": 0.236328125, + "learning_rate": 0.0004921954874997596, + "loss": 0.3102, + "step": 60270 + }, + { + "epoch": 160.74666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004921928894018957, + "loss": 0.3121, + "step": 60280 + }, + { + "epoch": 160.77333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004921902908785138, + "loss": 0.3226, + "step": 60290 + }, + { + "epoch": 160.8, + "grad_norm": 0.244140625, + "learning_rate": 0.0004921876919296185, + "loss": 0.3097, + "step": 60300 + }, + { + "epoch": 160.82666666666665, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004921850925552144, + "loss": 0.2988, + "step": 60310 + }, + { + "epoch": 160.85333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004921824927553061, + "loss": 0.3024, + "step": 60320 + }, + { + "epoch": 160.88, + "grad_norm": 0.189453125, + "learning_rate": 0.0004921798925298981, + "loss": 0.3024, + "step": 60330 + }, + { + "epoch": 160.90666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004921772918789951, + "loss": 0.3043, + "step": 60340 + }, + { + "epoch": 160.93333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004921746908026016, + "loss": 0.3045, + "step": 60350 + }, + { + "epoch": 160.96, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004921720893007221, + "loss": 0.3045, + "step": 60360 + }, + { + "epoch": 160.98666666666668, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004921694873733612, + "loss": 0.3158, + "step": 60370 + }, + { + "epoch": 161.0, + "eval_loss": 0.39823123812675476, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.2635, + "eval_samples_per_second": 1.305, + "eval_steps_per_second": 0.082, + "step": 60375 + }, + { + "epoch": 161.01333333333332, + "grad_norm": 0.21484375, + "learning_rate": 0.0004921668850205235, + "loss": 0.3066, + "step": 60380 + }, + { + "epoch": 161.04, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004921642822422136, + "loss": 0.3336, + "step": 60390 + }, + { + "epoch": 161.06666666666666, + "grad_norm": 0.259765625, + "learning_rate": 0.0004921616790384359, + "loss": 0.3173, + "step": 60400 + }, + { + "epoch": 161.09333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.0004921590754091952, + "loss": 0.3144, + "step": 60410 + }, + { + "epoch": 161.12, + "grad_norm": 0.1904296875, + "learning_rate": 0.000492156471354496, + "loss": 0.3112, + "step": 60420 + }, + { + "epoch": 161.14666666666668, + "grad_norm": 0.1904296875, + "learning_rate": 0.000492153866874343, + "loss": 0.3117, + "step": 60430 + }, + { + "epoch": 161.17333333333335, + "grad_norm": 0.24609375, + "learning_rate": 0.0004921512619687403, + "loss": 0.3116, + "step": 60440 + }, + { + "epoch": 161.2, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004921486566376931, + "loss": 0.3055, + "step": 60450 + }, + { + "epoch": 161.22666666666666, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004921460508812056, + "loss": 0.2996, + "step": 60460 + }, + { + "epoch": 161.25333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004921434446992824, + "loss": 0.2992, + "step": 60470 + }, + { + "epoch": 161.28, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004921408380919282, + "loss": 0.3176, + "step": 60480 + }, + { + "epoch": 161.30666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004921382310591475, + "loss": 0.2995, + "step": 60490 + }, + { + "epoch": 161.33333333333334, + "grad_norm": 0.2373046875, + "learning_rate": 0.000492135623600945, + "loss": 0.3133, + "step": 60500 + }, + { + "epoch": 161.36, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004921330157173252, + "loss": 0.3054, + "step": 60510 + }, + { + "epoch": 161.38666666666666, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004921304074082926, + "loss": 0.3024, + "step": 60520 + }, + { + "epoch": 161.41333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004921277986738517, + "loss": 0.3083, + "step": 60530 + }, + { + "epoch": 161.44, + "grad_norm": 0.25, + "learning_rate": 0.0004921251895140074, + "loss": 0.3159, + "step": 60540 + }, + { + "epoch": 161.46666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004921225799287641, + "loss": 0.319, + "step": 60550 + }, + { + "epoch": 161.49333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004921199699181265, + "loss": 0.3091, + "step": 60560 + }, + { + "epoch": 161.52, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004921173594820989, + "loss": 0.3131, + "step": 60570 + }, + { + "epoch": 161.54666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004921147486206863, + "loss": 0.3027, + "step": 60580 + }, + { + "epoch": 161.57333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004921121373338928, + "loss": 0.3063, + "step": 60590 + }, + { + "epoch": 161.6, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004921095256217234, + "loss": 0.3033, + "step": 60600 + }, + { + "epoch": 161.62666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004921069134841826, + "loss": 0.2983, + "step": 60610 + }, + { + "epoch": 161.65333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004921043009212748, + "loss": 0.3111, + "step": 60620 + }, + { + "epoch": 161.68, + "grad_norm": 0.1875, + "learning_rate": 0.0004921016879330048, + "loss": 0.2993, + "step": 60630 + }, + { + "epoch": 161.70666666666668, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004920990745193771, + "loss": 0.3006, + "step": 60640 + }, + { + "epoch": 161.73333333333332, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004920964606803963, + "loss": 0.3159, + "step": 60650 + }, + { + "epoch": 161.76, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004920938464160669, + "loss": 0.3174, + "step": 60660 + }, + { + "epoch": 161.78666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004920912317263937, + "loss": 0.3186, + "step": 60670 + }, + { + "epoch": 161.81333333333333, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004920886166113811, + "loss": 0.3005, + "step": 60680 + }, + { + "epoch": 161.84, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004920860010710339, + "loss": 0.3003, + "step": 60690 + }, + { + "epoch": 161.86666666666667, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004920833851053565, + "loss": 0.3027, + "step": 60700 + }, + { + "epoch": 161.89333333333335, + "grad_norm": 0.208984375, + "learning_rate": 0.0004920807687143536, + "loss": 0.3027, + "step": 60710 + }, + { + "epoch": 161.92, + "grad_norm": 0.20703125, + "learning_rate": 0.0004920781518980297, + "loss": 0.3037, + "step": 60720 + }, + { + "epoch": 161.94666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004920755346563895, + "loss": 0.305, + "step": 60730 + }, + { + "epoch": 161.97333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004920729169894376, + "loss": 0.3123, + "step": 60740 + }, + { + "epoch": 162.0, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004920702988971784, + "loss": 0.3014, + "step": 60750 + }, + { + "epoch": 162.0, + "eval_loss": 0.3973372280597687, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2134, + "eval_samples_per_second": 1.427, + "eval_steps_per_second": 0.089, + "step": 60750 + }, + { + "epoch": 162.02666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004920676803796168, + "loss": 0.3235, + "step": 60760 + }, + { + "epoch": 162.05333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004920650614367572, + "loss": 0.3299, + "step": 60770 + }, + { + "epoch": 162.08, + "grad_norm": 0.255859375, + "learning_rate": 0.0004920624420686043, + "loss": 0.3134, + "step": 60780 + }, + { + "epoch": 162.10666666666665, + "grad_norm": 0.189453125, + "learning_rate": 0.0004920598222751627, + "loss": 0.3153, + "step": 60790 + }, + { + "epoch": 162.13333333333333, + "grad_norm": 0.23046875, + "learning_rate": 0.0004920572020564369, + "loss": 0.3077, + "step": 60800 + }, + { + "epoch": 162.16, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004920545814124317, + "loss": 0.3141, + "step": 60810 + }, + { + "epoch": 162.18666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004920519603431513, + "loss": 0.3096, + "step": 60820 + }, + { + "epoch": 162.21333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004920493388486008, + "loss": 0.2981, + "step": 60830 + }, + { + "epoch": 162.24, + "grad_norm": 0.251953125, + "learning_rate": 0.0004920467169287846, + "loss": 0.3021, + "step": 60840 + }, + { + "epoch": 162.26666666666668, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004920440945837072, + "loss": 0.3079, + "step": 60850 + }, + { + "epoch": 162.29333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004920414718133732, + "loss": 0.304, + "step": 60860 + }, + { + "epoch": 162.32, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004920388486177875, + "loss": 0.3107, + "step": 60870 + }, + { + "epoch": 162.34666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004920362249969544, + "loss": 0.3096, + "step": 60880 + }, + { + "epoch": 162.37333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004920336009508787, + "loss": 0.3021, + "step": 60890 + }, + { + "epoch": 162.4, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004920309764795648, + "loss": 0.3037, + "step": 60900 + }, + { + "epoch": 162.42666666666668, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004920283515830176, + "loss": 0.3099, + "step": 60910 + }, + { + "epoch": 162.45333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0004920257262612416, + "loss": 0.3189, + "step": 60920 + }, + { + "epoch": 162.48, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004920231005142412, + "loss": 0.3142, + "step": 60930 + }, + { + "epoch": 162.50666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004920204743420212, + "loss": 0.3114, + "step": 60940 + }, + { + "epoch": 162.53333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004920178477445863, + "loss": 0.3063, + "step": 60950 + }, + { + "epoch": 162.56, + "grad_norm": 0.1884765625, + "learning_rate": 0.000492015220721941, + "loss": 0.3029, + "step": 60960 + }, + { + "epoch": 162.58666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004920125932740899, + "loss": 0.306, + "step": 60970 + }, + { + "epoch": 162.61333333333334, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004920099654010376, + "loss": 0.2988, + "step": 60980 + }, + { + "epoch": 162.64, + "grad_norm": 0.18359375, + "learning_rate": 0.0004920073371027888, + "loss": 0.2994, + "step": 60990 + }, + { + "epoch": 162.66666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004920047083793481, + "loss": 0.3159, + "step": 61000 + }, + { + "epoch": 162.69333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.00049200207923072, + "loss": 0.2945, + "step": 61010 + }, + { + "epoch": 162.72, + "grad_norm": 0.26953125, + "learning_rate": 0.0004919994496569094, + "loss": 0.3099, + "step": 61020 + }, + { + "epoch": 162.74666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004919968196579206, + "loss": 0.3121, + "step": 61030 + }, + { + "epoch": 162.77333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004919941892337584, + "loss": 0.3227, + "step": 61040 + }, + { + "epoch": 162.8, + "grad_norm": 0.265625, + "learning_rate": 0.0004919915583844273, + "loss": 0.3091, + "step": 61050 + }, + { + "epoch": 162.82666666666665, + "grad_norm": 0.18359375, + "learning_rate": 0.0004919889271099322, + "loss": 0.2982, + "step": 61060 + }, + { + "epoch": 162.85333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004919862954102773, + "loss": 0.3019, + "step": 61070 + }, + { + "epoch": 162.88, + "grad_norm": 0.173828125, + "learning_rate": 0.0004919836632854675, + "loss": 0.3012, + "step": 61080 + }, + { + "epoch": 162.90666666666667, + "grad_norm": 0.248046875, + "learning_rate": 0.0004919810307355075, + "loss": 0.3034, + "step": 61090 + }, + { + "epoch": 162.93333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004919783977604017, + "loss": 0.3037, + "step": 61100 + }, + { + "epoch": 162.96, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004919757643601548, + "loss": 0.3037, + "step": 61110 + }, + { + "epoch": 162.98666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004919731305347714, + "loss": 0.3152, + "step": 61120 + }, + { + "epoch": 163.0, + "eval_loss": 0.39925041794776917, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 15.4891, + "eval_samples_per_second": 1.033, + "eval_steps_per_second": 0.065, + "step": 61125 + }, + { + "epoch": 163.01333333333332, + "grad_norm": 0.216796875, + "learning_rate": 0.0004919704962842563, + "loss": 0.3065, + "step": 61130 + }, + { + "epoch": 163.04, + "grad_norm": 0.1875, + "learning_rate": 0.000491967861608614, + "loss": 0.3326, + "step": 61140 + }, + { + "epoch": 163.06666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0004919652265078492, + "loss": 0.3178, + "step": 61150 + }, + { + "epoch": 163.09333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004919625909819662, + "loss": 0.3144, + "step": 61160 + }, + { + "epoch": 163.12, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004919599550309701, + "loss": 0.3103, + "step": 61170 + }, + { + "epoch": 163.14666666666668, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004919573186548654, + "loss": 0.3111, + "step": 61180 + }, + { + "epoch": 163.17333333333335, + "grad_norm": 0.212890625, + "learning_rate": 0.0004919546818536565, + "loss": 0.3114, + "step": 61190 + }, + { + "epoch": 163.2, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004919520446273482, + "loss": 0.305, + "step": 61200 + }, + { + "epoch": 163.22666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004919494069759451, + "loss": 0.2989, + "step": 61210 + }, + { + "epoch": 163.25333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.000491946768899452, + "loss": 0.2988, + "step": 61220 + }, + { + "epoch": 163.28, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004919441303978733, + "loss": 0.3166, + "step": 61230 + }, + { + "epoch": 163.30666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004919414914712137, + "loss": 0.2992, + "step": 61240 + }, + { + "epoch": 163.33333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.000491938852119478, + "loss": 0.3131, + "step": 61250 + }, + { + "epoch": 163.36, + "grad_norm": 0.236328125, + "learning_rate": 0.0004919362123426706, + "loss": 0.3044, + "step": 61260 + }, + { + "epoch": 163.38666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004919335721407963, + "loss": 0.3018, + "step": 61270 + }, + { + "epoch": 163.41333333333333, + "grad_norm": 0.310546875, + "learning_rate": 0.0004919309315138596, + "loss": 0.3078, + "step": 61280 + }, + { + "epoch": 163.44, + "grad_norm": 0.201171875, + "learning_rate": 0.0004919282904618653, + "loss": 0.315, + "step": 61290 + }, + { + "epoch": 163.46666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004919256489848179, + "loss": 0.3191, + "step": 61300 + }, + { + "epoch": 163.49333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004919230070827221, + "loss": 0.3085, + "step": 61310 + }, + { + "epoch": 163.52, + "grad_norm": 0.3359375, + "learning_rate": 0.0004919203647555825, + "loss": 0.3124, + "step": 61320 + }, + { + "epoch": 163.54666666666665, + "grad_norm": 0.365234375, + "learning_rate": 0.0004919177220034038, + "loss": 0.3022, + "step": 61330 + }, + { + "epoch": 163.57333333333332, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004919150788261907, + "loss": 0.3056, + "step": 61340 + }, + { + "epoch": 163.6, + "grad_norm": 0.4140625, + "learning_rate": 0.0004919124352239478, + "loss": 0.3025, + "step": 61350 + }, + { + "epoch": 163.62666666666667, + "grad_norm": 0.458984375, + "learning_rate": 0.0004919097911966796, + "loss": 0.298, + "step": 61360 + }, + { + "epoch": 163.65333333333334, + "grad_norm": 0.515625, + "learning_rate": 0.0004919071467443909, + "loss": 0.3112, + "step": 61370 + }, + { + "epoch": 163.68, + "grad_norm": 0.23828125, + "learning_rate": 0.0004919045018670863, + "loss": 0.2986, + "step": 61380 + }, + { + "epoch": 163.70666666666668, + "grad_norm": 0.279296875, + "learning_rate": 0.0004919018565647705, + "loss": 0.3004, + "step": 61390 + }, + { + "epoch": 163.73333333333332, + "grad_norm": 0.2001953125, + "learning_rate": 0.000491899210837448, + "loss": 0.3161, + "step": 61400 + }, + { + "epoch": 163.76, + "grad_norm": 0.185546875, + "learning_rate": 0.0004918965646851237, + "loss": 0.317, + "step": 61410 + }, + { + "epoch": 163.78666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.000491893918107802, + "loss": 0.3176, + "step": 61420 + }, + { + "epoch": 163.81333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004918912711054877, + "loss": 0.2998, + "step": 61430 + }, + { + "epoch": 163.84, + "grad_norm": 0.20703125, + "learning_rate": 0.0004918886236781854, + "loss": 0.3, + "step": 61440 + }, + { + "epoch": 163.86666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004918859758258996, + "loss": 0.3026, + "step": 61450 + }, + { + "epoch": 163.89333333333335, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004918833275486353, + "loss": 0.302, + "step": 61460 + }, + { + "epoch": 163.92, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004918806788463969, + "loss": 0.3032, + "step": 61470 + }, + { + "epoch": 163.94666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004918780297191891, + "loss": 0.3051, + "step": 61480 + }, + { + "epoch": 163.97333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004918753801670166, + "loss": 0.3122, + "step": 61490 + }, + { + "epoch": 164.0, + "grad_norm": 0.17578125, + "learning_rate": 0.000491872730189884, + "loss": 0.3008, + "step": 61500 + }, + { + "epoch": 164.0, + "eval_loss": 0.3985505998134613, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7099, + "eval_samples_per_second": 1.494, + "eval_steps_per_second": 0.093, + "step": 61500 + }, + { + "epoch": 164.02666666666667, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004918700797877959, + "loss": 0.3232, + "step": 61510 + }, + { + "epoch": 164.05333333333334, + "grad_norm": 0.205078125, + "learning_rate": 0.0004918674289607571, + "loss": 0.33, + "step": 61520 + }, + { + "epoch": 164.08, + "grad_norm": 0.1953125, + "learning_rate": 0.0004918647777087721, + "loss": 0.3138, + "step": 61530 + }, + { + "epoch": 164.10666666666665, + "grad_norm": 0.181640625, + "learning_rate": 0.0004918621260318458, + "loss": 0.3151, + "step": 61540 + }, + { + "epoch": 164.13333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004918594739299827, + "loss": 0.3066, + "step": 61550 + }, + { + "epoch": 164.16, + "grad_norm": 0.224609375, + "learning_rate": 0.0004918568214031874, + "loss": 0.3134, + "step": 61560 + }, + { + "epoch": 164.18666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004918541684514645, + "loss": 0.3094, + "step": 61570 + }, + { + "epoch": 164.21333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004918515150748189, + "loss": 0.2977, + "step": 61580 + }, + { + "epoch": 164.24, + "grad_norm": 0.22265625, + "learning_rate": 0.0004918488612732552, + "loss": 0.3019, + "step": 61590 + }, + { + "epoch": 164.26666666666668, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004918462070467779, + "loss": 0.3071, + "step": 61600 + }, + { + "epoch": 164.29333333333332, + "grad_norm": 0.181640625, + "learning_rate": 0.000491843552395392, + "loss": 0.303, + "step": 61610 + }, + { + "epoch": 164.32, + "grad_norm": 0.162109375, + "learning_rate": 0.0004918408973191016, + "loss": 0.3101, + "step": 61620 + }, + { + "epoch": 164.34666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004918382418179119, + "loss": 0.3088, + "step": 61630 + }, + { + "epoch": 164.37333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004918355858918274, + "loss": 0.3019, + "step": 61640 + }, + { + "epoch": 164.4, + "grad_norm": 0.201171875, + "learning_rate": 0.0004918329295408527, + "loss": 0.3025, + "step": 61650 + }, + { + "epoch": 164.42666666666668, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004918302727649925, + "loss": 0.3097, + "step": 61660 + }, + { + "epoch": 164.45333333333335, + "grad_norm": 0.23046875, + "learning_rate": 0.0004918276155642514, + "loss": 0.3187, + "step": 61670 + }, + { + "epoch": 164.48, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004918249579386342, + "loss": 0.314, + "step": 61680 + }, + { + "epoch": 164.50666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004918222998881455, + "loss": 0.311, + "step": 61690 + }, + { + "epoch": 164.53333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.00049181964141279, + "loss": 0.3065, + "step": 61700 + }, + { + "epoch": 164.56, + "grad_norm": 0.19921875, + "learning_rate": 0.0004918169825125723, + "loss": 0.3028, + "step": 61710 + }, + { + "epoch": 164.58666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004918143231874972, + "loss": 0.3066, + "step": 61720 + }, + { + "epoch": 164.61333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004918116634375692, + "loss": 0.2981, + "step": 61730 + }, + { + "epoch": 164.64, + "grad_norm": 0.173828125, + "learning_rate": 0.0004918090032627932, + "loss": 0.2989, + "step": 61740 + }, + { + "epoch": 164.66666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004918063426631736, + "loss": 0.3153, + "step": 61750 + }, + { + "epoch": 164.69333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004918036816387153, + "loss": 0.2936, + "step": 61760 + }, + { + "epoch": 164.72, + "grad_norm": 0.259765625, + "learning_rate": 0.0004918010201894228, + "loss": 0.3098, + "step": 61770 + }, + { + "epoch": 164.74666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004917983583153009, + "loss": 0.3115, + "step": 61780 + }, + { + "epoch": 164.77333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004917956960163543, + "loss": 0.3215, + "step": 61790 + }, + { + "epoch": 164.8, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004917930332925876, + "loss": 0.3091, + "step": 61800 + }, + { + "epoch": 164.82666666666665, + "grad_norm": 0.189453125, + "learning_rate": 0.0004917903701440054, + "loss": 0.2978, + "step": 61810 + }, + { + "epoch": 164.85333333333332, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004917877065706126, + "loss": 0.302, + "step": 61820 + }, + { + "epoch": 164.88, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004917850425724137, + "loss": 0.3014, + "step": 61830 + }, + { + "epoch": 164.90666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004917823781494134, + "loss": 0.3032, + "step": 61840 + }, + { + "epoch": 164.93333333333334, + "grad_norm": 0.244140625, + "learning_rate": 0.0004917797133016166, + "loss": 0.3038, + "step": 61850 + }, + { + "epoch": 164.96, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004917770480290276, + "loss": 0.3035, + "step": 61860 + }, + { + "epoch": 164.98666666666668, + "grad_norm": 0.197265625, + "learning_rate": 0.0004917743823316513, + "loss": 0.3151, + "step": 61870 + }, + { + "epoch": 165.0, + "eval_loss": 0.3975881338119507, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6766, + "eval_samples_per_second": 1.499, + "eval_steps_per_second": 0.094, + "step": 61875 + }, + { + "epoch": 165.01333333333332, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004917717162094924, + "loss": 0.3062, + "step": 61880 + }, + { + "epoch": 165.04, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004917690496625556, + "loss": 0.333, + "step": 61890 + }, + { + "epoch": 165.06666666666666, + "grad_norm": 0.236328125, + "learning_rate": 0.0004917663826908455, + "loss": 0.3174, + "step": 61900 + }, + { + "epoch": 165.09333333333333, + "grad_norm": 0.216796875, + "learning_rate": 0.0004917637152943668, + "loss": 0.314, + "step": 61910 + }, + { + "epoch": 165.12, + "grad_norm": 0.17578125, + "learning_rate": 0.0004917610474731242, + "loss": 0.3105, + "step": 61920 + }, + { + "epoch": 165.14666666666668, + "grad_norm": 0.24609375, + "learning_rate": 0.0004917583792271225, + "loss": 0.3108, + "step": 61930 + }, + { + "epoch": 165.17333333333335, + "grad_norm": 0.255859375, + "learning_rate": 0.0004917557105563661, + "loss": 0.3115, + "step": 61940 + }, + { + "epoch": 165.2, + "grad_norm": 0.220703125, + "learning_rate": 0.0004917530414608601, + "loss": 0.3045, + "step": 61950 + }, + { + "epoch": 165.22666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004917503719406087, + "loss": 0.2989, + "step": 61960 + }, + { + "epoch": 165.25333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004917477019956171, + "loss": 0.2987, + "step": 61970 + }, + { + "epoch": 165.28, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004917450316258895, + "loss": 0.3168, + "step": 61980 + }, + { + "epoch": 165.30666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004917423608314311, + "loss": 0.2987, + "step": 61990 + }, + { + "epoch": 165.33333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004917396896122461, + "loss": 0.3133, + "step": 62000 + }, + { + "epoch": 165.36, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004917370179683396, + "loss": 0.3037, + "step": 62010 + }, + { + "epoch": 165.38666666666666, + "grad_norm": 0.2392578125, + "learning_rate": 0.000491734345899716, + "loss": 0.3015, + "step": 62020 + }, + { + "epoch": 165.41333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004917316734063801, + "loss": 0.3074, + "step": 62030 + }, + { + "epoch": 165.44, + "grad_norm": 0.208984375, + "learning_rate": 0.0004917290004883366, + "loss": 0.3146, + "step": 62040 + }, + { + "epoch": 165.46666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004917263271455903, + "loss": 0.3185, + "step": 62050 + }, + { + "epoch": 165.49333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004917236533781456, + "loss": 0.3081, + "step": 62060 + }, + { + "epoch": 165.52, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004917209791860076, + "loss": 0.3124, + "step": 62070 + }, + { + "epoch": 165.54666666666665, + "grad_norm": 0.197265625, + "learning_rate": 0.0004917183045691807, + "loss": 0.3021, + "step": 62080 + }, + { + "epoch": 165.57333333333332, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004917156295276697, + "loss": 0.3058, + "step": 62090 + }, + { + "epoch": 165.6, + "grad_norm": 0.203125, + "learning_rate": 0.0004917129540614793, + "loss": 0.3026, + "step": 62100 + }, + { + "epoch": 165.62666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004917102781706142, + "loss": 0.2978, + "step": 62110 + }, + { + "epoch": 165.65333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004917076018550791, + "loss": 0.3105, + "step": 62120 + }, + { + "epoch": 165.68, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004917049251148786, + "loss": 0.2992, + "step": 62130 + }, + { + "epoch": 165.70666666666668, + "grad_norm": 0.298828125, + "learning_rate": 0.0004917022479500176, + "loss": 0.2998, + "step": 62140 + }, + { + "epoch": 165.73333333333332, + "grad_norm": 0.21484375, + "learning_rate": 0.0004916995703605008, + "loss": 0.3154, + "step": 62150 + }, + { + "epoch": 165.76, + "grad_norm": 0.212890625, + "learning_rate": 0.0004916968923463326, + "loss": 0.3168, + "step": 62160 + }, + { + "epoch": 165.78666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.000491694213907518, + "loss": 0.3178, + "step": 62170 + }, + { + "epoch": 165.81333333333333, + "grad_norm": 0.20703125, + "learning_rate": 0.0004916915350440616, + "loss": 0.3004, + "step": 62180 + }, + { + "epoch": 165.84, + "grad_norm": 0.185546875, + "learning_rate": 0.0004916888557559681, + "loss": 0.3, + "step": 62190 + }, + { + "epoch": 165.86666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004916861760432422, + "loss": 0.3019, + "step": 62200 + }, + { + "epoch": 165.89333333333335, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004916834959058888, + "loss": 0.3013, + "step": 62210 + }, + { + "epoch": 165.92, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004916808153439124, + "loss": 0.3038, + "step": 62220 + }, + { + "epoch": 165.94666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004916781343573176, + "loss": 0.305, + "step": 62230 + }, + { + "epoch": 165.97333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004916754529461095, + "loss": 0.3119, + "step": 62240 + }, + { + "epoch": 166.0, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004916727711102924, + "loss": 0.3005, + "step": 62250 + }, + { + "epoch": 166.0, + "eval_loss": 0.39830076694488525, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.7282, + "eval_samples_per_second": 1.364, + "eval_steps_per_second": 0.085, + "step": 62250 + }, + { + "epoch": 166.02666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004916700888498713, + "loss": 0.3232, + "step": 62260 + }, + { + "epoch": 166.05333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004916674061648507, + "loss": 0.3297, + "step": 62270 + }, + { + "epoch": 166.08, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004916647230552354, + "loss": 0.3131, + "step": 62280 + }, + { + "epoch": 166.10666666666665, + "grad_norm": 0.19921875, + "learning_rate": 0.0004916620395210302, + "loss": 0.3147, + "step": 62290 + }, + { + "epoch": 166.13333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004916593555622398, + "loss": 0.3065, + "step": 62300 + }, + { + "epoch": 166.16, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004916566711788688, + "loss": 0.3137, + "step": 62310 + }, + { + "epoch": 166.18666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.000491653986370922, + "loss": 0.3087, + "step": 62320 + }, + { + "epoch": 166.21333333333334, + "grad_norm": 0.28515625, + "learning_rate": 0.0004916513011384041, + "loss": 0.2977, + "step": 62330 + }, + { + "epoch": 166.24, + "grad_norm": 0.197265625, + "learning_rate": 0.0004916486154813198, + "loss": 0.3017, + "step": 62340 + }, + { + "epoch": 166.26666666666668, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004916459293996738, + "loss": 0.3076, + "step": 62350 + }, + { + "epoch": 166.29333333333332, + "grad_norm": 0.1796875, + "learning_rate": 0.0004916432428934708, + "loss": 0.3028, + "step": 62360 + }, + { + "epoch": 166.32, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004916405559627156, + "loss": 0.3098, + "step": 62370 + }, + { + "epoch": 166.34666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.000491637868607413, + "loss": 0.3089, + "step": 62380 + }, + { + "epoch": 166.37333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004916351808275676, + "loss": 0.3014, + "step": 62390 + }, + { + "epoch": 166.4, + "grad_norm": 0.2119140625, + "learning_rate": 0.000491632492623184, + "loss": 0.3026, + "step": 62400 + }, + { + "epoch": 166.42666666666668, + "grad_norm": 0.203125, + "learning_rate": 0.0004916298039942672, + "loss": 0.3099, + "step": 62410 + }, + { + "epoch": 166.45333333333335, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004916271149408216, + "loss": 0.3181, + "step": 62420 + }, + { + "epoch": 166.48, + "grad_norm": 0.240234375, + "learning_rate": 0.0004916244254628523, + "loss": 0.3137, + "step": 62430 + }, + { + "epoch": 166.50666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004916217355603637, + "loss": 0.3108, + "step": 62440 + }, + { + "epoch": 166.53333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004916190452333608, + "loss": 0.3059, + "step": 62450 + }, + { + "epoch": 166.56, + "grad_norm": 0.2138671875, + "learning_rate": 0.000491616354481848, + "loss": 0.3022, + "step": 62460 + }, + { + "epoch": 166.58666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004916136633058303, + "loss": 0.3065, + "step": 62470 + }, + { + "epoch": 166.61333333333334, + "grad_norm": 0.169921875, + "learning_rate": 0.0004916109717053124, + "loss": 0.298, + "step": 62480 + }, + { + "epoch": 166.64, + "grad_norm": 0.306640625, + "learning_rate": 0.0004916082796802989, + "loss": 0.2986, + "step": 62490 + }, + { + "epoch": 166.66666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004916055872307946, + "loss": 0.3144, + "step": 62500 + }, + { + "epoch": 166.69333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004916028943568043, + "loss": 0.2938, + "step": 62510 + }, + { + "epoch": 166.72, + "grad_norm": 1.015625, + "learning_rate": 0.0004916002010583325, + "loss": 0.31, + "step": 62520 + }, + { + "epoch": 166.74666666666667, + "grad_norm": 0.412109375, + "learning_rate": 0.0004915975073353842, + "loss": 0.3115, + "step": 62530 + }, + { + "epoch": 166.77333333333334, + "grad_norm": 5.0625, + "learning_rate": 0.000491594813187964, + "loss": 0.334, + "step": 62540 + }, + { + "epoch": 166.8, + "grad_norm": 1.8203125, + "learning_rate": 0.0004915921186160768, + "loss": 0.3276, + "step": 62550 + }, + { + "epoch": 166.82666666666665, + "grad_norm": 6.6875, + "learning_rate": 0.000491589423619727, + "loss": 0.3095, + "step": 62560 + }, + { + "epoch": 166.85333333333332, + "grad_norm": 0.482421875, + "learning_rate": 0.0004915867281989196, + "loss": 0.3116, + "step": 62570 + }, + { + "epoch": 166.88, + "grad_norm": 0.291015625, + "learning_rate": 0.0004915840323536592, + "loss": 0.3016, + "step": 62580 + }, + { + "epoch": 166.90666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004915813360839508, + "loss": 0.3024, + "step": 62590 + }, + { + "epoch": 166.93333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004915786393897987, + "loss": 0.3028, + "step": 62600 + }, + { + "epoch": 166.96, + "grad_norm": 0.2197265625, + "learning_rate": 0.000491575942271208, + "loss": 0.3029, + "step": 62610 + }, + { + "epoch": 166.98666666666668, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004915732447281833, + "loss": 0.3143, + "step": 62620 + }, + { + "epoch": 167.0, + "eval_loss": 0.3965356945991516, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6246, + "eval_samples_per_second": 1.506, + "eval_steps_per_second": 0.094, + "step": 62625 + }, + { + "epoch": 167.01333333333332, + "grad_norm": 0.19921875, + "learning_rate": 0.0004915705467607293, + "loss": 0.3052, + "step": 62630 + }, + { + "epoch": 167.04, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004915678483688508, + "loss": 0.3317, + "step": 62640 + }, + { + "epoch": 167.06666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004915651495525526, + "loss": 0.3167, + "step": 62650 + }, + { + "epoch": 167.09333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004915624503118393, + "loss": 0.3133, + "step": 62660 + }, + { + "epoch": 167.12, + "grad_norm": 0.17578125, + "learning_rate": 0.0004915597506467157, + "loss": 0.3094, + "step": 62670 + }, + { + "epoch": 167.14666666666668, + "grad_norm": 0.19921875, + "learning_rate": 0.0004915570505571867, + "loss": 0.3101, + "step": 62680 + }, + { + "epoch": 167.17333333333335, + "grad_norm": 0.216796875, + "learning_rate": 0.0004915543500432568, + "loss": 0.311, + "step": 62690 + }, + { + "epoch": 167.2, + "grad_norm": 0.203125, + "learning_rate": 0.0004915516491049308, + "loss": 0.3042, + "step": 62700 + }, + { + "epoch": 167.22666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004915489477422136, + "loss": 0.2985, + "step": 62710 + }, + { + "epoch": 167.25333333333333, + "grad_norm": 0.232421875, + "learning_rate": 0.0004915462459551097, + "loss": 0.2982, + "step": 62720 + }, + { + "epoch": 167.28, + "grad_norm": 0.2109375, + "learning_rate": 0.0004915435437436242, + "loss": 0.3157, + "step": 62730 + }, + { + "epoch": 167.30666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004915408411077615, + "loss": 0.298, + "step": 62740 + }, + { + "epoch": 167.33333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004915381380475266, + "loss": 0.3126, + "step": 62750 + }, + { + "epoch": 167.36, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004915354345629239, + "loss": 0.3039, + "step": 62760 + }, + { + "epoch": 167.38666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004915327306539586, + "loss": 0.3007, + "step": 62770 + }, + { + "epoch": 167.41333333333333, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004915300263206351, + "loss": 0.3067, + "step": 62780 + }, + { + "epoch": 167.44, + "grad_norm": 0.16015625, + "learning_rate": 0.0004915273215629584, + "loss": 0.3144, + "step": 62790 + }, + { + "epoch": 167.46666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004915246163809331, + "loss": 0.318, + "step": 62800 + }, + { + "epoch": 167.49333333333334, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004915219107745639, + "loss": 0.3077, + "step": 62810 + }, + { + "epoch": 167.52, + "grad_norm": 0.166015625, + "learning_rate": 0.0004915192047438557, + "loss": 0.3112, + "step": 62820 + }, + { + "epoch": 167.54666666666665, + "grad_norm": 0.22265625, + "learning_rate": 0.0004915164982888133, + "loss": 0.3021, + "step": 62830 + }, + { + "epoch": 167.57333333333332, + "grad_norm": 0.201171875, + "learning_rate": 0.0004915137914094412, + "loss": 0.305, + "step": 62840 + }, + { + "epoch": 167.6, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004915110841057444, + "loss": 0.3017, + "step": 62850 + }, + { + "epoch": 167.62666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004915083763777275, + "loss": 0.2976, + "step": 62860 + }, + { + "epoch": 167.65333333333334, + "grad_norm": 0.23046875, + "learning_rate": 0.0004915056682253954, + "loss": 0.3105, + "step": 62870 + }, + { + "epoch": 167.68, + "grad_norm": 0.189453125, + "learning_rate": 0.0004915029596487527, + "loss": 0.2984, + "step": 62880 + }, + { + "epoch": 167.70666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004915002506478043, + "loss": 0.2998, + "step": 62890 + }, + { + "epoch": 167.73333333333332, + "grad_norm": 0.228515625, + "learning_rate": 0.0004914975412225549, + "loss": 0.315, + "step": 62900 + }, + { + "epoch": 167.76, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004914948313730093, + "loss": 0.3172, + "step": 62910 + }, + { + "epoch": 167.78666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004914921210991721, + "loss": 0.3189, + "step": 62920 + }, + { + "epoch": 167.81333333333333, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004914894104010481, + "loss": 0.301, + "step": 62930 + }, + { + "epoch": 167.84, + "grad_norm": 0.203125, + "learning_rate": 0.0004914866992786423, + "loss": 0.3007, + "step": 62940 + }, + { + "epoch": 167.86666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004914839877319594, + "loss": 0.3016, + "step": 62950 + }, + { + "epoch": 167.89333333333335, + "grad_norm": 0.20703125, + "learning_rate": 0.0004914812757610039, + "loss": 0.302, + "step": 62960 + }, + { + "epoch": 167.92, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004914785633657808, + "loss": 0.3025, + "step": 62970 + }, + { + "epoch": 167.94666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004914758505462948, + "loss": 0.3044, + "step": 62980 + }, + { + "epoch": 167.97333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004914731373025506, + "loss": 0.3114, + "step": 62990 + }, + { + "epoch": 168.0, + "grad_norm": 0.189453125, + "learning_rate": 0.0004914704236345531, + "loss": 0.3, + "step": 63000 + }, + { + "epoch": 168.0, + "eval_loss": 0.3984861969947815, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.357, + "eval_samples_per_second": 1.545, + "eval_steps_per_second": 0.097, + "step": 63000 + }, + { + "epoch": 168.02666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004914677095423071, + "loss": 0.3228, + "step": 63010 + }, + { + "epoch": 168.05333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004914649950258171, + "loss": 0.3292, + "step": 63020 + }, + { + "epoch": 168.08, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004914622800850881, + "loss": 0.3134, + "step": 63030 + }, + { + "epoch": 168.10666666666665, + "grad_norm": 0.2734375, + "learning_rate": 0.0004914595647201249, + "loss": 0.3146, + "step": 63040 + }, + { + "epoch": 168.13333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0004914568489309321, + "loss": 0.3063, + "step": 63050 + }, + { + "epoch": 168.16, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004914541327175145, + "loss": 0.3134, + "step": 63060 + }, + { + "epoch": 168.18666666666667, + "grad_norm": 0.1611328125, + "learning_rate": 0.000491451416079877, + "loss": 0.3087, + "step": 63070 + }, + { + "epoch": 168.21333333333334, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004914486990180243, + "loss": 0.2968, + "step": 63080 + }, + { + "epoch": 168.24, + "grad_norm": 0.208984375, + "learning_rate": 0.0004914459815319611, + "loss": 0.301, + "step": 63090 + }, + { + "epoch": 168.26666666666668, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004914432636216923, + "loss": 0.3068, + "step": 63100 + }, + { + "epoch": 168.29333333333332, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004914405452872226, + "loss": 0.3022, + "step": 63110 + }, + { + "epoch": 168.32, + "grad_norm": 0.18359375, + "learning_rate": 0.0004914378265285568, + "loss": 0.3094, + "step": 63120 + }, + { + "epoch": 168.34666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004914351073456997, + "loss": 0.3091, + "step": 63130 + }, + { + "epoch": 168.37333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.000491432387738656, + "loss": 0.301, + "step": 63140 + }, + { + "epoch": 168.4, + "grad_norm": 0.224609375, + "learning_rate": 0.0004914296677074307, + "loss": 0.3024, + "step": 63150 + }, + { + "epoch": 168.42666666666668, + "grad_norm": 0.251953125, + "learning_rate": 0.0004914269472520282, + "loss": 0.31, + "step": 63160 + }, + { + "epoch": 168.45333333333335, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004914242263724536, + "loss": 0.3183, + "step": 63170 + }, + { + "epoch": 168.48, + "grad_norm": 0.20703125, + "learning_rate": 0.0004914215050687115, + "loss": 0.3137, + "step": 63180 + }, + { + "epoch": 168.50666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004914187833408068, + "loss": 0.3102, + "step": 63190 + }, + { + "epoch": 168.53333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004914160611887442, + "loss": 0.305, + "step": 63200 + }, + { + "epoch": 168.56, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004914133386125285, + "loss": 0.3021, + "step": 63210 + }, + { + "epoch": 168.58666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.0004914106156121646, + "loss": 0.3059, + "step": 63220 + }, + { + "epoch": 168.61333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004914078921876571, + "loss": 0.2977, + "step": 63230 + }, + { + "epoch": 168.64, + "grad_norm": 0.171875, + "learning_rate": 0.0004914051683390109, + "loss": 0.2986, + "step": 63240 + }, + { + "epoch": 168.66666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004914024440662307, + "loss": 0.3137, + "step": 63250 + }, + { + "epoch": 168.69333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004913997193693214, + "loss": 0.2934, + "step": 63260 + }, + { + "epoch": 168.72, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004913969942482876, + "loss": 0.309, + "step": 63270 + }, + { + "epoch": 168.74666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004913942687031344, + "loss": 0.3111, + "step": 63280 + }, + { + "epoch": 168.77333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004913915427338663, + "loss": 0.3229, + "step": 63290 + }, + { + "epoch": 168.8, + "grad_norm": 0.185546875, + "learning_rate": 0.0004913888163404882, + "loss": 0.3096, + "step": 63300 + }, + { + "epoch": 168.82666666666665, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004913860895230049, + "loss": 0.2977, + "step": 63310 + }, + { + "epoch": 168.85333333333332, + "grad_norm": 0.193359375, + "learning_rate": 0.0004913833622814211, + "loss": 0.3018, + "step": 63320 + }, + { + "epoch": 168.88, + "grad_norm": 0.19921875, + "learning_rate": 0.0004913806346157418, + "loss": 0.3005, + "step": 63330 + }, + { + "epoch": 168.90666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004913779065259716, + "loss": 0.302, + "step": 63340 + }, + { + "epoch": 168.93333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004913751780121153, + "loss": 0.3033, + "step": 63350 + }, + { + "epoch": 168.96, + "grad_norm": 0.177734375, + "learning_rate": 0.0004913724490741777, + "loss": 0.3027, + "step": 63360 + }, + { + "epoch": 168.98666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004913697197121637, + "loss": 0.3148, + "step": 63370 + }, + { + "epoch": 169.0, + "eval_loss": 0.39791586995124817, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.951, + "eval_samples_per_second": 1.461, + "eval_steps_per_second": 0.091, + "step": 63375 + }, + { + "epoch": 169.01333333333332, + "grad_norm": 0.26171875, + "learning_rate": 0.0004913669899260781, + "loss": 0.3058, + "step": 63380 + }, + { + "epoch": 169.04, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004913642597159256, + "loss": 0.3317, + "step": 63390 + }, + { + "epoch": 169.06666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004913615290817109, + "loss": 0.3166, + "step": 63400 + }, + { + "epoch": 169.09333333333333, + "grad_norm": 0.25, + "learning_rate": 0.0004913587980234391, + "loss": 0.3131, + "step": 63410 + }, + { + "epoch": 169.12, + "grad_norm": 0.189453125, + "learning_rate": 0.0004913560665411147, + "loss": 0.3094, + "step": 63420 + }, + { + "epoch": 169.14666666666668, + "grad_norm": 0.166015625, + "learning_rate": 0.0004913533346347427, + "loss": 0.3101, + "step": 63430 + }, + { + "epoch": 169.17333333333335, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004913506023043277, + "loss": 0.3106, + "step": 63440 + }, + { + "epoch": 169.2, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004913478695498748, + "loss": 0.3033, + "step": 63450 + }, + { + "epoch": 169.22666666666666, + "grad_norm": 0.248046875, + "learning_rate": 0.0004913451363713885, + "loss": 0.2984, + "step": 63460 + }, + { + "epoch": 169.25333333333333, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004913424027688738, + "loss": 0.2976, + "step": 63470 + }, + { + "epoch": 169.28, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004913396687423353, + "loss": 0.3155, + "step": 63480 + }, + { + "epoch": 169.30666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.000491336934291778, + "loss": 0.2981, + "step": 63490 + }, + { + "epoch": 169.33333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004913341994172067, + "loss": 0.3121, + "step": 63500 + }, + { + "epoch": 169.36, + "grad_norm": 0.197265625, + "learning_rate": 0.000491331464118626, + "loss": 0.3033, + "step": 63510 + }, + { + "epoch": 169.38666666666666, + "grad_norm": 0.232421875, + "learning_rate": 0.000491328728396041, + "loss": 0.3008, + "step": 63520 + }, + { + "epoch": 169.41333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004913259922494562, + "loss": 0.3064, + "step": 63530 + }, + { + "epoch": 169.44, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004913232556788767, + "loss": 0.3142, + "step": 63540 + }, + { + "epoch": 169.46666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004913205186843072, + "loss": 0.3174, + "step": 63550 + }, + { + "epoch": 169.49333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004913177812657523, + "loss": 0.3077, + "step": 63560 + }, + { + "epoch": 169.52, + "grad_norm": 0.1875, + "learning_rate": 0.000491315043423217, + "loss": 0.3118, + "step": 63570 + }, + { + "epoch": 169.54666666666665, + "grad_norm": 0.20703125, + "learning_rate": 0.0004913123051567064, + "loss": 0.3021, + "step": 63580 + }, + { + "epoch": 169.57333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004913095664662247, + "loss": 0.305, + "step": 63590 + }, + { + "epoch": 169.6, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004913068273517771, + "loss": 0.3015, + "step": 63600 + }, + { + "epoch": 169.62666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004913040878133684, + "loss": 0.2973, + "step": 63610 + }, + { + "epoch": 169.65333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004913013478510032, + "loss": 0.3104, + "step": 63620 + }, + { + "epoch": 169.68, + "grad_norm": 0.173828125, + "learning_rate": 0.0004912986074646866, + "loss": 0.2989, + "step": 63630 + }, + { + "epoch": 169.70666666666668, + "grad_norm": 0.271484375, + "learning_rate": 0.0004912958666544231, + "loss": 0.2995, + "step": 63640 + }, + { + "epoch": 169.73333333333332, + "grad_norm": 0.205078125, + "learning_rate": 0.0004912931254202178, + "loss": 0.3142, + "step": 63650 + }, + { + "epoch": 169.76, + "grad_norm": 0.19921875, + "learning_rate": 0.0004912903837620754, + "loss": 0.3169, + "step": 63660 + }, + { + "epoch": 169.78666666666666, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004912876416800008, + "loss": 0.3182, + "step": 63670 + }, + { + "epoch": 169.81333333333333, + "grad_norm": 0.236328125, + "learning_rate": 0.0004912848991739986, + "loss": 0.3003, + "step": 63680 + }, + { + "epoch": 169.84, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004912821562440738, + "loss": 0.2998, + "step": 63690 + }, + { + "epoch": 169.86666666666667, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004912794128902312, + "loss": 0.3017, + "step": 63700 + }, + { + "epoch": 169.89333333333335, + "grad_norm": 0.197265625, + "learning_rate": 0.0004912766691124756, + "loss": 0.3015, + "step": 63710 + }, + { + "epoch": 169.92, + "grad_norm": 0.20703125, + "learning_rate": 0.0004912739249108118, + "loss": 0.3022, + "step": 63720 + }, + { + "epoch": 169.94666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004912711802852447, + "loss": 0.304, + "step": 63730 + }, + { + "epoch": 169.97333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.000491268435235779, + "loss": 0.3115, + "step": 63740 + }, + { + "epoch": 170.0, + "grad_norm": 0.1796875, + "learning_rate": 0.0004912656897624196, + "loss": 0.3003, + "step": 63750 + }, + { + "epoch": 170.0, + "eval_loss": 0.3997786343097687, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.9044, + "eval_samples_per_second": 1.467, + "eval_steps_per_second": 0.092, + "step": 63750 + }, + { + "epoch": 170.02666666666667, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004912629438651713, + "loss": 0.3221, + "step": 63760 + }, + { + "epoch": 170.05333333333334, + "grad_norm": 0.21484375, + "learning_rate": 0.0004912601975440389, + "loss": 0.3289, + "step": 63770 + }, + { + "epoch": 170.08, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004912574507990273, + "loss": 0.3128, + "step": 63780 + }, + { + "epoch": 170.10666666666665, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004912547036301412, + "loss": 0.3145, + "step": 63790 + }, + { + "epoch": 170.13333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004912519560373856, + "loss": 0.3056, + "step": 63800 + }, + { + "epoch": 170.16, + "grad_norm": 0.259765625, + "learning_rate": 0.0004912492080207652, + "loss": 0.3128, + "step": 63810 + }, + { + "epoch": 170.18666666666667, + "grad_norm": 0.26171875, + "learning_rate": 0.0004912464595802849, + "loss": 0.3082, + "step": 63820 + }, + { + "epoch": 170.21333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004912437107159496, + "loss": 0.2973, + "step": 63830 + }, + { + "epoch": 170.24, + "grad_norm": 0.203125, + "learning_rate": 0.0004912409614277638, + "loss": 0.3007, + "step": 63840 + }, + { + "epoch": 170.26666666666668, + "grad_norm": 0.185546875, + "learning_rate": 0.0004912382117157327, + "loss": 0.3067, + "step": 63850 + }, + { + "epoch": 170.29333333333332, + "grad_norm": 0.1953125, + "learning_rate": 0.0004912354615798608, + "loss": 0.3024, + "step": 63860 + }, + { + "epoch": 170.32, + "grad_norm": 0.283203125, + "learning_rate": 0.0004912327110201534, + "loss": 0.3092, + "step": 63870 + }, + { + "epoch": 170.34666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004912299600366149, + "loss": 0.308, + "step": 63880 + }, + { + "epoch": 170.37333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004912272086292503, + "loss": 0.3012, + "step": 63890 + }, + { + "epoch": 170.4, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004912244567980644, + "loss": 0.3022, + "step": 63900 + }, + { + "epoch": 170.42666666666668, + "grad_norm": 0.173828125, + "learning_rate": 0.000491221704543062, + "loss": 0.3093, + "step": 63910 + }, + { + "epoch": 170.45333333333335, + "grad_norm": 0.234375, + "learning_rate": 0.000491218951864248, + "loss": 0.3179, + "step": 63920 + }, + { + "epoch": 170.48, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004912161987616273, + "loss": 0.3131, + "step": 63930 + }, + { + "epoch": 170.50666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004912134452352047, + "loss": 0.3102, + "step": 63940 + }, + { + "epoch": 170.53333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004912106912849848, + "loss": 0.3053, + "step": 63950 + }, + { + "epoch": 170.56, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004912079369109729, + "loss": 0.3021, + "step": 63960 + }, + { + "epoch": 170.58666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004912051821131734, + "loss": 0.3054, + "step": 63970 + }, + { + "epoch": 170.61333333333334, + "grad_norm": 0.166015625, + "learning_rate": 0.0004912024268915913, + "loss": 0.2981, + "step": 63980 + }, + { + "epoch": 170.64, + "grad_norm": 0.203125, + "learning_rate": 0.0004911996712462316, + "loss": 0.2986, + "step": 63990 + }, + { + "epoch": 170.66666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004911969151770989, + "loss": 0.3141, + "step": 64000 + }, + { + "epoch": 170.69333333333333, + "grad_norm": 0.18359375, + "learning_rate": 0.0004911941586841981, + "loss": 0.2933, + "step": 64010 + }, + { + "epoch": 170.72, + "grad_norm": 0.177734375, + "learning_rate": 0.0004911914017675342, + "loss": 0.3086, + "step": 64020 + }, + { + "epoch": 170.74666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004911886444271118, + "loss": 0.3109, + "step": 64030 + }, + { + "epoch": 170.77333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004911858866629359, + "loss": 0.3222, + "step": 64040 + }, + { + "epoch": 170.8, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004911831284750113, + "loss": 0.3092, + "step": 64050 + }, + { + "epoch": 170.82666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004911803698633429, + "loss": 0.2979, + "step": 64060 + }, + { + "epoch": 170.85333333333332, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004911776108279355, + "loss": 0.3017, + "step": 64070 + }, + { + "epoch": 170.88, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004911748513687941, + "loss": 0.3002, + "step": 64080 + }, + { + "epoch": 170.90666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004911720914859232, + "loss": 0.3023, + "step": 64090 + }, + { + "epoch": 170.93333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.000491169331179328, + "loss": 0.3028, + "step": 64100 + }, + { + "epoch": 170.96, + "grad_norm": 0.205078125, + "learning_rate": 0.0004911665704490131, + "loss": 0.3027, + "step": 64110 + }, + { + "epoch": 170.98666666666668, + "grad_norm": 0.25390625, + "learning_rate": 0.0004911638092949835, + "loss": 0.3148, + "step": 64120 + }, + { + "epoch": 171.0, + "eval_loss": 0.39741355180740356, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6229, + "eval_samples_per_second": 1.377, + "eval_steps_per_second": 0.086, + "step": 64125 + }, + { + "epoch": 171.01333333333332, + "grad_norm": 0.2412109375, + "learning_rate": 0.000491161047717244, + "loss": 0.3052, + "step": 64130 + }, + { + "epoch": 171.04, + "grad_norm": 0.18359375, + "learning_rate": 0.0004911582857157994, + "loss": 0.332, + "step": 64140 + }, + { + "epoch": 171.06666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004911555232906547, + "loss": 0.317, + "step": 64150 + }, + { + "epoch": 171.09333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004911527604418146, + "loss": 0.3134, + "step": 64160 + }, + { + "epoch": 171.12, + "grad_norm": 0.185546875, + "learning_rate": 0.0004911499971692841, + "loss": 0.3088, + "step": 64170 + }, + { + "epoch": 171.14666666666668, + "grad_norm": 0.236328125, + "learning_rate": 0.0004911472334730679, + "loss": 0.3105, + "step": 64180 + }, + { + "epoch": 171.17333333333335, + "grad_norm": 0.359375, + "learning_rate": 0.0004911444693531709, + "loss": 0.3105, + "step": 64190 + }, + { + "epoch": 171.2, + "grad_norm": 0.2265625, + "learning_rate": 0.0004911417048095981, + "loss": 0.3039, + "step": 64200 + }, + { + "epoch": 171.22666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004911389398423541, + "loss": 0.2983, + "step": 64210 + }, + { + "epoch": 171.25333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004911361744514439, + "loss": 0.2976, + "step": 64220 + }, + { + "epoch": 171.28, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004911334086368725, + "loss": 0.3158, + "step": 64230 + }, + { + "epoch": 171.30666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004911306423986446, + "loss": 0.2981, + "step": 64240 + }, + { + "epoch": 171.33333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.000491127875736765, + "loss": 0.3123, + "step": 64250 + }, + { + "epoch": 171.36, + "grad_norm": 0.19140625, + "learning_rate": 0.0004911251086512386, + "loss": 0.3032, + "step": 64260 + }, + { + "epoch": 171.38666666666666, + "grad_norm": 0.234375, + "learning_rate": 0.0004911223411420704, + "loss": 0.3007, + "step": 64270 + }, + { + "epoch": 171.41333333333333, + "grad_norm": 0.259765625, + "learning_rate": 0.0004911195732092651, + "loss": 0.307, + "step": 64280 + }, + { + "epoch": 171.44, + "grad_norm": 0.2578125, + "learning_rate": 0.0004911168048528276, + "loss": 0.314, + "step": 64290 + }, + { + "epoch": 171.46666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004911140360727629, + "loss": 0.3179, + "step": 64300 + }, + { + "epoch": 171.49333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004911112668690757, + "loss": 0.3071, + "step": 64310 + }, + { + "epoch": 171.52, + "grad_norm": 0.177734375, + "learning_rate": 0.0004911084972417708, + "loss": 0.3112, + "step": 64320 + }, + { + "epoch": 171.54666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.0004911057271908534, + "loss": 0.3019, + "step": 64330 + }, + { + "epoch": 171.57333333333332, + "grad_norm": 0.1875, + "learning_rate": 0.000491102956716328, + "loss": 0.305, + "step": 64340 + }, + { + "epoch": 171.6, + "grad_norm": 0.26171875, + "learning_rate": 0.0004911001858181998, + "loss": 0.3019, + "step": 64350 + }, + { + "epoch": 171.62666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004910974144964732, + "loss": 0.2975, + "step": 64360 + }, + { + "epoch": 171.65333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004910946427511536, + "loss": 0.3102, + "step": 64370 + }, + { + "epoch": 171.68, + "grad_norm": 0.240234375, + "learning_rate": 0.0004910918705822454, + "loss": 0.298, + "step": 64380 + }, + { + "epoch": 171.70666666666668, + "grad_norm": 0.298828125, + "learning_rate": 0.0004910890979897539, + "loss": 0.2996, + "step": 64390 + }, + { + "epoch": 171.73333333333332, + "grad_norm": 0.197265625, + "learning_rate": 0.0004910863249736837, + "loss": 0.3145, + "step": 64400 + }, + { + "epoch": 171.76, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004910835515340397, + "loss": 0.3164, + "step": 64410 + }, + { + "epoch": 171.78666666666666, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004910807776708269, + "loss": 0.3177, + "step": 64420 + }, + { + "epoch": 171.81333333333333, + "grad_norm": 0.279296875, + "learning_rate": 0.00049107800338405, + "loss": 0.3004, + "step": 64430 + }, + { + "epoch": 171.84, + "grad_norm": 0.2060546875, + "learning_rate": 0.000491075228673714, + "loss": 0.2998, + "step": 64440 + }, + { + "epoch": 171.86666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004910724535398238, + "loss": 0.3013, + "step": 64450 + }, + { + "epoch": 171.89333333333335, + "grad_norm": 0.171875, + "learning_rate": 0.0004910696779823841, + "loss": 0.3013, + "step": 64460 + }, + { + "epoch": 171.92, + "grad_norm": 0.2734375, + "learning_rate": 0.0004910669020014, + "loss": 0.3025, + "step": 64470 + }, + { + "epoch": 171.94666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004910641255968761, + "loss": 0.3037, + "step": 64480 + }, + { + "epoch": 171.97333333333333, + "grad_norm": 0.26953125, + "learning_rate": 0.0004910613487688175, + "loss": 0.3106, + "step": 64490 + }, + { + "epoch": 172.0, + "grad_norm": 0.2421875, + "learning_rate": 0.0004910585715172292, + "loss": 0.2998, + "step": 64500 + }, + { + "epoch": 172.0, + "eval_loss": 0.39910176396369934, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3603, + "eval_samples_per_second": 1.408, + "eval_steps_per_second": 0.088, + "step": 64500 + }, + { + "epoch": 172.02666666666667, + "grad_norm": 0.193359375, + "learning_rate": 0.0004910557938421157, + "loss": 0.3224, + "step": 64510 + }, + { + "epoch": 172.05333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004910530157434822, + "loss": 0.3287, + "step": 64520 + }, + { + "epoch": 172.08, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004910502372213334, + "loss": 0.313, + "step": 64530 + }, + { + "epoch": 172.10666666666665, + "grad_norm": 0.251953125, + "learning_rate": 0.0004910474582756742, + "loss": 0.314, + "step": 64540 + }, + { + "epoch": 172.13333333333333, + "grad_norm": 0.205078125, + "learning_rate": 0.0004910446789065096, + "loss": 0.3053, + "step": 64550 + }, + { + "epoch": 172.16, + "grad_norm": 0.287109375, + "learning_rate": 0.0004910418991138445, + "loss": 0.313, + "step": 64560 + }, + { + "epoch": 172.18666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004910391188976836, + "loss": 0.3075, + "step": 64570 + }, + { + "epoch": 172.21333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0004910363382580319, + "loss": 0.2967, + "step": 64580 + }, + { + "epoch": 172.24, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004910335571948942, + "loss": 0.3009, + "step": 64590 + }, + { + "epoch": 172.26666666666668, + "grad_norm": 0.228515625, + "learning_rate": 0.0004910307757082754, + "loss": 0.306, + "step": 64600 + }, + { + "epoch": 172.29333333333332, + "grad_norm": 0.1875, + "learning_rate": 0.0004910279937981806, + "loss": 0.3025, + "step": 64610 + }, + { + "epoch": 172.32, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004910252114646143, + "loss": 0.3095, + "step": 64620 + }, + { + "epoch": 172.34666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004910224287075818, + "loss": 0.3085, + "step": 64630 + }, + { + "epoch": 172.37333333333333, + "grad_norm": 0.203125, + "learning_rate": 0.0004910196455270878, + "loss": 0.3003, + "step": 64640 + }, + { + "epoch": 172.4, + "grad_norm": 0.294921875, + "learning_rate": 0.0004910168619231371, + "loss": 0.3021, + "step": 64650 + }, + { + "epoch": 172.42666666666668, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004910140778957348, + "loss": 0.3091, + "step": 64660 + }, + { + "epoch": 172.45333333333335, + "grad_norm": 0.185546875, + "learning_rate": 0.0004910112934448857, + "loss": 0.3175, + "step": 64670 + }, + { + "epoch": 172.48, + "grad_norm": 0.216796875, + "learning_rate": 0.0004910085085705944, + "loss": 0.3136, + "step": 64680 + }, + { + "epoch": 172.50666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004910057232728663, + "loss": 0.3102, + "step": 64690 + }, + { + "epoch": 172.53333333333333, + "grad_norm": 0.169921875, + "learning_rate": 0.000491002937551706, + "loss": 0.3048, + "step": 64700 + }, + { + "epoch": 172.56, + "grad_norm": 0.181640625, + "learning_rate": 0.0004910001514071184, + "loss": 0.3019, + "step": 64710 + }, + { + "epoch": 172.58666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004909973648391085, + "loss": 0.3048, + "step": 64720 + }, + { + "epoch": 172.61333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004909945778476811, + "loss": 0.2974, + "step": 64730 + }, + { + "epoch": 172.64, + "grad_norm": 0.169921875, + "learning_rate": 0.0004909917904328411, + "loss": 0.2985, + "step": 64740 + }, + { + "epoch": 172.66666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004909890025945935, + "loss": 0.3136, + "step": 64750 + }, + { + "epoch": 172.69333333333333, + "grad_norm": 0.171875, + "learning_rate": 0.0004909862143329431, + "loss": 0.2931, + "step": 64760 + }, + { + "epoch": 172.72, + "grad_norm": 0.20703125, + "learning_rate": 0.0004909834256478948, + "loss": 0.309, + "step": 64770 + }, + { + "epoch": 172.74666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004909806365394535, + "loss": 0.3101, + "step": 64780 + }, + { + "epoch": 172.77333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004909778470076243, + "loss": 0.322, + "step": 64790 + }, + { + "epoch": 172.8, + "grad_norm": 0.193359375, + "learning_rate": 0.0004909750570524119, + "loss": 0.309, + "step": 64800 + }, + { + "epoch": 172.82666666666665, + "grad_norm": 0.197265625, + "learning_rate": 0.0004909722666738212, + "loss": 0.2978, + "step": 64810 + }, + { + "epoch": 172.85333333333332, + "grad_norm": 0.1767578125, + "learning_rate": 0.000490969475871857, + "loss": 0.3008, + "step": 64820 + }, + { + "epoch": 172.88, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004909666846465244, + "loss": 0.3, + "step": 64830 + }, + { + "epoch": 172.90666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004909638929978282, + "loss": 0.302, + "step": 64840 + }, + { + "epoch": 172.93333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004909611009257734, + "loss": 0.3026, + "step": 64850 + }, + { + "epoch": 172.96, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004909583084303649, + "loss": 0.302, + "step": 64860 + }, + { + "epoch": 172.98666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004909555155116075, + "loss": 0.3138, + "step": 64870 + }, + { + "epoch": 173.0, + "eval_loss": 0.3991791903972626, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0157, + "eval_samples_per_second": 1.452, + "eval_steps_per_second": 0.091, + "step": 64875 + }, + { + "epoch": 173.01333333333332, + "grad_norm": 0.236328125, + "learning_rate": 0.0004909527221695062, + "loss": 0.3049, + "step": 64880 + }, + { + "epoch": 173.04, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004909499284040658, + "loss": 0.3313, + "step": 64890 + }, + { + "epoch": 173.06666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004909471342152914, + "loss": 0.3167, + "step": 64900 + }, + { + "epoch": 173.09333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004909443396031877, + "loss": 0.3132, + "step": 64910 + }, + { + "epoch": 173.12, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004909415445677598, + "loss": 0.3092, + "step": 64920 + }, + { + "epoch": 173.14666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004909387491090124, + "loss": 0.3105, + "step": 64930 + }, + { + "epoch": 173.17333333333335, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004909359532269506, + "loss": 0.3109, + "step": 64940 + }, + { + "epoch": 173.2, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004909331569215792, + "loss": 0.3037, + "step": 64950 + }, + { + "epoch": 173.22666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004909303601929031, + "loss": 0.298, + "step": 64960 + }, + { + "epoch": 173.25333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004909275630409273, + "loss": 0.297, + "step": 64970 + }, + { + "epoch": 173.28, + "grad_norm": 0.2421875, + "learning_rate": 0.0004909247654656567, + "loss": 0.3155, + "step": 64980 + }, + { + "epoch": 173.30666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004909219674670962, + "loss": 0.2973, + "step": 64990 + }, + { + "epoch": 173.33333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004909191690452506, + "loss": 0.3118, + "step": 65000 + }, + { + "epoch": 173.36, + "grad_norm": 0.19921875, + "learning_rate": 0.000490916370200125, + "loss": 0.3031, + "step": 65010 + }, + { + "epoch": 173.38666666666666, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004909135709317243, + "loss": 0.3004, + "step": 65020 + }, + { + "epoch": 173.41333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004909107712400533, + "loss": 0.3069, + "step": 65030 + }, + { + "epoch": 173.44, + "grad_norm": 0.19140625, + "learning_rate": 0.0004909079711251169, + "loss": 0.3137, + "step": 65040 + }, + { + "epoch": 173.46666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004909051705869202, + "loss": 0.3178, + "step": 65050 + }, + { + "epoch": 173.49333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.000490902369625468, + "loss": 0.3077, + "step": 65060 + }, + { + "epoch": 173.52, + "grad_norm": 0.18359375, + "learning_rate": 0.0004908995682407653, + "loss": 0.3116, + "step": 65070 + }, + { + "epoch": 173.54666666666665, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004908967664328167, + "loss": 0.3015, + "step": 65080 + }, + { + "epoch": 173.57333333333332, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004908939642016277, + "loss": 0.3049, + "step": 65090 + }, + { + "epoch": 173.6, + "grad_norm": 0.208984375, + "learning_rate": 0.0004908911615472027, + "loss": 0.3015, + "step": 65100 + }, + { + "epoch": 173.62666666666667, + "grad_norm": 0.162109375, + "learning_rate": 0.0004908883584695469, + "loss": 0.2963, + "step": 65110 + }, + { + "epoch": 173.65333333333334, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004908855549686651, + "loss": 0.3094, + "step": 65120 + }, + { + "epoch": 173.68, + "grad_norm": 0.181640625, + "learning_rate": 0.0004908827510445625, + "loss": 0.298, + "step": 65130 + }, + { + "epoch": 173.70666666666668, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004908799466972435, + "loss": 0.2997, + "step": 65140 + }, + { + "epoch": 173.73333333333332, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004908771419267136, + "loss": 0.3139, + "step": 65150 + }, + { + "epoch": 173.76, + "grad_norm": 0.197265625, + "learning_rate": 0.0004908743367329773, + "loss": 0.316, + "step": 65160 + }, + { + "epoch": 173.78666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004908715311160397, + "loss": 0.3169, + "step": 65170 + }, + { + "epoch": 173.81333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004908687250759058, + "loss": 0.2997, + "step": 65180 + }, + { + "epoch": 173.84, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004908659186125804, + "loss": 0.2994, + "step": 65190 + }, + { + "epoch": 173.86666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004908631117260684, + "loss": 0.3008, + "step": 65200 + }, + { + "epoch": 173.89333333333335, + "grad_norm": 0.2060546875, + "learning_rate": 0.000490860304416375, + "loss": 0.3015, + "step": 65210 + }, + { + "epoch": 173.92, + "grad_norm": 0.1953125, + "learning_rate": 0.0004908574966835048, + "loss": 0.302, + "step": 65220 + }, + { + "epoch": 173.94666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.000490854688527463, + "loss": 0.3042, + "step": 65230 + }, + { + "epoch": 173.97333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004908518799482543, + "loss": 0.3106, + "step": 65240 + }, + { + "epoch": 174.0, + "grad_norm": 0.185546875, + "learning_rate": 0.0004908490709458837, + "loss": 0.3001, + "step": 65250 + }, + { + "epoch": 174.0, + "eval_loss": 0.3993348181247711, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.6595, + "eval_samples_per_second": 1.372, + "eval_steps_per_second": 0.086, + "step": 65250 + }, + { + "epoch": 174.02666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004908462615203562, + "loss": 0.3223, + "step": 65260 + }, + { + "epoch": 174.05333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004908434516716769, + "loss": 0.3283, + "step": 65270 + }, + { + "epoch": 174.08, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004908406413998504, + "loss": 0.312, + "step": 65280 + }, + { + "epoch": 174.10666666666665, + "grad_norm": 0.185546875, + "learning_rate": 0.0004908378307048819, + "loss": 0.3139, + "step": 65290 + }, + { + "epoch": 174.13333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004908350195867761, + "loss": 0.3055, + "step": 65300 + }, + { + "epoch": 174.16, + "grad_norm": 0.205078125, + "learning_rate": 0.0004908322080455381, + "loss": 0.3127, + "step": 65310 + }, + { + "epoch": 174.18666666666667, + "grad_norm": 0.21484375, + "learning_rate": 0.0004908293960811729, + "loss": 0.3081, + "step": 65320 + }, + { + "epoch": 174.21333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004908265836936852, + "loss": 0.2964, + "step": 65330 + }, + { + "epoch": 174.24, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004908237708830802, + "loss": 0.3002, + "step": 65340 + }, + { + "epoch": 174.26666666666668, + "grad_norm": 0.21484375, + "learning_rate": 0.0004908209576493626, + "loss": 0.3066, + "step": 65350 + }, + { + "epoch": 174.29333333333332, + "grad_norm": 0.232421875, + "learning_rate": 0.0004908181439925377, + "loss": 0.3022, + "step": 65360 + }, + { + "epoch": 174.32, + "grad_norm": 0.19921875, + "learning_rate": 0.0004908153299126101, + "loss": 0.3092, + "step": 65370 + }, + { + "epoch": 174.34666666666666, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004908125154095848, + "loss": 0.3081, + "step": 65380 + }, + { + "epoch": 174.37333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004908097004834668, + "loss": 0.3002, + "step": 65390 + }, + { + "epoch": 174.4, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004908068851342611, + "loss": 0.3021, + "step": 65400 + }, + { + "epoch": 174.42666666666668, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004908040693619726, + "loss": 0.3092, + "step": 65410 + }, + { + "epoch": 174.45333333333335, + "grad_norm": 0.20703125, + "learning_rate": 0.0004908012531666063, + "loss": 0.3174, + "step": 65420 + }, + { + "epoch": 174.48, + "grad_norm": 0.326171875, + "learning_rate": 0.000490798436548167, + "loss": 0.3126, + "step": 65430 + }, + { + "epoch": 174.50666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004907956195066599, + "loss": 0.3101, + "step": 65440 + }, + { + "epoch": 174.53333333333333, + "grad_norm": 0.162109375, + "learning_rate": 0.0004907928020420896, + "loss": 0.3047, + "step": 65450 + }, + { + "epoch": 174.56, + "grad_norm": 0.21484375, + "learning_rate": 0.0004907899841544613, + "loss": 0.3014, + "step": 65460 + }, + { + "epoch": 174.58666666666667, + "grad_norm": 0.1982421875, + "learning_rate": 0.00049078716584378, + "loss": 0.3047, + "step": 65470 + }, + { + "epoch": 174.61333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004907843471100504, + "loss": 0.2975, + "step": 65480 + }, + { + "epoch": 174.64, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004907815279532777, + "loss": 0.2979, + "step": 65490 + }, + { + "epoch": 174.66666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004907787083734667, + "loss": 0.3129, + "step": 65500 + }, + { + "epoch": 174.69333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004907758883706224, + "loss": 0.2924, + "step": 65510 + }, + { + "epoch": 174.72, + "grad_norm": 0.197265625, + "learning_rate": 0.0004907730679447498, + "loss": 0.3089, + "step": 65520 + }, + { + "epoch": 174.74666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004907702470958537, + "loss": 0.3098, + "step": 65530 + }, + { + "epoch": 174.77333333333334, + "grad_norm": 0.2890625, + "learning_rate": 0.0004907674258239393, + "loss": 0.322, + "step": 65540 + }, + { + "epoch": 174.8, + "grad_norm": 0.18359375, + "learning_rate": 0.0004907646041290114, + "loss": 0.3082, + "step": 65550 + }, + { + "epoch": 174.82666666666665, + "grad_norm": 0.1845703125, + "learning_rate": 0.000490761782011075, + "loss": 0.2973, + "step": 65560 + }, + { + "epoch": 174.85333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.000490758959470135, + "loss": 0.3011, + "step": 65570 + }, + { + "epoch": 174.88, + "grad_norm": 0.197265625, + "learning_rate": 0.0004907561365061964, + "loss": 0.3004, + "step": 65580 + }, + { + "epoch": 174.90666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004907533131192642, + "loss": 0.3019, + "step": 65590 + }, + { + "epoch": 174.93333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004907504893093432, + "loss": 0.3023, + "step": 65600 + }, + { + "epoch": 174.96, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004907476650764386, + "loss": 0.3026, + "step": 65610 + }, + { + "epoch": 174.98666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004907448404205552, + "loss": 0.3141, + "step": 65620 + }, + { + "epoch": 175.0, + "eval_loss": 0.39776498079299927, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6638, + "eval_samples_per_second": 1.5, + "eval_steps_per_second": 0.094, + "step": 65625 + }, + { + "epoch": 175.01333333333332, + "grad_norm": 0.21875, + "learning_rate": 0.000490742015341698, + "loss": 0.3053, + "step": 65630 + }, + { + "epoch": 175.04, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004907391898398721, + "loss": 0.3316, + "step": 65640 + }, + { + "epoch": 175.06666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004907363639150822, + "loss": 0.3161, + "step": 65650 + }, + { + "epoch": 175.09333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004907335375673335, + "loss": 0.3132, + "step": 65660 + }, + { + "epoch": 175.12, + "grad_norm": 0.21875, + "learning_rate": 0.0004907307107966307, + "loss": 0.3087, + "step": 65670 + }, + { + "epoch": 175.14666666666668, + "grad_norm": 0.1962890625, + "learning_rate": 0.000490727883602979, + "loss": 0.3094, + "step": 65680 + }, + { + "epoch": 175.17333333333335, + "grad_norm": 0.240234375, + "learning_rate": 0.0004907250559863834, + "loss": 0.3103, + "step": 65690 + }, + { + "epoch": 175.2, + "grad_norm": 0.302734375, + "learning_rate": 0.0004907222279468486, + "loss": 0.3033, + "step": 65700 + }, + { + "epoch": 175.22666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.00049071939948438, + "loss": 0.2974, + "step": 65710 + }, + { + "epoch": 175.25333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004907165705989821, + "loss": 0.2973, + "step": 65720 + }, + { + "epoch": 175.28, + "grad_norm": 0.23828125, + "learning_rate": 0.0004907137412906601, + "loss": 0.3151, + "step": 65730 + }, + { + "epoch": 175.30666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.000490710911559419, + "loss": 0.298, + "step": 65740 + }, + { + "epoch": 175.33333333333334, + "grad_norm": 0.197265625, + "learning_rate": 0.0004907080814052637, + "loss": 0.312, + "step": 65750 + }, + { + "epoch": 175.36, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004907052508281992, + "loss": 0.303, + "step": 65760 + }, + { + "epoch": 175.38666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004907024198282303, + "loss": 0.3003, + "step": 65770 + }, + { + "epoch": 175.41333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004906995884053623, + "loss": 0.306, + "step": 65780 + }, + { + "epoch": 175.44, + "grad_norm": 0.18359375, + "learning_rate": 0.0004906967565596, + "loss": 0.3138, + "step": 65790 + }, + { + "epoch": 175.46666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004906939242909484, + "loss": 0.3173, + "step": 65800 + }, + { + "epoch": 175.49333333333334, + "grad_norm": 0.216796875, + "learning_rate": 0.0004906910915994124, + "loss": 0.3068, + "step": 65810 + }, + { + "epoch": 175.52, + "grad_norm": 0.2041015625, + "learning_rate": 0.000490688258484997, + "loss": 0.3109, + "step": 65820 + }, + { + "epoch": 175.54666666666665, + "grad_norm": 0.197265625, + "learning_rate": 0.0004906854249477074, + "loss": 0.3015, + "step": 65830 + }, + { + "epoch": 175.57333333333332, + "grad_norm": 0.201171875, + "learning_rate": 0.0004906825909875483, + "loss": 0.3044, + "step": 65840 + }, + { + "epoch": 175.6, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004906797566045249, + "loss": 0.3016, + "step": 65850 + }, + { + "epoch": 175.62666666666667, + "grad_norm": 0.166015625, + "learning_rate": 0.0004906769217986418, + "loss": 0.2964, + "step": 65860 + }, + { + "epoch": 175.65333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004906740865699043, + "loss": 0.309, + "step": 65870 + }, + { + "epoch": 175.68, + "grad_norm": 0.193359375, + "learning_rate": 0.0004906712509183174, + "loss": 0.2979, + "step": 65880 + }, + { + "epoch": 175.70666666666668, + "grad_norm": 0.255859375, + "learning_rate": 0.000490668414843886, + "loss": 0.2989, + "step": 65890 + }, + { + "epoch": 175.73333333333332, + "grad_norm": 0.20703125, + "learning_rate": 0.0004906655783466151, + "loss": 0.3139, + "step": 65900 + }, + { + "epoch": 175.76, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004906627414265096, + "loss": 0.3157, + "step": 65910 + }, + { + "epoch": 175.78666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004906599040835746, + "loss": 0.317, + "step": 65920 + }, + { + "epoch": 175.81333333333333, + "grad_norm": 0.220703125, + "learning_rate": 0.000490657066317815, + "loss": 0.299, + "step": 65930 + }, + { + "epoch": 175.84, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004906542281292359, + "loss": 0.2989, + "step": 65940 + }, + { + "epoch": 175.86666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004906513895178421, + "loss": 0.3009, + "step": 65950 + }, + { + "epoch": 175.89333333333335, + "grad_norm": 0.16796875, + "learning_rate": 0.0004906485504836388, + "loss": 0.3009, + "step": 65960 + }, + { + "epoch": 175.92, + "grad_norm": 0.19921875, + "learning_rate": 0.0004906457110266308, + "loss": 0.3014, + "step": 65970 + }, + { + "epoch": 175.94666666666666, + "grad_norm": 0.16796875, + "learning_rate": 0.0004906428711468232, + "loss": 0.3035, + "step": 65980 + }, + { + "epoch": 175.97333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004906400308442209, + "loss": 0.3109, + "step": 65990 + }, + { + "epoch": 176.0, + "grad_norm": 0.1923828125, + "learning_rate": 0.000490637190118829, + "loss": 0.2992, + "step": 66000 + }, + { + "epoch": 176.0, + "eval_loss": 0.3978154957294464, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8442, + "eval_samples_per_second": 1.475, + "eval_steps_per_second": 0.092, + "step": 66000 + }, + { + "epoch": 176.02666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004906343489706525, + "loss": 0.3222, + "step": 66010 + }, + { + "epoch": 176.05333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004906315073996962, + "loss": 0.3285, + "step": 66020 + }, + { + "epoch": 176.08, + "grad_norm": 0.189453125, + "learning_rate": 0.0004906286654059654, + "loss": 0.3121, + "step": 66030 + }, + { + "epoch": 176.10666666666665, + "grad_norm": 0.19140625, + "learning_rate": 0.0004906258229894648, + "loss": 0.3141, + "step": 66040 + }, + { + "epoch": 176.13333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004906229801501995, + "loss": 0.3048, + "step": 66050 + }, + { + "epoch": 176.16, + "grad_norm": 0.322265625, + "learning_rate": 0.0004906201368881746, + "loss": 0.3127, + "step": 66060 + }, + { + "epoch": 176.18666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.000490617293203395, + "loss": 0.3079, + "step": 66070 + }, + { + "epoch": 176.21333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004906144490958656, + "loss": 0.2965, + "step": 66080 + }, + { + "epoch": 176.24, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004906116045655916, + "loss": 0.3, + "step": 66090 + }, + { + "epoch": 176.26666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004906087596125778, + "loss": 0.3062, + "step": 66100 + }, + { + "epoch": 176.29333333333332, + "grad_norm": 0.19140625, + "learning_rate": 0.0004906059142368293, + "loss": 0.3018, + "step": 66110 + }, + { + "epoch": 176.32, + "grad_norm": 0.1796875, + "learning_rate": 0.0004906030684383513, + "loss": 0.3091, + "step": 66120 + }, + { + "epoch": 176.34666666666666, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004906002222171483, + "loss": 0.308, + "step": 66130 + }, + { + "epoch": 176.37333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004905973755732258, + "loss": 0.3003, + "step": 66140 + }, + { + "epoch": 176.4, + "grad_norm": 0.1875, + "learning_rate": 0.0004905945285065884, + "loss": 0.3015, + "step": 66150 + }, + { + "epoch": 176.42666666666668, + "grad_norm": 0.17578125, + "learning_rate": 0.0004905916810172415, + "loss": 0.3092, + "step": 66160 + }, + { + "epoch": 176.45333333333335, + "grad_norm": 0.2109375, + "learning_rate": 0.0004905888331051898, + "loss": 0.3173, + "step": 66170 + }, + { + "epoch": 176.48, + "grad_norm": 0.263671875, + "learning_rate": 0.0004905859847704384, + "loss": 0.3127, + "step": 66180 + }, + { + "epoch": 176.50666666666666, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004905831360129923, + "loss": 0.3098, + "step": 66190 + }, + { + "epoch": 176.53333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004905802868328565, + "loss": 0.3049, + "step": 66200 + }, + { + "epoch": 176.56, + "grad_norm": 0.17578125, + "learning_rate": 0.0004905774372300361, + "loss": 0.3012, + "step": 66210 + }, + { + "epoch": 176.58666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.000490574587204536, + "loss": 0.3051, + "step": 66220 + }, + { + "epoch": 176.61333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004905717367563612, + "loss": 0.2969, + "step": 66230 + }, + { + "epoch": 176.64, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004905688858855168, + "loss": 0.2976, + "step": 66240 + }, + { + "epoch": 176.66666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0004905660345920076, + "loss": 0.3138, + "step": 66250 + }, + { + "epoch": 176.69333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004905631828758389, + "loss": 0.2927, + "step": 66260 + }, + { + "epoch": 176.72, + "grad_norm": 0.21484375, + "learning_rate": 0.0004905603307370155, + "loss": 0.3084, + "step": 66270 + }, + { + "epoch": 176.74666666666667, + "grad_norm": 0.169921875, + "learning_rate": 0.0004905574781755425, + "loss": 0.3097, + "step": 66280 + }, + { + "epoch": 176.77333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004905546251914249, + "loss": 0.3212, + "step": 66290 + }, + { + "epoch": 176.8, + "grad_norm": 0.197265625, + "learning_rate": 0.0004905517717846677, + "loss": 0.308, + "step": 66300 + }, + { + "epoch": 176.82666666666665, + "grad_norm": 0.1796875, + "learning_rate": 0.0004905489179552759, + "loss": 0.2967, + "step": 66310 + }, + { + "epoch": 176.85333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004905460637032546, + "loss": 0.3002, + "step": 66320 + }, + { + "epoch": 176.88, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004905432090286086, + "loss": 0.2997, + "step": 66330 + }, + { + "epoch": 176.90666666666667, + "grad_norm": 0.291015625, + "learning_rate": 0.0004905403539313432, + "loss": 0.3017, + "step": 66340 + }, + { + "epoch": 176.93333333333334, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004905374984114632, + "loss": 0.3021, + "step": 66350 + }, + { + "epoch": 176.96, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004905346424689738, + "loss": 0.3018, + "step": 66360 + }, + { + "epoch": 176.98666666666668, + "grad_norm": 0.1953125, + "learning_rate": 0.0004905317861038798, + "loss": 0.3134, + "step": 66370 + }, + { + "epoch": 177.0, + "eval_loss": 0.3980793058872223, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.3702, + "eval_samples_per_second": 1.293, + "eval_steps_per_second": 0.081, + "step": 66375 + }, + { + "epoch": 177.01333333333332, + "grad_norm": 0.205078125, + "learning_rate": 0.0004905289293161865, + "loss": 0.3045, + "step": 66380 + }, + { + "epoch": 177.04, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004905260721058985, + "loss": 0.3304, + "step": 66390 + }, + { + "epoch": 177.06666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004905232144730211, + "loss": 0.3163, + "step": 66400 + }, + { + "epoch": 177.09333333333333, + "grad_norm": 0.2578125, + "learning_rate": 0.0004905203564175595, + "loss": 0.3125, + "step": 66410 + }, + { + "epoch": 177.12, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004905174979395184, + "loss": 0.3089, + "step": 66420 + }, + { + "epoch": 177.14666666666668, + "grad_norm": 0.21875, + "learning_rate": 0.0004905146390389029, + "loss": 0.3092, + "step": 66430 + }, + { + "epoch": 177.17333333333335, + "grad_norm": 0.224609375, + "learning_rate": 0.0004905117797157181, + "loss": 0.3096, + "step": 66440 + }, + { + "epoch": 177.2, + "grad_norm": 0.1982421875, + "learning_rate": 0.000490508919969969, + "loss": 0.303, + "step": 66450 + }, + { + "epoch": 177.22666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004905060598016605, + "loss": 0.2969, + "step": 66460 + }, + { + "epoch": 177.25333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004905031992107978, + "loss": 0.2964, + "step": 66470 + }, + { + "epoch": 177.28, + "grad_norm": 0.267578125, + "learning_rate": 0.0004905003381973858, + "loss": 0.315, + "step": 66480 + }, + { + "epoch": 177.30666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004904974767614297, + "loss": 0.2973, + "step": 66490 + }, + { + "epoch": 177.33333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004904946149029343, + "loss": 0.3115, + "step": 66500 + }, + { + "epoch": 177.36, + "grad_norm": 0.193359375, + "learning_rate": 0.0004904917526219049, + "loss": 0.3026, + "step": 66510 + }, + { + "epoch": 177.38666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004904888899183462, + "loss": 0.3001, + "step": 66520 + }, + { + "epoch": 177.41333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004904860267922636, + "loss": 0.3058, + "step": 66530 + }, + { + "epoch": 177.44, + "grad_norm": 0.23828125, + "learning_rate": 0.0004904831632436616, + "loss": 0.3129, + "step": 66540 + }, + { + "epoch": 177.46666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004904802992725458, + "loss": 0.3167, + "step": 66550 + }, + { + "epoch": 177.49333333333334, + "grad_norm": 0.2265625, + "learning_rate": 0.000490477434878921, + "loss": 0.3061, + "step": 66560 + }, + { + "epoch": 177.52, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004904745700627921, + "loss": 0.3099, + "step": 66570 + }, + { + "epoch": 177.54666666666665, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004904717048241642, + "loss": 0.3007, + "step": 66580 + }, + { + "epoch": 177.57333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004904688391630425, + "loss": 0.3044, + "step": 66590 + }, + { + "epoch": 177.6, + "grad_norm": 0.2099609375, + "learning_rate": 0.000490465973079432, + "loss": 0.3013, + "step": 66600 + }, + { + "epoch": 177.62666666666667, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004904631065733376, + "loss": 0.2963, + "step": 66610 + }, + { + "epoch": 177.65333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.0004904602396447644, + "loss": 0.3085, + "step": 66620 + }, + { + "epoch": 177.68, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004904573722937174, + "loss": 0.297, + "step": 66630 + }, + { + "epoch": 177.70666666666668, + "grad_norm": 0.28515625, + "learning_rate": 0.0004904545045202016, + "loss": 0.2984, + "step": 66640 + }, + { + "epoch": 177.73333333333332, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004904516363242222, + "loss": 0.3136, + "step": 66650 + }, + { + "epoch": 177.76, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004904487677057841, + "loss": 0.3156, + "step": 66660 + }, + { + "epoch": 177.78666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004904458986648926, + "loss": 0.3163, + "step": 66670 + }, + { + "epoch": 177.81333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004904430292015522, + "loss": 0.2989, + "step": 66680 + }, + { + "epoch": 177.84, + "grad_norm": 0.1953125, + "learning_rate": 0.0004904401593157686, + "loss": 0.2988, + "step": 66690 + }, + { + "epoch": 177.86666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004904372890075462, + "loss": 0.3, + "step": 66700 + }, + { + "epoch": 177.89333333333335, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004904344182768905, + "loss": 0.3004, + "step": 66710 + }, + { + "epoch": 177.92, + "grad_norm": 0.275390625, + "learning_rate": 0.0004904315471238065, + "loss": 0.3014, + "step": 66720 + }, + { + "epoch": 177.94666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.000490428675548299, + "loss": 0.3036, + "step": 66730 + }, + { + "epoch": 177.97333333333333, + "grad_norm": 0.314453125, + "learning_rate": 0.0004904258035503732, + "loss": 0.3104, + "step": 66740 + }, + { + "epoch": 178.0, + "grad_norm": 0.181640625, + "learning_rate": 0.0004904229311300342, + "loss": 0.2992, + "step": 66750 + }, + { + "epoch": 178.0, + "eval_loss": 0.39846497774124146, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7341, + "eval_samples_per_second": 1.491, + "eval_steps_per_second": 0.093, + "step": 66750 + }, + { + "epoch": 178.02666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.000490420058287287, + "loss": 0.3215, + "step": 66760 + }, + { + "epoch": 178.05333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004904171850221365, + "loss": 0.3276, + "step": 66770 + }, + { + "epoch": 178.08, + "grad_norm": 0.181640625, + "learning_rate": 0.000490414311334588, + "loss": 0.3119, + "step": 66780 + }, + { + "epoch": 178.10666666666665, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004904114372246464, + "loss": 0.3136, + "step": 66790 + }, + { + "epoch": 178.13333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004904085626923168, + "loss": 0.3045, + "step": 66800 + }, + { + "epoch": 178.16, + "grad_norm": 0.203125, + "learning_rate": 0.0004904056877376042, + "loss": 0.3117, + "step": 66810 + }, + { + "epoch": 178.18666666666667, + "grad_norm": 0.1640625, + "learning_rate": 0.0004904028123605136, + "loss": 0.3077, + "step": 66820 + }, + { + "epoch": 178.21333333333334, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004903999365610503, + "loss": 0.2963, + "step": 66830 + }, + { + "epoch": 178.24, + "grad_norm": 0.197265625, + "learning_rate": 0.000490397060339219, + "loss": 0.2997, + "step": 66840 + }, + { + "epoch": 178.26666666666668, + "grad_norm": 0.21875, + "learning_rate": 0.000490394183695025, + "loss": 0.3057, + "step": 66850 + }, + { + "epoch": 178.29333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004903913066284733, + "loss": 0.3014, + "step": 66860 + }, + { + "epoch": 178.32, + "grad_norm": 0.20703125, + "learning_rate": 0.000490388429139569, + "loss": 0.3085, + "step": 66870 + }, + { + "epoch": 178.34666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004903855512283171, + "loss": 0.3076, + "step": 66880 + }, + { + "epoch": 178.37333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004903826728947225, + "loss": 0.3001, + "step": 66890 + }, + { + "epoch": 178.4, + "grad_norm": 0.201171875, + "learning_rate": 0.0004903797941387906, + "loss": 0.3013, + "step": 66900 + }, + { + "epoch": 178.42666666666668, + "grad_norm": 0.279296875, + "learning_rate": 0.0004903769149605261, + "loss": 0.3082, + "step": 66910 + }, + { + "epoch": 178.45333333333335, + "grad_norm": 0.1953125, + "learning_rate": 0.0004903740353599344, + "loss": 0.3174, + "step": 66920 + }, + { + "epoch": 178.48, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004903711553370203, + "loss": 0.3123, + "step": 66930 + }, + { + "epoch": 178.50666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004903682748917889, + "loss": 0.3092, + "step": 66940 + }, + { + "epoch": 178.53333333333333, + "grad_norm": 0.1650390625, + "learning_rate": 0.0004903653940242455, + "loss": 0.3043, + "step": 66950 + }, + { + "epoch": 178.56, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004903625127343948, + "loss": 0.3009, + "step": 66960 + }, + { + "epoch": 178.58666666666667, + "grad_norm": 0.2255859375, + "learning_rate": 0.000490359631022242, + "loss": 0.3044, + "step": 66970 + }, + { + "epoch": 178.61333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004903567488877923, + "loss": 0.2976, + "step": 66980 + }, + { + "epoch": 178.64, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004903538663310506, + "loss": 0.2979, + "step": 66990 + }, + { + "epoch": 178.66666666666666, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004903509833520221, + "loss": 0.3141, + "step": 67000 + }, + { + "epoch": 178.69333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004903480999507118, + "loss": 0.2923, + "step": 67010 + }, + { + "epoch": 178.72, + "grad_norm": 0.20703125, + "learning_rate": 0.0004903452161271247, + "loss": 0.3079, + "step": 67020 + }, + { + "epoch": 178.74666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004903423318812659, + "loss": 0.3098, + "step": 67030 + }, + { + "epoch": 178.77333333333334, + "grad_norm": 0.21875, + "learning_rate": 0.0004903394472131406, + "loss": 0.3211, + "step": 67040 + }, + { + "epoch": 178.8, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004903365621227536, + "loss": 0.3081, + "step": 67050 + }, + { + "epoch": 178.82666666666665, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004903336766101102, + "loss": 0.2969, + "step": 67060 + }, + { + "epoch": 178.85333333333332, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004903307906752154, + "loss": 0.3005, + "step": 67070 + }, + { + "epoch": 178.88, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004903279043180742, + "loss": 0.2995, + "step": 67080 + }, + { + "epoch": 178.90666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004903250175386919, + "loss": 0.3011, + "step": 67090 + }, + { + "epoch": 178.93333333333334, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004903221303370733, + "loss": 0.3025, + "step": 67100 + }, + { + "epoch": 178.96, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004903192427132236, + "loss": 0.3016, + "step": 67110 + }, + { + "epoch": 178.98666666666668, + "grad_norm": 0.21875, + "learning_rate": 0.0004903163546671478, + "loss": 0.3133, + "step": 67120 + }, + { + "epoch": 179.0, + "eval_loss": 0.39602065086364746, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.109, + "eval_samples_per_second": 1.44, + "eval_steps_per_second": 0.09, + "step": 67125 + }, + { + "epoch": 179.01333333333332, + "grad_norm": 0.216796875, + "learning_rate": 0.0004903134661988511, + "loss": 0.3046, + "step": 67130 + }, + { + "epoch": 179.04, + "grad_norm": 0.177734375, + "learning_rate": 0.0004903105773083386, + "loss": 0.3305, + "step": 67140 + }, + { + "epoch": 179.06666666666666, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004903076879956151, + "loss": 0.3157, + "step": 67150 + }, + { + "epoch": 179.09333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.000490304798260686, + "loss": 0.3128, + "step": 67160 + }, + { + "epoch": 179.12, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004903019081035562, + "loss": 0.3085, + "step": 67170 + }, + { + "epoch": 179.14666666666668, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004902990175242307, + "loss": 0.3091, + "step": 67180 + }, + { + "epoch": 179.17333333333335, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004902961265227148, + "loss": 0.3101, + "step": 67190 + }, + { + "epoch": 179.2, + "grad_norm": 0.236328125, + "learning_rate": 0.0004902932350990134, + "loss": 0.3029, + "step": 67200 + }, + { + "epoch": 179.22666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004902903432531318, + "loss": 0.2967, + "step": 67210 + }, + { + "epoch": 179.25333333333333, + "grad_norm": 0.17578125, + "learning_rate": 0.0004902874509850748, + "loss": 0.2968, + "step": 67220 + }, + { + "epoch": 179.28, + "grad_norm": 0.232421875, + "learning_rate": 0.0004902845582948475, + "loss": 0.3147, + "step": 67230 + }, + { + "epoch": 179.30666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.0004902816651824553, + "loss": 0.297, + "step": 67240 + }, + { + "epoch": 179.33333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.000490278771647903, + "loss": 0.3112, + "step": 67250 + }, + { + "epoch": 179.36, + "grad_norm": 0.232421875, + "learning_rate": 0.0004902758776911957, + "loss": 0.3021, + "step": 67260 + }, + { + "epoch": 179.38666666666666, + "grad_norm": 0.23828125, + "learning_rate": 0.0004902729833123387, + "loss": 0.3, + "step": 67270 + }, + { + "epoch": 179.41333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004902700885113368, + "loss": 0.306, + "step": 67280 + }, + { + "epoch": 179.44, + "grad_norm": 0.177734375, + "learning_rate": 0.0004902671932881952, + "loss": 0.3134, + "step": 67290 + }, + { + "epoch": 179.46666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.0004902642976429191, + "loss": 0.3167, + "step": 67300 + }, + { + "epoch": 179.49333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004902614015755135, + "loss": 0.3065, + "step": 67310 + }, + { + "epoch": 179.52, + "grad_norm": 0.173828125, + "learning_rate": 0.0004902585050859835, + "loss": 0.3105, + "step": 67320 + }, + { + "epoch": 179.54666666666665, + "grad_norm": 0.2353515625, + "learning_rate": 0.000490255608174334, + "loss": 0.3006, + "step": 67330 + }, + { + "epoch": 179.57333333333332, + "grad_norm": 0.236328125, + "learning_rate": 0.0004902527108405705, + "loss": 0.304, + "step": 67340 + }, + { + "epoch": 179.6, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004902498130846977, + "loss": 0.3008, + "step": 67350 + }, + { + "epoch": 179.62666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004902469149067208, + "loss": 0.2959, + "step": 67360 + }, + { + "epoch": 179.65333333333334, + "grad_norm": 0.259765625, + "learning_rate": 0.000490244016306645, + "loss": 0.3093, + "step": 67370 + }, + { + "epoch": 179.68, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004902411172844753, + "loss": 0.2976, + "step": 67380 + }, + { + "epoch": 179.70666666666668, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004902382178402168, + "loss": 0.2977, + "step": 67390 + }, + { + "epoch": 179.73333333333332, + "grad_norm": 0.2109375, + "learning_rate": 0.0004902353179738747, + "loss": 0.3132, + "step": 67400 + }, + { + "epoch": 179.76, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004902324176854539, + "loss": 0.3154, + "step": 67410 + }, + { + "epoch": 179.78666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004902295169749597, + "loss": 0.3161, + "step": 67420 + }, + { + "epoch": 179.81333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.000490226615842397, + "loss": 0.2982, + "step": 67430 + }, + { + "epoch": 179.84, + "grad_norm": 0.20703125, + "learning_rate": 0.000490223714287771, + "loss": 0.2988, + "step": 67440 + }, + { + "epoch": 179.86666666666667, + "grad_norm": 0.173828125, + "learning_rate": 0.0004902208123110869, + "loss": 0.3006, + "step": 67450 + }, + { + "epoch": 179.89333333333335, + "grad_norm": 0.23828125, + "learning_rate": 0.0004902179099123496, + "loss": 0.2997, + "step": 67460 + }, + { + "epoch": 179.92, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004902150070915643, + "loss": 0.301, + "step": 67470 + }, + { + "epoch": 179.94666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004902121038487361, + "loss": 0.3029, + "step": 67480 + }, + { + "epoch": 179.97333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004902092001838702, + "loss": 0.31, + "step": 67490 + }, + { + "epoch": 180.0, + "grad_norm": 0.169921875, + "learning_rate": 0.0004902062960969715, + "loss": 0.2989, + "step": 67500 + }, + { + "epoch": 180.0, + "eval_loss": 0.39768654108047485, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4405, + "eval_samples_per_second": 1.532, + "eval_steps_per_second": 0.096, + "step": 67500 + }, + { + "epoch": 180.02666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.0004902033915880451, + "loss": 0.3212, + "step": 67510 + }, + { + "epoch": 180.05333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004902004866570963, + "loss": 0.3275, + "step": 67520 + }, + { + "epoch": 180.08, + "grad_norm": 0.18359375, + "learning_rate": 0.0004901975813041302, + "loss": 0.3111, + "step": 67530 + }, + { + "epoch": 180.10666666666665, + "grad_norm": 0.1953125, + "learning_rate": 0.0004901946755291516, + "loss": 0.3135, + "step": 67540 + }, + { + "epoch": 180.13333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.000490191769332166, + "loss": 0.3045, + "step": 67550 + }, + { + "epoch": 180.16, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004901888627131781, + "loss": 0.3116, + "step": 67560 + }, + { + "epoch": 180.18666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004901859556721935, + "loss": 0.3075, + "step": 67570 + }, + { + "epoch": 180.21333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004901830482092169, + "loss": 0.2961, + "step": 67580 + }, + { + "epoch": 180.24, + "grad_norm": 0.240234375, + "learning_rate": 0.0004901801403242535, + "loss": 0.299, + "step": 67590 + }, + { + "epoch": 180.26666666666668, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004901772320173085, + "loss": 0.3056, + "step": 67600 + }, + { + "epoch": 180.29333333333332, + "grad_norm": 0.1865234375, + "learning_rate": 0.000490174323288387, + "loss": 0.3014, + "step": 67610 + }, + { + "epoch": 180.32, + "grad_norm": 0.171875, + "learning_rate": 0.000490171414137494, + "loss": 0.3084, + "step": 67620 + }, + { + "epoch": 180.34666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004901685045646347, + "loss": 0.3077, + "step": 67630 + }, + { + "epoch": 180.37333333333333, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004901655945698143, + "loss": 0.2999, + "step": 67640 + }, + { + "epoch": 180.4, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004901626841530376, + "loss": 0.3013, + "step": 67650 + }, + { + "epoch": 180.42666666666668, + "grad_norm": 0.1796875, + "learning_rate": 0.00049015977331431, + "loss": 0.3083, + "step": 67660 + }, + { + "epoch": 180.45333333333335, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004901568620536366, + "loss": 0.3172, + "step": 67670 + }, + { + "epoch": 180.48, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004901539503710224, + "loss": 0.3124, + "step": 67680 + }, + { + "epoch": 180.50666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004901510382664726, + "loss": 0.3092, + "step": 67690 + }, + { + "epoch": 180.53333333333333, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004901481257399922, + "loss": 0.3042, + "step": 67700 + }, + { + "epoch": 180.56, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004901452127915865, + "loss": 0.3008, + "step": 67710 + }, + { + "epoch": 180.58666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004901422994212605, + "loss": 0.3049, + "step": 67720 + }, + { + "epoch": 180.61333333333334, + "grad_norm": 0.1611328125, + "learning_rate": 0.0004901393856290193, + "loss": 0.2974, + "step": 67730 + }, + { + "epoch": 180.64, + "grad_norm": 0.1943359375, + "learning_rate": 0.000490136471414868, + "loss": 0.2978, + "step": 67740 + }, + { + "epoch": 180.66666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004901335567788119, + "loss": 0.3133, + "step": 67750 + }, + { + "epoch": 180.69333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.000490130641720856, + "loss": 0.2931, + "step": 67760 + }, + { + "epoch": 180.72, + "grad_norm": 0.28515625, + "learning_rate": 0.0004901277262410053, + "loss": 0.3081, + "step": 67770 + }, + { + "epoch": 180.74666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.0004901248103392651, + "loss": 0.3101, + "step": 67780 + }, + { + "epoch": 180.77333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004901218940156404, + "loss": 0.3209, + "step": 67790 + }, + { + "epoch": 180.8, + "grad_norm": 0.220703125, + "learning_rate": 0.0004901189772701365, + "loss": 0.3075, + "step": 67800 + }, + { + "epoch": 180.82666666666665, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004901160601027583, + "loss": 0.2963, + "step": 67810 + }, + { + "epoch": 180.85333333333332, + "grad_norm": 0.17578125, + "learning_rate": 0.0004901131425135111, + "loss": 0.3002, + "step": 67820 + }, + { + "epoch": 180.88, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004901102245023999, + "loss": 0.2994, + "step": 67830 + }, + { + "epoch": 180.90666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.00049010730606943, + "loss": 0.3019, + "step": 67840 + }, + { + "epoch": 180.93333333333334, + "grad_norm": 0.181640625, + "learning_rate": 0.0004901043872146063, + "loss": 0.302, + "step": 67850 + }, + { + "epoch": 180.96, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004901014679379341, + "loss": 0.3017, + "step": 67860 + }, + { + "epoch": 180.98666666666668, + "grad_norm": 0.19921875, + "learning_rate": 0.0004900985482394185, + "loss": 0.3137, + "step": 67870 + }, + { + "epoch": 181.0, + "eval_loss": 0.39718955755233765, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2027, + "eval_samples_per_second": 1.428, + "eval_steps_per_second": 0.089, + "step": 67875 + }, + { + "epoch": 181.01333333333332, + "grad_norm": 0.205078125, + "learning_rate": 0.0004900956281190645, + "loss": 0.3047, + "step": 67880 + }, + { + "epoch": 181.04, + "grad_norm": 0.19140625, + "learning_rate": 0.0004900927075768774, + "loss": 0.331, + "step": 67890 + }, + { + "epoch": 181.06666666666666, + "grad_norm": 0.283203125, + "learning_rate": 0.0004900897866128623, + "loss": 0.3155, + "step": 67900 + }, + { + "epoch": 181.09333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004900868652270243, + "loss": 0.3124, + "step": 67910 + }, + { + "epoch": 181.12, + "grad_norm": 0.1875, + "learning_rate": 0.0004900839434193684, + "loss": 0.3078, + "step": 67920 + }, + { + "epoch": 181.14666666666668, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004900810211899, + "loss": 0.3092, + "step": 67930 + }, + { + "epoch": 181.17333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004900780985386241, + "loss": 0.3099, + "step": 67940 + }, + { + "epoch": 181.2, + "grad_norm": 0.2109375, + "learning_rate": 0.0004900751754655458, + "loss": 0.303, + "step": 67950 + }, + { + "epoch": 181.22666666666666, + "grad_norm": 0.1796875, + "learning_rate": 0.0004900722519706702, + "loss": 0.2966, + "step": 67960 + }, + { + "epoch": 181.25333333333333, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004900693280540026, + "loss": 0.2969, + "step": 67970 + }, + { + "epoch": 181.28, + "grad_norm": 0.2001953125, + "learning_rate": 0.000490066403715548, + "loss": 0.3146, + "step": 67980 + }, + { + "epoch": 181.30666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004900634789553116, + "loss": 0.2972, + "step": 67990 + }, + { + "epoch": 181.33333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004900605537732984, + "loss": 0.3115, + "step": 68000 + }, + { + "epoch": 181.36, + "grad_norm": 0.212890625, + "learning_rate": 0.0004900576281695138, + "loss": 0.3013, + "step": 68010 + }, + { + "epoch": 181.38666666666666, + "grad_norm": 0.2265625, + "learning_rate": 0.0004900547021439627, + "loss": 0.2995, + "step": 68020 + }, + { + "epoch": 181.41333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004900517756966504, + "loss": 0.3051, + "step": 68030 + }, + { + "epoch": 181.44, + "grad_norm": 0.216796875, + "learning_rate": 0.000490048848827582, + "loss": 0.3121, + "step": 68040 + }, + { + "epoch": 181.46666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.0004900459215367626, + "loss": 0.3162, + "step": 68050 + }, + { + "epoch": 181.49333333333334, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004900429938241974, + "loss": 0.306, + "step": 68060 + }, + { + "epoch": 181.52, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004900400656898914, + "loss": 0.31, + "step": 68070 + }, + { + "epoch": 181.54666666666665, + "grad_norm": 0.193359375, + "learning_rate": 0.0004900371371338499, + "loss": 0.3001, + "step": 68080 + }, + { + "epoch": 181.57333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004900342081560781, + "loss": 0.3041, + "step": 68090 + }, + { + "epoch": 181.6, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004900312787565809, + "loss": 0.3003, + "step": 68100 + }, + { + "epoch": 181.62666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004900283489353637, + "loss": 0.2957, + "step": 68110 + }, + { + "epoch": 181.65333333333334, + "grad_norm": 0.193359375, + "learning_rate": 0.0004900254186924315, + "loss": 0.3084, + "step": 68120 + }, + { + "epoch": 181.68, + "grad_norm": 0.185546875, + "learning_rate": 0.0004900224880277894, + "loss": 0.2969, + "step": 68130 + }, + { + "epoch": 181.70666666666668, + "grad_norm": 0.265625, + "learning_rate": 0.0004900195569414427, + "loss": 0.2983, + "step": 68140 + }, + { + "epoch": 181.73333333333332, + "grad_norm": 0.263671875, + "learning_rate": 0.0004900166254333965, + "loss": 0.3132, + "step": 68150 + }, + { + "epoch": 181.76, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004900136935036558, + "loss": 0.3152, + "step": 68160 + }, + { + "epoch": 181.78666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004900107611522261, + "loss": 0.3161, + "step": 68170 + }, + { + "epoch": 181.81333333333333, + "grad_norm": 0.240234375, + "learning_rate": 0.0004900078283791123, + "loss": 0.299, + "step": 68180 + }, + { + "epoch": 181.84, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004900048951843195, + "loss": 0.2982, + "step": 68190 + }, + { + "epoch": 181.86666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.000490001961567853, + "loss": 0.2996, + "step": 68200 + }, + { + "epoch": 181.89333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.000489999027529718, + "loss": 0.2998, + "step": 68210 + }, + { + "epoch": 181.92, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004899960930699194, + "loss": 0.3008, + "step": 68220 + }, + { + "epoch": 181.94666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004899931581884625, + "loss": 0.303, + "step": 68230 + }, + { + "epoch": 181.97333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004899902228853526, + "loss": 0.3101, + "step": 68240 + }, + { + "epoch": 182.0, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004899872871605946, + "loss": 0.2986, + "step": 68250 + }, + { + "epoch": 182.0, + "eval_loss": 0.39623311161994934, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1379, + "eval_samples_per_second": 1.437, + "eval_steps_per_second": 0.09, + "step": 68250 + }, + { + "epoch": 182.02666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004899843510141939, + "loss": 0.3206, + "step": 68260 + }, + { + "epoch": 182.05333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004899814144461554, + "loss": 0.3272, + "step": 68270 + }, + { + "epoch": 182.08, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004899784774564845, + "loss": 0.3108, + "step": 68280 + }, + { + "epoch": 182.10666666666665, + "grad_norm": 0.166015625, + "learning_rate": 0.0004899755400451862, + "loss": 0.3127, + "step": 68290 + }, + { + "epoch": 182.13333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004899726022122658, + "loss": 0.3042, + "step": 68300 + }, + { + "epoch": 182.16, + "grad_norm": 0.1796875, + "learning_rate": 0.0004899696639577284, + "loss": 0.3107, + "step": 68310 + }, + { + "epoch": 182.18666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.000489966725281579, + "loss": 0.3072, + "step": 68320 + }, + { + "epoch": 182.21333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.000489963786183823, + "loss": 0.2958, + "step": 68330 + }, + { + "epoch": 182.24, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004899608466644655, + "loss": 0.2995, + "step": 68340 + }, + { + "epoch": 182.26666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004899579067235116, + "loss": 0.3048, + "step": 68350 + }, + { + "epoch": 182.29333333333332, + "grad_norm": 0.17578125, + "learning_rate": 0.0004899549663609665, + "loss": 0.3017, + "step": 68360 + }, + { + "epoch": 182.32, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004899520255768353, + "loss": 0.3079, + "step": 68370 + }, + { + "epoch": 182.34666666666666, + "grad_norm": 0.26953125, + "learning_rate": 0.0004899490843711233, + "loss": 0.3071, + "step": 68380 + }, + { + "epoch": 182.37333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004899461427438356, + "loss": 0.2993, + "step": 68390 + }, + { + "epoch": 182.4, + "grad_norm": 0.1953125, + "learning_rate": 0.0004899432006949774, + "loss": 0.3011, + "step": 68400 + }, + { + "epoch": 182.42666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004899402582245538, + "loss": 0.3083, + "step": 68410 + }, + { + "epoch": 182.45333333333335, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048993731533257, + "loss": 0.3162, + "step": 68420 + }, + { + "epoch": 182.48, + "grad_norm": 0.18359375, + "learning_rate": 0.0004899343720190313, + "loss": 0.3119, + "step": 68430 + }, + { + "epoch": 182.50666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.0004899314282839426, + "loss": 0.309, + "step": 68440 + }, + { + "epoch": 182.53333333333333, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004899284841273092, + "loss": 0.3038, + "step": 68450 + }, + { + "epoch": 182.56, + "grad_norm": 0.22265625, + "learning_rate": 0.0004899255395491365, + "loss": 0.3004, + "step": 68460 + }, + { + "epoch": 182.58666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004899225945494293, + "loss": 0.3041, + "step": 68470 + }, + { + "epoch": 182.61333333333334, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004899196491281929, + "loss": 0.2969, + "step": 68480 + }, + { + "epoch": 182.64, + "grad_norm": 0.2109375, + "learning_rate": 0.0004899167032854327, + "loss": 0.2974, + "step": 68490 + }, + { + "epoch": 182.66666666666666, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004899137570211536, + "loss": 0.3128, + "step": 68500 + }, + { + "epoch": 182.69333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.0004899108103353607, + "loss": 0.2922, + "step": 68510 + }, + { + "epoch": 182.72, + "grad_norm": 0.29296875, + "learning_rate": 0.0004899078632280596, + "loss": 0.3071, + "step": 68520 + }, + { + "epoch": 182.74666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004899049156992551, + "loss": 0.3091, + "step": 68530 + }, + { + "epoch": 182.77333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004899019677489525, + "loss": 0.3202, + "step": 68540 + }, + { + "epoch": 182.8, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004898990193771571, + "loss": 0.3075, + "step": 68550 + }, + { + "epoch": 182.82666666666665, + "grad_norm": 0.28125, + "learning_rate": 0.0004898960705838739, + "loss": 0.2961, + "step": 68560 + }, + { + "epoch": 182.85333333333332, + "grad_norm": 0.208984375, + "learning_rate": 0.0004898931213691082, + "loss": 0.2996, + "step": 68570 + }, + { + "epoch": 182.88, + "grad_norm": 0.19921875, + "learning_rate": 0.0004898901717328649, + "loss": 0.2995, + "step": 68580 + }, + { + "epoch": 182.90666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004898872216751496, + "loss": 0.301, + "step": 68590 + }, + { + "epoch": 182.93333333333334, + "grad_norm": 0.2421875, + "learning_rate": 0.0004898842711959673, + "loss": 0.3016, + "step": 68600 + }, + { + "epoch": 182.96, + "grad_norm": 0.173828125, + "learning_rate": 0.0004898813202953231, + "loss": 0.3018, + "step": 68610 + }, + { + "epoch": 182.98666666666668, + "grad_norm": 0.19921875, + "learning_rate": 0.0004898783689732222, + "loss": 0.3132, + "step": 68620 + }, + { + "epoch": 183.0, + "eval_loss": 0.3966831862926483, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8776, + "eval_samples_per_second": 1.471, + "eval_steps_per_second": 0.092, + "step": 68625 + }, + { + "epoch": 183.01333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004898754172296699, + "loss": 0.3036, + "step": 68630 + }, + { + "epoch": 183.04, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004898724650646714, + "loss": 0.33, + "step": 68640 + }, + { + "epoch": 183.06666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0004898695124782318, + "loss": 0.315, + "step": 68650 + }, + { + "epoch": 183.09333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004898665594703563, + "loss": 0.3118, + "step": 68660 + }, + { + "epoch": 183.12, + "grad_norm": 0.2392578125, + "learning_rate": 0.00048986360604105, + "loss": 0.308, + "step": 68670 + }, + { + "epoch": 183.14666666666668, + "grad_norm": 0.224609375, + "learning_rate": 0.0004898606521903183, + "loss": 0.309, + "step": 68680 + }, + { + "epoch": 183.17333333333335, + "grad_norm": 0.24609375, + "learning_rate": 0.0004898576979181663, + "loss": 0.3094, + "step": 68690 + }, + { + "epoch": 183.2, + "grad_norm": 0.2216796875, + "learning_rate": 0.000489854743224599, + "loss": 0.3024, + "step": 68700 + }, + { + "epoch": 183.22666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004898517881096219, + "loss": 0.2962, + "step": 68710 + }, + { + "epoch": 183.25333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004898488325732399, + "loss": 0.2964, + "step": 68720 + }, + { + "epoch": 183.28, + "grad_norm": 0.224609375, + "learning_rate": 0.0004898458766154584, + "loss": 0.314, + "step": 68730 + }, + { + "epoch": 183.30666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004898429202362827, + "loss": 0.2968, + "step": 68740 + }, + { + "epoch": 183.33333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004898399634357175, + "loss": 0.3105, + "step": 68750 + }, + { + "epoch": 183.36, + "grad_norm": 0.203125, + "learning_rate": 0.0004898370062137686, + "loss": 0.3017, + "step": 68760 + }, + { + "epoch": 183.38666666666666, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004898340485704408, + "loss": 0.2997, + "step": 68770 + }, + { + "epoch": 183.41333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004898310905057394, + "loss": 0.3053, + "step": 68780 + }, + { + "epoch": 183.44, + "grad_norm": 0.2421875, + "learning_rate": 0.0004898281320196697, + "loss": 0.3124, + "step": 68790 + }, + { + "epoch": 183.46666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004898251731122367, + "loss": 0.3162, + "step": 68800 + }, + { + "epoch": 183.49333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004898222137834458, + "loss": 0.3062, + "step": 68810 + }, + { + "epoch": 183.52, + "grad_norm": 0.197265625, + "learning_rate": 0.000489819254033302, + "loss": 0.3103, + "step": 68820 + }, + { + "epoch": 183.54666666666665, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004898162938618107, + "loss": 0.3001, + "step": 68830 + }, + { + "epoch": 183.57333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.0004898133332689769, + "loss": 0.3039, + "step": 68840 + }, + { + "epoch": 183.6, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004898103722548061, + "loss": 0.3008, + "step": 68850 + }, + { + "epoch": 183.62666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004898074108193031, + "loss": 0.2962, + "step": 68860 + }, + { + "epoch": 183.65333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004898044489624735, + "loss": 0.3086, + "step": 68870 + }, + { + "epoch": 183.68, + "grad_norm": 0.197265625, + "learning_rate": 0.0004898014866843221, + "loss": 0.297, + "step": 68880 + }, + { + "epoch": 183.70666666666668, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004897985239848545, + "loss": 0.2976, + "step": 68890 + }, + { + "epoch": 183.73333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004897955608640756, + "loss": 0.313, + "step": 68900 + }, + { + "epoch": 183.76, + "grad_norm": 0.181640625, + "learning_rate": 0.0004897925973219909, + "loss": 0.3148, + "step": 68910 + }, + { + "epoch": 183.78666666666666, + "grad_norm": 0.189453125, + "learning_rate": 0.0004897896333586053, + "loss": 0.3156, + "step": 68920 + }, + { + "epoch": 183.81333333333333, + "grad_norm": 0.23828125, + "learning_rate": 0.0004897866689739242, + "loss": 0.2987, + "step": 68930 + }, + { + "epoch": 183.84, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004897837041679527, + "loss": 0.2981, + "step": 68940 + }, + { + "epoch": 183.86666666666667, + "grad_norm": 0.240234375, + "learning_rate": 0.0004897807389406962, + "loss": 0.3003, + "step": 68950 + }, + { + "epoch": 183.89333333333335, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004897777732921596, + "loss": 0.2992, + "step": 68960 + }, + { + "epoch": 183.92, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004897748072223483, + "loss": 0.3011, + "step": 68970 + }, + { + "epoch": 183.94666666666666, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004897718407312677, + "loss": 0.3026, + "step": 68980 + }, + { + "epoch": 183.97333333333333, + "grad_norm": 0.224609375, + "learning_rate": 0.0004897688738189226, + "loss": 0.3095, + "step": 68990 + }, + { + "epoch": 184.0, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004897659064853185, + "loss": 0.2987, + "step": 69000 + }, + { + "epoch": 184.0, + "eval_loss": 0.3965569734573364, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4819, + "eval_samples_per_second": 1.526, + "eval_steps_per_second": 0.095, + "step": 69000 + }, + { + "epoch": 184.02666666666667, + "grad_norm": 0.27734375, + "learning_rate": 0.0004897629387304605, + "loss": 0.3207, + "step": 69010 + }, + { + "epoch": 184.05333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.000489759970554354, + "loss": 0.3277, + "step": 69020 + }, + { + "epoch": 184.08, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004897570019570038, + "loss": 0.3104, + "step": 69030 + }, + { + "epoch": 184.10666666666665, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004897540329384156, + "loss": 0.3128, + "step": 69040 + }, + { + "epoch": 184.13333333333333, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004897510634985943, + "loss": 0.3036, + "step": 69050 + }, + { + "epoch": 184.16, + "grad_norm": 0.259765625, + "learning_rate": 0.0004897480936375452, + "loss": 0.3115, + "step": 69060 + }, + { + "epoch": 184.18666666666667, + "grad_norm": 0.326171875, + "learning_rate": 0.0004897451233552736, + "loss": 0.3073, + "step": 69070 + }, + { + "epoch": 184.21333333333334, + "grad_norm": 0.26171875, + "learning_rate": 0.0004897421526517846, + "loss": 0.2956, + "step": 69080 + }, + { + "epoch": 184.24, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004897391815270834, + "loss": 0.2997, + "step": 69090 + }, + { + "epoch": 184.26666666666668, + "grad_norm": 0.216796875, + "learning_rate": 0.0004897362099811754, + "loss": 0.3052, + "step": 69100 + }, + { + "epoch": 184.29333333333332, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004897332380140657, + "loss": 0.3013, + "step": 69110 + }, + { + "epoch": 184.32, + "grad_norm": 0.171875, + "learning_rate": 0.0004897302656257594, + "loss": 0.3079, + "step": 69120 + }, + { + "epoch": 184.34666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.000489727292816262, + "loss": 0.3067, + "step": 69130 + }, + { + "epoch": 184.37333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004897243195855785, + "loss": 0.2995, + "step": 69140 + }, + { + "epoch": 184.4, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004897213459337142, + "loss": 0.3009, + "step": 69150 + }, + { + "epoch": 184.42666666666668, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004897183718606744, + "loss": 0.3077, + "step": 69160 + }, + { + "epoch": 184.45333333333335, + "grad_norm": 0.212890625, + "learning_rate": 0.0004897153973664642, + "loss": 0.3161, + "step": 69170 + }, + { + "epoch": 184.48, + "grad_norm": 0.205078125, + "learning_rate": 0.0004897124224510889, + "loss": 0.3122, + "step": 69180 + }, + { + "epoch": 184.50666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004897094471145537, + "loss": 0.3089, + "step": 69190 + }, + { + "epoch": 184.53333333333333, + "grad_norm": 0.16015625, + "learning_rate": 0.0004897064713568637, + "loss": 0.3038, + "step": 69200 + }, + { + "epoch": 184.56, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004897034951780244, + "loss": 0.3004, + "step": 69210 + }, + { + "epoch": 184.58666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.0004897005185780409, + "loss": 0.3038, + "step": 69220 + }, + { + "epoch": 184.61333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004896975415569183, + "loss": 0.2962, + "step": 69230 + }, + { + "epoch": 184.64, + "grad_norm": 0.1875, + "learning_rate": 0.000489694564114662, + "loss": 0.297, + "step": 69240 + }, + { + "epoch": 184.66666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004896915862512772, + "loss": 0.3131, + "step": 69250 + }, + { + "epoch": 184.69333333333333, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004896886079667691, + "loss": 0.2911, + "step": 69260 + }, + { + "epoch": 184.72, + "grad_norm": 0.2119140625, + "learning_rate": 0.000489685629261143, + "loss": 0.3076, + "step": 69270 + }, + { + "epoch": 184.74666666666667, + "grad_norm": 0.1904296875, + "learning_rate": 0.000489682650134404, + "loss": 0.3088, + "step": 69280 + }, + { + "epoch": 184.77333333333334, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004896796705865573, + "loss": 0.32, + "step": 69290 + }, + { + "epoch": 184.8, + "grad_norm": 0.203125, + "learning_rate": 0.0004896766906176085, + "loss": 0.3072, + "step": 69300 + }, + { + "epoch": 184.82666666666665, + "grad_norm": 0.173828125, + "learning_rate": 0.0004896737102275625, + "loss": 0.296, + "step": 69310 + }, + { + "epoch": 184.85333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004896707294164245, + "loss": 0.2995, + "step": 69320 + }, + { + "epoch": 184.88, + "grad_norm": 0.17578125, + "learning_rate": 0.0004896677481842, + "loss": 0.2994, + "step": 69330 + }, + { + "epoch": 184.90666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.000489664766530894, + "loss": 0.3007, + "step": 69340 + }, + { + "epoch": 184.93333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004896617844565119, + "loss": 0.301, + "step": 69350 + }, + { + "epoch": 184.96, + "grad_norm": 0.171875, + "learning_rate": 0.0004896588019610587, + "loss": 0.3015, + "step": 69360 + }, + { + "epoch": 184.98666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.00048965581904454, + "loss": 0.3132, + "step": 69370 + }, + { + "epoch": 185.0, + "eval_loss": 0.39723387360572815, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.0418, + "eval_samples_per_second": 1.329, + "eval_steps_per_second": 0.083, + "step": 69375 + }, + { + "epoch": 185.01333333333332, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004896528357069607, + "loss": 0.3037, + "step": 69380 + }, + { + "epoch": 185.04, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004896498519483263, + "loss": 0.3299, + "step": 69390 + }, + { + "epoch": 185.06666666666666, + "grad_norm": 0.25, + "learning_rate": 0.0004896468677686419, + "loss": 0.3148, + "step": 69400 + }, + { + "epoch": 185.09333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004896438831679128, + "loss": 0.3116, + "step": 69410 + }, + { + "epoch": 185.12, + "grad_norm": 0.19921875, + "learning_rate": 0.0004896408981461442, + "loss": 0.3078, + "step": 69420 + }, + { + "epoch": 185.14666666666668, + "grad_norm": 0.1796875, + "learning_rate": 0.0004896379127033414, + "loss": 0.3086, + "step": 69430 + }, + { + "epoch": 185.17333333333335, + "grad_norm": 0.275390625, + "learning_rate": 0.0004896349268395096, + "loss": 0.3088, + "step": 69440 + }, + { + "epoch": 185.2, + "grad_norm": 0.2578125, + "learning_rate": 0.000489631940554654, + "loss": 0.3022, + "step": 69450 + }, + { + "epoch": 185.22666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.00048962895384878, + "loss": 0.2964, + "step": 69460 + }, + { + "epoch": 185.25333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004896259667218927, + "loss": 0.2964, + "step": 69470 + }, + { + "epoch": 185.28, + "grad_norm": 0.2412109375, + "learning_rate": 0.0004896229791739973, + "loss": 0.314, + "step": 69480 + }, + { + "epoch": 185.30666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004896199912050993, + "loss": 0.2967, + "step": 69490 + }, + { + "epoch": 185.33333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004896170028152037, + "loss": 0.3108, + "step": 69500 + }, + { + "epoch": 185.36, + "grad_norm": 0.19921875, + "learning_rate": 0.0004896140140043159, + "loss": 0.3018, + "step": 69510 + }, + { + "epoch": 185.38666666666666, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004896110247724411, + "loss": 0.299, + "step": 69520 + }, + { + "epoch": 185.41333333333333, + "grad_norm": 0.1875, + "learning_rate": 0.0004896080351195845, + "loss": 0.3045, + "step": 69530 + }, + { + "epoch": 185.44, + "grad_norm": 0.20703125, + "learning_rate": 0.0004896050450457516, + "loss": 0.3125, + "step": 69540 + }, + { + "epoch": 185.46666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004896020545509472, + "loss": 0.3159, + "step": 69550 + }, + { + "epoch": 185.49333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.000489599063635177, + "loss": 0.3058, + "step": 69560 + }, + { + "epoch": 185.52, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004895960722984459, + "loss": 0.31, + "step": 69570 + }, + { + "epoch": 185.54666666666665, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004895930805407595, + "loss": 0.3, + "step": 69580 + }, + { + "epoch": 185.57333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004895900883621227, + "loss": 0.3033, + "step": 69590 + }, + { + "epoch": 185.6, + "grad_norm": 0.267578125, + "learning_rate": 0.000489587095762541, + "loss": 0.3004, + "step": 69600 + }, + { + "epoch": 185.62666666666667, + "grad_norm": 0.19140625, + "learning_rate": 0.0004895841027420197, + "loss": 0.2957, + "step": 69610 + }, + { + "epoch": 185.65333333333334, + "grad_norm": 0.19921875, + "learning_rate": 0.0004895811093005637, + "loss": 0.3081, + "step": 69620 + }, + { + "epoch": 185.68, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004895781154381787, + "loss": 0.2965, + "step": 69630 + }, + { + "epoch": 185.70666666666668, + "grad_norm": 0.267578125, + "learning_rate": 0.0004895751211548698, + "loss": 0.2978, + "step": 69640 + }, + { + "epoch": 185.73333333333332, + "grad_norm": 0.310546875, + "learning_rate": 0.0004895721264506422, + "loss": 0.3131, + "step": 69650 + }, + { + "epoch": 185.76, + "grad_norm": 0.251953125, + "learning_rate": 0.0004895691313255012, + "loss": 0.3151, + "step": 69660 + }, + { + "epoch": 185.78666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.000489566135779452, + "loss": 0.3156, + "step": 69670 + }, + { + "epoch": 185.81333333333333, + "grad_norm": 0.40625, + "learning_rate": 0.0004895631398124999, + "loss": 0.2985, + "step": 69680 + }, + { + "epoch": 185.84, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004895601434246503, + "loss": 0.2976, + "step": 69690 + }, + { + "epoch": 185.86666666666667, + "grad_norm": 0.7109375, + "learning_rate": 0.0004895571466159083, + "loss": 0.2998, + "step": 69700 + }, + { + "epoch": 185.89333333333335, + "grad_norm": 1.296875, + "learning_rate": 0.0004895541493862791, + "loss": 0.3017, + "step": 69710 + }, + { + "epoch": 185.92, + "grad_norm": 1.28125, + "learning_rate": 0.0004895511517357682, + "loss": 0.3016, + "step": 69720 + }, + { + "epoch": 185.94666666666666, + "grad_norm": 1.1328125, + "learning_rate": 0.0004895481536643807, + "loss": 0.3031, + "step": 69730 + }, + { + "epoch": 185.97333333333333, + "grad_norm": 1.1953125, + "learning_rate": 0.000489545155172122, + "loss": 0.3097, + "step": 69740 + }, + { + "epoch": 186.0, + "grad_norm": 1.0546875, + "learning_rate": 0.0004895421562589971, + "loss": 0.2983, + "step": 69750 + }, + { + "epoch": 186.0, + "eval_loss": 0.3992590308189392, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5001, + "eval_samples_per_second": 1.524, + "eval_steps_per_second": 0.095, + "step": 69750 + }, + { + "epoch": 186.02666666666667, + "grad_norm": 1.2734375, + "learning_rate": 0.0004895391569250116, + "loss": 0.32, + "step": 69760 + }, + { + "epoch": 186.05333333333334, + "grad_norm": 1.25, + "learning_rate": 0.0004895361571701705, + "loss": 0.3267, + "step": 69770 + }, + { + "epoch": 186.08, + "grad_norm": 0.94140625, + "learning_rate": 0.0004895331569944793, + "loss": 0.3105, + "step": 69780 + }, + { + "epoch": 186.10666666666665, + "grad_norm": 1.0390625, + "learning_rate": 0.0004895301563979432, + "loss": 0.3126, + "step": 69790 + }, + { + "epoch": 186.13333333333333, + "grad_norm": 1.140625, + "learning_rate": 0.0004895271553805673, + "loss": 0.3058, + "step": 69800 + }, + { + "epoch": 186.16, + "grad_norm": 0.5625, + "learning_rate": 0.0004895241539423571, + "loss": 0.3099, + "step": 69810 + }, + { + "epoch": 186.18666666666667, + "grad_norm": 0.25390625, + "learning_rate": 0.0004895211520833178, + "loss": 0.3052, + "step": 69820 + }, + { + "epoch": 186.21333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004895181498034545, + "loss": 0.294, + "step": 69830 + }, + { + "epoch": 186.24, + "grad_norm": 0.21875, + "learning_rate": 0.0004895151471027727, + "loss": 0.2981, + "step": 69840 + }, + { + "epoch": 186.26666666666668, + "grad_norm": 0.20703125, + "learning_rate": 0.0004895121439812776, + "loss": 0.3039, + "step": 69850 + }, + { + "epoch": 186.29333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.0004895091404389745, + "loss": 0.2998, + "step": 69860 + }, + { + "epoch": 186.32, + "grad_norm": 0.171875, + "learning_rate": 0.0004895061364758687, + "loss": 0.3071, + "step": 69870 + }, + { + "epoch": 186.34666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004895031320919654, + "loss": 0.3057, + "step": 69880 + }, + { + "epoch": 186.37333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004895001272872698, + "loss": 0.2983, + "step": 69890 + }, + { + "epoch": 186.4, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004894971220617874, + "loss": 0.3001, + "step": 69900 + }, + { + "epoch": 186.42666666666668, + "grad_norm": 0.1953125, + "learning_rate": 0.0004894941164155234, + "loss": 0.307, + "step": 69910 + }, + { + "epoch": 186.45333333333335, + "grad_norm": 0.1875, + "learning_rate": 0.0004894911103484831, + "loss": 0.315, + "step": 69920 + }, + { + "epoch": 186.48, + "grad_norm": 0.171875, + "learning_rate": 0.0004894881038606715, + "loss": 0.3107, + "step": 69930 + }, + { + "epoch": 186.50666666666666, + "grad_norm": 0.19140625, + "learning_rate": 0.0004894850969520944, + "loss": 0.3081, + "step": 69940 + }, + { + "epoch": 186.53333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004894820896227565, + "loss": 0.3029, + "step": 69950 + }, + { + "epoch": 186.56, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004894790818726636, + "loss": 0.2997, + "step": 69960 + }, + { + "epoch": 186.58666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004894760737018208, + "loss": 0.3035, + "step": 69970 + }, + { + "epoch": 186.61333333333334, + "grad_norm": 0.177734375, + "learning_rate": 0.0004894730651102332, + "loss": 0.2954, + "step": 69980 + }, + { + "epoch": 186.64, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004894700560979063, + "loss": 0.2961, + "step": 69990 + }, + { + "epoch": 186.66666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004894670466648453, + "loss": 0.3116, + "step": 70000 + }, + { + "epoch": 186.69333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004894640368110555, + "loss": 0.2908, + "step": 70010 + }, + { + "epoch": 186.72, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004894610265365423, + "loss": 0.3062, + "step": 70020 + }, + { + "epoch": 186.74666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004894580158413109, + "loss": 0.3074, + "step": 70030 + }, + { + "epoch": 186.77333333333334, + "grad_norm": 0.27734375, + "learning_rate": 0.0004894550047253664, + "loss": 0.3198, + "step": 70040 + }, + { + "epoch": 186.8, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004894519931887144, + "loss": 0.3065, + "step": 70050 + }, + { + "epoch": 186.82666666666665, + "grad_norm": 0.267578125, + "learning_rate": 0.00048944898123136, + "loss": 0.2949, + "step": 70060 + }, + { + "epoch": 186.85333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004894459688533087, + "loss": 0.2993, + "step": 70070 + }, + { + "epoch": 186.88, + "grad_norm": 0.193359375, + "learning_rate": 0.0004894429560545655, + "loss": 0.2992, + "step": 70080 + }, + { + "epoch": 186.90666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004894399428351359, + "loss": 0.3015, + "step": 70090 + }, + { + "epoch": 186.93333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004894369291950251, + "loss": 0.3021, + "step": 70100 + }, + { + "epoch": 186.96, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004894339151342384, + "loss": 0.301, + "step": 70110 + }, + { + "epoch": 186.98666666666668, + "grad_norm": 0.193359375, + "learning_rate": 0.0004894309006527812, + "loss": 0.3127, + "step": 70120 + }, + { + "epoch": 187.0, + "eval_loss": 0.3980826735496521, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0873, + "eval_samples_per_second": 1.443, + "eval_steps_per_second": 0.09, + "step": 70125 + }, + { + "epoch": 187.01333333333332, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004894278857506587, + "loss": 0.3037, + "step": 70130 + }, + { + "epoch": 187.04, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004894248704278762, + "loss": 0.33, + "step": 70140 + }, + { + "epoch": 187.06666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.000489421854684439, + "loss": 0.3147, + "step": 70150 + }, + { + "epoch": 187.09333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004894188385203524, + "loss": 0.3108, + "step": 70160 + }, + { + "epoch": 187.12, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004894158219356217, + "loss": 0.3082, + "step": 70170 + }, + { + "epoch": 187.14666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004894128049302522, + "loss": 0.3086, + "step": 70180 + }, + { + "epoch": 187.17333333333335, + "grad_norm": 0.24609375, + "learning_rate": 0.0004894097875042492, + "loss": 0.3087, + "step": 70190 + }, + { + "epoch": 187.2, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004894067696576181, + "loss": 0.3017, + "step": 70200 + }, + { + "epoch": 187.22666666666666, + "grad_norm": 0.177734375, + "learning_rate": 0.0004894037513903641, + "loss": 0.2963, + "step": 70210 + }, + { + "epoch": 187.25333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004894007327024925, + "loss": 0.2956, + "step": 70220 + }, + { + "epoch": 187.28, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004893977135940086, + "loss": 0.3135, + "step": 70230 + }, + { + "epoch": 187.30666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004893946940649177, + "loss": 0.2957, + "step": 70240 + }, + { + "epoch": 187.33333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004893916741152253, + "loss": 0.3104, + "step": 70250 + }, + { + "epoch": 187.36, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004893886537449363, + "loss": 0.3013, + "step": 70260 + }, + { + "epoch": 187.38666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.0004893856329540563, + "loss": 0.2986, + "step": 70270 + }, + { + "epoch": 187.41333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004893826117425907, + "loss": 0.304, + "step": 70280 + }, + { + "epoch": 187.44, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004893795901105446, + "loss": 0.3121, + "step": 70290 + }, + { + "epoch": 187.46666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.0004893765680579233, + "loss": 0.3162, + "step": 70300 + }, + { + "epoch": 187.49333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.0004893735455847322, + "loss": 0.3058, + "step": 70310 + }, + { + "epoch": 187.52, + "grad_norm": 0.21875, + "learning_rate": 0.0004893705226909766, + "loss": 0.3091, + "step": 70320 + }, + { + "epoch": 187.54666666666665, + "grad_norm": 0.177734375, + "learning_rate": 0.0004893674993766618, + "loss": 0.2995, + "step": 70330 + }, + { + "epoch": 187.57333333333332, + "grad_norm": 0.16796875, + "learning_rate": 0.000489364475641793, + "loss": 0.3033, + "step": 70340 + }, + { + "epoch": 187.6, + "grad_norm": 0.1953125, + "learning_rate": 0.0004893614514863757, + "loss": 0.3003, + "step": 70350 + }, + { + "epoch": 187.62666666666667, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004893584269104153, + "loss": 0.2952, + "step": 70360 + }, + { + "epoch": 187.65333333333334, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004893554019139168, + "loss": 0.3081, + "step": 70370 + }, + { + "epoch": 187.68, + "grad_norm": 0.263671875, + "learning_rate": 0.0004893523764968857, + "loss": 0.2964, + "step": 70380 + }, + { + "epoch": 187.70666666666668, + "grad_norm": 0.259765625, + "learning_rate": 0.0004893493506593272, + "loss": 0.2976, + "step": 70390 + }, + { + "epoch": 187.73333333333332, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004893463244012467, + "loss": 0.3125, + "step": 70400 + }, + { + "epoch": 187.76, + "grad_norm": 0.220703125, + "learning_rate": 0.0004893432977226496, + "loss": 0.3143, + "step": 70410 + }, + { + "epoch": 187.78666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004893402706235412, + "loss": 0.315, + "step": 70420 + }, + { + "epoch": 187.81333333333333, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004893372431039266, + "loss": 0.2977, + "step": 70430 + }, + { + "epoch": 187.84, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004893342151638114, + "loss": 0.2973, + "step": 70440 + }, + { + "epoch": 187.86666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004893311868032007, + "loss": 0.2992, + "step": 70450 + }, + { + "epoch": 187.89333333333335, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004893281580220999, + "loss": 0.2997, + "step": 70460 + }, + { + "epoch": 187.92, + "grad_norm": 0.251953125, + "learning_rate": 0.0004893251288205142, + "loss": 0.3008, + "step": 70470 + }, + { + "epoch": 187.94666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004893220991984493, + "loss": 0.3025, + "step": 70480 + }, + { + "epoch": 187.97333333333333, + "grad_norm": 0.3984375, + "learning_rate": 0.0004893190691559102, + "loss": 0.3098, + "step": 70490 + }, + { + "epoch": 188.0, + "grad_norm": 0.2734375, + "learning_rate": 0.0004893160386929023, + "loss": 0.2981, + "step": 70500 + }, + { + "epoch": 188.0, + "eval_loss": 0.39796826243400574, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.5303, + "eval_samples_per_second": 1.519, + "eval_steps_per_second": 0.095, + "step": 70500 + }, + { + "epoch": 188.02666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004893130078094308, + "loss": 0.321, + "step": 70510 + }, + { + "epoch": 188.05333333333334, + "grad_norm": 0.185546875, + "learning_rate": 0.0004893099765055014, + "loss": 0.3273, + "step": 70520 + }, + { + "epoch": 188.08, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004893069447811189, + "loss": 0.3112, + "step": 70530 + }, + { + "epoch": 188.10666666666665, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004893039126362891, + "loss": 0.3127, + "step": 70540 + }, + { + "epoch": 188.13333333333333, + "grad_norm": 0.22265625, + "learning_rate": 0.0004893008800710171, + "loss": 0.3044, + "step": 70550 + }, + { + "epoch": 188.16, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004892978470853081, + "loss": 0.3109, + "step": 70560 + }, + { + "epoch": 188.18666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004892948136791677, + "loss": 0.3062, + "step": 70570 + }, + { + "epoch": 188.21333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004892917798526012, + "loss": 0.295, + "step": 70580 + }, + { + "epoch": 188.24, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004892887456056138, + "loss": 0.2987, + "step": 70590 + }, + { + "epoch": 188.26666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004892857109382108, + "loss": 0.3048, + "step": 70600 + }, + { + "epoch": 188.29333333333332, + "grad_norm": 0.185546875, + "learning_rate": 0.0004892826758503976, + "loss": 0.3003, + "step": 70610 + }, + { + "epoch": 188.32, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004892796403421796, + "loss": 0.3077, + "step": 70620 + }, + { + "epoch": 188.34666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.000489276604413562, + "loss": 0.3064, + "step": 70630 + }, + { + "epoch": 188.37333333333333, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004892735680645503, + "loss": 0.2989, + "step": 70640 + }, + { + "epoch": 188.4, + "grad_norm": 0.310546875, + "learning_rate": 0.0004892705312951498, + "loss": 0.3006, + "step": 70650 + }, + { + "epoch": 188.42666666666668, + "grad_norm": 0.19140625, + "learning_rate": 0.0004892674941053656, + "loss": 0.3077, + "step": 70660 + }, + { + "epoch": 188.45333333333335, + "grad_norm": 0.216796875, + "learning_rate": 0.0004892644564952033, + "loss": 0.3158, + "step": 70670 + }, + { + "epoch": 188.48, + "grad_norm": 0.19140625, + "learning_rate": 0.0004892614184646681, + "loss": 0.3113, + "step": 70680 + }, + { + "epoch": 188.50666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004892583800137655, + "loss": 0.3082, + "step": 70690 + }, + { + "epoch": 188.53333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004892553411425006, + "loss": 0.3032, + "step": 70700 + }, + { + "epoch": 188.56, + "grad_norm": 0.212890625, + "learning_rate": 0.000489252301850879, + "loss": 0.2994, + "step": 70710 + }, + { + "epoch": 188.58666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004892492621389058, + "loss": 0.3033, + "step": 70720 + }, + { + "epoch": 188.61333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004892462220065865, + "loss": 0.2963, + "step": 70730 + }, + { + "epoch": 188.64, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004892431814539263, + "loss": 0.2965, + "step": 70740 + }, + { + "epoch": 188.66666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.0004892401404809308, + "loss": 0.3122, + "step": 70750 + }, + { + "epoch": 188.69333333333333, + "grad_norm": 0.173828125, + "learning_rate": 0.0004892370990876051, + "loss": 0.2914, + "step": 70760 + }, + { + "epoch": 188.72, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004892340572739545, + "loss": 0.3073, + "step": 70770 + }, + { + "epoch": 188.74666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004892310150399846, + "loss": 0.3087, + "step": 70780 + }, + { + "epoch": 188.77333333333334, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004892279723857005, + "loss": 0.3197, + "step": 70790 + }, + { + "epoch": 188.8, + "grad_norm": 0.19921875, + "learning_rate": 0.0004892249293111077, + "loss": 0.3064, + "step": 70800 + }, + { + "epoch": 188.82666666666665, + "grad_norm": 0.1875, + "learning_rate": 0.0004892218858162115, + "loss": 0.2951, + "step": 70810 + }, + { + "epoch": 188.85333333333332, + "grad_norm": 0.1953125, + "learning_rate": 0.0004892188419010172, + "loss": 0.3003, + "step": 70820 + }, + { + "epoch": 188.88, + "grad_norm": 0.18359375, + "learning_rate": 0.0004892157975655302, + "loss": 0.2995, + "step": 70830 + }, + { + "epoch": 188.90666666666667, + "grad_norm": 0.2021484375, + "learning_rate": 0.000489212752809756, + "loss": 0.301, + "step": 70840 + }, + { + "epoch": 188.93333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004892097076336997, + "loss": 0.3015, + "step": 70850 + }, + { + "epoch": 188.96, + "grad_norm": 0.2109375, + "learning_rate": 0.0004892066620373666, + "loss": 0.3014, + "step": 70860 + }, + { + "epoch": 188.98666666666668, + "grad_norm": 0.201171875, + "learning_rate": 0.0004892036160207624, + "loss": 0.3127, + "step": 70870 + }, + { + "epoch": 189.0, + "eval_loss": 0.39831775426864624, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.2317, + "eval_samples_per_second": 1.425, + "eval_steps_per_second": 0.089, + "step": 70875 + }, + { + "epoch": 189.01333333333332, + "grad_norm": 0.236328125, + "learning_rate": 0.0004892005695838921, + "loss": 0.3041, + "step": 70880 + }, + { + "epoch": 189.04, + "grad_norm": 0.1953125, + "learning_rate": 0.0004891975227267612, + "loss": 0.3304, + "step": 70890 + }, + { + "epoch": 189.06666666666666, + "grad_norm": 0.26171875, + "learning_rate": 0.0004891944754493752, + "loss": 0.3151, + "step": 70900 + }, + { + "epoch": 189.09333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004891914277517391, + "loss": 0.3114, + "step": 70910 + }, + { + "epoch": 189.12, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004891883796338585, + "loss": 0.3082, + "step": 70920 + }, + { + "epoch": 189.14666666666668, + "grad_norm": 0.19140625, + "learning_rate": 0.0004891853310957388, + "loss": 0.3081, + "step": 70930 + }, + { + "epoch": 189.17333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004891822821373853, + "loss": 0.3083, + "step": 70940 + }, + { + "epoch": 189.2, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004891792327588032, + "loss": 0.3015, + "step": 70950 + }, + { + "epoch": 189.22666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.0004891761829599981, + "loss": 0.2963, + "step": 70960 + }, + { + "epoch": 189.25333333333333, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004891731327409751, + "loss": 0.2952, + "step": 70970 + }, + { + "epoch": 189.28, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004891700821017398, + "loss": 0.3137, + "step": 70980 + }, + { + "epoch": 189.30666666666667, + "grad_norm": 0.205078125, + "learning_rate": 0.0004891670310422975, + "loss": 0.2962, + "step": 70990 + }, + { + "epoch": 189.33333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004891639795626535, + "loss": 0.3106, + "step": 71000 + }, + { + "epoch": 189.36, + "grad_norm": 0.2265625, + "learning_rate": 0.0004891609276628131, + "loss": 0.3009, + "step": 71010 + }, + { + "epoch": 189.38666666666666, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004891578753427818, + "loss": 0.2983, + "step": 71020 + }, + { + "epoch": 189.41333333333333, + "grad_norm": 0.1796875, + "learning_rate": 0.0004891548226025648, + "loss": 0.3048, + "step": 71030 + }, + { + "epoch": 189.44, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004891517694421678, + "loss": 0.3117, + "step": 71040 + }, + { + "epoch": 189.46666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004891487158615957, + "loss": 0.3159, + "step": 71050 + }, + { + "epoch": 189.49333333333334, + "grad_norm": 0.26953125, + "learning_rate": 0.0004891456618608543, + "loss": 0.3053, + "step": 71060 + }, + { + "epoch": 189.52, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004891426074399486, + "loss": 0.3093, + "step": 71070 + }, + { + "epoch": 189.54666666666665, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004891395525988842, + "loss": 0.2998, + "step": 71080 + }, + { + "epoch": 189.57333333333332, + "grad_norm": 0.189453125, + "learning_rate": 0.0004891364973376664, + "loss": 0.3029, + "step": 71090 + }, + { + "epoch": 189.6, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004891334416563006, + "loss": 0.3002, + "step": 71100 + }, + { + "epoch": 189.62666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004891303855547921, + "loss": 0.2952, + "step": 71110 + }, + { + "epoch": 189.65333333333334, + "grad_norm": 0.23828125, + "learning_rate": 0.0004891273290331462, + "loss": 0.3076, + "step": 71120 + }, + { + "epoch": 189.68, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004891242720913686, + "loss": 0.296, + "step": 71130 + }, + { + "epoch": 189.70666666666668, + "grad_norm": 0.232421875, + "learning_rate": 0.0004891212147294644, + "loss": 0.2973, + "step": 71140 + }, + { + "epoch": 189.73333333333332, + "grad_norm": 0.2578125, + "learning_rate": 0.0004891181569474389, + "loss": 0.3129, + "step": 71150 + }, + { + "epoch": 189.76, + "grad_norm": 0.193359375, + "learning_rate": 0.0004891150987452976, + "loss": 0.3138, + "step": 71160 + }, + { + "epoch": 189.78666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004891120401230459, + "loss": 0.3156, + "step": 71170 + }, + { + "epoch": 189.81333333333333, + "grad_norm": 0.24609375, + "learning_rate": 0.0004891089810806892, + "loss": 0.2976, + "step": 71180 + }, + { + "epoch": 189.84, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004891059216182327, + "loss": 0.2979, + "step": 71190 + }, + { + "epoch": 189.86666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.000489102861735682, + "loss": 0.2994, + "step": 71200 + }, + { + "epoch": 189.89333333333335, + "grad_norm": 0.181640625, + "learning_rate": 0.0004890998014330422, + "loss": 0.2989, + "step": 71210 + }, + { + "epoch": 189.92, + "grad_norm": 0.25, + "learning_rate": 0.000489096740710319, + "loss": 0.3007, + "step": 71220 + }, + { + "epoch": 189.94666666666666, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004890936795675175, + "loss": 0.3026, + "step": 71230 + }, + { + "epoch": 189.97333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004890906180046433, + "loss": 0.3091, + "step": 71240 + }, + { + "epoch": 190.0, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004890875560217016, + "loss": 0.2982, + "step": 71250 + }, + { + "epoch": 190.0, + "eval_loss": 0.3961564302444458, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7474, + "eval_samples_per_second": 1.489, + "eval_steps_per_second": 0.093, + "step": 71250 + }, + { + "epoch": 190.02666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004890844936186979, + "loss": 0.32, + "step": 71260 + }, + { + "epoch": 190.05333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004890814307956375, + "loss": 0.3268, + "step": 71270 + }, + { + "epoch": 190.08, + "grad_norm": 0.193359375, + "learning_rate": 0.0004890783675525257, + "loss": 0.3115, + "step": 71280 + }, + { + "epoch": 190.10666666666665, + "grad_norm": 0.185546875, + "learning_rate": 0.0004890753038893683, + "loss": 0.3126, + "step": 71290 + }, + { + "epoch": 190.13333333333333, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004890722398061702, + "loss": 0.3038, + "step": 71300 + }, + { + "epoch": 190.16, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004890691753029368, + "loss": 0.3108, + "step": 71310 + }, + { + "epoch": 190.18666666666667, + "grad_norm": 0.2119140625, + "learning_rate": 0.000489066110379674, + "loss": 0.3056, + "step": 71320 + }, + { + "epoch": 190.21333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004890630450363866, + "loss": 0.2948, + "step": 71330 + }, + { + "epoch": 190.24, + "grad_norm": 0.19140625, + "learning_rate": 0.0004890599792730802, + "loss": 0.2982, + "step": 71340 + }, + { + "epoch": 190.26666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004890569130897604, + "loss": 0.3044, + "step": 71350 + }, + { + "epoch": 190.29333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004890538464864321, + "loss": 0.2999, + "step": 71360 + }, + { + "epoch": 190.32, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004890507794631011, + "loss": 0.3075, + "step": 71370 + }, + { + "epoch": 190.34666666666666, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004890477120197728, + "loss": 0.3064, + "step": 71380 + }, + { + "epoch": 190.37333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004890446441564524, + "loss": 0.2985, + "step": 71390 + }, + { + "epoch": 190.4, + "grad_norm": 0.189453125, + "learning_rate": 0.0004890415758731452, + "loss": 0.2995, + "step": 71400 + }, + { + "epoch": 190.42666666666668, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004890385071698569, + "loss": 0.3077, + "step": 71410 + }, + { + "epoch": 190.45333333333335, + "grad_norm": 0.265625, + "learning_rate": 0.0004890354380465927, + "loss": 0.3164, + "step": 71420 + }, + { + "epoch": 190.48, + "grad_norm": 0.2255859375, + "learning_rate": 0.000489032368503358, + "loss": 0.3114, + "step": 71430 + }, + { + "epoch": 190.50666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004890292985401582, + "loss": 0.3084, + "step": 71440 + }, + { + "epoch": 190.53333333333333, + "grad_norm": 0.25390625, + "learning_rate": 0.0004890262281569988, + "loss": 0.3031, + "step": 71450 + }, + { + "epoch": 190.56, + "grad_norm": 0.255859375, + "learning_rate": 0.000489023157353885, + "loss": 0.2996, + "step": 71460 + }, + { + "epoch": 190.58666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004890200861308223, + "loss": 0.3032, + "step": 71470 + }, + { + "epoch": 190.61333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004890170144878161, + "loss": 0.2957, + "step": 71480 + }, + { + "epoch": 190.64, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004890139424248718, + "loss": 0.2968, + "step": 71490 + }, + { + "epoch": 190.66666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0004890108699419949, + "loss": 0.3122, + "step": 71500 + }, + { + "epoch": 190.69333333333333, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004890077970391905, + "loss": 0.2911, + "step": 71510 + }, + { + "epoch": 190.72, + "grad_norm": 0.234375, + "learning_rate": 0.0004890047237164643, + "loss": 0.3067, + "step": 71520 + }, + { + "epoch": 190.74666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004890016499738216, + "loss": 0.3081, + "step": 71530 + }, + { + "epoch": 190.77333333333334, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004889985758112677, + "loss": 0.3193, + "step": 71540 + }, + { + "epoch": 190.8, + "grad_norm": 0.205078125, + "learning_rate": 0.0004889955012288081, + "loss": 0.3056, + "step": 71550 + }, + { + "epoch": 190.82666666666665, + "grad_norm": 0.220703125, + "learning_rate": 0.0004889924262264483, + "loss": 0.2953, + "step": 71560 + }, + { + "epoch": 190.85333333333332, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004889893508041934, + "loss": 0.2993, + "step": 71570 + }, + { + "epoch": 190.88, + "grad_norm": 0.193359375, + "learning_rate": 0.0004889862749620492, + "loss": 0.2986, + "step": 71580 + }, + { + "epoch": 190.90666666666667, + "grad_norm": 0.232421875, + "learning_rate": 0.0004889831987000208, + "loss": 0.3003, + "step": 71590 + }, + { + "epoch": 190.93333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004889801220181136, + "loss": 0.3011, + "step": 71600 + }, + { + "epoch": 190.96, + "grad_norm": 0.193359375, + "learning_rate": 0.0004889770449163332, + "loss": 0.3008, + "step": 71610 + }, + { + "epoch": 190.98666666666668, + "grad_norm": 0.244140625, + "learning_rate": 0.0004889739673946849, + "loss": 0.3122, + "step": 71620 + }, + { + "epoch": 191.0, + "eval_loss": 0.39794921875, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0176, + "eval_samples_per_second": 1.452, + "eval_steps_per_second": 0.091, + "step": 71625 + }, + { + "epoch": 191.01333333333332, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004889708894531742, + "loss": 0.3028, + "step": 71630 + }, + { + "epoch": 191.04, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004889678110918064, + "loss": 0.3298, + "step": 71640 + }, + { + "epoch": 191.06666666666666, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004889647323105869, + "loss": 0.3145, + "step": 71650 + }, + { + "epoch": 191.09333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004889616531095212, + "loss": 0.3112, + "step": 71660 + }, + { + "epoch": 191.12, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004889585734886146, + "loss": 0.3077, + "step": 71670 + }, + { + "epoch": 191.14666666666668, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004889554934478726, + "loss": 0.3086, + "step": 71680 + }, + { + "epoch": 191.17333333333335, + "grad_norm": 0.208984375, + "learning_rate": 0.0004889524129873006, + "loss": 0.3085, + "step": 71690 + }, + { + "epoch": 191.2, + "grad_norm": 0.2451171875, + "learning_rate": 0.000488949332106904, + "loss": 0.3018, + "step": 71700 + }, + { + "epoch": 191.22666666666666, + "grad_norm": 0.23046875, + "learning_rate": 0.0004889462508066881, + "loss": 0.2956, + "step": 71710 + }, + { + "epoch": 191.25333333333333, + "grad_norm": 0.212890625, + "learning_rate": 0.0004889431690866584, + "loss": 0.2954, + "step": 71720 + }, + { + "epoch": 191.28, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004889400869468205, + "loss": 0.3131, + "step": 71730 + }, + { + "epoch": 191.30666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.0004889370043871796, + "loss": 0.2959, + "step": 71740 + }, + { + "epoch": 191.33333333333334, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004889339214077411, + "loss": 0.3096, + "step": 71750 + }, + { + "epoch": 191.36, + "grad_norm": 0.203125, + "learning_rate": 0.0004889308380085105, + "loss": 0.3016, + "step": 71760 + }, + { + "epoch": 191.38666666666666, + "grad_norm": 0.201171875, + "learning_rate": 0.0004889277541894932, + "loss": 0.2988, + "step": 71770 + }, + { + "epoch": 191.41333333333333, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004889246699506946, + "loss": 0.304, + "step": 71780 + }, + { + "epoch": 191.44, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004889215852921201, + "loss": 0.312, + "step": 71790 + }, + { + "epoch": 191.46666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004889185002137752, + "loss": 0.3159, + "step": 71800 + }, + { + "epoch": 191.49333333333334, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004889154147156654, + "loss": 0.3053, + "step": 71810 + }, + { + "epoch": 191.52, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004889123287977958, + "loss": 0.3084, + "step": 71820 + }, + { + "epoch": 191.54666666666665, + "grad_norm": 0.216796875, + "learning_rate": 0.0004889092424601721, + "loss": 0.2992, + "step": 71830 + }, + { + "epoch": 191.57333333333332, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004889061557027997, + "loss": 0.3033, + "step": 71840 + }, + { + "epoch": 191.6, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004889030685256839, + "loss": 0.3003, + "step": 71850 + }, + { + "epoch": 191.62666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004888999809288301, + "loss": 0.2952, + "step": 71860 + }, + { + "epoch": 191.65333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.000488896892912244, + "loss": 0.3074, + "step": 71870 + }, + { + "epoch": 191.68, + "grad_norm": 0.171875, + "learning_rate": 0.0004888938044759307, + "loss": 0.2958, + "step": 71880 + }, + { + "epoch": 191.70666666666668, + "grad_norm": 0.236328125, + "learning_rate": 0.0004888907156198959, + "loss": 0.2972, + "step": 71890 + }, + { + "epoch": 191.73333333333332, + "grad_norm": 0.283203125, + "learning_rate": 0.0004888876263441447, + "loss": 0.3119, + "step": 71900 + }, + { + "epoch": 191.76, + "grad_norm": 0.29296875, + "learning_rate": 0.0004888845366486828, + "loss": 0.3136, + "step": 71910 + }, + { + "epoch": 191.78666666666666, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004888814465335156, + "loss": 0.3145, + "step": 71920 + }, + { + "epoch": 191.81333333333333, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004888783559986484, + "loss": 0.2977, + "step": 71930 + }, + { + "epoch": 191.84, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004888752650440868, + "loss": 0.297, + "step": 71940 + }, + { + "epoch": 191.86666666666667, + "grad_norm": 0.1650390625, + "learning_rate": 0.000488872173669836, + "loss": 0.2995, + "step": 71950 + }, + { + "epoch": 191.89333333333335, + "grad_norm": 0.287109375, + "learning_rate": 0.0004888690818759016, + "loss": 0.2987, + "step": 71960 + }, + { + "epoch": 191.92, + "grad_norm": 0.228515625, + "learning_rate": 0.0004888659896622891, + "loss": 0.3002, + "step": 71970 + }, + { + "epoch": 191.94666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004888628970290038, + "loss": 0.3022, + "step": 71980 + }, + { + "epoch": 191.97333333333333, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004888598039760511, + "loss": 0.3086, + "step": 71990 + }, + { + "epoch": 192.0, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004888567105034365, + "loss": 0.2977, + "step": 72000 + }, + { + "epoch": 192.0, + "eval_loss": 0.39854586124420166, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.3252, + "eval_samples_per_second": 1.413, + "eval_steps_per_second": 0.088, + "step": 72000 + }, + { + "epoch": 192.02666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.0004888536166111655, + "loss": 0.3197, + "step": 72010 + }, + { + "epoch": 192.05333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004888505222992434, + "loss": 0.3264, + "step": 72020 + }, + { + "epoch": 192.08, + "grad_norm": 0.19921875, + "learning_rate": 0.0004888474275676758, + "loss": 0.3107, + "step": 72030 + }, + { + "epoch": 192.10666666666665, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004888443324164679, + "loss": 0.3118, + "step": 72040 + }, + { + "epoch": 192.13333333333333, + "grad_norm": 0.197265625, + "learning_rate": 0.0004888412368456254, + "loss": 0.3033, + "step": 72050 + }, + { + "epoch": 192.16, + "grad_norm": 0.1953125, + "learning_rate": 0.0004888381408551536, + "loss": 0.31, + "step": 72060 + }, + { + "epoch": 192.18666666666667, + "grad_norm": 0.220703125, + "learning_rate": 0.000488835044445058, + "loss": 0.3062, + "step": 72070 + }, + { + "epoch": 192.21333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.000488831947615344, + "loss": 0.2947, + "step": 72080 + }, + { + "epoch": 192.24, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004888288503660169, + "loss": 0.2984, + "step": 72090 + }, + { + "epoch": 192.26666666666668, + "grad_norm": 0.193359375, + "learning_rate": 0.0004888257526970824, + "loss": 0.3036, + "step": 72100 + }, + { + "epoch": 192.29333333333332, + "grad_norm": 0.173828125, + "learning_rate": 0.0004888226546085458, + "loss": 0.3005, + "step": 72110 + }, + { + "epoch": 192.32, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004888195561004126, + "loss": 0.3081, + "step": 72120 + }, + { + "epoch": 192.34666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004888164571726882, + "loss": 0.3062, + "step": 72130 + }, + { + "epoch": 192.37333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004888133578253781, + "loss": 0.2987, + "step": 72140 + }, + { + "epoch": 192.4, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004888102580584876, + "loss": 0.2999, + "step": 72150 + }, + { + "epoch": 192.42666666666668, + "grad_norm": 0.181640625, + "learning_rate": 0.0004888071578720223, + "loss": 0.3067, + "step": 72160 + }, + { + "epoch": 192.45333333333335, + "grad_norm": 0.291015625, + "learning_rate": 0.0004888040572659877, + "loss": 0.3157, + "step": 72170 + }, + { + "epoch": 192.48, + "grad_norm": 0.21875, + "learning_rate": 0.0004888009562403889, + "loss": 0.3112, + "step": 72180 + }, + { + "epoch": 192.50666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004887978547952318, + "loss": 0.3082, + "step": 72190 + }, + { + "epoch": 192.53333333333333, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004887947529305216, + "loss": 0.3031, + "step": 72200 + }, + { + "epoch": 192.56, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004887916506462638, + "loss": 0.2991, + "step": 72210 + }, + { + "epoch": 192.58666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004887885479424637, + "loss": 0.3032, + "step": 72220 + }, + { + "epoch": 192.61333333333334, + "grad_norm": 0.1650390625, + "learning_rate": 0.000488785444819127, + "loss": 0.2956, + "step": 72230 + }, + { + "epoch": 192.64, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004887823412762591, + "loss": 0.2965, + "step": 72240 + }, + { + "epoch": 192.66666666666666, + "grad_norm": 0.18359375, + "learning_rate": 0.0004887792373138653, + "loss": 0.3124, + "step": 72250 + }, + { + "epoch": 192.69333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004887761329319513, + "loss": 0.2915, + "step": 72260 + }, + { + "epoch": 192.72, + "grad_norm": 0.197265625, + "learning_rate": 0.0004887730281305222, + "loss": 0.307, + "step": 72270 + }, + { + "epoch": 192.74666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004887699229095837, + "loss": 0.3076, + "step": 72280 + }, + { + "epoch": 192.77333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004887668172691413, + "loss": 0.3192, + "step": 72290 + }, + { + "epoch": 192.8, + "grad_norm": 0.20703125, + "learning_rate": 0.0004887637112092004, + "loss": 0.3064, + "step": 72300 + }, + { + "epoch": 192.82666666666665, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004887606047297663, + "loss": 0.2952, + "step": 72310 + }, + { + "epoch": 192.85333333333332, + "grad_norm": 0.21875, + "learning_rate": 0.0004887574978308446, + "loss": 0.2987, + "step": 72320 + }, + { + "epoch": 192.88, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004887543905124408, + "loss": 0.2982, + "step": 72330 + }, + { + "epoch": 192.90666666666667, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004887512827745603, + "loss": 0.3002, + "step": 72340 + }, + { + "epoch": 192.93333333333334, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004887481746172087, + "loss": 0.3005, + "step": 72350 + }, + { + "epoch": 192.96, + "grad_norm": 0.169921875, + "learning_rate": 0.0004887450660403911, + "loss": 0.3003, + "step": 72360 + }, + { + "epoch": 192.98666666666668, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004887419570441134, + "loss": 0.3128, + "step": 72370 + }, + { + "epoch": 193.0, + "eval_loss": 0.39935240149497986, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.4268, + "eval_samples_per_second": 1.535, + "eval_steps_per_second": 0.096, + "step": 72375 + }, + { + "epoch": 193.01333333333332, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004887388476283807, + "loss": 0.3032, + "step": 72380 + }, + { + "epoch": 193.04, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004887357377931987, + "loss": 0.3293, + "step": 72390 + }, + { + "epoch": 193.06666666666666, + "grad_norm": 0.251953125, + "learning_rate": 0.0004887326275385727, + "loss": 0.3149, + "step": 72400 + }, + { + "epoch": 193.09333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004887295168645083, + "loss": 0.3113, + "step": 72410 + }, + { + "epoch": 193.12, + "grad_norm": 0.18359375, + "learning_rate": 0.0004887264057710108, + "loss": 0.3074, + "step": 72420 + }, + { + "epoch": 193.14666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004887232942580858, + "loss": 0.3076, + "step": 72430 + }, + { + "epoch": 193.17333333333335, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004887201823257389, + "loss": 0.3088, + "step": 72440 + }, + { + "epoch": 193.2, + "grad_norm": 0.212890625, + "learning_rate": 0.0004887170699739752, + "loss": 0.3013, + "step": 72450 + }, + { + "epoch": 193.22666666666666, + "grad_norm": 0.21875, + "learning_rate": 0.0004887139572028005, + "loss": 0.2954, + "step": 72460 + }, + { + "epoch": 193.25333333333333, + "grad_norm": 0.16796875, + "learning_rate": 0.0004887108440122201, + "loss": 0.2954, + "step": 72470 + }, + { + "epoch": 193.28, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004887077304022396, + "loss": 0.3127, + "step": 72480 + }, + { + "epoch": 193.30666666666667, + "grad_norm": 0.189453125, + "learning_rate": 0.0004887046163728643, + "loss": 0.2961, + "step": 72490 + }, + { + "epoch": 193.33333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004887015019240997, + "loss": 0.3098, + "step": 72500 + }, + { + "epoch": 193.36, + "grad_norm": 0.201171875, + "learning_rate": 0.0004886983870559514, + "loss": 0.3009, + "step": 72510 + }, + { + "epoch": 193.38666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004886952717684249, + "loss": 0.2985, + "step": 72520 + }, + { + "epoch": 193.41333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.0004886921560615253, + "loss": 0.304, + "step": 72530 + }, + { + "epoch": 193.44, + "grad_norm": 0.2255859375, + "learning_rate": 0.0004886890399352586, + "loss": 0.3115, + "step": 72540 + }, + { + "epoch": 193.46666666666667, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004886859233896299, + "loss": 0.3155, + "step": 72550 + }, + { + "epoch": 193.49333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.0004886828064246449, + "loss": 0.3058, + "step": 72560 + }, + { + "epoch": 193.52, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004886796890403089, + "loss": 0.3094, + "step": 72570 + }, + { + "epoch": 193.54666666666665, + "grad_norm": 0.201171875, + "learning_rate": 0.0004886765712366274, + "loss": 0.2997, + "step": 72580 + }, + { + "epoch": 193.57333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.000488673453013606, + "loss": 0.3029, + "step": 72590 + }, + { + "epoch": 193.6, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004886703343712501, + "loss": 0.2997, + "step": 72600 + }, + { + "epoch": 193.62666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004886672153095651, + "loss": 0.2946, + "step": 72610 + }, + { + "epoch": 193.65333333333334, + "grad_norm": 0.234375, + "learning_rate": 0.0004886640958285567, + "loss": 0.3074, + "step": 72620 + }, + { + "epoch": 193.68, + "grad_norm": 0.2275390625, + "learning_rate": 0.0004886609759282302, + "loss": 0.2963, + "step": 72630 + }, + { + "epoch": 193.70666666666668, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004886578556085911, + "loss": 0.2969, + "step": 72640 + }, + { + "epoch": 193.73333333333332, + "grad_norm": 0.25, + "learning_rate": 0.000488654734869645, + "loss": 0.3123, + "step": 72650 + }, + { + "epoch": 193.76, + "grad_norm": 0.271484375, + "learning_rate": 0.0004886516137113971, + "loss": 0.3134, + "step": 72660 + }, + { + "epoch": 193.78666666666666, + "grad_norm": 0.185546875, + "learning_rate": 0.0004886484921338533, + "loss": 0.3148, + "step": 72670 + }, + { + "epoch": 193.81333333333333, + "grad_norm": 0.208984375, + "learning_rate": 0.0004886453701370187, + "loss": 0.297, + "step": 72680 + }, + { + "epoch": 193.84, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004886422477208991, + "loss": 0.2965, + "step": 72690 + }, + { + "epoch": 193.86666666666667, + "grad_norm": 0.201171875, + "learning_rate": 0.0004886391248854996, + "loss": 0.2984, + "step": 72700 + }, + { + "epoch": 193.89333333333335, + "grad_norm": 0.203125, + "learning_rate": 0.0004886360016308261, + "loss": 0.2984, + "step": 72710 + }, + { + "epoch": 193.92, + "grad_norm": 0.263671875, + "learning_rate": 0.000488632877956884, + "loss": 0.3004, + "step": 72720 + }, + { + "epoch": 193.94666666666666, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004886297538636785, + "loss": 0.3021, + "step": 72730 + }, + { + "epoch": 193.97333333333333, + "grad_norm": 0.2421875, + "learning_rate": 0.0004886266293512153, + "loss": 0.3093, + "step": 72740 + }, + { + "epoch": 194.0, + "grad_norm": 0.171875, + "learning_rate": 0.0004886235044195, + "loss": 0.2977, + "step": 72750 + }, + { + "epoch": 194.0, + "eval_loss": 0.3995967209339142, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6897, + "eval_samples_per_second": 1.497, + "eval_steps_per_second": 0.094, + "step": 72750 + }, + { + "epoch": 194.02666666666667, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004886203790685379, + "loss": 0.3197, + "step": 72760 + }, + { + "epoch": 194.05333333333334, + "grad_norm": 0.2265625, + "learning_rate": 0.0004886172532983345, + "loss": 0.3267, + "step": 72770 + }, + { + "epoch": 194.08, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004886141271088953, + "loss": 0.3098, + "step": 72780 + }, + { + "epoch": 194.10666666666665, + "grad_norm": 0.24609375, + "learning_rate": 0.000488611000500226, + "loss": 0.312, + "step": 72790 + }, + { + "epoch": 194.13333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004886078734723319, + "loss": 0.3037, + "step": 72800 + }, + { + "epoch": 194.16, + "grad_norm": 0.1953125, + "learning_rate": 0.0004886047460252184, + "loss": 0.3102, + "step": 72810 + }, + { + "epoch": 194.18666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004886016181588912, + "loss": 0.3056, + "step": 72820 + }, + { + "epoch": 194.21333333333334, + "grad_norm": 0.1796875, + "learning_rate": 0.0004885984898733558, + "loss": 0.2949, + "step": 72830 + }, + { + "epoch": 194.24, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004885953611686175, + "loss": 0.2981, + "step": 72840 + }, + { + "epoch": 194.26666666666668, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004885922320446819, + "loss": 0.3039, + "step": 72850 + }, + { + "epoch": 194.29333333333332, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004885891025015545, + "loss": 0.3006, + "step": 72860 + }, + { + "epoch": 194.32, + "grad_norm": 0.2119140625, + "learning_rate": 0.000488585972539241, + "loss": 0.3073, + "step": 72870 + }, + { + "epoch": 194.34666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.0004885828421577465, + "loss": 0.306, + "step": 72880 + }, + { + "epoch": 194.37333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004885797113570768, + "loss": 0.2982, + "step": 72890 + }, + { + "epoch": 194.4, + "grad_norm": 0.216796875, + "learning_rate": 0.0004885765801372373, + "loss": 0.3002, + "step": 72900 + }, + { + "epoch": 194.42666666666668, + "grad_norm": 0.224609375, + "learning_rate": 0.0004885734484982334, + "loss": 0.3071, + "step": 72910 + }, + { + "epoch": 194.45333333333335, + "grad_norm": 0.193359375, + "learning_rate": 0.0004885703164400708, + "loss": 0.3156, + "step": 72920 + }, + { + "epoch": 194.48, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004885671839627549, + "loss": 0.3111, + "step": 72930 + }, + { + "epoch": 194.50666666666666, + "grad_norm": 0.244140625, + "learning_rate": 0.0004885640510662912, + "loss": 0.3078, + "step": 72940 + }, + { + "epoch": 194.53333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004885609177506852, + "loss": 0.3027, + "step": 72950 + }, + { + "epoch": 194.56, + "grad_norm": 0.22265625, + "learning_rate": 0.0004885577840159425, + "loss": 0.2992, + "step": 72960 + }, + { + "epoch": 194.58666666666667, + "grad_norm": 0.23046875, + "learning_rate": 0.0004885546498620685, + "loss": 0.3029, + "step": 72970 + }, + { + "epoch": 194.61333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004885515152890687, + "loss": 0.2953, + "step": 72980 + }, + { + "epoch": 194.64, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004885483802969487, + "loss": 0.296, + "step": 72990 + }, + { + "epoch": 194.66666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.000488545244885714, + "loss": 0.3122, + "step": 73000 + }, + { + "epoch": 194.69333333333333, + "grad_norm": 0.244140625, + "learning_rate": 0.0004885421090553699, + "loss": 0.2906, + "step": 73010 + }, + { + "epoch": 194.72, + "grad_norm": 0.21875, + "learning_rate": 0.0004885389728059221, + "loss": 0.3066, + "step": 73020 + }, + { + "epoch": 194.74666666666667, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004885358361373761, + "loss": 0.308, + "step": 73030 + }, + { + "epoch": 194.77333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0004885326990497375, + "loss": 0.3187, + "step": 73040 + }, + { + "epoch": 194.8, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004885295615430117, + "loss": 0.306, + "step": 73050 + }, + { + "epoch": 194.82666666666665, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004885264236172041, + "loss": 0.295, + "step": 73060 + }, + { + "epoch": 194.85333333333332, + "grad_norm": 0.19921875, + "learning_rate": 0.0004885232852723203, + "loss": 0.2987, + "step": 73070 + }, + { + "epoch": 194.88, + "grad_norm": 0.18359375, + "learning_rate": 0.000488520146508366, + "loss": 0.2989, + "step": 73080 + }, + { + "epoch": 194.90666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004885170073253464, + "loss": 0.2996, + "step": 73090 + }, + { + "epoch": 194.93333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004885138677232674, + "loss": 0.3008, + "step": 73100 + }, + { + "epoch": 194.96, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004885107277021341, + "loss": 0.3005, + "step": 73110 + }, + { + "epoch": 194.98666666666668, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004885075872619522, + "loss": 0.3118, + "step": 73120 + }, + { + "epoch": 195.0, + "eval_loss": 0.3971620202064514, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8027, + "eval_samples_per_second": 1.481, + "eval_steps_per_second": 0.093, + "step": 73125 + }, + { + "epoch": 195.01333333333332, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004885044464027272, + "loss": 0.3027, + "step": 73130 + }, + { + "epoch": 195.04, + "grad_norm": 0.19921875, + "learning_rate": 0.0004885013051244648, + "loss": 0.3289, + "step": 73140 + }, + { + "epoch": 195.06666666666666, + "grad_norm": 0.255859375, + "learning_rate": 0.0004884981634271702, + "loss": 0.3146, + "step": 73150 + }, + { + "epoch": 195.09333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004884950213108492, + "loss": 0.3102, + "step": 73160 + }, + { + "epoch": 195.12, + "grad_norm": 0.212890625, + "learning_rate": 0.0004884918787755071, + "loss": 0.3065, + "step": 73170 + }, + { + "epoch": 195.14666666666668, + "grad_norm": 0.205078125, + "learning_rate": 0.0004884887358211496, + "loss": 0.3075, + "step": 73180 + }, + { + "epoch": 195.17333333333335, + "grad_norm": 0.22265625, + "learning_rate": 0.0004884855924477821, + "loss": 0.3079, + "step": 73190 + }, + { + "epoch": 195.2, + "grad_norm": 0.19921875, + "learning_rate": 0.0004884824486554102, + "loss": 0.3013, + "step": 73200 + }, + { + "epoch": 195.22666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004884793044440393, + "loss": 0.2952, + "step": 73210 + }, + { + "epoch": 195.25333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004884761598136752, + "loss": 0.2949, + "step": 73220 + }, + { + "epoch": 195.28, + "grad_norm": 0.212890625, + "learning_rate": 0.000488473014764323, + "loss": 0.3132, + "step": 73230 + }, + { + "epoch": 195.30666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004884698692959887, + "loss": 0.2951, + "step": 73240 + }, + { + "epoch": 195.33333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.0004884667234086774, + "loss": 0.3091, + "step": 73250 + }, + { + "epoch": 195.36, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004884635771023949, + "loss": 0.3006, + "step": 73260 + }, + { + "epoch": 195.38666666666666, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004884604303771467, + "loss": 0.2981, + "step": 73270 + }, + { + "epoch": 195.41333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004884572832329382, + "loss": 0.3041, + "step": 73280 + }, + { + "epoch": 195.44, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004884541356697749, + "loss": 0.3117, + "step": 73290 + }, + { + "epoch": 195.46666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004884509876876626, + "loss": 0.3151, + "step": 73300 + }, + { + "epoch": 195.49333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004884478392866066, + "loss": 0.3054, + "step": 73310 + }, + { + "epoch": 195.52, + "grad_norm": 0.177734375, + "learning_rate": 0.0004884446904666126, + "loss": 0.3089, + "step": 73320 + }, + { + "epoch": 195.54666666666665, + "grad_norm": 0.28515625, + "learning_rate": 0.0004884415412276859, + "loss": 0.2989, + "step": 73330 + }, + { + "epoch": 195.57333333333332, + "grad_norm": 0.19921875, + "learning_rate": 0.0004884383915698322, + "loss": 0.3023, + "step": 73340 + }, + { + "epoch": 195.6, + "grad_norm": 0.193359375, + "learning_rate": 0.0004884352414930571, + "loss": 0.2995, + "step": 73350 + }, + { + "epoch": 195.62666666666667, + "grad_norm": 0.30859375, + "learning_rate": 0.0004884320909973658, + "loss": 0.2942, + "step": 73360 + }, + { + "epoch": 195.65333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004884289400827643, + "loss": 0.3068, + "step": 73370 + }, + { + "epoch": 195.68, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004884257887492578, + "loss": 0.296, + "step": 73380 + }, + { + "epoch": 195.70666666666668, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004884226369968518, + "loss": 0.2971, + "step": 73390 + }, + { + "epoch": 195.73333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004884194848255522, + "loss": 0.3119, + "step": 73400 + }, + { + "epoch": 195.76, + "grad_norm": 0.23046875, + "learning_rate": 0.0004884163322353642, + "loss": 0.3134, + "step": 73410 + }, + { + "epoch": 195.78666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.0004884131792262935, + "loss": 0.3144, + "step": 73420 + }, + { + "epoch": 195.81333333333333, + "grad_norm": 0.251953125, + "learning_rate": 0.0004884100257983456, + "loss": 0.297, + "step": 73430 + }, + { + "epoch": 195.84, + "grad_norm": 0.189453125, + "learning_rate": 0.000488406871951526, + "loss": 0.2967, + "step": 73440 + }, + { + "epoch": 195.86666666666667, + "grad_norm": 0.197265625, + "learning_rate": 0.0004884037176858402, + "loss": 0.2984, + "step": 73450 + }, + { + "epoch": 195.89333333333335, + "grad_norm": 0.1787109375, + "learning_rate": 0.000488400563001294, + "loss": 0.299, + "step": 73460 + }, + { + "epoch": 195.92, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004883974078978927, + "loss": 0.3, + "step": 73470 + }, + { + "epoch": 195.94666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.0004883942523756417, + "loss": 0.3014, + "step": 73480 + }, + { + "epoch": 195.97333333333333, + "grad_norm": 0.2109375, + "learning_rate": 0.0004883910964345469, + "loss": 0.3082, + "step": 73490 + }, + { + "epoch": 196.0, + "grad_norm": 0.1796875, + "learning_rate": 0.0004883879400746137, + "loss": 0.2972, + "step": 73500 + }, + { + "epoch": 196.0, + "eval_loss": 0.39889007806777954, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8768, + "eval_samples_per_second": 1.471, + "eval_steps_per_second": 0.092, + "step": 73500 + }, + { + "epoch": 196.02666666666667, + "grad_norm": 0.216796875, + "learning_rate": 0.0004883847832958477, + "loss": 0.3193, + "step": 73510 + }, + { + "epoch": 196.05333333333334, + "grad_norm": 0.1953125, + "learning_rate": 0.0004883816260982543, + "loss": 0.3262, + "step": 73520 + }, + { + "epoch": 196.08, + "grad_norm": 0.234375, + "learning_rate": 0.0004883784684818391, + "loss": 0.3101, + "step": 73530 + }, + { + "epoch": 196.10666666666665, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004883753104466078, + "loss": 0.3121, + "step": 73540 + }, + { + "epoch": 196.13333333333333, + "grad_norm": 0.1884765625, + "learning_rate": 0.0004883721519925656, + "loss": 0.3028, + "step": 73550 + }, + { + "epoch": 196.16, + "grad_norm": 0.17578125, + "learning_rate": 0.0004883689931197184, + "loss": 0.3103, + "step": 73560 + }, + { + "epoch": 196.18666666666667, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004883658338280716, + "loss": 0.3063, + "step": 73570 + }, + { + "epoch": 196.21333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.000488362674117631, + "loss": 0.2945, + "step": 73580 + }, + { + "epoch": 196.24, + "grad_norm": 0.23046875, + "learning_rate": 0.0004883595139884016, + "loss": 0.2985, + "step": 73590 + }, + { + "epoch": 196.26666666666668, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004883563534403894, + "loss": 0.3036, + "step": 73600 + }, + { + "epoch": 196.29333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004883531924735998, + "loss": 0.3002, + "step": 73610 + }, + { + "epoch": 196.32, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004883500310880385, + "loss": 0.3071, + "step": 73620 + }, + { + "epoch": 196.34666666666666, + "grad_norm": 0.25390625, + "learning_rate": 0.0004883468692837108, + "loss": 0.306, + "step": 73630 + }, + { + "epoch": 196.37333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.0004883437070606226, + "loss": 0.2984, + "step": 73640 + }, + { + "epoch": 196.4, + "grad_norm": 0.18359375, + "learning_rate": 0.000488340544418779, + "loss": 0.3002, + "step": 73650 + }, + { + "epoch": 196.42666666666668, + "grad_norm": 0.1669921875, + "learning_rate": 0.000488337381358186, + "loss": 0.3067, + "step": 73660 + }, + { + "epoch": 196.45333333333335, + "grad_norm": 0.1943359375, + "learning_rate": 0.000488334217878849, + "loss": 0.3153, + "step": 73670 + }, + { + "epoch": 196.48, + "grad_norm": 0.19140625, + "learning_rate": 0.0004883310539807732, + "loss": 0.3104, + "step": 73680 + }, + { + "epoch": 196.50666666666666, + "grad_norm": 0.17578125, + "learning_rate": 0.0004883278896639648, + "loss": 0.3079, + "step": 73690 + }, + { + "epoch": 196.53333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.000488324724928429, + "loss": 0.3022, + "step": 73700 + }, + { + "epoch": 196.56, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004883215597741712, + "loss": 0.299, + "step": 73710 + }, + { + "epoch": 196.58666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004883183942011974, + "loss": 0.3027, + "step": 73720 + }, + { + "epoch": 196.61333333333334, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004883152282095127, + "loss": 0.2955, + "step": 73730 + }, + { + "epoch": 196.64, + "grad_norm": 0.16796875, + "learning_rate": 0.000488312061799123, + "loss": 0.2954, + "step": 73740 + }, + { + "epoch": 196.66666666666666, + "grad_norm": 0.224609375, + "learning_rate": 0.0004883088949700339, + "loss": 0.3113, + "step": 73750 + }, + { + "epoch": 196.69333333333333, + "grad_norm": 0.166015625, + "learning_rate": 0.0004883057277222506, + "loss": 0.2904, + "step": 73760 + }, + { + "epoch": 196.72, + "grad_norm": 0.29296875, + "learning_rate": 0.0004883025600557789, + "loss": 0.3064, + "step": 73770 + }, + { + "epoch": 196.74666666666667, + "grad_norm": 0.1689453125, + "learning_rate": 0.0004882993919706243, + "loss": 0.308, + "step": 73780 + }, + { + "epoch": 196.77333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004882962234667926, + "loss": 0.3197, + "step": 73790 + }, + { + "epoch": 196.8, + "grad_norm": 0.2197265625, + "learning_rate": 0.0004882930545442891, + "loss": 0.3059, + "step": 73800 + }, + { + "epoch": 196.82666666666665, + "grad_norm": 0.2109375, + "learning_rate": 0.0004882898852031194, + "loss": 0.2949, + "step": 73810 + }, + { + "epoch": 196.85333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.000488286715443289, + "loss": 0.2989, + "step": 73820 + }, + { + "epoch": 196.88, + "grad_norm": 0.18359375, + "learning_rate": 0.0004882835452648037, + "loss": 0.2979, + "step": 73830 + }, + { + "epoch": 196.90666666666667, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004882803746676691, + "loss": 0.3002, + "step": 73840 + }, + { + "epoch": 196.93333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.00048827720365189045, + "loss": 0.3002, + "step": 73850 + }, + { + "epoch": 196.96, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004882740322174735, + "loss": 0.3002, + "step": 73860 + }, + { + "epoch": 196.98666666666668, + "grad_norm": 0.1943359375, + "learning_rate": 0.00048827086036442387, + "loss": 0.3118, + "step": 73870 + }, + { + "epoch": 197.0, + "eval_loss": 0.39731070399284363, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.1235, + "eval_samples_per_second": 1.438, + "eval_steps_per_second": 0.09, + "step": 73875 + }, + { + "epoch": 197.01333333333332, + "grad_norm": 0.234375, + "learning_rate": 0.000488267688092747, + "loss": 0.3029, + "step": 73880 + }, + { + "epoch": 197.04, + "grad_norm": 0.189453125, + "learning_rate": 0.00048826451540244867, + "loss": 0.3292, + "step": 73890 + }, + { + "epoch": 197.06666666666666, + "grad_norm": 0.232421875, + "learning_rate": 0.0004882613422935342, + "loss": 0.3136, + "step": 73900 + }, + { + "epoch": 197.09333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004882581687660093, + "loss": 0.3103, + "step": 73910 + }, + { + "epoch": 197.12, + "grad_norm": 0.19921875, + "learning_rate": 0.00048825499481987955, + "loss": 0.3064, + "step": 73920 + }, + { + "epoch": 197.14666666666668, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004882518204551506, + "loss": 0.3076, + "step": 73930 + }, + { + "epoch": 197.17333333333335, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004882486456718278, + "loss": 0.3076, + "step": 73940 + }, + { + "epoch": 197.2, + "grad_norm": 0.2138671875, + "learning_rate": 0.000488245470469917, + "loss": 0.3011, + "step": 73950 + }, + { + "epoch": 197.22666666666666, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004882422948494236, + "loss": 0.2954, + "step": 73960 + }, + { + "epoch": 197.25333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.00048823911881035317, + "loss": 0.2952, + "step": 73970 + }, + { + "epoch": 197.28, + "grad_norm": 0.2333984375, + "learning_rate": 0.0004882359423527114, + "loss": 0.3129, + "step": 73980 + }, + { + "epoch": 197.30666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.00048823276547650375, + "loss": 0.2951, + "step": 73990 + }, + { + "epoch": 197.33333333333334, + "grad_norm": 0.240234375, + "learning_rate": 0.0004882295881817359, + "loss": 0.3097, + "step": 74000 + }, + { + "epoch": 197.36, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004882264104684134, + "loss": 0.3004, + "step": 74010 + }, + { + "epoch": 197.38666666666666, + "grad_norm": 0.240234375, + "learning_rate": 0.0004882232323365419, + "loss": 0.2979, + "step": 74020 + }, + { + "epoch": 197.41333333333333, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004882200537861269, + "loss": 0.3037, + "step": 74030 + }, + { + "epoch": 197.44, + "grad_norm": 0.21484375, + "learning_rate": 0.0004882168748171739, + "loss": 0.3115, + "step": 74040 + }, + { + "epoch": 197.46666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.00048821369542968875, + "loss": 0.3155, + "step": 74050 + }, + { + "epoch": 197.49333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004882105156236767, + "loss": 0.3047, + "step": 74060 + }, + { + "epoch": 197.52, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004882073353991436, + "loss": 0.3086, + "step": 74070 + }, + { + "epoch": 197.54666666666665, + "grad_norm": 0.265625, + "learning_rate": 0.00048820415475609493, + "loss": 0.2988, + "step": 74080 + }, + { + "epoch": 197.57333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004882009736945363, + "loss": 0.302, + "step": 74090 + }, + { + "epoch": 197.6, + "grad_norm": 0.19921875, + "learning_rate": 0.00048819779221447333, + "loss": 0.2994, + "step": 74100 + }, + { + "epoch": 197.62666666666667, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004881946103159115, + "loss": 0.2943, + "step": 74110 + }, + { + "epoch": 197.65333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.00048819142799885653, + "loss": 0.3065, + "step": 74120 + }, + { + "epoch": 197.68, + "grad_norm": 0.1806640625, + "learning_rate": 0.00048818824526331397, + "loss": 0.2961, + "step": 74130 + }, + { + "epoch": 197.70666666666668, + "grad_norm": 0.2578125, + "learning_rate": 0.00048818506210928937, + "loss": 0.2968, + "step": 74140 + }, + { + "epoch": 197.73333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004881818785367883, + "loss": 0.3123, + "step": 74150 + }, + { + "epoch": 197.76, + "grad_norm": 0.22265625, + "learning_rate": 0.0004881786945458165, + "loss": 0.3134, + "step": 74160 + }, + { + "epoch": 197.78666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004881755101363794, + "loss": 0.3139, + "step": 74170 + }, + { + "epoch": 197.81333333333333, + "grad_norm": 0.25, + "learning_rate": 0.00048817232530848267, + "loss": 0.2968, + "step": 74180 + }, + { + "epoch": 197.84, + "grad_norm": 0.1884765625, + "learning_rate": 0.00048816914006213186, + "loss": 0.2969, + "step": 74190 + }, + { + "epoch": 197.86666666666667, + "grad_norm": 0.17578125, + "learning_rate": 0.0004881659543973327, + "loss": 0.2987, + "step": 74200 + }, + { + "epoch": 197.89333333333335, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004881627683140906, + "loss": 0.299, + "step": 74210 + }, + { + "epoch": 197.92, + "grad_norm": 0.216796875, + "learning_rate": 0.00048815958181241135, + "loss": 0.2994, + "step": 74220 + }, + { + "epoch": 197.94666666666666, + "grad_norm": 0.1875, + "learning_rate": 0.00048815639489230034, + "loss": 0.3016, + "step": 74230 + }, + { + "epoch": 197.97333333333333, + "grad_norm": 0.2470703125, + "learning_rate": 0.00048815320755376336, + "loss": 0.3083, + "step": 74240 + }, + { + "epoch": 198.0, + "grad_norm": 0.1865234375, + "learning_rate": 0.00048815001979680587, + "loss": 0.2966, + "step": 74250 + }, + { + "epoch": 198.0, + "eval_loss": 0.39946767687797546, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.8408, + "eval_samples_per_second": 1.476, + "eval_steps_per_second": 0.092, + "step": 74250 + }, + { + "epoch": 198.02666666666667, + "grad_norm": 0.287109375, + "learning_rate": 0.0004881468316214335, + "loss": 0.3196, + "step": 74260 + }, + { + "epoch": 198.05333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.000488143643027652, + "loss": 0.3258, + "step": 74270 + }, + { + "epoch": 198.08, + "grad_norm": 0.18359375, + "learning_rate": 0.0004881404540154667, + "loss": 0.3093, + "step": 74280 + }, + { + "epoch": 198.10666666666665, + "grad_norm": 0.169921875, + "learning_rate": 0.0004881372645848835, + "loss": 0.3112, + "step": 74290 + }, + { + "epoch": 198.13333333333333, + "grad_norm": 0.2177734375, + "learning_rate": 0.00048813407473590777, + "loss": 0.3027, + "step": 74300 + }, + { + "epoch": 198.16, + "grad_norm": 0.2490234375, + "learning_rate": 0.0004881308844685452, + "loss": 0.3096, + "step": 74310 + }, + { + "epoch": 198.18666666666667, + "grad_norm": 0.1962890625, + "learning_rate": 0.00048812769378280143, + "loss": 0.305, + "step": 74320 + }, + { + "epoch": 198.21333333333334, + "grad_norm": 0.203125, + "learning_rate": 0.00048812450267868204, + "loss": 0.2936, + "step": 74330 + }, + { + "epoch": 198.24, + "grad_norm": 0.224609375, + "learning_rate": 0.0004881213111561925, + "loss": 0.2978, + "step": 74340 + }, + { + "epoch": 198.26666666666668, + "grad_norm": 0.1875, + "learning_rate": 0.00048811811921533867, + "loss": 0.3038, + "step": 74350 + }, + { + "epoch": 198.29333333333332, + "grad_norm": 0.294921875, + "learning_rate": 0.000488114926856126, + "loss": 0.2991, + "step": 74360 + }, + { + "epoch": 198.32, + "grad_norm": 0.25390625, + "learning_rate": 0.0004881117340785602, + "loss": 0.3064, + "step": 74370 + }, + { + "epoch": 198.34666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004881085408826468, + "loss": 0.3053, + "step": 74380 + }, + { + "epoch": 198.37333333333333, + "grad_norm": 0.1943359375, + "learning_rate": 0.00048810534726839136, + "loss": 0.2978, + "step": 74390 + }, + { + "epoch": 198.4, + "grad_norm": 0.1796875, + "learning_rate": 0.00048810215323579956, + "loss": 0.299, + "step": 74400 + }, + { + "epoch": 198.42666666666668, + "grad_norm": 0.2080078125, + "learning_rate": 0.000488098958784877, + "loss": 0.3068, + "step": 74410 + }, + { + "epoch": 198.45333333333335, + "grad_norm": 0.220703125, + "learning_rate": 0.00048809576391562934, + "loss": 0.3146, + "step": 74420 + }, + { + "epoch": 198.48, + "grad_norm": 0.220703125, + "learning_rate": 0.0004880925686280621, + "loss": 0.3108, + "step": 74430 + }, + { + "epoch": 198.50666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.000488089372922181, + "loss": 0.3076, + "step": 74440 + }, + { + "epoch": 198.53333333333333, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004880861767979916, + "loss": 0.3023, + "step": 74450 + }, + { + "epoch": 198.56, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004880829802554995, + "loss": 0.2991, + "step": 74460 + }, + { + "epoch": 198.58666666666667, + "grad_norm": 0.1875, + "learning_rate": 0.0004880797832947103, + "loss": 0.3028, + "step": 74470 + }, + { + "epoch": 198.61333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.00048807658591562965, + "loss": 0.2944, + "step": 74480 + }, + { + "epoch": 198.64, + "grad_norm": 0.181640625, + "learning_rate": 0.00048807338811826317, + "loss": 0.2952, + "step": 74490 + }, + { + "epoch": 198.66666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.00048807018990261653, + "loss": 0.3119, + "step": 74500 + }, + { + "epoch": 198.69333333333333, + "grad_norm": 0.34375, + "learning_rate": 0.0004880669912686953, + "loss": 0.2902, + "step": 74510 + }, + { + "epoch": 198.72, + "grad_norm": 0.287109375, + "learning_rate": 0.00048806379221650497, + "loss": 0.3064, + "step": 74520 + }, + { + "epoch": 198.74666666666667, + "grad_norm": 0.181640625, + "learning_rate": 0.00048806059274605137, + "loss": 0.3077, + "step": 74530 + }, + { + "epoch": 198.77333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048805739285734, + "loss": 0.3185, + "step": 74540 + }, + { + "epoch": 198.8, + "grad_norm": 0.1806640625, + "learning_rate": 0.00048805419255037655, + "loss": 0.3058, + "step": 74550 + }, + { + "epoch": 198.82666666666665, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004880509918251666, + "loss": 0.2941, + "step": 74560 + }, + { + "epoch": 198.85333333333332, + "grad_norm": 0.193359375, + "learning_rate": 0.00048804779068171576, + "loss": 0.2985, + "step": 74570 + }, + { + "epoch": 198.88, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048804458912002976, + "loss": 0.2979, + "step": 74580 + }, + { + "epoch": 198.90666666666667, + "grad_norm": 0.2041015625, + "learning_rate": 0.00048804138714011406, + "loss": 0.2994, + "step": 74590 + }, + { + "epoch": 198.93333333333334, + "grad_norm": 0.18359375, + "learning_rate": 0.00048803818474197437, + "loss": 0.3003, + "step": 74600 + }, + { + "epoch": 198.96, + "grad_norm": 0.197265625, + "learning_rate": 0.0004880349819256164, + "loss": 0.3, + "step": 74610 + }, + { + "epoch": 198.98666666666668, + "grad_norm": 0.26953125, + "learning_rate": 0.00048803177869104555, + "loss": 0.3111, + "step": 74620 + }, + { + "epoch": 199.0, + "eval_loss": 0.39611828327178955, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.7927, + "eval_samples_per_second": 1.482, + "eval_steps_per_second": 0.093, + "step": 74625 + }, + { + "epoch": 199.01333333333332, + "grad_norm": 0.265625, + "learning_rate": 0.0004880285750382677, + "loss": 0.3021, + "step": 74630 + }, + { + "epoch": 199.04, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004880253709672883, + "loss": 0.3285, + "step": 74640 + }, + { + "epoch": 199.06666666666666, + "grad_norm": 0.28515625, + "learning_rate": 0.0004880221664781131, + "loss": 0.3137, + "step": 74650 + }, + { + "epoch": 199.09333333333333, + "grad_norm": 0.271484375, + "learning_rate": 0.00048801896157074767, + "loss": 0.3101, + "step": 74660 + }, + { + "epoch": 199.12, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004880157562451976, + "loss": 0.307, + "step": 74670 + }, + { + "epoch": 199.14666666666668, + "grad_norm": 0.203125, + "learning_rate": 0.00048801255050146865, + "loss": 0.3068, + "step": 74680 + }, + { + "epoch": 199.17333333333335, + "grad_norm": 0.23046875, + "learning_rate": 0.0004880093443395663, + "loss": 0.3073, + "step": 74690 + }, + { + "epoch": 199.2, + "grad_norm": 0.2265625, + "learning_rate": 0.00048800613775949633, + "loss": 0.3012, + "step": 74700 + }, + { + "epoch": 199.22666666666666, + "grad_norm": 0.203125, + "learning_rate": 0.00048800293076126425, + "loss": 0.2945, + "step": 74710 + }, + { + "epoch": 199.25333333333333, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048799972334487567, + "loss": 0.2947, + "step": 74720 + }, + { + "epoch": 199.28, + "grad_norm": 0.216796875, + "learning_rate": 0.00048799651551033644, + "loss": 0.3129, + "step": 74730 + }, + { + "epoch": 199.30666666666667, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004879933072576519, + "loss": 0.2951, + "step": 74740 + }, + { + "epoch": 199.33333333333334, + "grad_norm": 0.1982421875, + "learning_rate": 0.000487990098586828, + "loss": 0.3091, + "step": 74750 + }, + { + "epoch": 199.36, + "grad_norm": 0.1875, + "learning_rate": 0.00048798688949787015, + "loss": 0.3005, + "step": 74760 + }, + { + "epoch": 199.38666666666666, + "grad_norm": 0.25, + "learning_rate": 0.000487983679990784, + "loss": 0.2974, + "step": 74770 + }, + { + "epoch": 199.41333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.00048798047006557533, + "loss": 0.3033, + "step": 74780 + }, + { + "epoch": 199.44, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004879772597222497, + "loss": 0.3106, + "step": 74790 + }, + { + "epoch": 199.46666666666667, + "grad_norm": 0.2275390625, + "learning_rate": 0.00048797404896081263, + "loss": 0.3153, + "step": 74800 + }, + { + "epoch": 199.49333333333334, + "grad_norm": 0.24609375, + "learning_rate": 0.00048797083778127, + "loss": 0.3041, + "step": 74810 + }, + { + "epoch": 199.52, + "grad_norm": 0.169921875, + "learning_rate": 0.00048796762618362726, + "loss": 0.308, + "step": 74820 + }, + { + "epoch": 199.54666666666665, + "grad_norm": 0.1962890625, + "learning_rate": 0.00048796441416789016, + "loss": 0.299, + "step": 74830 + }, + { + "epoch": 199.57333333333332, + "grad_norm": 0.2470703125, + "learning_rate": 0.0004879612017340643, + "loss": 0.3022, + "step": 74840 + }, + { + "epoch": 199.6, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004879579888821553, + "loss": 0.2985, + "step": 74850 + }, + { + "epoch": 199.62666666666667, + "grad_norm": 0.171875, + "learning_rate": 0.00048795477561216886, + "loss": 0.2938, + "step": 74860 + }, + { + "epoch": 199.65333333333334, + "grad_norm": 0.173828125, + "learning_rate": 0.0004879515619241106, + "loss": 0.3068, + "step": 74870 + }, + { + "epoch": 199.68, + "grad_norm": 0.2021484375, + "learning_rate": 0.00048794834781798615, + "loss": 0.2952, + "step": 74880 + }, + { + "epoch": 199.70666666666668, + "grad_norm": 0.2431640625, + "learning_rate": 0.00048794513329380117, + "loss": 0.2967, + "step": 74890 + }, + { + "epoch": 199.73333333333332, + "grad_norm": 0.23828125, + "learning_rate": 0.00048794191835156134, + "loss": 0.3114, + "step": 74900 + }, + { + "epoch": 199.76, + "grad_norm": 0.197265625, + "learning_rate": 0.0004879387029912723, + "loss": 0.3127, + "step": 74910 + }, + { + "epoch": 199.78666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004879354872129396, + "loss": 0.3144, + "step": 74920 + }, + { + "epoch": 199.81333333333333, + "grad_norm": 0.2490234375, + "learning_rate": 0.000487932271016569, + "loss": 0.2963, + "step": 74930 + }, + { + "epoch": 199.84, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004879290544021661, + "loss": 0.2966, + "step": 74940 + }, + { + "epoch": 199.86666666666667, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004879258373697366, + "loss": 0.2983, + "step": 74950 + }, + { + "epoch": 199.89333333333335, + "grad_norm": 0.177734375, + "learning_rate": 0.0004879226199192861, + "loss": 0.2982, + "step": 74960 + }, + { + "epoch": 199.92, + "grad_norm": 0.240234375, + "learning_rate": 0.0004879194020508203, + "loss": 0.299, + "step": 74970 + }, + { + "epoch": 199.94666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004879161837643448, + "loss": 0.3012, + "step": 74980 + }, + { + "epoch": 199.97333333333333, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004879129650598653, + "loss": 0.3076, + "step": 74990 + }, + { + "epoch": 200.0, + "grad_norm": 0.2314453125, + "learning_rate": 0.00048790974593738745, + "loss": 0.2966, + "step": 75000 + }, + { + "epoch": 200.0, + "eval_loss": 0.3961365818977356, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.8029, + "eval_samples_per_second": 1.356, + "eval_steps_per_second": 0.085, + "step": 75000 + }, + { + "epoch": 200.02666666666667, + "grad_norm": 0.1796875, + "learning_rate": 0.0004879065263969169, + "loss": 0.3191, + "step": 75010 + }, + { + "epoch": 200.05333333333334, + "grad_norm": 0.2314453125, + "learning_rate": 0.0004879033064384593, + "loss": 0.3257, + "step": 75020 + }, + { + "epoch": 200.08, + "grad_norm": 0.1884765625, + "learning_rate": 0.00048790008606202024, + "loss": 0.3096, + "step": 75030 + }, + { + "epoch": 200.10666666666665, + "grad_norm": 0.16796875, + "learning_rate": 0.0004878968652676055, + "loss": 0.3116, + "step": 75040 + }, + { + "epoch": 200.13333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.00048789364405522065, + "loss": 0.3025, + "step": 75050 + }, + { + "epoch": 200.16, + "grad_norm": 0.18359375, + "learning_rate": 0.00048789042242487144, + "loss": 0.31, + "step": 75060 + }, + { + "epoch": 200.18666666666667, + "grad_norm": 0.1953125, + "learning_rate": 0.00048788720037656343, + "loss": 0.3051, + "step": 75070 + }, + { + "epoch": 200.21333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.0004878839779103023, + "loss": 0.2936, + "step": 75080 + }, + { + "epoch": 200.24, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004878807550260938, + "loss": 0.2974, + "step": 75090 + }, + { + "epoch": 200.26666666666668, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004878775317239435, + "loss": 0.3034, + "step": 75100 + }, + { + "epoch": 200.29333333333332, + "grad_norm": 0.193359375, + "learning_rate": 0.0004878743080038571, + "loss": 0.2988, + "step": 75110 + }, + { + "epoch": 200.32, + "grad_norm": 0.2216796875, + "learning_rate": 0.00048787108386584024, + "loss": 0.3071, + "step": 75120 + }, + { + "epoch": 200.34666666666666, + "grad_norm": 0.208984375, + "learning_rate": 0.00048786785930989864, + "loss": 0.3054, + "step": 75130 + }, + { + "epoch": 200.37333333333333, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004878646343360378, + "loss": 0.2973, + "step": 75140 + }, + { + "epoch": 200.4, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004878614089442637, + "loss": 0.2991, + "step": 75150 + }, + { + "epoch": 200.42666666666668, + "grad_norm": 0.1650390625, + "learning_rate": 0.00048785818313458164, + "loss": 0.3065, + "step": 75160 + }, + { + "epoch": 200.45333333333335, + "grad_norm": 0.232421875, + "learning_rate": 0.00048785495690699756, + "loss": 0.3144, + "step": 75170 + }, + { + "epoch": 200.48, + "grad_norm": 0.2392578125, + "learning_rate": 0.00048785173026151703, + "loss": 0.3104, + "step": 75180 + }, + { + "epoch": 200.50666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.00048784850319814573, + "loss": 0.3068, + "step": 75190 + }, + { + "epoch": 200.53333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004878452757168893, + "loss": 0.3027, + "step": 75200 + }, + { + "epoch": 200.56, + "grad_norm": 0.2001953125, + "learning_rate": 0.00048784204781775344, + "loss": 0.2985, + "step": 75210 + }, + { + "epoch": 200.58666666666667, + "grad_norm": 0.20703125, + "learning_rate": 0.00048783881950074384, + "loss": 0.3024, + "step": 75220 + }, + { + "epoch": 200.61333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.00048783559076586607, + "loss": 0.2945, + "step": 75230 + }, + { + "epoch": 200.64, + "grad_norm": 0.193359375, + "learning_rate": 0.00048783236161312595, + "loss": 0.2952, + "step": 75240 + }, + { + "epoch": 200.66666666666666, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004878291320425291, + "loss": 0.311, + "step": 75250 + }, + { + "epoch": 200.69333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004878259020540811, + "loss": 0.2896, + "step": 75260 + }, + { + "epoch": 200.72, + "grad_norm": 0.236328125, + "learning_rate": 0.00048782267164778774, + "loss": 0.3064, + "step": 75270 + }, + { + "epoch": 200.74666666666667, + "grad_norm": 0.24609375, + "learning_rate": 0.0004878194408236547, + "loss": 0.307, + "step": 75280 + }, + { + "epoch": 200.77333333333334, + "grad_norm": 0.22265625, + "learning_rate": 0.00048781620958168753, + "loss": 0.3181, + "step": 75290 + }, + { + "epoch": 200.8, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004878129779218921, + "loss": 0.3053, + "step": 75300 + }, + { + "epoch": 200.82666666666665, + "grad_norm": 0.2119140625, + "learning_rate": 0.00048780974584427384, + "loss": 0.2942, + "step": 75310 + }, + { + "epoch": 200.85333333333332, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004878065133488386, + "loss": 0.2985, + "step": 75320 + }, + { + "epoch": 200.88, + "grad_norm": 0.2177734375, + "learning_rate": 0.00048780328043559215, + "loss": 0.2974, + "step": 75330 + }, + { + "epoch": 200.90666666666667, + "grad_norm": 0.2314453125, + "learning_rate": 0.00048780004710454, + "loss": 0.2994, + "step": 75340 + }, + { + "epoch": 200.93333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.00048779681335568784, + "loss": 0.3001, + "step": 75350 + }, + { + "epoch": 200.96, + "grad_norm": 0.1787109375, + "learning_rate": 0.00048779357918904133, + "loss": 0.3, + "step": 75360 + }, + { + "epoch": 200.98666666666668, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048779034460460623, + "loss": 0.3108, + "step": 75370 + }, + { + "epoch": 201.0, + "eval_loss": 0.39679020643234253, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0587, + "eval_samples_per_second": 1.447, + "eval_steps_per_second": 0.09, + "step": 75375 + }, + { + "epoch": 201.01333333333332, + "grad_norm": 0.1953125, + "learning_rate": 0.00048778710960238825, + "loss": 0.3024, + "step": 75380 + }, + { + "epoch": 201.04, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004877838741823931, + "loss": 0.3286, + "step": 75390 + }, + { + "epoch": 201.06666666666666, + "grad_norm": 0.263671875, + "learning_rate": 0.0004877806383446263, + "loss": 0.3142, + "step": 75400 + }, + { + "epoch": 201.09333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004877774020890936, + "loss": 0.3102, + "step": 75410 + }, + { + "epoch": 201.12, + "grad_norm": 0.201171875, + "learning_rate": 0.00048777416541580075, + "loss": 0.3062, + "step": 75420 + }, + { + "epoch": 201.14666666666668, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048777092832475344, + "loss": 0.3068, + "step": 75430 + }, + { + "epoch": 201.17333333333335, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004877676908159573, + "loss": 0.307, + "step": 75440 + }, + { + "epoch": 201.2, + "grad_norm": 0.265625, + "learning_rate": 0.00048776445288941793, + "loss": 0.3006, + "step": 75450 + }, + { + "epoch": 201.22666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004877612145451413, + "loss": 0.2947, + "step": 75460 + }, + { + "epoch": 201.25333333333333, + "grad_norm": 0.228515625, + "learning_rate": 0.0004877579757831328, + "loss": 0.294, + "step": 75470 + }, + { + "epoch": 201.28, + "grad_norm": 0.248046875, + "learning_rate": 0.0004877547366033983, + "loss": 0.3125, + "step": 75480 + }, + { + "epoch": 201.30666666666667, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004877514970059434, + "loss": 0.2945, + "step": 75490 + }, + { + "epoch": 201.33333333333334, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048774825699077386, + "loss": 0.3092, + "step": 75500 + }, + { + "epoch": 201.36, + "grad_norm": 0.1953125, + "learning_rate": 0.0004877450165578953, + "loss": 0.2998, + "step": 75510 + }, + { + "epoch": 201.38666666666666, + "grad_norm": 0.2255859375, + "learning_rate": 0.00048774177570731346, + "loss": 0.2978, + "step": 75520 + }, + { + "epoch": 201.41333333333333, + "grad_norm": 0.265625, + "learning_rate": 0.00048773853443903403, + "loss": 0.3035, + "step": 75530 + }, + { + "epoch": 201.44, + "grad_norm": 0.296875, + "learning_rate": 0.0004877352927530627, + "loss": 0.3114, + "step": 75540 + }, + { + "epoch": 201.46666666666667, + "grad_norm": 0.259765625, + "learning_rate": 0.0004877320506494052, + "loss": 0.3146, + "step": 75550 + }, + { + "epoch": 201.49333333333334, + "grad_norm": 0.2236328125, + "learning_rate": 0.00048772880812806717, + "loss": 0.3042, + "step": 75560 + }, + { + "epoch": 201.52, + "grad_norm": 0.203125, + "learning_rate": 0.0004877255651890543, + "loss": 0.3085, + "step": 75570 + }, + { + "epoch": 201.54666666666665, + "grad_norm": 0.1943359375, + "learning_rate": 0.00048772232183237244, + "loss": 0.2987, + "step": 75580 + }, + { + "epoch": 201.57333333333332, + "grad_norm": 0.1787109375, + "learning_rate": 0.000487719078058027, + "loss": 0.3021, + "step": 75590 + }, + { + "epoch": 201.6, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004877158338660239, + "loss": 0.2988, + "step": 75600 + }, + { + "epoch": 201.62666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.00048771258925636886, + "loss": 0.2939, + "step": 75610 + }, + { + "epoch": 201.65333333333334, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004877093442290674, + "loss": 0.3065, + "step": 75620 + }, + { + "epoch": 201.68, + "grad_norm": 0.1796875, + "learning_rate": 0.00048770609878412543, + "loss": 0.2943, + "step": 75630 + }, + { + "epoch": 201.70666666666668, + "grad_norm": 0.2373046875, + "learning_rate": 0.00048770285292154845, + "loss": 0.2965, + "step": 75640 + }, + { + "epoch": 201.73333333333332, + "grad_norm": 0.1796875, + "learning_rate": 0.00048769960664134227, + "loss": 0.3109, + "step": 75650 + }, + { + "epoch": 201.76, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004876963599435127, + "loss": 0.3127, + "step": 75660 + }, + { + "epoch": 201.78666666666666, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048769311282806523, + "loss": 0.3137, + "step": 75670 + }, + { + "epoch": 201.81333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004876898652950057, + "loss": 0.2968, + "step": 75680 + }, + { + "epoch": 201.84, + "grad_norm": 0.185546875, + "learning_rate": 0.00048768661734433974, + "loss": 0.2959, + "step": 75690 + }, + { + "epoch": 201.86666666666667, + "grad_norm": 0.1806640625, + "learning_rate": 0.00048768336897607315, + "loss": 0.2984, + "step": 75700 + }, + { + "epoch": 201.89333333333335, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004876801201902115, + "loss": 0.298, + "step": 75710 + }, + { + "epoch": 201.92, + "grad_norm": 0.306640625, + "learning_rate": 0.0004876768709867606, + "loss": 0.2997, + "step": 75720 + }, + { + "epoch": 201.94666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004876736213657262, + "loss": 0.3007, + "step": 75730 + }, + { + "epoch": 201.97333333333333, + "grad_norm": 0.234375, + "learning_rate": 0.00048767037132711397, + "loss": 0.3077, + "step": 75740 + }, + { + "epoch": 202.0, + "grad_norm": 0.1923828125, + "learning_rate": 0.0004876671208709296, + "loss": 0.2969, + "step": 75750 + }, + { + "epoch": 202.0, + "eval_loss": 0.3992685079574585, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0674, + "eval_samples_per_second": 1.446, + "eval_steps_per_second": 0.09, + "step": 75750 + }, + { + "epoch": 202.02666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.00048766386999717873, + "loss": 0.3194, + "step": 75760 + }, + { + "epoch": 202.05333333333334, + "grad_norm": 0.251953125, + "learning_rate": 0.0004876606187058671, + "loss": 0.3256, + "step": 75770 + }, + { + "epoch": 202.08, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048765736699700056, + "loss": 0.3097, + "step": 75780 + }, + { + "epoch": 202.10666666666665, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004876541148705847, + "loss": 0.3111, + "step": 75790 + }, + { + "epoch": 202.13333333333333, + "grad_norm": 0.2373046875, + "learning_rate": 0.00048765086232662526, + "loss": 0.3026, + "step": 75800 + }, + { + "epoch": 202.16, + "grad_norm": 0.2041015625, + "learning_rate": 0.000487647609365128, + "loss": 0.3097, + "step": 75810 + }, + { + "epoch": 202.18666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004876443559860985, + "loss": 0.3048, + "step": 75820 + }, + { + "epoch": 202.21333333333334, + "grad_norm": 0.267578125, + "learning_rate": 0.0004876411021895426, + "loss": 0.2935, + "step": 75830 + }, + { + "epoch": 202.24, + "grad_norm": 0.193359375, + "learning_rate": 0.000487637847975466, + "loss": 0.2976, + "step": 75840 + }, + { + "epoch": 202.26666666666668, + "grad_norm": 0.220703125, + "learning_rate": 0.0004876345933438744, + "loss": 0.3033, + "step": 75850 + }, + { + "epoch": 202.29333333333332, + "grad_norm": 0.1943359375, + "learning_rate": 0.0004876313382947735, + "loss": 0.2999, + "step": 75860 + }, + { + "epoch": 202.32, + "grad_norm": 0.19140625, + "learning_rate": 0.00048762808282816906, + "loss": 0.3068, + "step": 75870 + }, + { + "epoch": 202.34666666666666, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004876248269440668, + "loss": 0.305, + "step": 75880 + }, + { + "epoch": 202.37333333333333, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004876215706424724, + "loss": 0.2979, + "step": 75890 + }, + { + "epoch": 202.4, + "grad_norm": 0.2099609375, + "learning_rate": 0.00048761831392339156, + "loss": 0.299, + "step": 75900 + }, + { + "epoch": 202.42666666666668, + "grad_norm": 0.2275390625, + "learning_rate": 0.00048761505678683007, + "loss": 0.3062, + "step": 75910 + }, + { + "epoch": 202.45333333333335, + "grad_norm": 0.208984375, + "learning_rate": 0.00048761179923279365, + "loss": 0.3142, + "step": 75920 + }, + { + "epoch": 202.48, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048760854126128796, + "loss": 0.3103, + "step": 75930 + }, + { + "epoch": 202.50666666666666, + "grad_norm": 0.197265625, + "learning_rate": 0.0004876052828723188, + "loss": 0.3068, + "step": 75940 + }, + { + "epoch": 202.53333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004876020240658918, + "loss": 0.3023, + "step": 75950 + }, + { + "epoch": 202.56, + "grad_norm": 0.1787109375, + "learning_rate": 0.00048759876484201275, + "loss": 0.2982, + "step": 75960 + }, + { + "epoch": 202.58666666666667, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004875955052006874, + "loss": 0.3024, + "step": 75970 + }, + { + "epoch": 202.61333333333334, + "grad_norm": 0.1630859375, + "learning_rate": 0.0004875922451419215, + "loss": 0.2951, + "step": 75980 + }, + { + "epoch": 202.64, + "grad_norm": 0.19140625, + "learning_rate": 0.0004875889846657206, + "loss": 0.2954, + "step": 75990 + }, + { + "epoch": 202.66666666666666, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048758572377209067, + "loss": 0.3114, + "step": 76000 + }, + { + "epoch": 202.69333333333333, + "grad_norm": 0.189453125, + "learning_rate": 0.0004875824624610372, + "loss": 0.29, + "step": 76010 + }, + { + "epoch": 202.72, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004875792007325661, + "loss": 0.3057, + "step": 76020 + }, + { + "epoch": 202.74666666666667, + "grad_norm": 0.2001953125, + "learning_rate": 0.00048757593858668306, + "loss": 0.3065, + "step": 76030 + }, + { + "epoch": 202.77333333333334, + "grad_norm": 0.189453125, + "learning_rate": 0.0004875726760233937, + "loss": 0.3181, + "step": 76040 + }, + { + "epoch": 202.8, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048756941304270397, + "loss": 0.3054, + "step": 76050 + }, + { + "epoch": 202.82666666666665, + "grad_norm": 0.1943359375, + "learning_rate": 0.00048756614964461944, + "loss": 0.2941, + "step": 76060 + }, + { + "epoch": 202.85333333333332, + "grad_norm": 0.1845703125, + "learning_rate": 0.00048756288582914585, + "loss": 0.2986, + "step": 76070 + }, + { + "epoch": 202.88, + "grad_norm": 0.197265625, + "learning_rate": 0.00048755962159628897, + "loss": 0.2972, + "step": 76080 + }, + { + "epoch": 202.90666666666667, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004875563569460545, + "loss": 0.2989, + "step": 76090 + }, + { + "epoch": 202.93333333333334, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004875530918784483, + "loss": 0.2997, + "step": 76100 + }, + { + "epoch": 202.96, + "grad_norm": 0.201171875, + "learning_rate": 0.00048754982639347594, + "loss": 0.2997, + "step": 76110 + }, + { + "epoch": 202.98666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004875465604911432, + "loss": 0.3113, + "step": 76120 + }, + { + "epoch": 203.0, + "eval_loss": 0.39632460474967957, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.6389, + "eval_samples_per_second": 1.504, + "eval_steps_per_second": 0.094, + "step": 76125 + }, + { + "epoch": 203.01333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.0004875432941714559, + "loss": 0.3019, + "step": 76130 + }, + { + "epoch": 203.04, + "grad_norm": 0.169921875, + "learning_rate": 0.0004875400274344197, + "loss": 0.3279, + "step": 76140 + }, + { + "epoch": 203.06666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004875367602800405, + "loss": 0.3138, + "step": 76150 + }, + { + "epoch": 203.09333333333333, + "grad_norm": 0.193359375, + "learning_rate": 0.0004875334927083237, + "loss": 0.3097, + "step": 76160 + }, + { + "epoch": 203.12, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004875302247192754, + "loss": 0.3061, + "step": 76170 + }, + { + "epoch": 203.14666666666668, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004875269563129011, + "loss": 0.3065, + "step": 76180 + }, + { + "epoch": 203.17333333333335, + "grad_norm": 0.201171875, + "learning_rate": 0.00048752368748920664, + "loss": 0.3071, + "step": 76190 + }, + { + "epoch": 203.2, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004875204182481978, + "loss": 0.3009, + "step": 76200 + }, + { + "epoch": 203.22666666666666, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004875171485898803, + "loss": 0.2943, + "step": 76210 + }, + { + "epoch": 203.25333333333333, + "grad_norm": 0.181640625, + "learning_rate": 0.0004875138785142598, + "loss": 0.2941, + "step": 76220 + }, + { + "epoch": 203.28, + "grad_norm": 0.2158203125, + "learning_rate": 0.00048751060802134207, + "loss": 0.3125, + "step": 76230 + }, + { + "epoch": 203.30666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.00048750733711113293, + "loss": 0.2949, + "step": 76240 + }, + { + "epoch": 203.33333333333334, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004875040657836381, + "loss": 0.3085, + "step": 76250 + }, + { + "epoch": 203.36, + "grad_norm": 0.2119140625, + "learning_rate": 0.0004875007940388634, + "loss": 0.2995, + "step": 76260 + }, + { + "epoch": 203.38666666666666, + "grad_norm": 0.228515625, + "learning_rate": 0.00048749752187681437, + "loss": 0.2975, + "step": 76270 + }, + { + "epoch": 203.41333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004874942492974969, + "loss": 0.303, + "step": 76280 + }, + { + "epoch": 203.44, + "grad_norm": 0.279296875, + "learning_rate": 0.0004874909763009168, + "loss": 0.3112, + "step": 76290 + }, + { + "epoch": 203.46666666666667, + "grad_norm": 0.19921875, + "learning_rate": 0.00048748770288707964, + "loss": 0.3144, + "step": 76300 + }, + { + "epoch": 203.49333333333334, + "grad_norm": 0.20703125, + "learning_rate": 0.00048748442905599136, + "loss": 0.3041, + "step": 76310 + }, + { + "epoch": 203.52, + "grad_norm": 0.2021484375, + "learning_rate": 0.00048748115480765764, + "loss": 0.308, + "step": 76320 + }, + { + "epoch": 203.54666666666665, + "grad_norm": 0.1875, + "learning_rate": 0.00048747788014208415, + "loss": 0.2983, + "step": 76330 + }, + { + "epoch": 203.57333333333332, + "grad_norm": 0.1748046875, + "learning_rate": 0.00048747460505927677, + "loss": 0.3015, + "step": 76340 + }, + { + "epoch": 203.6, + "grad_norm": 0.197265625, + "learning_rate": 0.00048747132955924123, + "loss": 0.2986, + "step": 76350 + }, + { + "epoch": 203.62666666666667, + "grad_norm": 0.1884765625, + "learning_rate": 0.00048746805364198323, + "loss": 0.2938, + "step": 76360 + }, + { + "epoch": 203.65333333333334, + "grad_norm": 0.2451171875, + "learning_rate": 0.0004874647773075085, + "loss": 0.3066, + "step": 76370 + }, + { + "epoch": 203.68, + "grad_norm": 0.2392578125, + "learning_rate": 0.0004874615005558228, + "loss": 0.2948, + "step": 76380 + }, + { + "epoch": 203.70666666666668, + "grad_norm": 0.34375, + "learning_rate": 0.0004874582233869321, + "loss": 0.2961, + "step": 76390 + }, + { + "epoch": 203.73333333333332, + "grad_norm": 0.18359375, + "learning_rate": 0.0004874549458008419, + "loss": 0.3111, + "step": 76400 + }, + { + "epoch": 203.76, + "grad_norm": 0.2236328125, + "learning_rate": 0.000487451667797558, + "loss": 0.3126, + "step": 76410 + }, + { + "epoch": 203.78666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.00048744838937708626, + "loss": 0.3139, + "step": 76420 + }, + { + "epoch": 203.81333333333333, + "grad_norm": 0.3203125, + "learning_rate": 0.0004874451105394324, + "loss": 0.2967, + "step": 76430 + }, + { + "epoch": 203.84, + "grad_norm": 0.185546875, + "learning_rate": 0.00048744183128460216, + "loss": 0.2964, + "step": 76440 + }, + { + "epoch": 203.86666666666667, + "grad_norm": 0.185546875, + "learning_rate": 0.00048743855161260133, + "loss": 0.298, + "step": 76450 + }, + { + "epoch": 203.89333333333335, + "grad_norm": 0.1826171875, + "learning_rate": 0.0004874352715234356, + "loss": 0.2982, + "step": 76460 + }, + { + "epoch": 203.92, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004874319910171108, + "loss": 0.2987, + "step": 76470 + }, + { + "epoch": 203.94666666666666, + "grad_norm": 0.265625, + "learning_rate": 0.00048742871009363264, + "loss": 0.3006, + "step": 76480 + }, + { + "epoch": 203.97333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.000487425428753007, + "loss": 0.308, + "step": 76490 + }, + { + "epoch": 204.0, + "grad_norm": 0.16796875, + "learning_rate": 0.00048742214699523954, + "loss": 0.2972, + "step": 76500 + }, + { + "epoch": 204.0, + "eval_loss": 0.3993959128856659, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.148, + "eval_samples_per_second": 1.317, + "eval_steps_per_second": 0.082, + "step": 76500 + }, + { + "epoch": 204.02666666666667, + "grad_norm": 0.22265625, + "learning_rate": 0.00048741886482033605, + "loss": 0.3188, + "step": 76510 + }, + { + "epoch": 204.05333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004874155822283023, + "loss": 0.3259, + "step": 76520 + }, + { + "epoch": 204.08, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004874122992191441, + "loss": 0.3091, + "step": 76530 + }, + { + "epoch": 204.10666666666665, + "grad_norm": 0.25390625, + "learning_rate": 0.00048740901579286713, + "loss": 0.3108, + "step": 76540 + }, + { + "epoch": 204.13333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004874057319494772, + "loss": 0.3024, + "step": 76550 + }, + { + "epoch": 204.16, + "grad_norm": 0.173828125, + "learning_rate": 0.00048740244768898013, + "loss": 0.3092, + "step": 76560 + }, + { + "epoch": 204.18666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004873991630113816, + "loss": 0.3045, + "step": 76570 + }, + { + "epoch": 204.21333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.00048739587791668743, + "loss": 0.2938, + "step": 76580 + }, + { + "epoch": 204.24, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004873925924049034, + "loss": 0.2978, + "step": 76590 + }, + { + "epoch": 204.26666666666668, + "grad_norm": 0.240234375, + "learning_rate": 0.0004873893064760353, + "loss": 0.3034, + "step": 76600 + }, + { + "epoch": 204.29333333333332, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004873860201300888, + "loss": 0.299, + "step": 76610 + }, + { + "epoch": 204.32, + "grad_norm": 0.1669921875, + "learning_rate": 0.00048738273336706983, + "loss": 0.3061, + "step": 76620 + }, + { + "epoch": 204.34666666666666, + "grad_norm": 0.2021484375, + "learning_rate": 0.00048737944618698403, + "loss": 0.3047, + "step": 76630 + }, + { + "epoch": 204.37333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.00048737615858983726, + "loss": 0.297, + "step": 76640 + }, + { + "epoch": 204.4, + "grad_norm": 0.208984375, + "learning_rate": 0.0004873728705756352, + "loss": 0.2992, + "step": 76650 + }, + { + "epoch": 204.42666666666668, + "grad_norm": 0.181640625, + "learning_rate": 0.0004873695821443838, + "loss": 0.3057, + "step": 76660 + }, + { + "epoch": 204.45333333333335, + "grad_norm": 0.2431640625, + "learning_rate": 0.0004873662932960886, + "loss": 0.3144, + "step": 76670 + }, + { + "epoch": 204.48, + "grad_norm": 0.1953125, + "learning_rate": 0.0004873630040307556, + "loss": 0.3097, + "step": 76680 + }, + { + "epoch": 204.50666666666666, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004873597143483904, + "loss": 0.3067, + "step": 76690 + }, + { + "epoch": 204.53333333333333, + "grad_norm": 0.1572265625, + "learning_rate": 0.00048735642424899893, + "loss": 0.3016, + "step": 76700 + }, + { + "epoch": 204.56, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004873531337325869, + "loss": 0.2981, + "step": 76710 + }, + { + "epoch": 204.58666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.00048734984279916004, + "loss": 0.3025, + "step": 76720 + }, + { + "epoch": 204.61333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004873465514487243, + "loss": 0.2946, + "step": 76730 + }, + { + "epoch": 204.64, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004873432596812852, + "loss": 0.2948, + "step": 76740 + }, + { + "epoch": 204.66666666666666, + "grad_norm": 0.212890625, + "learning_rate": 0.00048733996749684885, + "loss": 0.3105, + "step": 76750 + }, + { + "epoch": 204.69333333333333, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004873366748954208, + "loss": 0.2898, + "step": 76760 + }, + { + "epoch": 204.72, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004873333818770068, + "loss": 0.3057, + "step": 76770 + }, + { + "epoch": 204.74666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004873300884416128, + "loss": 0.3064, + "step": 76780 + }, + { + "epoch": 204.77333333333334, + "grad_norm": 0.2109375, + "learning_rate": 0.0004873267945892445, + "loss": 0.3179, + "step": 76790 + }, + { + "epoch": 204.8, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004873235003199077, + "loss": 0.3048, + "step": 76800 + }, + { + "epoch": 204.82666666666665, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048732020563360825, + "loss": 0.2941, + "step": 76810 + }, + { + "epoch": 204.85333333333332, + "grad_norm": 0.2060546875, + "learning_rate": 0.00048731691053035175, + "loss": 0.2984, + "step": 76820 + }, + { + "epoch": 204.88, + "grad_norm": 0.205078125, + "learning_rate": 0.0004873136150101443, + "loss": 0.2972, + "step": 76830 + }, + { + "epoch": 204.90666666666667, + "grad_norm": 0.203125, + "learning_rate": 0.0004873103190729914, + "loss": 0.299, + "step": 76840 + }, + { + "epoch": 204.93333333333334, + "grad_norm": 0.17578125, + "learning_rate": 0.00048730702271889895, + "loss": 0.2995, + "step": 76850 + }, + { + "epoch": 204.96, + "grad_norm": 0.20703125, + "learning_rate": 0.0004873037259478727, + "loss": 0.2998, + "step": 76860 + }, + { + "epoch": 204.98666666666668, + "grad_norm": 0.2265625, + "learning_rate": 0.00048730042875991855, + "loss": 0.3107, + "step": 76870 + }, + { + "epoch": 205.0, + "eval_loss": 0.39733168482780457, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.394, + "eval_samples_per_second": 1.404, + "eval_steps_per_second": 0.088, + "step": 76875 + }, + { + "epoch": 205.01333333333332, + "grad_norm": 0.224609375, + "learning_rate": 0.00048729713115504216, + "loss": 0.3017, + "step": 76880 + }, + { + "epoch": 205.04, + "grad_norm": 0.2080078125, + "learning_rate": 0.0004872938331332495, + "loss": 0.3278, + "step": 76890 + }, + { + "epoch": 205.06666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.00048729053469454616, + "loss": 0.3132, + "step": 76900 + }, + { + "epoch": 205.09333333333333, + "grad_norm": 0.185546875, + "learning_rate": 0.0004872872358389381, + "loss": 0.3088, + "step": 76910 + }, + { + "epoch": 205.12, + "grad_norm": 0.1806640625, + "learning_rate": 0.00048728393656643094, + "loss": 0.3062, + "step": 76920 + }, + { + "epoch": 205.14666666666668, + "grad_norm": 0.1806640625, + "learning_rate": 0.00048728063687703064, + "loss": 0.3068, + "step": 76930 + }, + { + "epoch": 205.17333333333335, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048727733677074296, + "loss": 0.3071, + "step": 76940 + }, + { + "epoch": 205.2, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004872740362475737, + "loss": 0.3006, + "step": 76950 + }, + { + "epoch": 205.22666666666666, + "grad_norm": 0.2109375, + "learning_rate": 0.0004872707353075285, + "loss": 0.2943, + "step": 76960 + }, + { + "epoch": 205.25333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.00048726743395061345, + "loss": 0.2942, + "step": 76970 + }, + { + "epoch": 205.28, + "grad_norm": 0.234375, + "learning_rate": 0.00048726413217683415, + "loss": 0.312, + "step": 76980 + }, + { + "epoch": 205.30666666666667, + "grad_norm": 0.2421875, + "learning_rate": 0.0004872608299861964, + "loss": 0.2945, + "step": 76990 + }, + { + "epoch": 205.33333333333334, + "grad_norm": 0.201171875, + "learning_rate": 0.0004872575273787061, + "loss": 0.3085, + "step": 77000 + }, + { + "epoch": 205.36, + "grad_norm": 0.1787109375, + "learning_rate": 0.00048725422435436897, + "loss": 0.299, + "step": 77010 + }, + { + "epoch": 205.38666666666666, + "grad_norm": 0.2060546875, + "learning_rate": 0.0004872509209131909, + "loss": 0.2971, + "step": 77020 + }, + { + "epoch": 205.41333333333333, + "grad_norm": 0.1767578125, + "learning_rate": 0.0004872476170551776, + "loss": 0.3027, + "step": 77030 + }, + { + "epoch": 205.44, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048724431278033485, + "loss": 0.3101, + "step": 77040 + }, + { + "epoch": 205.46666666666667, + "grad_norm": 0.212890625, + "learning_rate": 0.00048724100808866853, + "loss": 0.314, + "step": 77050 + }, + { + "epoch": 205.49333333333334, + "grad_norm": 0.220703125, + "learning_rate": 0.00048723770298018455, + "loss": 0.3042, + "step": 77060 + }, + { + "epoch": 205.52, + "grad_norm": 0.2265625, + "learning_rate": 0.0004872343974548885, + "loss": 0.3075, + "step": 77070 + }, + { + "epoch": 205.54666666666665, + "grad_norm": 0.296875, + "learning_rate": 0.0004872310915127863, + "loss": 0.2981, + "step": 77080 + }, + { + "epoch": 205.57333333333332, + "grad_norm": 0.177734375, + "learning_rate": 0.00048722778515388377, + "loss": 0.3016, + "step": 77090 + }, + { + "epoch": 205.6, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048722447837818675, + "loss": 0.2989, + "step": 77100 + }, + { + "epoch": 205.62666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004872211711857009, + "loss": 0.2932, + "step": 77110 + }, + { + "epoch": 205.65333333333334, + "grad_norm": 0.2734375, + "learning_rate": 0.0004872178635764322, + "loss": 0.3058, + "step": 77120 + }, + { + "epoch": 205.68, + "grad_norm": 0.2373046875, + "learning_rate": 0.0004872145555503864, + "loss": 0.2947, + "step": 77130 + }, + { + "epoch": 205.70666666666668, + "grad_norm": 0.2265625, + "learning_rate": 0.0004872112471075692, + "loss": 0.2958, + "step": 77140 + }, + { + "epoch": 205.73333333333332, + "grad_norm": 0.2138671875, + "learning_rate": 0.0004872079382479866, + "loss": 0.3102, + "step": 77150 + }, + { + "epoch": 205.76, + "grad_norm": 0.19140625, + "learning_rate": 0.0004872046289716442, + "loss": 0.3119, + "step": 77160 + }, + { + "epoch": 205.78666666666666, + "grad_norm": 0.1953125, + "learning_rate": 0.00048720131927854803, + "loss": 0.3134, + "step": 77170 + }, + { + "epoch": 205.81333333333333, + "grad_norm": 0.21484375, + "learning_rate": 0.0004871980091687039, + "loss": 0.2962, + "step": 77180 + }, + { + "epoch": 205.84, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004871946986421174, + "loss": 0.2957, + "step": 77190 + }, + { + "epoch": 205.86666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.00048719138769879455, + "loss": 0.2974, + "step": 77200 + }, + { + "epoch": 205.89333333333335, + "grad_norm": 0.22265625, + "learning_rate": 0.0004871880763387411, + "loss": 0.298, + "step": 77210 + }, + { + "epoch": 205.92, + "grad_norm": 0.259765625, + "learning_rate": 0.00048718476456196294, + "loss": 0.2989, + "step": 77220 + }, + { + "epoch": 205.94666666666666, + "grad_norm": 0.25, + "learning_rate": 0.00048718145236846565, + "loss": 0.3001, + "step": 77230 + }, + { + "epoch": 205.97333333333333, + "grad_norm": 0.201171875, + "learning_rate": 0.00048717813975825543, + "loss": 0.3074, + "step": 77240 + }, + { + "epoch": 206.0, + "grad_norm": 0.18359375, + "learning_rate": 0.00048717482673133773, + "loss": 0.2963, + "step": 77250 + }, + { + "epoch": 206.0, + "eval_loss": 0.3985230326652527, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 12.113, + "eval_samples_per_second": 1.321, + "eval_steps_per_second": 0.083, + "step": 77250 + }, + { + "epoch": 206.02666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004871715132877186, + "loss": 0.3186, + "step": 77260 + }, + { + "epoch": 206.05333333333334, + "grad_norm": 0.1884765625, + "learning_rate": 0.00048716819942740374, + "loss": 0.325, + "step": 77270 + }, + { + "epoch": 206.08, + "grad_norm": 0.2353515625, + "learning_rate": 0.0004871648851503991, + "loss": 0.309, + "step": 77280 + }, + { + "epoch": 206.10666666666665, + "grad_norm": 0.19140625, + "learning_rate": 0.0004871615704567104, + "loss": 0.3109, + "step": 77290 + }, + { + "epoch": 206.13333333333333, + "grad_norm": 0.1953125, + "learning_rate": 0.0004871582553463434, + "loss": 0.3019, + "step": 77300 + }, + { + "epoch": 206.16, + "grad_norm": 0.2255859375, + "learning_rate": 0.00048715493981930414, + "loss": 0.3094, + "step": 77310 + }, + { + "epoch": 206.18666666666667, + "grad_norm": 0.1845703125, + "learning_rate": 0.00048715162387559833, + "loss": 0.3047, + "step": 77320 + }, + { + "epoch": 206.21333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048714830751523167, + "loss": 0.2932, + "step": 77330 + }, + { + "epoch": 206.24, + "grad_norm": 0.1845703125, + "learning_rate": 0.0004871449907382102, + "loss": 0.2969, + "step": 77340 + }, + { + "epoch": 206.26666666666668, + "grad_norm": 0.19140625, + "learning_rate": 0.0004871416735445396, + "loss": 0.3024, + "step": 77350 + }, + { + "epoch": 206.29333333333332, + "grad_norm": 0.23828125, + "learning_rate": 0.00048713835593422575, + "loss": 0.2988, + "step": 77360 + }, + { + "epoch": 206.32, + "grad_norm": 0.1826171875, + "learning_rate": 0.00048713503790727446, + "loss": 0.3062, + "step": 77370 + }, + { + "epoch": 206.34666666666666, + "grad_norm": 0.205078125, + "learning_rate": 0.0004871317194636916, + "loss": 0.3044, + "step": 77380 + }, + { + "epoch": 206.37333333333333, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004871284006034831, + "loss": 0.2975, + "step": 77390 + }, + { + "epoch": 206.4, + "grad_norm": 0.197265625, + "learning_rate": 0.00048712508132665443, + "loss": 0.2987, + "step": 77400 + }, + { + "epoch": 206.42666666666668, + "grad_norm": 0.1591796875, + "learning_rate": 0.0004871217616332119, + "loss": 0.3062, + "step": 77410 + }, + { + "epoch": 206.45333333333335, + "grad_norm": 0.2119140625, + "learning_rate": 0.00048711844152316095, + "loss": 0.314, + "step": 77420 + }, + { + "epoch": 206.48, + "grad_norm": 0.2431640625, + "learning_rate": 0.00048711512099650756, + "loss": 0.3099, + "step": 77430 + }, + { + "epoch": 206.50666666666666, + "grad_norm": 0.2236328125, + "learning_rate": 0.0004871118000532576, + "loss": 0.3068, + "step": 77440 + }, + { + "epoch": 206.53333333333333, + "grad_norm": 0.19921875, + "learning_rate": 0.0004871084786934169, + "loss": 0.3012, + "step": 77450 + }, + { + "epoch": 206.56, + "grad_norm": 0.197265625, + "learning_rate": 0.00048710515691699133, + "loss": 0.2981, + "step": 77460 + }, + { + "epoch": 206.58666666666667, + "grad_norm": 0.251953125, + "learning_rate": 0.0004871018347239866, + "loss": 0.3021, + "step": 77470 + }, + { + "epoch": 206.61333333333334, + "grad_norm": 0.1728515625, + "learning_rate": 0.0004870985121144086, + "loss": 0.2945, + "step": 77480 + }, + { + "epoch": 206.64, + "grad_norm": 0.171875, + "learning_rate": 0.00048709518908826317, + "loss": 0.2943, + "step": 77490 + }, + { + "epoch": 206.66666666666666, + "grad_norm": 0.181640625, + "learning_rate": 0.0004870918656455562, + "loss": 0.3112, + "step": 77500 + }, + { + "epoch": 206.69333333333333, + "grad_norm": 0.177734375, + "learning_rate": 0.00048708854178629345, + "loss": 0.2897, + "step": 77510 + }, + { + "epoch": 206.72, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004870852175104809, + "loss": 0.3056, + "step": 77520 + }, + { + "epoch": 206.74666666666667, + "grad_norm": 0.1787109375, + "learning_rate": 0.0004870818928181241, + "loss": 0.3069, + "step": 77530 + }, + { + "epoch": 206.77333333333334, + "grad_norm": 0.208984375, + "learning_rate": 0.0004870785677092292, + "loss": 0.3183, + "step": 77540 + }, + { + "epoch": 206.8, + "grad_norm": 0.189453125, + "learning_rate": 0.00048707524218380194, + "loss": 0.3047, + "step": 77550 + }, + { + "epoch": 206.82666666666665, + "grad_norm": 0.412109375, + "learning_rate": 0.0004870719162418481, + "loss": 0.2941, + "step": 77560 + }, + { + "epoch": 206.85333333333332, + "grad_norm": 0.3046875, + "learning_rate": 0.00048706858988337354, + "loss": 0.2977, + "step": 77570 + }, + { + "epoch": 206.88, + "grad_norm": 0.1904296875, + "learning_rate": 0.00048706526310838416, + "loss": 0.2969, + "step": 77580 + }, + { + "epoch": 206.90666666666667, + "grad_norm": 0.208984375, + "learning_rate": 0.0004870619359168859, + "loss": 0.2988, + "step": 77590 + }, + { + "epoch": 206.93333333333334, + "grad_norm": 0.2041015625, + "learning_rate": 0.0004870586083088843, + "loss": 0.2995, + "step": 77600 + }, + { + "epoch": 206.96, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004870552802843855, + "loss": 0.2993, + "step": 77610 + }, + { + "epoch": 206.98666666666668, + "grad_norm": 0.1982421875, + "learning_rate": 0.00048705195184339513, + "loss": 0.3104, + "step": 77620 + }, + { + "epoch": 207.0, + "eval_loss": 0.3973553776741028, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 172.8842, + "eval_samples_per_second": 0.093, + "eval_steps_per_second": 0.006, + "step": 77625 + }, + { + "epoch": 207.01333333333332, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004870486229859192, + "loss": 0.3015, + "step": 77630 + }, + { + "epoch": 207.04, + "grad_norm": 0.1865234375, + "learning_rate": 0.0004870452937119636, + "loss": 0.3284, + "step": 77640 + }, + { + "epoch": 207.06666666666666, + "grad_norm": 0.22265625, + "learning_rate": 0.000487041964021534, + "loss": 0.3131, + "step": 77650 + }, + { + "epoch": 207.09333333333333, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004870386339146363, + "loss": 0.3088, + "step": 77660 + }, + { + "epoch": 207.12, + "grad_norm": 0.1962890625, + "learning_rate": 0.00048703530339127643, + "loss": 0.306, + "step": 77670 + }, + { + "epoch": 207.14666666666668, + "grad_norm": 0.2392578125, + "learning_rate": 0.00048703197245146014, + "loss": 0.3061, + "step": 77680 + }, + { + "epoch": 207.17333333333335, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004870286410951934, + "loss": 0.3068, + "step": 77690 + }, + { + "epoch": 207.2, + "grad_norm": 0.1953125, + "learning_rate": 0.00048702530932248194, + "loss": 0.2998, + "step": 77700 + }, + { + "epoch": 207.22666666666666, + "grad_norm": 0.220703125, + "learning_rate": 0.00048702197713333174, + "loss": 0.2946, + "step": 77710 + }, + { + "epoch": 207.25333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.0004870186445277486, + "loss": 0.2946, + "step": 77720 + }, + { + "epoch": 207.28, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004870153115057383, + "loss": 0.3115, + "step": 77730 + }, + { + "epoch": 207.30666666666667, + "grad_norm": 0.1708984375, + "learning_rate": 0.0004870119780673068, + "loss": 0.2942, + "step": 77740 + }, + { + "epoch": 207.33333333333334, + "grad_norm": 0.1787109375, + "learning_rate": 0.00048700864421245984, + "loss": 0.3086, + "step": 77750 + }, + { + "epoch": 207.36, + "grad_norm": 0.1962890625, + "learning_rate": 0.0004870053099412034, + "loss": 0.2993, + "step": 77760 + }, + { + "epoch": 207.38666666666666, + "grad_norm": 0.2294921875, + "learning_rate": 0.0004870019752535433, + "loss": 0.2971, + "step": 77770 + }, + { + "epoch": 207.41333333333333, + "grad_norm": 0.25, + "learning_rate": 0.00048699864014948544, + "loss": 0.3024, + "step": 77780 + }, + { + "epoch": 207.44, + "grad_norm": 0.2265625, + "learning_rate": 0.00048699530462903553, + "loss": 0.3102, + "step": 77790 + }, + { + "epoch": 207.46666666666667, + "grad_norm": 0.1865234375, + "learning_rate": 0.00048699196869219963, + "loss": 0.3148, + "step": 77800 + }, + { + "epoch": 207.49333333333334, + "grad_norm": 0.2021484375, + "learning_rate": 0.0004869886323389834, + "loss": 0.3039, + "step": 77810 + }, + { + "epoch": 207.52, + "grad_norm": 0.181640625, + "learning_rate": 0.00048698529556939285, + "loss": 0.308, + "step": 77820 + }, + { + "epoch": 207.54666666666665, + "grad_norm": 0.224609375, + "learning_rate": 0.00048698195838343386, + "loss": 0.2979, + "step": 77830 + }, + { + "epoch": 207.57333333333332, + "grad_norm": 0.1982421875, + "learning_rate": 0.0004869786207811121, + "loss": 0.3013, + "step": 77840 + }, + { + "epoch": 207.6, + "grad_norm": 0.2080078125, + "learning_rate": 0.00048697528276243364, + "loss": 0.2977, + "step": 77850 + }, + { + "epoch": 207.62666666666667, + "grad_norm": 0.177734375, + "learning_rate": 0.0004869719443274043, + "loss": 0.2937, + "step": 77860 + }, + { + "epoch": 207.65333333333334, + "grad_norm": 0.1865234375, + "learning_rate": 0.00048696860547602983, + "loss": 0.3061, + "step": 77870 + }, + { + "epoch": 207.68, + "grad_norm": 0.1748046875, + "learning_rate": 0.00048696526620831625, + "loss": 0.2947, + "step": 77880 + }, + { + "epoch": 207.70666666666668, + "grad_norm": 0.220703125, + "learning_rate": 0.0004869619265242693, + "loss": 0.2951, + "step": 77890 + }, + { + "epoch": 207.73333333333332, + "grad_norm": 0.203125, + "learning_rate": 0.00048695858642389497, + "loss": 0.3106, + "step": 77900 + }, + { + "epoch": 207.76, + "grad_norm": 0.2099609375, + "learning_rate": 0.00048695524590719897, + "loss": 0.3115, + "step": 77910 + }, + { + "epoch": 207.78666666666666, + "grad_norm": 0.1865234375, + "learning_rate": 0.00048695190497418734, + "loss": 0.3126, + "step": 77920 + }, + { + "epoch": 207.81333333333333, + "grad_norm": 0.21875, + "learning_rate": 0.0004869485636248658, + "loss": 0.2958, + "step": 77930 + }, + { + "epoch": 207.84, + "grad_norm": 0.224609375, + "learning_rate": 0.0004869452218592404, + "loss": 0.2957, + "step": 77940 + }, + { + "epoch": 207.86666666666667, + "grad_norm": 0.2109375, + "learning_rate": 0.00048694187967731684, + "loss": 0.2979, + "step": 77950 + }, + { + "epoch": 207.89333333333335, + "grad_norm": 0.1796875, + "learning_rate": 0.000486938537079101, + "loss": 0.2969, + "step": 77960 + }, + { + "epoch": 207.92, + "grad_norm": 0.2265625, + "learning_rate": 0.00048693519406459884, + "loss": 0.2981, + "step": 77970 + }, + { + "epoch": 207.94666666666666, + "grad_norm": 0.19921875, + "learning_rate": 0.0004869318506338163, + "loss": 0.3009, + "step": 77980 + }, + { + "epoch": 207.97333333333333, + "grad_norm": 0.263671875, + "learning_rate": 0.00048692850678675907, + "loss": 0.3078, + "step": 77990 + }, + { + "epoch": 208.0, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004869251625234331, + "loss": 0.2967, + "step": 78000 + }, + { + "epoch": 208.0, + "eval_loss": 0.39741426706314087, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 11.0394, + "eval_samples_per_second": 1.449, + "eval_steps_per_second": 0.091, + "step": 78000 + }, + { + "epoch": 208.02666666666667, + "grad_norm": 0.18359375, + "learning_rate": 0.00048692181784384427, + "loss": 0.3184, + "step": 78010 + }, + { + "epoch": 208.05333333333334, + "grad_norm": 0.1806640625, + "learning_rate": 0.0004869184727479985, + "loss": 0.3251, + "step": 78020 + }, + { + "epoch": 208.08, + "grad_norm": 0.212890625, + "learning_rate": 0.0004869151272359016, + "loss": 0.3085, + "step": 78030 + }, + { + "epoch": 208.10666666666665, + "grad_norm": 0.1796875, + "learning_rate": 0.0004869117813075595, + "loss": 0.3109, + "step": 78040 + }, + { + "epoch": 208.13333333333333, + "grad_norm": 0.19140625, + "learning_rate": 0.000486908434962978, + "loss": 0.3019, + "step": 78050 + }, + { + "epoch": 208.16, + "grad_norm": 0.197265625, + "learning_rate": 0.00048690508820216306, + "loss": 0.3092, + "step": 78060 + }, + { + "epoch": 208.18666666666667, + "grad_norm": 0.16796875, + "learning_rate": 0.0004869017410251206, + "loss": 0.3047, + "step": 78070 + }, + { + "epoch": 208.21333333333334, + "grad_norm": 0.1845703125, + "learning_rate": 0.00048689839343185636, + "loss": 0.2932, + "step": 78080 + }, + { + "epoch": 208.24, + "grad_norm": 0.2001953125, + "learning_rate": 0.0004868950454223763, + "loss": 0.2973, + "step": 78090 + }, + { + "epoch": 208.26666666666668, + "grad_norm": 0.2099609375, + "learning_rate": 0.0004868916969966863, + "loss": 0.3029, + "step": 78100 + }, + { + "epoch": 208.29333333333332, + "grad_norm": 0.169921875, + "learning_rate": 0.0004868883481547923, + "loss": 0.2992, + "step": 78110 + }, + { + "epoch": 208.32, + "grad_norm": 0.177734375, + "learning_rate": 0.00048688499889670015, + "loss": 0.3057, + "step": 78120 + }, + { + "epoch": 208.34666666666666, + "grad_norm": 0.216796875, + "learning_rate": 0.0004868816492224156, + "loss": 0.3047, + "step": 78130 + }, + { + "epoch": 208.37333333333333, + "grad_norm": 0.1748046875, + "learning_rate": 0.0004868782991319447, + "loss": 0.2969, + "step": 78140 + }, + { + "epoch": 208.4, + "grad_norm": 0.1962890625, + "learning_rate": 0.00048687494862529327, + "loss": 0.2981, + "step": 78150 + }, + { + "epoch": 208.42666666666668, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048687159770246727, + "loss": 0.3055, + "step": 78160 + }, + { + "epoch": 208.45333333333335, + "grad_norm": 0.271484375, + "learning_rate": 0.0004868682463634724, + "loss": 0.3147, + "step": 78170 + }, + { + "epoch": 208.48, + "grad_norm": 0.2216796875, + "learning_rate": 0.0004868648946083147, + "loss": 0.3098, + "step": 78180 + }, + { + "epoch": 208.50666666666666, + "grad_norm": 0.2158203125, + "learning_rate": 0.0004868615424370001, + "loss": 0.3062, + "step": 78190 + }, + { + "epoch": 208.53333333333333, + "grad_norm": 0.1923828125, + "learning_rate": 0.00048685818984953443, + "loss": 0.3013, + "step": 78200 + }, + { + "epoch": 208.56, + "grad_norm": 0.2265625, + "learning_rate": 0.00048685483684592356, + "loss": 0.2982, + "step": 78210 + }, + { + "epoch": 208.58666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.00048685148342617334, + "loss": 0.3023, + "step": 78220 + }, + { + "epoch": 208.61333333333334, + "grad_norm": 0.1875, + "learning_rate": 0.0004868481295902898, + "loss": 0.2941, + "step": 78230 + }, + { + "epoch": 208.64, + "grad_norm": 0.2060546875, + "learning_rate": 0.00048684477533827866, + "loss": 0.2952, + "step": 78240 + }, + { + "epoch": 208.66666666666666, + "grad_norm": 0.193359375, + "learning_rate": 0.0004868414206701459, + "loss": 0.3104, + "step": 78250 + }, + { + "epoch": 208.69333333333333, + "grad_norm": 0.2265625, + "learning_rate": 0.0004868380655858975, + "loss": 0.2902, + "step": 78260 + }, + { + "epoch": 208.72, + "grad_norm": 0.19921875, + "learning_rate": 0.0004868347100855392, + "loss": 0.305, + "step": 78270 + }, + { + "epoch": 208.74666666666667, + "grad_norm": 0.2060546875, + "learning_rate": 0.000486831354169077, + "loss": 0.3066, + "step": 78280 + }, + { + "epoch": 208.77333333333334, + "grad_norm": 0.1962890625, + "learning_rate": 0.00048682799783651676, + "loss": 0.3174, + "step": 78290 + }, + { + "epoch": 208.8, + "grad_norm": 0.2353515625, + "learning_rate": 0.00048682464108786434, + "loss": 0.3049, + "step": 78300 + }, + { + "epoch": 208.82666666666665, + "grad_norm": 0.201171875, + "learning_rate": 0.00048682128392312575, + "loss": 0.294, + "step": 78310 + }, + { + "epoch": 208.85333333333332, + "grad_norm": 0.1669921875, + "learning_rate": 0.0004868179263423067, + "loss": 0.2972, + "step": 78320 + }, + { + "epoch": 208.88, + "grad_norm": 0.18359375, + "learning_rate": 0.0004868145683454133, + "loss": 0.2972, + "step": 78330 + }, + { + "epoch": 208.90666666666667, + "grad_norm": 0.224609375, + "learning_rate": 0.00048681120993245133, + "loss": 0.2989, + "step": 78340 + }, + { + "epoch": 208.93333333333334, + "grad_norm": 0.1904296875, + "learning_rate": 0.0004868078511034267, + "loss": 0.2993, + "step": 78350 + }, + { + "epoch": 208.96, + "grad_norm": 0.19140625, + "learning_rate": 0.0004868044918583453, + "loss": 0.2984, + "step": 78360 + }, + { + "epoch": 208.98666666666668, + "grad_norm": 0.197265625, + "learning_rate": 0.0004868011321972131, + "loss": 0.3106, + "step": 78370 + }, + { + "epoch": 209.0, + "eval_loss": 0.39941051602363586, + "eval_model_preparation_time": 0.0029, + "eval_runtime": 10.578, + "eval_samples_per_second": 1.513, + "eval_steps_per_second": 0.095, + "step": 78375 + } + ], + "logging_steps": 10, + "max_steps": 750000, + "num_input_tokens_seen": 0, + "num_train_epochs": 2000, + "save_steps": 500, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": false + }, + "attributes": {} + } + }, + "total_flos": 0.0, + "train_batch_size": 64, + "trial_name": null, + "trial_params": null +}